VEGASでPSDファイルは読み込めるが・・・
ボイロ動画を作るときには立ち絵を使うことがよくあります。
ただ立ち絵はAviUtilのPSD toolkitを使うことを前提とされています。
Davinci ResolveがVlogなどで使われるようになっている時代でも、ボイロ動画でAviUtilを使うのはその辺りの事情からです。
じゃあVEGASではどうかというと、結論からいうと、読み込めたがボイロでは使えない状態でした。
PSDファイルを右クリックしながらドラッグアンドドロップし、トラック全体に追加を選ぶと、PSDファイルのレイヤーごとにトラックが作成されます。
(そのままドラッグするとレイヤーを結合した状態で読み込まれます)
とりあえず読み込みはされるものの、どのトラックに何が入っているのかわからなくなります。
PSDファイルの中のレイヤー構造が反映されないことと、レイヤー名が反映されないことから、上の画像のような状態になります。
コンポジットの親子関係を使えば整理できそうな気もするのですが、トラックが200を超えたらプレビューも重たくなりました。
立ち絵の個別のパーツに対して位置やエフェクトをかけることはないので、1つのトラックにまとめるのが正解で、1つずつ画像を差し込んでいく方が良さそうに思えます。
PSD Toolkitのような拡張も少し探したところだと見つからなかったです。
VEGASでのボイスロイド動画での字幕
ボイスロイド動画では動画に字幕を入れるわけですが、AviUtilのように、音声とテキストを一緒にドラッグアンドドロップしたら入力される機能はVEGASにはなさそうです。
代わりに1つのテキストファイルから改行ごとに1つの字幕を作る機能があります。
音声からテキストファイルを同時に吐き出す機能がボイスロイド2にはあるのですが、複数のテキストファイルを一度に読み込ませるのがVEGASにはできそうにありませんでした。
なので1つのテキストファイルにまとめる必要があります。
ボイスロイド2では区切り文字「/」を入れた状態になっていると思いますので、それも置換で取り除いておきます。
テキストファイルを読み込むときですが、先に文字のプリセットを決めておいたほうがいいです。
後から1つずつ色を変えるのは大変でした。
というのも、後から1つずつプリセットを選んでいくと、プリセットにフォントや文字色以外に内容も含まれてしまっているらしく、プリセットを選ぶと既に入力されている文章がプリセットの文字列に上書きされます。
タイトルのようなプリセットを選んだ後にキーボードで入力する場合は問題ないのですが、せっかくテキストファイルで一括で入力したのに、毎回内容が消えるのは困ります。
(やってしまった場合は、内容をコピー → プリセット選択 → ペーストで編集しました)
サードパーティー製のプラグインだと一括で変換できるものはあるようです。
話は変わりますが、SRTファイルという挿入時間まで指定された、本当に映画などの字幕用のファイルフォーマットもあるようです。
ボイスロイド2では吐き出すことができないですが、VEGAS Pro18では読み込みには対応しているようで、使い道があるかもしれないですね。
VEGASでのボイスロイド立ち絵の位置調整
VEGASでボイスロイド立ち絵の位置を決めたい場合、上の所から調整すると、立ち絵を切り替えるたびに位置調整しないといけないです。
立ち絵を入れているトラックの、上の部分をクリックし、トラックモーションから、デフォルトの位置を指定してやると楽に切り替えられます。
特に立ち絵の場所を移動させずに、画像差し替えだけを行っている場合は楽ができるのではないでしょうか
ボイスロイド動画の台本を書くためのツール
Voiceroid-ScriptというWebサイトを作られている方がいらっしゃいます。
どういうことができるかというと、ボイスロイド2で音声に変換する前のテキストで、どのキャラなのかわかるように絵を入れることができます。
こんな感じです。
動画編集ソフトは、事前に音声の素材は、ほぼ揃っていることを前提としているので、先に台本を書いて、ある程度まとまった音声ファイルを一度にドラッグアンドドロップした方が便利です。
AviUtil+かんしくんを使っている場合は、指定したフォルダに音声とテキストが入ると自動でトラックに入れてくれますが、他の動画編集ソフトではそういったことに対応しているのは見かけないです。
台本ができたあと、キャラ別にテキストを抜き取ることができます。
ボイロ側でキャラを切り替えて読ませると、自分の環境では不安定になるので、キャラを切り替えずに済むのはありがたいです。
音声合成マークアップ言語 (SSML)
合成音声で話し方を変えようとすると、コンピュータ上でどのような表現がいいのか調べていると、マークアップ言語があった。
読み上げ速度、音量、音素、ピッチといったことも指定できるようだ。
ただバージョン1.1が2010年に出たあと、W3Cのグループは2015年に解散とWikipediaにはある。
足りているかというと、表現は足りていないのだと思う。
ボイスロイドを使っているユーザーはそれなりにいるわけだが、結局ノウハウの蓄積はされてこなかったし、次のソフト開発へのフィードバックもできていない(ルールベースとなるだろうが)
最終形の音声ファイルのみで共有されるので、違和感は共有できるが、どう直せばいいのかコミュニティ内でノウハウの蓄積もできなかった。
表現方法が不足しているからだと思うが、良い方法はないのだろうか
音関係の特徴量
スペクトル(spectrum)パラメータ
- メルケプストラム係数(mel-cepstral coefficients)
励振(excitation)パラメータ
- 基本周波数(F0 frequency)
その他
- ビブラート(vibrato)
- 音素(phonetic)
- 音符(note key)
- ノート長(note length)