CeVIO AIささらさんの波形を見てみる

www.dtmstation.com

 

f:id:qpci32siekqd:20201121081513j:plain

縦の部分はノイズ。編集ですぐ消せるレベル。

 

 

f:id:qpci32siekqd:20201121081753j:plain

長音で基底の音が消えてしまっているので、ふにゃっという感じになってる。

 

開発中ということもあるだろうが、NEUTRINOほど声質が安定していない印象を受ける。AIきりたんだと声質は安定していた。

VocalShifterで修正できるミスならいいのだが、修正しにくいのではないだろうか。

倍音が消えたり、倍音が強調される周波数帯もまちまちでダイナミクスEQでの調整も難しそう。

 

ブレスが自動で入るが、単語の間で入っていてノイズに聞こえる。

 

個人的にSynthesizer V AIの方が完成度が高いように感じる。

CeVIO AI 結月ゆかり 麗の波形を見てみる

vocalomakets.com

 

f:id:qpci32siekqd:20201120225727j:plain

 

まだ開発段階からか、もしくはプラグインをかけているからかわからないが、スペクトラムを見てる限り、それほど凄い感じがしない。

人っぽさをわざと消してるのかわからないが、ボカロの延長らしいといえばそうだが。

 

 デモでの一番高い音が、今までは難しかったのが出るようになっているようだ。

 

 

ボイロをMelodyneで調整するのは面倒くさい

f:id:qpci32siekqd:20201118224412j:plain

 

Melodyneはピッチ調整するためのソフトで、主にボーカルに使われる。

そのためボイロでの調整は本来の使い方とは異なる。

 

ボイロのUIが自由度が少ないため、もう少し調整したいと思ったときに対応できない。

Melodyneを使ったら、調整が楽になるかと思ったのだが、結論から言うと、手間がかかるわりにクオリティが上がらない。

 

歌の場合は楽譜という正解があり、それを目安に、どれくらい正確に合わせるか、外すかを考えればよい。

 

だがボイロの場合は正解がない。少しだけピッチが外れているときは調整できるが、大幅に変更したい場合は、ボイロから再度吐き出すという作業が必要になってくる。

その手間を考えるとボイロ側のUIで頑張るかなとなる。

 

長音も伸ばすとサンプル数がスカスカになるのだろうか、あまり伸ばせない。

長音を2連続で発音させたとき、間が気になるわけだが、メロダインでの調整はあまり向かないように感じた。どちらかというとiZotopeのRXを使ってパタンで置き換えてしまった方が編集しやすいのではないだろうか。

 

「可不(KAFU)」のA,B,Cタイプは何が違っていたのか


音楽的同位体「可不(KAFU)」ボイスアンケート

 

Aタイプ

f:id:qpci32siekqd:20201115012618j:plain

 

Bタイプ

f:id:qpci32siekqd:20201115012653j:plain

 

Cタイプ

f:id:qpci32siekqd:20201115012717j:plain

 

まず、わかりやすいCタイプは、オートチューンでケロケロボイスになっていて、他の合成音声と変わらない気がするので、個人的興味がない。

 

Aタイプは人間っぽく、Bタイプは幼いように聞こえる。

基底の音の高さは同じ、スペクトラムを見ていても、ほぼ同じように見えるが、聞くと異なる。なぜか。

 

青の波形の音の大きさの変化は一緒に見える。

 

エフェクトかけた声と混ぜる量を変えているだけでは?

と言われればそう聞こえる。

 

AとBを交互に開いてみると下からいくつかの倍音は変化はなく、倍音以外の所が変わっているのがわかる。

歌声合成ソフト Synthesizer V Saki AIの波形を見る


Synthesizer V Saki AI Cover Compilation

 

Synthesize V AIのデモ動画が新しく出ました。
一般のニュースサイトだとNEUTRINOを使ったAIきりたんが、人間らしく歌うと話題になりましたが、個人的にはSynthesizer V AIは超えていると感じました。

 

f:id:qpci32siekqd:20201114070658j:plain

上の図がAIきりたんの音声の波形です。

まずスペクトラムを見ると高いところまで倍音が出ています。

合成音声としては初音ミクが有名ですが、低い周波数の3つか4つ程度までしか出ていなかったのに対しては、かなりの進化でした。

とはいうものの、人の歌声と比べると違っていて、波形だけ見ると楽器に近い部分があります。

歌い始めからドンピシャで音が出ていたり、伸ばした音の震えがなかったりします。

音の高さである周波数は楽譜そのままで、入り方などを音量の遷移は機械学習で学習したといった感じです。

VocalShifterのダイナミクスの調整を上手くソフトがやってくれる、といえばいいでしょうか。

 

 

f:id:qpci32siekqd:20201114074354j:plain

Synthesizer V AIだと歌い始めのスペクトルが倍音が基本しかなかったり形が崩れていたりします。

ボカロだとVocalShifterで人のピッチ遷移を真似ても何故か違和感があるのは、チャープ信号になっているからだと思っているのですが、上のように波形を崩したところから狙った周波数で綺麗に整えるのでチャープ音にならないのではないだろうか。

 

 

 

 

 

 

 

 

Adobe Animateでボイスロイド立ち絵を動かせるか試した

f:id:qpci32siekqd:20201114063429j:plain

AviUtlは別として、Davinci ResolveやVegas Proも、2D画像を動かすのに適していません。Adobe Premireでは足りずに、Effectを使った方がいいといったのと同じです。

 

今だとVtuberが流行っているので2Dを動かすとなると、Live2Dという選択肢がすぐに浮かびますが、真正面を向いている立ち絵でないと対応しにくいというのがあります。

Adobeから Character AnimatorといったLive2Dと似たような、カメラでモーションキャプチャしてキャラクタを動かすソフトもあるのですが、ソフトが重たく操作性が悪かったり、あまり出来ることが少なかったりします。

 

色々と調べていると、旧Flashから名前を変えたAdobe Animateに当たりました。

元々2Dを動かしてアニメーションを作っていたのだから向いてるのでは?と思った次第です。

 

ひとまず試してみたのですが、まずPSDファイルに多くのレイヤーが含まれていると読み込みができませんでした。

もう一つ困るのが、ボイロの立ち絵のように、レイヤーを切り替えて動かすといったことを想定していないようです。

できなくはないですが、少ないレイヤー数をずっと表示したまま、キーフレームで変形させて動きをつけるのがソフトの想定のようです。

 

 

 

VegasPro18でボイスロイド動画編集:画面の一部を拡大したいとき

f:id:qpci32siekqd:20201106235113j:plain

ボイスロイド劇場を作るときには、立ち絵を拡大したいときがある。

1つのトラックや、イベントに対して拡大するのは、すぐに思いつくが、立ち絵と背景を一緒に拡大する場合、マスターに対して挿入する必要ががある。

 

動画だけであればトラックのみにズームすればいいので、やはりその辺りで迷うことがある。

 

色々エフェクトがあって見つけるのが大変だが、ズームする時はスマートズームと言うのを使えば目的の動きが出来るかと思う。

 

カットアウトで十字の場所で、画面上のどこを拡大するかを決める。

1度目は十字の場所でいいが、キャラを何回も切り替える場合、微妙にずれているときになる。その時は座標を直接入力する

 

時間軸は下のキーフレームの場所で決めるが、キーフレーム上にカーソルを置いてもプレビューが切り替わらないのが地味に不便だ。

 

f:id:qpci32siekqd:20201107072538j:plain

そういうときはトラック上からポイントを追加することができる。

 

f:id:qpci32siekqd:20201107073713j:plain

ポイント間の移動は、そのまだとリニアに設定されているので、ゆっくりと移動するが、話すキャラごとに切り替えたい場合、パッと一瞬で切り替わって欲しい。

 

その時は前のポイントをホールドに設定すれば、指定したポイントにパッと一瞬で切り替えることができる。

 

ただ正直1つずつ設定するのがメンドクサイ。

多くの場合、話すキャラの切り替わりのタイミングだ。

 

f:id:qpci32siekqd:20201107074517j:plain

表示→ウィンドウ→編集の詳細から、音声波形の開始位置はわかるが、残念ながらこちらの画面にキーフレームを入れた時間が表示されない。

字幕のように、コピペで開始位置を揃えるといったことができない。

何かいい方法があればいいが。