歌声合成ソフト Synthesizer V Saki AIの波形を見る

Synthesize V AIのデモ動画が新しく出ました。
一般のニュースサイトだとNEUTRINOを使ったAIきりたんが、人間らしく歌うと話題になりましたが、個人的にはSynthesizer V AIは超えていると感じました。

f:id:qpci32siekqd:20201114070658j:plain

上の図がAIきりたんの音声の波形です。

まずスペクトラムを見ると高いところまで倍音が出ています。

合成音声としては初音ミクが有名ですが、低い周波数の3つか4つ程度までしか出ていなかったのに対しては、かなりの進化でした。

とはいうものの、人の歌声と比べると違っていて、波形だけ見ると楽器に近い部分があります。

歌い始めからドンピシャで音が出ていたり、伸ばした音の震えがなかったりします。

音の高さである周波数は楽譜そのままで、入り方などを音量の遷移は機械学習で学習したといった感じです。

VocalShifterのダイナミクスの調整を上手くソフトがやってくれる、といえばいいでしょうか。

f:id:qpci32siekqd:20201114074354j:plain

Synthesizer V AIだと歌い始めのスペクトルが倍音が基本しかなかったり形が崩れていたりします。

ボカロだとVocalShifterで人のピッチ遷移を真似ても何故か違和感があるのは、チャープ信号になっているからだと思っているのですが、上のように波形を崩したところから狙った周波数で綺麗に整えるのでチャープ音にならないのではないだろうか。