機械学習による音声合成でボイスロイドは作れないのか

アナウンサー的な文章を読ませるのであれば、今のボイスロイドでもいいが、ボイスロイド実況のようなキャラとして読ませたい場合、より高機能なボイスロイドが欲しくなる。

音楽界隈では、NEUTRINO、Synthesizer Vといった機械学習による歌声合成ソフトが出てきている。きりたんデータベースがありMusicXMLの入力が必要となっている。音楽/言語的特徴量をsinsy、音声分析合成はWORLDといったツールもある。

マイクに向かって話者の周波数を特定のキャラの特徴量に置き換えるといった手法も出ているが、こちらは話者の演技力が必要となってしまう。
あくまで動画制作時のことを考えるとリアルタイムでなくてもよい。

まずキャラクターの喋り方といったデータセットがあるのか？

文脈から音素の長さの推定が必要となる。動画制作のことを考えると、1つの正解を出す必要はなく、数種類の異なった喋り方を提示し、動画制作者に選んでもらえばよい。

システムとしては今のボイスロイド2のように、テキストを入力し音声のパタンがいくつか提示され、それぞれにレートをつけられるようにして一番良いと思ったものを、ユーザーの助けを借りつつよりクオリティを上げるといったのでいいと思う。

スペクトグラムなど視覚的なもので、どこに違和感があって、何を調整すればいいのかフィードバックできるUIは必要だ。比較する際、どこが違っているのか、パラメータを変更したときにどう変わるのか認識できないと、ユーザーの学習へのハードルが高い。

テキストを入力し、そのまま音素にしても、表記の揺れがある。
ボイスロイド2を使用していて、読み方を全く変えて試すといったことは行われている。

Matlabを見るとAudio Labelerといったラベルを張り付け、機械学習に持っていくアプリがあるそうだ。

f:id:qpci32siekqd:20200905223636p:plain

ただ、音声コマンドを認識するために作られたもののようで、それぞれ異なるテキストを入力するといったものではなさそう。