音声合成での思いついたことのメモ

学習に使う話者の音声データと、日本語のイントネーション学習に使うデータの分離

音声合成で問題なのは学習データをどうするかというのがある。

数時間分の声を録音するとして、話者の疲労度によって変わったり、日をまたいだ収録でのデータが異なるなどといったことから、学習データが足りない場合がある。

訛りという問題だったり、発声の癖という点を考慮すると、1人からデータを取るのが望ましいが、使う側が出したいイントネーションが色々あることから、イントネーションに関しては複数人のデータから取った方がいいのではないか。

 

1音素ではなく、音素間の遷移や、1音素を複数分離する方法も取ったほうがいいのでは

既存の音声合成ソフトでは音素ごとに音の高さを変更するようなUIになっている。

音素内での音の高さが変わるといった現象に対応できていない。

しかし遷移の種類は数種類に分類出来ると思われるので、ユーザーが数種類の中から選べるようにすればいいのではないか。

発生するときは口を閉じた状態から開くといった非線形の状態があり、それを再現する

 

長音の場合、1音素の長さを単純に伸ばすようにすると、高さが変わったり、震えがあるなど、再現できていない。

 

ボコーダの音の予測に位相を使った方がいいのでは

ボコーダーで前後関係のみから次の音を予想しているが、実際の音は位相がある。

今のボコーダーで吐き出した音を見ると位相がおかしい。

耳で聞く分には関係ないかもしれないが機械学習で意図せずノイズが出てくるのを抑制するのにはいいのでは。