合成音声向けのラベリングについての思いつき

合成音声のためにラベリングは骨が折れるので、音声認識システムを補助として使うというのは考えられる。

しかしこのラベリングが最終的に学習のノイズとなっていないか。

/aと/oといった母音は単語を知っている人からすると認識出来るが、音として曖昧さ、分散が大きくないか。

あ、い、う、え、お、に分類するのが当たり前の前提となってしまっているが、音だけの場合は、もっと分類数が多いのではないだろうか。

あ1、あ2、あ3といった分類数を多くした方が、合成音声を考えた場合にはいいのではないかという仮説である。

例えば、あ3とえ1が似ており距離的に近いかもしれないが計算機的に分類できるのであればよい。

文字と音声の対応付けが後段の処理で必要になってくるが、それも文字の前後から推測できるのであれば、機械に任せてしまった方がよい。

加えて音の高さがある。

ピッチの高低は単純に周波数の変換と認識されているが、いざ音声に対してピッチを変更する処理を加えると違和感が多い。

何がそれを感じさせているのか調べても答えがなかったが、フォルマントのスペクトルの歪みなど、注目している周波数以外の部分に違いがあるのではないか。

ボイスチェンジャーで男性の声から女性の声にフォルマントのみ変換しても違和感があるのもそういった、注目していない部分に原因があるのではないか。