ピッチを変更すると違和感を感じるが、どこが悪いのか

PSOLAといったピッチを変更するアルゴリズムがあるが、少し変更するだけで違和感が出てしまう。

合成音声の学習データをかさ増しする時にピッチを上げるデータを用意するとか、ボコーダーの後でピッチを調整するというのが考えられるが、もう少し自然にならないのか。

 

https://www.ieice.org/tokyo/gakusei/activity/kenkyuu-happyoukai/happyou-ronbun/17/pdf/102.pdf

ここを見ると、楽器のような一定間隔ピッチが一定の場合は違和感がなく、ピッチが変動するような場合は違和感を感じるとある。

 

VSTプラグインでフォルマントやピッチをいじるものが多くあるが、どうように違和感がある。