音声合成マークアップ言語 (SSML)

f:id:qpci32siekqd:20200922002215j:plain

 

合成音声で話し方を変えようとすると、コンピュータ上でどのような表現がいいのか調べていると、マークアップ言語があった。

 

読み上げ速度、音量、音素、ピッチといったことも指定できるようだ。

 

ただバージョン1.1が2010年に出たあと、W3Cのグループは2015年に解散とWikipediaにはある。

 

足りているかというと、表現は足りていないのだと思う。

 

 

ボイスロイドを使っているユーザーはそれなりにいるわけだが、結局ノウハウの蓄積はされてこなかったし、次のソフト開発へのフィードバックもできていない(ルールベースとなるだろうが)

最終形の音声ファイルのみで共有されるので、違和感は共有できるが、どう直せばいいのかコミュニティ内でノウハウの蓄積もできなかった。

表現方法が不足しているからだと思うが、良い方法はないのだろうか