ボイスロイド2では、「喜び」「怒り」「悲しみ」の3つのパラメータを調整できる。
しかし実際に感情表現をしようとしたときは、3パターンではない。
3つのパラメータを合わせて調整することもできるが、そうした場合、何を表現しているのかわからなくなる。
なぜ3パターンなのか検索をかけてみると、音声で感情認識では「喜び」「怒り」「悲しみ」を代表としているようだ。
音声合成も機械学習を用いるようになったが、計算機に入力する以上、感情というよくわからないものを数字化しないといけないができるのか?
データセットを用意する必要があるが、シチュエーションで分類した方が演技をする人としてもやりやすい気がしている。