合成音声で、セリフの間はどうするか

合成音声の学習データを作るときに、セリフがない所はカットする。

単にセリフがないのか、セリフとセリフの間なのかデータからは判断しにくい。

「・・・」といった沈黙だけ別途学習した方がいいのか。

 

ボイロ2ではポーズが多くて、会話のテンポが悪く、ユーザーがポーズを削除することになるが、入れないのがデフォルトでユーザー側で入れてもらえばいいか。