合成音声で、セリフの間はどうするか
合成音声の学習データを作るときに、セリフがない所はカットする。
単にセリフがないのか、セリフとセリフの間なのかデータからは判断しにくい。
「・・・」といった沈黙だけ別途学習した方がいいのか。
ボイロ2ではポーズが多くて、会話のテンポが悪く、ユーザーがポーズを削除することになるが、入れないのがデフォルトでユーザー側で入れてもらえばいいか。
合成音声の学習データを作るときに、セリフがない所はカットする。
単にセリフがないのか、セリフとセリフの間なのかデータからは判断しにくい。
「・・・」といった沈黙だけ別途学習した方がいいのか。
ボイロ2ではポーズが多くて、会話のテンポが悪く、ユーザーがポーズを削除することになるが、入れないのがデフォルトでユーザー側で入れてもらえばいいか。