合成音声の学習は事前学習とファインチューニングの2回に分けられないか

音声データを1人から大量に取得するのは難しい。

事前に不特定多数の音声データで事前学習しておき、目的とする人の音声データでファインチューニングできないか。

 

フォルマントといった個性を表す部分のみファインチューニングで実施する。