2021-05-01から1ヶ月間の記事一覧
www.jstage.jst.go.jp 合成音声ソフトで抑揚を変化させる機能があるが、実際どのような加工がされているのか調べてもなかなか資料がない。
合成音声のためにラベリングは骨が折れるので、音声認識システムを補助として使うというのは考えられる。 しかしこのラベリングが最終的に学習のノイズとなっていないか。 /aと/oといった母音は単語を知っている人からすると認識出来るが、音として曖昧さ、…
音声データを1人から大量に取得するのは難しい。 事前に不特定多数の音声データで事前学習しておき、目的とする人の音声データでファインチューニングできないか。 フォルマントといった個性を表す部分のみファインチューニングで実施する。
MatlabにclassfySoundを使うと、音声の分類が出来る。この分類に使用しているのはYAMNetを使用しており、512の環境音を分類する。 人の声か、環境音かを判別するにはこれでいいが、合成音声を作るのを楽にするには、これを音素ごとのラベリングに使用したい…
PSOLAといったピッチを変更するアルゴリズムがあるが、少し変更するだけで違和感が出てしまう。 合成音声の学習データをかさ増しする時にピッチを上げるデータを用意するとか、ボコーダーの後でピッチを調整するというのが考えられるが、もう少し自然になら…
Speech production and acoustic properties - Introduction to Speech Processing - Aalto University Wiki 合成音声(Text-to-Speech)だと声道モデリングの知見は使われているものの、物理モデルから音を作るということはしてない。 F0/F1/F2などフォルマン…