音素分類を自動でやりたい

f:id:qpci32siekqd:20210502210338p:plain

MatlabにclassfySoundを使うと、音声の分類が出来る。
この分類に使用しているのはYAMNetを使用しており、512の環境音を分類する。

 

人の声か、環境音かを判別するにはこれでいいが、合成音声を作るのを楽にするには、これを音素ごとのラベリングに使用したい。

 

 

f:id:qpci32siekqd:20210502210640p:plain

https://res.mdpi.com/d_attachment/applsci/applsci-11-00428/article_deploy/applsci-11-00428-v3.pdf

同じように音素ラベルを分類したいという人はいるようで、上のように作ろうという人はいるようだ。

 

問題は学習データなのだが、日本語の音素ラベリングされたデータが見つからない。