DaVinci ResolveのLuaスクリプトでVOICEROID立ち絵動かせないか・・・

https://documents.blackmagicdesign.com/UserManuals/Fusion8_Scripting_Guide.pdf

とりあえずFusion Scripting Guide and Reference manualがあった。

LuaPythonがあるが、Python自体を別途インストールする必要があるので、Luaの方が良いかと思う。

 

PSDToolKitのようなことをしようとすると、GUIを作らないといけないはずなのだが、まだ調べられてない。

 

f:id:qpci32siekqd:20211218155956p:plain

 

DaVinci Resolve (ダビンチ・リゾルブ)でPSDToolKitライクな機能が欲しいが・・・

DaVinci Resolveを一度使うと、AviUtlでボイロ動画を作るのが大変に感じてしまう。

Davinci Resolveに立ち絵のPSDファイルをドラッグ&ドロップすると読み込まれはするが、タイムラインでレイヤー表示を切り替えるというのは想定されてない。

 

一応、有志が「DavinciResolve_psdtool」というスクリプトを作っているが、自分の環境では動かなかった。

github.com

 

 

f:id:qpci32siekqd:20211214122047p:plain

まず1つ目のエラーについて。

PSDTool_resolve.exeを実行するとパスがないと言われる。

これはエラーにしたがってフォルダを自分でつくれば良い。

自分の場合は、

AppData\Roaming\Blackmagic Design\DaVinci Resolve\Support\Resolve Disk Database\Resolve Projects\Users\guest\Projects

の最後のProjectsフォルダがなかった。

Davinci Resolveを新規インストールして使った場合に、Projectsフォルダがないのかもしれない。

 

f:id:qpci32siekqd:20211214122451p:plain

先のエラーを解消するとGUIが立ち上がる。

Readmeに従って、立ち絵のPSDファイルパスを指定した後、MiniPSD作成ボタンを押してMiniPSDを作成する。

 

f:id:qpci32siekqd:20211214122805p:plain

Readmeには

3,Davinci Resolveを実行し、2の実行で出力されたMiniPSDフォルダ配下のpsdファイルを全てMediaPoolに置く

とあるので、Davinci Resolveに作成したMiniPSDをドラッグアンドドロップで置く。

プロジェクト名も入れて、「Setting生成」ボタンを押すとエラーが出て進めなかった。

 

f:id:qpci32siekqd:20211214123605p:plain


パスに日本語が含まれているというものかと思い、英語だけにしたがそれでも変わらなかった。

 

音声エンドポイントの動的な正確な検出:ウェーブレット畳み込みベースのアプローチ

arxiv.org

 

音声のラベリングで困るのは、時間軸の範囲を指定してラベリングをする際にどこまでを含めるかが曖昧になる。

機械的に検出して範囲を指定できるのであればと思い探したところ、上記の論文にあたった。

 

 

合成音声向けのラベリングについての思いつき

合成音声のためにラベリングは骨が折れるので、音声認識システムを補助として使うというのは考えられる。

しかしこのラベリングが最終的に学習のノイズとなっていないか。

 

/aと/oといった母音は単語を知っている人からすると認識出来るが、音として曖昧さ、分散が大きくないか。

あ、い、う、え、お、に分類するのが当たり前の前提となってしまっているが、音だけの場合は、もっと分類数が多いのではないだろうか。

 

あ1、あ2、あ3といった分類数を多くした方が、合成音声を考えた場合にはいいのではないかという仮説である。

例えば、あ3とえ1が似ており距離的に近いかもしれないが計算機的に分類できるのであればよい。

文字と音声の対応付けが後段の処理で必要になってくるが、それも文字の前後から推測できるのであれば、機械に任せてしまった方がよい。

 

加えて音の高さがある。

ピッチの高低は単純に周波数の変換と認識されているが、いざ音声に対してピッチを変更する処理を加えると違和感が多い。

何がそれを感じさせているのか調べても答えがなかったが、フォルマントのスペクトルの歪みなど、注目している周波数以外の部分に違いがあるのではないか。

ボイスチェンジャーで男性の声から女性の声にフォルマントのみ変換しても違和感があるのもそういった、注目していない部分に原因があるのではないか。

 

 

 

 

 

 

 

 

合成音声の学習は事前学習とファインチューニングの2回に分けられないか

音声データを1人から大量に取得するのは難しい。

事前に不特定多数の音声データで事前学習しておき、目的とする人の音声データでファインチューニングできないか。

 

フォルマントといった個性を表す部分のみファインチューニングで実施する。

音素分類を自動でやりたい

f:id:qpci32siekqd:20210502210338p:plain

MatlabにclassfySoundを使うと、音声の分類が出来る。
この分類に使用しているのはYAMNetを使用しており、512の環境音を分類する。

 

人の声か、環境音かを判別するにはこれでいいが、合成音声を作るのを楽にするには、これを音素ごとのラベリングに使用したい。

 

 

f:id:qpci32siekqd:20210502210640p:plain

https://res.mdpi.com/d_attachment/applsci/applsci-11-00428/article_deploy/applsci-11-00428-v3.pdf

同じように音素ラベルを分類したいという人はいるようで、上のように作ろうという人はいるようだ。

 

問題は学習データなのだが、日本語の音素ラベリングされたデータが見つからない。