Visual Studio 2019でVegas ProのC#スクリプト作成

Vegas Proのスクリプト API、FAQを見ると、Visual StudioでVegas ProのC#スクリプトを作成することができると書かれている。 Visual Studioの古いバージョン（2016？）くらいまでは当てはまるようだが、2019からは設定がわからず躓いた。 www.youtube.com こ…

2021-12-18

DaVinci ResolveのLuaスクリプトでVOICEROID立ち絵動かせないか・・・

https://documents.blackmagicdesign.com/UserManuals/Fusion8_Scripting_Guide.pdf とりあえずFusion Scripting Guide and Reference manualがあった。 Lua と Pythonがあるが、Python自体を別途インストールする必要があるので、Luaの方が良いかと思う。 P…

2021-12-14

DaVinci Resolve （ダビンチ・リゾルブ）でPSDToolKitライクな機能が欲しいが・・・

DaVinci Resolveを一度使うと、AviUtlでボイロ動画を作るのが大変に感じてしまう。 Davinci Resolveに立ち絵のPSDファイルをドラッグ＆ドロップすると読み込まれはするが、タイムラインでレイヤー表示を切り替えるというのは想定されてない。一応、有志が「…

2021-06-17

音声エンドポイントの動的な正確な検出：ウェーブレット畳み込みベースのアプローチ

arxiv.org 音声のラベリングで困るのは、時間軸の範囲を指定してラベリングをする際にどこまでを含めるかが曖昧になる。機械的に検出して範囲を指定できるのであればと思い探したところ、上記の論文にあたった。

2021-05-30

音声の抑揚を変更する数式

www.jstage.jst.go.jp 合成音声ソフトで抑揚を変化させる機能があるが、実際どのような加工がされているのか調べてもなかなか資料がない。

2021-05-12

合成音声向けのラベリングについての思いつき

合成音声のためにラベリングは骨が折れるので、音声認識システムを補助として使うというのは考えられる。しかしこのラベリングが最終的に学習のノイズとなっていないか。 /aと/oといった母音は単語を知っている人からすると認識出来るが、音として曖昧さ、…

2021-05-10

合成音声の学習は事前学習とファインチューニングの2回に分けられないか

音声データを1人から大量に取得するのは難しい。事前に不特定多数の音声データで事前学習しておき、目的とする人の音声データでファインチューニングできないか。フォルマントといった個性を表す部分のみファインチューニングで実施する。

2021-05-02

音素分類を自動でやりたい

MatlabにclassfySoundを使うと、音声の分類が出来る。この分類に使用しているのはYAMNetを使用しており、512の環境音を分類する。人の声か、環境音かを判別するにはこれでいいが、合成音声を作るのを楽にするには、これを音素ごとのラベリングに使用したい…

2021-05-01

ピッチを変更すると違和感を感じるが、どこが悪いのか

PSOLAといったピッチを変更するアルゴリズムがあるが、少し変更するだけで違和感が出てしまう。合成音声の学習データをかさ増しする時にピッチを上げるデータを用意するとか、ボコーダーの後でピッチを調整するというのが考えられるが、もう少し自然になら…

2021-05-01

合成音声で声道の震えは関係ないのか

Speech production and acoustic properties - Introduction to Speech Processing - Aalto University Wiki 合成音声(Text-to-Speech)だと声道モデリングの知見は使われているものの、物理モデルから音を作るということはしてない。 F0/F1/F2などフォルマン…