2021-01-01から1年間の記事一覧
Vegas Proのスクリプト API、FAQを見ると、Visual StudioでVegas ProのC#スクリプトを作成することができると書かれている。 Visual Studioの古いバージョン(2016?)くらいまでは当てはまるようだが、2019からは設定がわからず躓いた。 www.youtube.com こ…
https://documents.blackmagicdesign.com/UserManuals/Fusion8_Scripting_Guide.pdf とりあえずFusion Scripting Guide and Reference manualがあった。 Lua と Pythonがあるが、Python自体を別途インストールする必要があるので、Luaの方が良いかと思う。 P…
DaVinci Resolveを一度使うと、AviUtlでボイロ動画を作るのが大変に感じてしまう。 Davinci Resolveに立ち絵のPSDファイルをドラッグ&ドロップすると読み込まれはするが、タイムラインでレイヤー表示を切り替えるというのは想定されてない。 一応、有志が「…
arxiv.org 音声のラベリングで困るのは、時間軸の範囲を指定してラベリングをする際にどこまでを含めるかが曖昧になる。 機械的に検出して範囲を指定できるのであればと思い探したところ、上記の論文にあたった。
www.jstage.jst.go.jp 合成音声ソフトで抑揚を変化させる機能があるが、実際どのような加工がされているのか調べてもなかなか資料がない。
合成音声のためにラベリングは骨が折れるので、音声認識システムを補助として使うというのは考えられる。 しかしこのラベリングが最終的に学習のノイズとなっていないか。 /aと/oといった母音は単語を知っている人からすると認識出来るが、音として曖昧さ、…
音声データを1人から大量に取得するのは難しい。 事前に不特定多数の音声データで事前学習しておき、目的とする人の音声データでファインチューニングできないか。 フォルマントといった個性を表す部分のみファインチューニングで実施する。
MatlabにclassfySoundを使うと、音声の分類が出来る。この分類に使用しているのはYAMNetを使用しており、512の環境音を分類する。 人の声か、環境音かを判別するにはこれでいいが、合成音声を作るのを楽にするには、これを音素ごとのラベリングに使用したい…
PSOLAといったピッチを変更するアルゴリズムがあるが、少し変更するだけで違和感が出てしまう。 合成音声の学習データをかさ増しする時にピッチを上げるデータを用意するとか、ボコーダーの後でピッチを調整するというのが考えられるが、もう少し自然になら…
Speech production and acoustic properties - Introduction to Speech Processing - Aalto University Wiki 合成音声(Text-to-Speech)だと声道モデリングの知見は使われているものの、物理モデルから音を作るということはしてない。 F0/F1/F2などフォルマン…
※下記は試したわけではなくメモ 機械学習向けでは、音を録音したあと、人の手で音素のラベリングが行われている。 そこでの問題点としては 音素の切れ目が明確ではない。ラベルごとに誤差が発生する データが多いため複数人でラベリングを行うと、判断基準が…
学習に使う話者の音声データと、日本語のイントネーション学習に使うデータの分離 音声合成で問題なのは学習データをどうするかというのがある。 数時間分の声を録音するとして、話者の疲労度によって変わったり、日をまたいだ収録でのデータが異なるなどと…
VOICEROID2の場合だと、ナレーションのように単純に読み上げをすればいいだけの場合は、漢字の読み間違いくらいを直せばよかった。 CeVIO AI小春六花は、どうも1文のどこかに違和感があり、躓く頻度が多い。 全部が自動で出来るのは期待していないが、調整し…
CevioAIトーク小春六花のスペクトラムが上図になる。 これが小春六花のexボイスの波形だ。比べればわかるが人の声の方が綺麗だ。 機械学習によってクオリティが上がったという話だったが、個人的にあまり良くならなかったというのが正直な感想だ。 スペクト…
小春六花がCevioAIで発売された。 Voiceroidと一緒に話すと、ボソボソ感というか、声がこもっているというか、鼻が詰まったような声が気になる。 とりあえずイコライザで調整する。 高音側を上げればボソボソした感じは軽減できるかと思う。 1番低いピークの…