結論としては上手くいっていない。 やったこととしては、立ち絵をパーツごとにわけ、それぞれをマルチカムとしてタイムラインに入れる。 それを複合クリップとして1つのタイムラインにいれる。 パーツをわけているので、こうやって複合クリップにしないと立…
1つの方法は、プロジェクトのネスト機能を使う方法。 立ち絵だけのプロジェクトを事前に作成しておき、動画編集時に立ち絵のプロジェクトをネストして埋め込む。 立ち絵の方は、パーツごとにタイムラインに置いておくが、その際にテイクとして置いておくと、…
www.jetdv.com Vegasの公式フォーラムに書き込みもしている人が作成しているサイトのようだ。 実際、スクリプトを作成して販売もしている。
VOICEROID、CeVIOとの連携がウリのRecotte Studioですが、久々に使ったのですが、動画を作っていると色々機能が足りてないという感じを受けてしまいます。(連携はできるので、嘘は言ってないのですが・・・) 3Dモデルは荒ぶったり、テイストが揃えられなか…
www.hlinke.de
VOICEROIDの立ち絵として口パクがあるが、音量がゼロの時は閉じた状態にしたい。 だがVegas ProのC#のAPIを探しているが、オーディオトラックの音量値を取るようなものが見つからない。 サンプリングレートなどは取れるみたいだが・・・。 AudioStream Class…
Vegas Proのスクリプト API、FAQを見ると、Visual StudioでVegas ProのC#スクリプトを作成することができると書かれている。 Visual Studioの古いバージョン(2016?)くらいまでは当てはまるようだが、2019からは設定がわからず躓いた。 www.youtube.com こ…
https://documents.blackmagicdesign.com/UserManuals/Fusion8_Scripting_Guide.pdf とりあえずFusion Scripting Guide and Reference manualがあった。 Lua と Pythonがあるが、Python自体を別途インストールする必要があるので、Luaの方が良いかと思う。 P…
DaVinci Resolveを一度使うと、AviUtlでボイロ動画を作るのが大変に感じてしまう。 Davinci Resolveに立ち絵のPSDファイルをドラッグ&ドロップすると読み込まれはするが、タイムラインでレイヤー表示を切り替えるというのは想定されてない。 一応、有志が「…
arxiv.org 音声のラベリングで困るのは、時間軸の範囲を指定してラベリングをする際にどこまでを含めるかが曖昧になる。 機械的に検出して範囲を指定できるのであればと思い探したところ、上記の論文にあたった。
www.jstage.jst.go.jp 合成音声ソフトで抑揚を変化させる機能があるが、実際どのような加工がされているのか調べてもなかなか資料がない。
合成音声のためにラベリングは骨が折れるので、音声認識システムを補助として使うというのは考えられる。 しかしこのラベリングが最終的に学習のノイズとなっていないか。 /aと/oといった母音は単語を知っている人からすると認識出来るが、音として曖昧さ、…
音声データを1人から大量に取得するのは難しい。 事前に不特定多数の音声データで事前学習しておき、目的とする人の音声データでファインチューニングできないか。 フォルマントといった個性を表す部分のみファインチューニングで実施する。
MatlabにclassfySoundを使うと、音声の分類が出来る。この分類に使用しているのはYAMNetを使用しており、512の環境音を分類する。 人の声か、環境音かを判別するにはこれでいいが、合成音声を作るのを楽にするには、これを音素ごとのラベリングに使用したい…
PSOLAといったピッチを変更するアルゴリズムがあるが、少し変更するだけで違和感が出てしまう。 合成音声の学習データをかさ増しする時にピッチを上げるデータを用意するとか、ボコーダーの後でピッチを調整するというのが考えられるが、もう少し自然になら…
Speech production and acoustic properties - Introduction to Speech Processing - Aalto University Wiki 合成音声(Text-to-Speech)だと声道モデリングの知見は使われているものの、物理モデルから音を作るということはしてない。 F0/F1/F2などフォルマン…
※下記は試したわけではなくメモ 機械学習向けでは、音を録音したあと、人の手で音素のラベリングが行われている。 そこでの問題点としては 音素の切れ目が明確ではない。ラベルごとに誤差が発生する データが多いため複数人でラベリングを行うと、判断基準が…
学習に使う話者の音声データと、日本語のイントネーション学習に使うデータの分離 音声合成で問題なのは学習データをどうするかというのがある。 数時間分の声を録音するとして、話者の疲労度によって変わったり、日をまたいだ収録でのデータが異なるなどと…
VOICEROID2の場合だと、ナレーションのように単純に読み上げをすればいいだけの場合は、漢字の読み間違いくらいを直せばよかった。 CeVIO AI小春六花は、どうも1文のどこかに違和感があり、躓く頻度が多い。 全部が自動で出来るのは期待していないが、調整し…
CevioAIトーク小春六花のスペクトラムが上図になる。 これが小春六花のexボイスの波形だ。比べればわかるが人の声の方が綺麗だ。 機械学習によってクオリティが上がったという話だったが、個人的にあまり良くならなかったというのが正直な感想だ。 スペクト…
小春六花がCevioAIで発売された。 Voiceroidと一緒に話すと、ボソボソ感というか、声がこもっているというか、鼻が詰まったような声が気になる。 とりあえずイコライザで調整する。 高音側を上げればボソボソした感じは軽減できるかと思う。 1番低いピークの…
www.dtmstation.com 縦の部分はノイズ。編集ですぐ消せるレベル。 長音で基底の音が消えてしまっているので、ふにゃっという感じになってる。 開発中ということもあるだろうが、NEUTRINOほど声質が安定していない印象を受ける。AIきりたんだと声質は安定して…
vocalomakets.com まだ開発段階からか、もしくはプラグインをかけているからかわからないが、スペクトラムを見てる限り、それほど凄い感じがしない。 人っぽさをわざと消してるのかわからないが、ボカロの延長らしいといえばそうだが。 デモでの一番高い音が…
Melodyneはピッチ調整するためのソフトで、主にボーカルに使われる。 そのためボイロでの調整は本来の使い方とは異なる。 ボイロのUIが自由度が少ないため、もう少し調整したいと思ったときに対応できない。 Melodyneを使ったら、調整が楽になるかと思ったの…
音楽的同位体「可不(KAFU)」ボイスアンケート Aタイプ Bタイプ Cタイプ まず、わかりやすいCタイプは、オートチューンでケロケロボイスになっていて、他の合成音声と変わらない気がするので、個人的興味がない。 Aタイプは人間っぽく、Bタイプは幼いように聞…
Synthesizer V Saki AI Cover Compilation Synthesize V AIのデモ動画が新しく出ました。一般のニュースサイトだとNEUTRINOを使ったAIきりたんが、人間らしく歌うと話題になりましたが、個人的にはSynthesizer V AIは超えていると感じました。 上の図がAIき…
AviUtlは別として、Davinci ResolveやVegas Proも、2D画像を動かすのに適していません。Adobe Premireでは足りずに、Effectを使った方がいいといったのと同じです。 今だとVtuberが流行っているので2Dを動かすとなると、Live2Dという選択肢がすぐに浮かびま…
ボイスロイド劇場を作るときには、立ち絵を拡大したいときがある。 1つのトラックや、イベントに対して拡大するのは、すぐに思いつくが、立ち絵と背景を一緒に拡大する場合、マスターに対して挿入する必要ががある。 動画だけであればトラックのみにズームす…
ボイスロイドを調整する際に困るのは、アクセント調整だったり、音の高さの調整だ。 普段何気なく喋っている日本語に対して、モーラとか普通は知らない。 違和感は感じるが、どこが間違えていて、どう修正しなければならないのかも示してくれない。 文字の入…
本記事における注意事項 VegasPro18を購入したものの、ネットを検索しても出てきません。 ましてボイロ動画を作っている方は皆無といってもいいです。 自分のように購入してしまったがために使いこなしたいがわからない、という人向けに、自分の作業内容をメ…