動画編集で使いたい効果音が見つからないときは、AIで生成してみましょう。
プロンプトを入力すれば、効果音や音楽が生成できる「AudioLDM2」の使い方を紹介します。
AudioLDM「2」ということで、「1」もあります。
ですが、音を生成させるデモサイトにアクセスするのが困難(エラーになる)なため「2」の使い方の紹介になります。
一部、AudioLDM(1)も紹介します。
AudioLDM2
Audio LDM 2 : Learning Holistic Audio Generation with Self-supervised Pretraining
(https://audioldm.github.io/audioldm2/)
上記からアクセスできます。
AudioLDM2は、テキストから効果音・人間の音声・音楽を生成できるAIです。
テキストから画像を生成するStable Diffusionの音バージョンです。
AudioLDM
AudioLDM : Text-to-Audio Generation with Latent Diffusion Models
(https://audioldm.github.io)
「2」ではなく「1」は、上記になります。
サンプルとプロンプト
AudioLDMではページを下にスクロールすると、音声とプロンプトがサンプルとして表示されています。
AudioLDM「2」のサンプルとプロンプトについて
- Section 1. Text-prompted Audio Generation
- Section 2. Text-prompted Music Generation
- Section 3. Text-to-Speech Generation
- Section 4. Image-to-Audio Generation
Section 1と2は、ChatGPTでプロンプトを生成して、AudioLDM2で音声ファイルを生成しています。
Section 3は、テキストからスピーチを生成しています。
Section 4は、画像から音声ファイルを生成しています。
AudioLDMのサンプルとプロンプトについて
TTAとはText-to-audioの略です。
ChatGPTを利用してプロンプトを作成しているものもあります。
ChatGPTに、「Describe what does a dance music sound with at most 30 words」と質問した返答が「Dance music with strong, upbeat tempo, and repetitive rhythms, include sub-genres like house, techno, EDM, trance, and many more.」となったプロンプトをText-to-Audioで音楽を生成しています。
複数のサンプルが用意されているので、プロンプトの勉強にもなります。
両サイトとも基本的に日本語の対応はしていません。
音の生成方法
トップページから「HuggingFace Demo」をクリックします。
Input textには、プロンプトを入力します。
Negative promptには、ネガティブプロンプトを入力します。
Click to modify detailed configurationsを開くと、Seed値など設定できます。
プロンプトには「The vibrant beat of Brazilian samba drums」
ネガティブプロンプトには「Low quality」が入力されていましたので、
そのまま「Submit」をクリックします。
数秒で音声ファイルが生成されました。
ダウンロードは、右上のダウンロードマークからできます。
AudioLDMの音声生成デモサイト
AudioLDMのトップページから「Hugging Face Space」をクリックします。
生成方法は、AudioLDM2と同じで、プロンプトとネガティブプロンプトを入力して「Submit」をクリックします。
まとめ
動画編集をする方は、「欲しい効果音がない」なんてことがあると思います。
そんなときは、「効果音を探す」のではなく「自分でAIを使い生成」しましょう。
効果音や音楽がAIで生成されたものを使用するのが当たり前の時代が近いと感じました。
最後までお読みいただきありがとうございました。