公開日
この記事をシェアする
Googleの研究者らは、自社のAIが現在の音楽生成モデルよりも優れていると主張している。
Googleの研究者らは、最長5分間の曲を作成するテキスト音楽変換AIを発表した。
これまでの研究と調査結果をまとめた論文を発表し、チームはテキスト プロンプトと驚くほどよく似た多数の例とともに MusicLM を世界に紹介しました。
研究者らは主張する彼らのモデルは「音質とテキスト説明の遵守の両方において、以前のシステムよりも優れています」。
例は曲の 30 秒のスニペットであり、次のような入力キャプションが含まれています。
- 「アーケードゲームのメインサウンドトラック。キャッチーなエレキギターのリフがあり、ペースが速くて明るい曲です。音楽は反復的で覚えやすいですが、シンバルのクラッシュやドラムロールなどの予期せぬサウンドが含まれています。」
- 「レゲトンとエレクトロニック ダンス ミュージックを融合させた、スペーシーで別世界のようなサウンド。宇宙に迷い込んだような体験を誘発し、ダンサブルでありながら驚きと畏怖の念を呼び起こす音楽となるでしょう。」
- 「上昇中のシンセがリバーブたっぷりのアルペジオを奏でています。パッド、サブベースライン、ソフトドラムをバックにしています。この曲はシンセサウンドが満載で、癒しと冒険の雰囲気を作り出しています。フェスティバルでビルドアップの2曲の間に演奏されるかもしれない。」
AI を使用して音楽を生成することは新しいことではありませんが、単純なテキスト プロンプトに基づいて実用的な音楽を実際に生成できるツールはまだ発表されていません。 MusicLMのチームによると、それは今のところだという。
研究者たち彼らの論文で説明するAI音楽生成が直面するさまざまな課題。まず、音声とテキストのペアのデータが不足しているという問題があります。テキストから画像への機械学習とは異なり、巨大なデータセットが最近の進歩に「大きく貢献」していると彼らは言います。
たとえば、OpenAI の DALL-E ツールと Stable Diffusion は、両方ともこの分野での一般の関心の高まりを引き起こし、即時の使用事例も引き起こしました。
AI 音楽生成におけるさらなる課題は、音楽が「時間次元に沿って」構造化されていること、つまり音楽トラックが一定期間にわたって存在することです。したがって、静止画像にキャプションを使用するのとは対照的に、基本的なテキスト キャプションを使用して音楽トラックの意図を捉えることははるかに困難です。
MusicLM はそれらの課題を克服するための一歩である、とチームは述べています。
これは、機械学習を使用して、曲の構造、メロディー、個々のサウンドなどのさまざまなレベルのシーケンスを生成する「音楽生成のための階層的なシーケンス間モデル」です。
これを行う方法を学習するために、モデルは、ミュージシャンによって作成された 5,500 を超えるサンプルの音楽キャプション データセットとともに、ラベルのない音楽の大規模なデータセットでトレーニングされます。このデータセットは、将来の研究をサポートするために一般公開されています。
このモデルでは、歌のメロディーを知らせるのに役立つ口笛やハミングなどの音声入力も可能で、「テキスト プロンプトで記述されたスタイルでレンダリング」されます。
まだ一般には公開されていないが、作成者らは生成された曲がモデルが学習したソース素材と十分に異なっていない場合、潜在的な「クリエイティブコンテンツの流用」のリスクを認めている。