Meta、テキストプロンプトからGIFのようなビデオを作成するAIツールを発表

Meta は、テキストプロンプトからの画像生成のアイデアを次のレベルに引き上げ、テキストプロンプトからビデオを生成する人工知能 (AI) プログラムを発表しました。

Facebookの親会社は、テキストから画像への人工知能作品の最近の発展に基づいて、テキストプロンプトに基づく多数の短いビデオをリリースした。

動画は、ペアになったテキストと画像データから世界がどのように見えるかを学習する AI によって作成されます。また、関連するテキストなしでビデオ映像を学習することで、動きがどのように見えるかを学習します。

これら 2 つの学習セットを融合することで、基本的なテキストプロンプトだけで関連性のあるビデオ映像が作成されます。

これは AI 研究の急成長分野であり、メタ社は、同社の新しい Make-A-Video システムは「クリエイターやアーティストに新たな機会を開く可能性がある」と述べています。

「わずか数語または数行のテキストで、Make-A-Video は想像力に命を吹き込み、鮮やかな色、キャラクター、風景でいっぱいのユニークなビデオを作成できます。このシステムは画像からビデオを作成したり、既存のビデオを取得して同様の新しいビデオを作成したりすることもできます」と同社は声明で述べた。

では、これらのビデオは実際にはどのようなものなのでしょうか? Meta は、ソーシャルメディアに投稿する Make-A-Video を発表し、Twitter のフォロワーにいくつかのプロンプトを考え出すよう促し、それを正式にアルゴリズムに入力しました。

結果は印象的ですが、ビデオには明らかに不安を感じるものがあります。

Make-A-Videoはまだ一般公開されていないが、Metaは現在搭載されている3つの機能を紹介した。

1 つ目は、たった 1 行のテキストでビデオを作成することです。これは超現実的、現実的、または様式化されたビデオとしてレンダリングできます。

さらに、静止画像を撮影し、それをビデオの形で表現するオプションもあります。

最後に、ビデオを撮影し、そのさまざまなバージョンを生成できます。

命を吹き込まれたイメージ

Meta は今年初めに、テキストやフリーフォームスケッチをプロンプトとして使用してフォトリアリスティックなイラストやアート作品を生成する Make-A-Scene を発表しました。

これは、AI 研究会社 OpenAI からの DALL-E 2 のリリースによる、テキストから画像への技術におけるもう 1 つの大きな進歩と並行して行われました。

DALL-E 2 を使用すると、誰でもサインアップしてプロンプトを入力し、独自の奇妙で素晴らしい静止画像を作成できます。たとえば、泥の中で長靴を履いた猫の写真が必要な場合は、出来上がりです。

あるいは、ロンドンのスカイライン上空を漂う宇宙人。

Meta は Make-A-Video により、画像作成よりも技術的にも財務的にも困難な AI 生成ビデオの最前線で推進する他の多くの企業に加わりました。

その理由は、別のビデオ作成モデルである Phenaki の作者によると、「利用できる高品質のデータがはるかに少なく、計算要件がはるかに厳しい」ためです。

で研究論文Make-A-Video プログラムよりもはるかに長いビデオをつなぎ合わせることができるプログラムの結果を発表して、画像生成には数十億の画像とテキストのペアを含むデータセットがあり、テキストとビデオのデータセットには数値は「かなり小さい」。

Make-A-Video は、このテキストビデオデータの不足を「教師なし学習」で克服しようとしています。つまり、学習するビデオにテキストラベルを付けることなく、AI に現実的な動きがどのように見えるかを学習させることになります。

「私たちの直感は単純です」メタの研究論文の著者が書いた。「世界がどのように見えるか、そしてそれがペアのテキスト画像データからどのように記述されるかを学び、監視されていないビデオ映像から世界がどのように動くかを学びます。」

メタ社は、いつかこの技術を一般に公開することを目標としているが、それがいつになるかは明らかにしていない。