AI アート ジェネレーターがインターネットを席巻しました。それらはどのように機能するのでしょうか?また、アーティストはこの強力な新しいテクノロジーについてどのように感じているのでしょうか?
人類の歴史を通して、テクノロジーの進歩により、一部の労働者は時代遅れになり、他の労働者には力が与えられてきました。運輸や製造などの業界の労働者は、自動化や人工知能の進歩によってすでに大きな影響を受けています。
今日、危機に瀕しているのはクリエイティブ部門です。ビジュアル アーティスト、デザイナー、イラストレーター、その他多くのクリエイターは、AI によるテキストから画像へのジェネレーターの登場を、畏怖と不安が入り混じった目で見てきました。
この新しいテクノロジーは、ビジュアル アートにおける AI の役割やスタイルの流用などの問題をめぐる議論を引き起こしました。そのスピードと効率性により、一部のアーティストの間で冗長性への懸念が引き起こされる一方、エキサイティングな新しいツールとして受け入れられるアーティストもいます。
AI テキストから画像へのジェネレーターは、プロンプトと呼ばれるユーザーのテキスト入力から画像を作成するソフトウェアです。これらの AI ツールは、テキストと画像のペアからなる巨大なデータセットでトレーニングされます。
DALL-E 2 と Midjourney はまだデータセットを公開していません。しかし、人気のあるオープンソース ツールである Stable Diffusion は、AI をトレーニングする対象についてより透明性を高めています。
「私たちはインターネットを介して自分たちで画像を見つけたわけではありません。それは他の人がすでに行っていることです」とミュンヘンのルートヴィヒ・マクシミリアン大学でコンピュータービジョンと学習グループを率いるビョルン・オマー教授は語った。
オマー氏は安定拡散を支える研究に取り組みました。
「現在、インターネットから収集されたビッグデータセットが公開されています。そして、私たちが使用したのは主に LAION データセットで、そこにはトレーニングできる数十億枚の画像が含まれています」と彼は Euronews Next に語った。
LAION は、インターネット上の画像とテキストのペアを収集する非営利団体です。次に、言語、解像度、透かしがある可能性、および予測された美的スコアなどの要素に基づいて、これらのデータセットをデータセットに編成します。たとえば、1 から 10 までの評価が付けられた写真を含む美的視覚分析 (AVA) データセットなどが挙げられます。
LAION は、Common Crawl と呼ばれる別の非営利団体からこれらの画像とテキストのペアを入手しています。 Common Crawl は、Web クロール データのリポジトリへのオープン アクセスを提供し、Web 情報へのアクセスを民主化します。これは、毎月何十億もの Web ページをスクレイピングし、オープンに利用可能なデータセットとしてリリースすることで実現されます。
AIのトレーニング
画像とテキストのペアのこれらのデータセットが収集および整理されると、それらに基づいて AI モデルがトレーニングされます。トレーニング プロセスでは、画像内の視覚的な構造、構成、および認識可能な視覚データと、それが付随するテキストとどのように関連するかを AI に学習させます。
「これらのモデルのトレーニングに非常に多くの時間を費やした後、このトレーニングが最終的に完了すると、テキストと画像の間を移行する強力なモデルが完成します」と Ommer 氏は言います。
テキストから画像へのジェネレーター開発の次のステップは、拡散と呼ばれます。
このプロセスでは、ガウスまたは「ランダム」視覚ノイズが画像に段階的に追加され、AI は徐々に「ノイズの多い」画像の反復ごとにトレーニングされます。
次に、プロセスが逆に行われ、ランダムなピクセルから始めて、元のトレーニング画像に視覚的に類似した画像を構築するように AI が学習されます。
「微量のノイズを何千回も加えた最終結果は、テレビからアンテナ ケーブルを引き抜いたように見えますが、そこには静電気とノイズだけが存在し、信号はもう残っていません」とオマー氏は説明しました。
AI モデルは、この方法で数十億の画像を対象にトレーニングされ、画像からノイズに移行し、そのたびにプロセスが逆転します。
トレーニング プロセスのこの段階を終えると、AI はノイズから、これまで存在しなかった画像を作成し始めることができます。
実際には、これは、ユーザーがテキストから画像へのジェネレーターにアクセスし、単純なテキスト ボックスにテキスト コマンドを入力できるようになり、AI がテキスト入力に基づいてまったく新しい画像を生成することを意味します。
それぞれのテキストから画像への AI には、ユーザーが試行錯誤を通じて発見したキーワードがあります。 「デジタル アート」、「4K」、「映画」などのキーワードは結果に劇的な影響を与える可能性があり、ユーザーは特定のスタイルでアートを生成するためのヒントやコツをオンラインで共有しています。典型的なプロンプトは、「カウボーイ ハットをかぶったリンゴのデジタル イラスト、4K、詳細、アートステーションでトレンドになっている」となります。
アートスタイルの流用
AI によるテキストから画像へのジェネレーターの倫理は、多くの議論の対象となってきました。懸念されている主な問題は、これらの AI が実際に生きている現役アーティストの作品に基づいてトレーニングできるという事実です。これにより、これらのツールを使用する誰でも、これらのアーティストの特徴的なスタイルで新しい作品を作成できるようになる可能性があります。
「データセットに自分の名前や画像が出てきた場合にアーティストが補償を受けるか、何もしたくない場合は完全にオプトアウトする方法を考え出す必要があると思います」それを使ってください」とビデオコラージュアーティストのエリック・ウィンコウスキーはユーロニュース・ネクストに語った。
金銭的利益を目的とした文体の流用の問題については、「AIで作られたかどうかに関わらず、ブランドキャンペーンが明らかに個人のアートワークから流用されている場合、それは決して良いことではない」と付け加えた。そして私は、彼らがそれに対して立ち向かう国民になってくれることを願っています。」
11 月、オンライン アート コミュニティの Deviant Art は、独自の AI テキストから画像への生成ツール DreamUp を Web サイトに追加すると発表しました。
Web サイト上のすべての Deviant Arts ユーザーのアートワークは、AI のトレーニングに自動的に利用できるようになります。
しかし、コミュニティからの強い反発に直面して、発表から 24 時間以内に Deviant Art は方針を変更しました。代わりに、ユーザーは AI をトレーニングするためにオプトインすることを積極的に選択する必要があります。
ストック画像マーケットプレイスである Shutterstock は現在、DALL-E のテキストから画像へのジェネレーターを統合し、AI のトレーニングに作品を使用したクリエイターに補償することを計画しています。
不公平な競争ですか、それとも強力な新しいツールですか?
2022 年のコロラド州フェアでは、Midjourney を使用して作成されたジェイソン アレンの AI 生成作品「Théâtre D'opéra Spatial」が「新興デジタル アーティスト」部門で優勝しました。
この賞は、芸術の将来に関して多くの論争と議論を引き起こしました。注目を集める中、アレン氏は「高級 AI プリント」を提供する新会社 AI Infinitum を立ち上げました。
アーティストの中には、AI テキストから画像へのジェネレーターがアートワークを作成できる速度と精度を懸念している人もいます。 Stable Diffusion のようなツールを使用すると、アーティストが制作するのに数時間から数日かかるような複数のアートワークを数秒で作成できます。
このことは、このテクノロジーによって自分のスキルが時代遅れになるのではないかと懸念する一部のクリエイターを懸念させています。
「私の研究の目標は決して人間や人間の知性などに取って代わることではないと考えています」とオマー氏はユーロニュース・ネクストに語った。
「私は、Stable Diffusion は、私たちがそこで目にしている他の多くのツールと同じように、アーティスト、人間、ユーザーがこれらのツールを利用して、さらに多くのことを実行したり、すでに行っていたことを実行できるようにする単なる実現技術であると考えています。より良くやっているが、最高のものを置き換えるものではない。」
AIアートの次のステージ
AI テキストから画像へのジェネレーターは継続的に改良されており、一部の研究者やテクノロジー企業は生成ビジュアル アートの次の段階を開発しています。
Meta は、ユーザーのテキスト入力からビデオを生成できる、現在開発中の Text-to-Video AI の例を公開しました。
一方、Google は、テキストから 3D への AI である DreamFusion を発表しました。これは、テキストから画像へのジェネレーターのテクノロジーに基づいて構築され、3D アセットを含むデータセットを必要とせずに 3D モデルを生成します。
Winkowski などの一部のビジュアル アーティストは、すでに生成 AI ツールをワークフローに組み込み、アニメーション アートを作成するテクノロジーを推進し始めています。
「Leaving home」というタイトルの最近の短編映画で、Winkowski は特定のフレームを描画し、Stable Diffusion がその間のフレームを生成できるようにしました。
「アーティストとしてスーパーパワーを持っているようなものです、本当に」と彼は言った。
「それは本当にエキサイティングです。そしておそらく、私たちがこれまで可能だと考えていたよりも野心的なプロジェクトに取り組むことができるようになると思います。」
このストーリーの詳細については、上のメディア プレーヤーでビデオをご覧ください。