AIツールがAI生成コンテンツでトレーニングする際の「モデルの崩壊」を新たな研究が警告

AI によって生成されたコンテンツがインターネット上にますます普及するにつれて、人工知能 (AI) モデルはすぐに新たな問題に直面する可能性があります。

OpenAI の ChatGPT などの大規模言語モデル (LLM) は、モデルのトレーニングと改善のためにオンラインで利用可能なデータに依存してきました。

ただし、これらのモデルでは利用可能なオンライン データが枯渇するため、制限の増加データ アクセスに関しては、AI が生成したコンテンツでトレーニングすることができます。

新しい研究によると、これによりモデルのパフォーマンスが低下し、最終的には意味不明なコンテンツが生成される可能性があり、これは「モデルの崩壊」と呼ばれる現象です。

オックスフォード大学のイリア・シュマイロフ次席研究員は、「モデルからデータをサンプリングするのは非常に簡単であるという理由だけで、より多くのデータが得られる可能性があるにもかかわらず、時間の経過とともにモデルのトレーニングがさらに困難になることが予想されます」と述べた。研究の共著者はユーロニュース・ネクストに語った。

「しかし、これから起こることは、実際に偏っていないデータの母集団を見つけることがより困難になるということです」と彼は付け加えた。

この研究は、ジャーナルネイチャーでは、複数のサイクルにわたって AI によって生成されたデータでモデルがトレーニングされると何が起こるかについて説明します。

この調査では、AI モデルの生成と AI 生成コンテンツでのトレーニングを数回ループした後、システムが重大なエラーを起こし始め、無意味な状態に陥ってしまうことが判明しました。

別紙デューク大学の研究者エミリー・ウェンガー氏は、AI が生成したコンテンツで AI モデルを継続的にトレーニングする実験を通じてこれを実証しました。

実験では、ゴールデンレトリバーが過剰に表現された、さまざまな犬種の写真を含む一連のデータが AI モデルに与えられました。

この研究では、モデルの出力により、他のあまり代表されていない犬種よりもゴールデンレトリバーの画像が生成される可能性が高いことがわかりました。このサイクルが続くと、徐々に他の犬種を完全に無視し始め、最終的にはナンセンスな情報を生成し始めました。

「モデル崩壊」の段階

「モデル崩壊は基本的に 2 つの段階で定義されます。最初の段階は初期段階のモデル崩壊と呼ばれるもので、ここで何が起こるかというと、モデルが別のモデルから学習するときに、最初に分散の減少が観察されます」とシュマイロフ氏は述べています。

この段階では、元のモデルによって最初は完全に理解されていない側面は、前のモデルの出力でトレーニングされた後続のモデルによってもあまり理解されなくなります。

この結果、十分に理解されている側面がオーバーサンプリングされ、他の重要な側面が無視されることになります。単に初期モデルでは完全に明確ではなかったという理由だけです。

その後、後期モデルの崩壊が起こります。

これは、以前のモデルが独自のエラーをデータに取り込んだため、AI モデルが役に立たなくなったときです。

初期データに存在するエラーは次のモデルに渡され、独自のエラーのセットが追加されてそれも渡されます。

データが継続的に生成され、リサイクルされるにつれて、モデルは現実を誤解し始め、より多くのエラーを犯し始めます。

「モデル 1 によって生成されたデータ内にエラーがあった場合、基本的にそれらは次のモデルに伝播します。そして最終的には、モデルが基本的に現実を誤って認識することになります」とシュマイロフ氏は説明した。

Shumailov 氏によると、モデルが犯す可能性のあるエラーには、アーキテクチャ エラー、学習プロセス エラー、統計的エラーの 3 種類があります。

アーキテクチャ エラーは、AI モデルの構造が、提供されるデータの複雑さをすべて捉えるのに適合していない場合に発生し、モデルによって一部の部分が誤解されたり過度に単純化されたりするため、不正確さが生じます。

学習プロセスのエラーは、モデルのトレーニングに使用された方法に固有のバイアスがあり、それによってモデルが特定の種類の間違いを犯すようになった場合に発生します。

最後に、モデルが学習しようとしているものを正確に表すのに十分なデータがない場合、統計エラーが発生します。これにより、モデルが不完全な情報に基づいて予測を生成し、エラーが発生する可能性があります。

「モデルの崩壊」が意味するもの

モデルが崩壊したときの主な懸念は、パフォーマンスの改善速度が遅くなる可能性があることです。

AI モデルは、トレーニングに使用されるデータの品質に大きく依存します。

ただし、AI が生成したコンテンツでトレーニングすると、このデータによってシステムにエラーが継続的に発生します。

「基本的にデータをフィルタリングするのに追加の労力を費やす必要がある可能性が高い。そしてこれはおそらく改善が遅れる可能性があることを意味するだろう」とシュマイロフ氏は述べた。

さらに、分散が減少し、データの多様性が低下するにつれて、過小評価されたデータが不当に影響を受けることが予想され、AI モデルの包括性に対する懸念が生じます。

「モデルが公正であること、そしてモデル内の少数派のデータが失われないように、細心の注意を払う必要がある」とシュマイロフ氏は語った。