オープンソース AI には定義ができました。これが何を意味するのか、なぜまだ難しいのか

Meta の Llama やイーロン・マスクの Grok などの生成人工知能 (AI) 企業は、自社がオープンソースであると主張しています。しかし、オープンソース AI が何であるかについて同意する人は多くありません。

新しい作業定義AI にとってこの用語が何を意味するかについては、状況が変わる可能性があり、その内容がちょうど発表されました。オープンソース イニシアチブ (OSI)、この期間の自ら任命された管理者。

オープン ソースとは通常、ソフトウェアのソース コードがパブリック ドメイン内の誰もが使用、変更、配布できることを意味します。

OSI オープンソースの定義では、ソース コードを合理的なコストまたは無料で入手する手段が広く公開されていること、差別的でないこと、ライセンスが他のソフトウェアを制限していないことなど、10 の基準も満たさなければならないと述べています。

しかし、AI システムを OSI の 10 ポイントに照らして評価するのはより困難であるため、AI には新しい特定の定義が設けられています。

オープンソースの定義とは何ですか?

オープンソースAIの定義では、企業の許可を得ずにいかなる理由でも使用できるとされており、研究者はシステムがどのように動作するかを自由に確認できるはずだ。

また、システムは、出力を変更したり、理由を問わず変更の有無にかかわらず他の人が使用できるようにシステムを共有したりするなど、あらゆる目的に合わせて変更できるとも述べています。

この定義では、AI 企業は、システムのトレーニングに使用されるデータ、システムのトレーニングと実行に使用されるソース コード、および重み (AI モデルのパフォーマンスに影響を与える数値パラメーター) についても透明性を持たなければならないと規定されています。

ここに問題があります。 OpenAI は、その名前にもかかわらず、そのアルゴリズム、モデル、データセットが秘密にされているという点でクローズドソースです。

しかし、Meta、Grok、Google のモデルは、オープンソースであると主張していますが、OSI の定義に従えば、実際にはどちらでもありません。これは、重みのトレーニングにどのようなデータが使用されているかが企業に透明性がないためであり、データに偏りがあれば著作権の問題や倫理的な問題が生じる可能性があるためです。

OSI は、完全なトレーニング データ セットを共有することは困難な場合があるため、白か黒かが明確ではないことを認めています。したがって、オープンソース AI 開発が「オープンソース」とみなされなくなるわけではありません。

「オープン洗浄」

この定義は数年かけて策定されており、AIの進歩に応じて更新する必要があると考えられます。

OSI は、研究者、弁護士、政策立案者、活動家、マイクロソフト、メタ、グーグルなどの大手テクノロジー企業の代表者からなる 70 人のグループに相談して、実用的な定義を作成しました。

「この定義は、非常に蔓延しつつある『オープンウォッシング』の広範な慣行と闘うための貴重なリソースとなるだろう」とMozilla代表のAyah Bdeir氏、Imo Udom氏、Nik Marda氏はEuronews Nextに送った声明の中で述べた。

彼らは、「オーバーウォッシュ」とは、非オープンモデル(あるいはMetaのLlama 3のようなオープンっぽいモデル)が、コモンズに貢献することなく主要な「オープンソース」オプションとして宣伝されることだと説明した。

「研究者らは、『開放洗浄の影響は重大』であり、イノベーション、研究、AIに対する一般の理解に影響を及ぼすことを示している」と付け加えた。

定義を強制する権限がない

OSIの事務局長ステファノ・マフリ氏は「われわれは定義の管理者であり維持者だが、実際には定義を強制する強力な権限はない」と語った。ユーロニュース・ネクストは3月のインタビューで。

同氏は、世界中の裁判官や裁判所が、特に合併だけでなく規制に関しても、オープンソースの定義が重要であることを認識し始めていると付け加えた。

世界中の国々が今後の対応方法を最終決定しつつある通常のAIそしてオープンソース ソフトウェアは論争の的となっています。

「オープンソースの定義は、虚偽の広告を特定するための障壁として機能します」とマッフリ氏は述べた。

「企業が自社をオープンソースだと言うなら、その企業はオープンソースの定義が持つ価値を伝えなければなりません。そうしないと、混乱するだけです。」