オープンソース AI には定義ができました。これが何を意味するのか、なぜまだ難しいのか

Meta の Llama やイーロン・マスクの Grok などの生成人工知能 (AI) 企業は、自社がオープンソースであると主張しています。しかし、オープンソース AI が何であるかについて同意する人は多くありません。

あ新しい作業定義AI にとってこの用語が何を意味するかについては、状況が変わる可能性があり、その内容がちょうど発表されました。オープンソースイニシアチブ (OSI)、この期間の自ら任命された管理者。

オープンソースとは通常、ソフトウェアのソースコードがパブリックドメイン内の誰もが使用、変更、配布できることを意味します。

OSI オープンソースの定義では、ソースコードを合理的なコストまたは無料で入手する手段が広く公開されていること、差別的でないこと、ライセンスが他のソフトウェアを制限していないことなど、10 の基準も満たさなければならないと述べています。

しかし、AI システムを OSI の 10 ポイントに照らして評価するのはより困難であるため、AI には新しい特定の定義が設けられています。

オープンソースの定義とは何ですか?

オープンソースAIの定義では、企業の許可を得ずにいかなる理由でも使用できるとされており、研究者はシステムがどのように動作するかを自由に確認できるはずだ。

また、システムは、出力を変更したり、理由を問わず変更の有無にかかわらず他の人が使用できるようにシステムを共有したりするなど、あらゆる目的に合わせて変更できるとも述べています。

この定義では、AI 企業は、システムのトレーニングに使用されるデータ、システムのトレーニングと実行に使用されるソースコード、および重み (AI モデルのパフォーマンスに影響を与える数値パラメーター) についても透明性を持たなければならないと規定されています。

ここに問題があります。 OpenAI は、その名前にもかかわらず、そのアルゴリズム、モデル、データセットが秘密にされているという点でクローズドソースです。

しかし、Meta、Grok、Google のモデルは、オープンソースであると主張していますが、OSI の定義に従えば、実際にはどちらでもありません。これは、重みのトレーニングにどのようなデータが使用されているかが企業に透明性がないためであり、データに偏りがあれば著作権の問題や倫理的な問題が生じる可能性があるためです。

OSI は、完全なトレーニングデータセットを共有することは困難な場合があるため、白か黒かが明確ではないことを認めています。したがって、オープンソース AI 開発が「オープンソース」とみなされなくなるわけではありません。