このフランスの新興企業は、OpenAI が間違っていたことを証明しました。著作権で保護されていないデータで AI をトレーニングできると主張しています

去年、OpenAI著作権で保護された素材にアクセスせずにChatGPTなどのツールを作成することは「不可能」だと述べた。しかし、フランスのスタートアップ企業の 1 つが、それが可能であることを証明しました。

著作権で保護された素材をめぐる法廷闘争が拡大する重要な時期に到来しており、最大の訴訟はニューヨーク・タイムズがOpenAIを告訴とその投資家マイクロソフトChatGPT をトレーニングするためにニュース記事を使用した疑い。

Common Corpus は、大規模言語モデル (LLM) をトレーニングするための最大の公開データセットを発表したため、法的な逆風に対する解決策を見つけたかもしれません。

この国際的な取り組みには、フランスの新興企業 Pleias が調整しており、研究者や、HuggingFace、Occiglot、Eleuther、Nomic AI などの他のオープン サイエンス AI 企業が参加しています。

また、このプロジェクトは、フランス文化省のフランス語部門が運営するプロジェクトである Langu:IA によっても支援されており、とりわけ「LLM のトレーニングと専門化のためにフランス語およびフランスの言語のデータへのアクセスを容易にする」ことを目的としています。

このコーパスは、1,800 億語を含むこれまでで最大の英語圏データセットを誇り、これには 2,100 万のデジタル化された新聞と数百万冊の書籍が含まれます。しかし、多言語にも対応しており、フランス語 (1,100 億語)、ドイツ語 (300 億語)、スペイン語、オランダ語、イタリア語で最大のオープン データ セットを持っています。

「(OpenAIのような企業との)競争のインセンティブを生み出すために、(コーパスは)非常に重要だと思います」とPleiasの共同創設者ピエール・カール・ラングレ氏はEuronews Nextに語った。

同氏は、「コーパスを公開すると、それをより良くし、重複を避けるという共通の関心を持つことになる」ため、協力には良いと述べた。

一部のヨーロッパ人出版社フランスの新聞ル モンドなどは、トレーニング用に自社のコンテンツをライセンス供与する契約を OpenAI と締結しました。

これらの協定の具体的な条件は明らかにされていないが、ラングレ氏は「米国企業に従わなければならない可能性があることを意味するため、非常に大きな懸念であり、フランスで最も重要なメディアの一つであることから特に懸念している」と述べた。

「したがって、この種の指揮系統を構築することは大きな問題です」と彼は付け加えた。

したがって、ラングレ氏は、著作権で保護されたデータの価値を下げることで競争の場を活用できるコーパスが不可欠であると考えています。

さまざまなタイプのオープンコンテンツ

Common Corpus には著作権で保護されていない素材が使用されているため、制限があります。

ヨーロッパでは、テキストが著作権の対象とならないためには、著者の死後 70 年が経過している必要があります。これは、データセットが新しいマテリアルでトレーニングされていないことを意味します。

「明らかに、言語を最新のものにすることに関してさまざまな問題が伴います…倫理的な問題も異なる可能性があると思いますが、今のところ、それは私たちが持っているオープンコンテンツの一部にすぎません」とラングレ氏は述べた。

データをより最新のものにするであろう他の 2 つの部分は、オープンな行政データであると同氏は言う。これは「ヨーロッパでは実際に大きなデータである。なぜなら、私たちはこのデータを回避することに大きなコミットメントを持っているからである」、もう 1 つはオープン サイエンス運動である。誰もが利用できる研究。

Langlais 氏は、共通コーパスを改善するもう 1 つの方法は、合成データを使用することであると述べました。合成データとは、実世界のデータに見られるパターン、関係、特性を再現して人工的に生成されたデータです。

2022年には、MITの研究者が発見した合成的にトレーニングされたモデルは、背景オブジェクトが少ないビデオの実データでトレーニングされたモデルよりもさらに優れたパフォーマンスを示しました。

しかし、ラングレ氏は、共通コーパスの目的は「共通のアイデアをより良くすることである」と信じていると述べた。

「したがって、私たちの取り組みの多くは、それがより豊かになり、より多様性があり、変更可能になるようにすることです」と同氏は述べ、将来的にはより多くのヨーロッパ言語をプロジェクトに含めたいと付け加えた。