FacebookやInstagramの投稿があまり話さないグローバル言語での投稿を見るのはまもなく簡単になりますが、専門家はツールを改善するために、メタがネイティブスピーカーと通信する必要があることを示唆しています。
FacebookやInstagramが世界中の200のあまり話さない言語で投稿しやすくなるのはすぐに簡単に表示されます。
MetaのNo Language Lefted(NLLB)プロジェクトは、今月公開された論文で発表され、元のテクノロジーを拡大しました。
このプロジェクトには、スコットランドのゲーリック、ガリシア語、アイルランド語、リングゥリアン、ボスニア、アイスランド語、ウェールズ語など、数十の「低リソース」ヨーロッパ言語が含まれています。
メタによると、それは使用できるデータに100万未満の文を持つ言語です。
専門家は、サービスを改善するために、メタはネイティブスピーカーや言語の専門家に相談する必要があると言います。ツールにはまだ作業が必要であるためです。
プロジェクトはどのように機能しますか
Metaは、機械学習をプログラムできるさまざまな言語の本物のテキストまたはライティングのコレクションを備えたオープンソースプラットフォームであるOPUSリポジトリのデータを使用して、人工知能(AI)を訓練します。
データセットへの貢献者は、自然言語加工(NLP)の専門家です。コンピューターに人間の言語を翻訳して理解する能力を提供するAI研究のサブセットです。
Metaは、データベースにWikipediaのようなソースからのマイニングデータの組み合わせも使用していると述べました。
データは、メタが多言語モデル(MLM)と呼ぶものを作成するために使用されます。ここでは、AIは「英語のデータに依存することなく言語のペア間で」翻訳できます。
NLLBチームは、オープンソースである人間が翻訳した文のベンチマークで、翻訳の品質を評価します。これには、テキストを翻訳するときに人間がソフトウェアを除外するように教えることができる「毒性」の単語またはフレーズのリストが含まれます。
彼らの最新の論文によると、NLLBチームは、2020年にリリースされた最初のモデルから翻訳の精度を44%改善しました。
テクノロジーが完全に実装されると、Metaは、Facebookのニュースフィード、Instagram、その他のプラットフォームで毎日250億以上の翻訳があると推定しています。
「人々に話しかける」
エディンバラ大学のゲール語民族学と言語学の教授であるウィリアム・ラムは、NLLBプロジェクトでメタによって特定された低資源言語の1つであるスコットランドのゲール語の専門家です。
スコットランドの人口の約2.5%、約130,000人が、2022年の国勢調査に、13世紀のケルト語で何らかのスキルを持っていると語った。
また、カナダ東部には約2,000人のゲール語講演者がいます。そこでは、少数言語です。ユネスコは、定期的にそれを話す人が少ないため、絶滅によって言語を「脅迫された」と分類しています。
ラムは、スコットランドのゲール語でのメタの翻訳は「まだ良くない」と述べた。
「彼らがすべきこと…彼らが本当に翻訳を改善したいなら、人々と話すことであるなら、まだ言語を生きて呼吸しているネイティブのゲーリックスピーカーです」とラムは言いました。
それは言うよりも簡単です、ラムは続けました。ネイティブスピーカーのほとんどは70代であり、コンピューターを使用しておらず、若いスピーカーは「祖父母のようにゲーリックを習慣的に使用していません」。
優れた代替品は、MetaがBBCとライセンス契約を獲得することです。BBCは、高品質のオンラインコンテンツを作成することで言語を維持するために取り組んでいます。
「これは専門家によって行われる必要があります」
スペインのサンティアゴ・デ・コンポステラ大学のAIの教授であるアルベルト・ブガリン・ディズは、ラムのような言語学者が大手ハイテク企業と協力して、利用可能なデータセットを改良すべきだと考えています。
「これは、テキストを修正し、それらを修正し、使用できるメタデータで更新できる専門家によって行う必要があります」とブガリンディズは言いました。
「人文科学の人々や、エンジニアのような技術的背景からの人々は、協力する必要があります。それは本当のニーズです」と彼は付け加えました。
Wikipediaを使用する際にメタには利点があります。これは、データが「人間の生活のほぼすべての側面」を反映するため、より正式なテキストを使用するよりもはるかに優れている可能性があることを意味します。
しかし、ブガリン・ディズは、メタと他のAI企業が時間をかけてオンラインで質の高いデータを探してから、知的財産法を破ることなく、それを使用するために必要な法的要件を経ることを提案しています。
一方、ラムは、メタがデータセットにいくつかの変更を加えない限り、データのエラーのために人々がそれを使用することを推奨しないと述べた。
「彼らの翻訳能力は、ツールが実際に役立つ時点であるとは言いません」とラムは言いました。
「私はまだ信頼できる言語ツールとして誰も奨励していません。彼らもそれを言って前もってだと思います」。
Bugarín-Dizは別のスタンスを取ります。
彼は、誰もメタの翻訳を使用しなければ、時間とリソースを改善に投資することを「喜んではない」と考えています。
他のAIツールと同様に、Bugarin-Dizは、それを使用する前にテクノロジーの弱点を知ることの問題だと考えています。