公開日•更新されました
この記事をシェアする
新しい研究によると、AI 大規模言語モデル (LLM) が高度になればなるほど、クエリに答えられないと認める可能性が低くなります。
新しい研究によると、新しい大規模言語モデル (LLM) は、ユーザーの質問に対する答えがわからないと認める可能性が低く、そのため信頼性が低くなります。
スペインのバレンシア工科大学の人工知能 (AI) 研究者たちは、BigScience の BLOOM、Meta の Llama、OpenAI の GPT の最新バージョンの精度を、各モデルに数学、科学、地理に関する数千の質問をしてテストしました。
研究者は各モデルの回答の質を比較し、正解、不正解、または回避的な回答に分類しました。
雑誌に掲載された研究自然、新しいモデルが登場するたびに、より難しい問題の精度が向上することがわかりました。それでも、質問に正しく回答できるかどうかについては、あまり透明性が低い傾向がありました。
以前の LLM モデルでは、答えが見つからないか、答えを導き出すにはさらに情報が必要だと答えていましたが、新しいモデルでは、たとえ簡単な質問であっても推測して不正確な応答を生成する可能性が高くなりました。
基本的な問題の解決に「明らかな改善は見られない」
LLM は、AI を使用してデータセットに基づいて新しいコンテンツを理解し、予測し、生成する深層学習アルゴリズムです。
新しいモデルは、より複雑な問題をより正確に解決できるようになりましたが、研究に参加した LLM は、基本的な質問に答える際に依然としていくつかの間違いを犯しました。
研究論文によれば、「非常に低い難易度でも完全な信頼性は達成されない」という。
「モデルは非常に困難なインスタンスを解決できますが、非常に単純なインスタンスでも依然として失敗します。」
これは OpenAI の GPT-4 の場合に当てはまり、「回避」回答の数は以前のモデル GPT-3.5 から大幅に減少しました。
「これは、最近のLLMが動作範囲外での応答をよりうまく回避するだろうという期待と一致しません」と研究著者らは述べた。
研究者らは、技術がスケールアップされたにもかかわらず、モデルに「明らかな改善は見られない」と結論付けた。