Deepseek-R1は、チップが少なく低コストで開発された一連のモデルの最新のモデルであり、Openai、Google、およびMetaの優位性に挑戦しています。
中国の人工知能(AI)Lab Deepseekの名を冠した大手言語モデル(LLM)は、Silicon Valleyを米国のOpenaiのChatGptの最大の競合他社の1人に驚かせました。
最新のものdeepseek今月リリースされたモデルは、非常に高速で低コストの両方であると言われています。
少ないチップで開発された最後のモデルであるDeepSeek-R1は、Openai、Google、Metaなどの巨大なプレーヤーの支配にすでに挑戦しており、月曜日にチップメーカーNvidiaの株式を送信しています。
中国からの業界の破壊者について私たちが知っていることは次のとおりです。
中国に拠点を置く杭州に拠点を置く会社は、2023年7月に情報および電子工学エンジニアであり、Zhijiang大学の卒業生であるLiang Wenfengによって設立されました。
これは、2015年に設立されたファンドLiangであるHigh-Flyerのインキュベーションプログラムの一部でした。Liangは、業界の他の主要な名前と同様に、さまざまなタスクで人間を追いかけるか、凌ぐことができる「人工的な一般情報」のレベルに到達することを目指しています。 。
DeepSeekの資金調達モデルにより、独立して運営されているため、外部の投資家からの圧力なしに野心的なAIプロジェクトを追求し、長期的な研究開発に優先順位を付けることができます。
Deepseekのチームは、中国のトップ大学の若い卒業生で構成されており、実務経験よりも技術的なスキルを優先する会社の採用プロセスがあります。
要するに、人工知能モデルを開発する過程で新しい視点があると考えられています。
Deepseekの旅は、2023年11月に、タスクをコーディングするために設計されたオープンソースモデルであるDeepseek Coderの発売とともに始まりました。
これに続いて、他の主要な言語モデルと競合することを目的としたDeepseek LLMが続きました。 2024年5月にリリースされたDeepSeek-V2は、その強力なパフォーマンスと低コストのために牽引力を獲得しました。
また、Bytedance、Tencent、Baidu、Alibabaなどの他の中国の主要なハイテク大手を強制し、AIモデルの価格を引き下げました。
DeepSeekモデルの容量は何ですか?
DeepSeek-V2は、2360億パラメーターを備えたより高度なモデルであるDeepSeek-Coder-V2に置き換えられました。
複雑なコーディングプロンプト用に設計されたこのモデルには、最大128,000トークンの高いコンテキストウィンドウがあります。
トークンはテキストのユニットです。このユニットは、多くの場合、単語、粒子(「人工」や「知性」など)、またはキャラクターでさえあります。たとえば、「人工知能は素晴らしいです!」 「人工」、「インテリジェンス」、「素晴らしい」、「!」の4つのトークンで構成されます。
128,000トークンのコンテキストウィンドウは、モデルが同時に処理できる入力テキストの最大長です。
より大きなコンテキストウィンドウを使用すると、モデルが長いテキストを理解、要約、または分析することができます。これは、たとえば、長い文書、本、または複雑な対話に取り組んでいる場合、大きな利点です。
同社の最新モデルDeepSeek-V3とDeepSeek-R1は、その立場をさらに統合しています。
671,000パラメーターモデルであるDeepSeek-V3では、他のブランドとのさまざまなベンチマークテストで印象的に実行しながら、ピアよりもは大幅に少ないリソースが必要です。
今月発売されたDeepSeek-R1は、推論、コーディング、数学などの複雑なタスクに焦点を当てています。この分野にその機能があるため、ChatGPTの最新モデルの1つであるO1に挑戦しています。
Forbesによると、Deepseekは短期間で大成功を収めていますが、主に研究に焦点を当てており、近い将来に商業化の詳細な計画はありません。
エンドユーザーは無料ですか?
Deepseekが注目を集めた主な理由の1つは、エンドユーザーにとって無料であることです。
これは、ユーザーが無料で利用できる最初のこのような高度なAIシステムです。 Openai O1やClaude Sonnetなどの他の強力なシステムには、有料のサブスクリプションが必要です。一部のサブスクリプションでさえ、ユーザーに割り当てを課します。
Google Geminiも無料で利用できますが、無料バージョンは古いモデルに限定されています。 Deepseekには今のところ制限がありません。
それを使用する方法は?
ユーザーは、「chat.deepseek」でエンドユーザー向けに開発されたDeepSeekチャットインターフェイスにアクセスできます。チャット画面にコマンドを入力し、「検索」ボタンを押してインターネットを検索するだけで十分です。
あらゆるテーマに関するより詳細な情報を取得するための「深い考え方」オプションがあります。このオプションは、ユーザーのリクエストに対するより詳細な回答を提供しますが、検索エンジンでより多くのサイトを検索することもできます。ただし、特定のソースに依存するだけで検索するChatGPTとは異なり、この機能は一部の小さなサイトに関する誤った情報を明らかにする可能性があります。したがって、ユーザーはこのチャットボットで取得した情報を確認する必要があります。
安全ですか?
Deepseekの使用に関するもう1つの重要な質問は、それが安全かどうかです。 DeepSeekは、他のサービスと同様に、中国のサーバーに保存される可能性が高いユーザーデータが必要です。
他のLLMと同様に、ユーザーがチャットボットに機密データを提供しないことが重要です。
DeepSeekもオープンソースであるため、独立した研究者はモデルのコードを調べて、安全であるかどうかを判断することができます。セキュリティの懸念に関するより詳細な情報は、今後数日でリリースされる予定です。
オープンソースとはどういう意味ですか?
DeepSeek-R1を含むモデルは、主にオープンソースとしてリリースされています。これは、誰でもツールのコードにアクセスし、それを使用してLLMをカスタマイズできることを意味します。トレーニングデータは独自です。
一方、OpenaiはO1モデルを閉鎖しており、すでにユーザーのみに販売しています。これは、1か月あたり20ドル(19ユーロ)から200ドル(192ユーロ)のパッケージを使用しています。
米国の制限にもかかわらず、どのようにしてそのようなモデルを生成しましたか?
同社はまた、技術的能力と市場リーチを強化するための戦略的パートナーシップを確立しています。
注目すべきコラボレーションの1つは、米国チップカンパニーAMDとのものでした。 Forbesによると、Deepseekは、特にDeepSeek-V3で、モデル開発の主要な段階でAMD Instinct GPU(グラフィックプロセッシングユニット)とROCMソフトウェアを使用しました。
MIT Technology Reviewは、Liangが中国に対する米国チップ制裁のずっと前に、現在中国への輸出を禁止されているタイプであるNvidia A100チップのかなりの株を購入したと報告しました。
中国のメディアアウトレット36krは、同社の在庫が10,000台以上あると推定しています。この数字は50,000だと言う人もいます。
AIトレーニングのこの株の重要性を認識して、LiangはDeepseekを設立し、低電力チップと一緒にモデルを改善するためにそれらを使用し始めました。
しかし、ここでの重要な点は、Liangがリソースがほとんどない有能なモデルを構築する方法を見つけたことです。
米国のチップエクスポート制限により、ディープシーク開発者は、コンピューティングパワーの不足を補うために、よりスマートでエネルギー効率の高いアルゴリズムを作成することを余儀なくされました。
CHATGPTは、トレーニングデータを処理するために10,000 NVIDIA GPUが必要であると考えられています。 Deepseekのエンジニアは、わずか2,000 GPUで同様の結果を達成したと言います。
Deepseekに対する反応はどうでしたか?
ScaleaiのCEOであるAlexandr Wangは、OpenaiやGoogleなどの主要なプレーヤーのAIモデルにトレーニングデータを提供し、先週のDavosで開催されたWorld Economic Forum(WEF)でのスピーチで、Deepseekの製品を「地球粉砕モデル」と説明しました。
Deepseekはアメリカのライバルを驚かせましたが、アナリストはすでに西側でのリリースが何を意味するかについて警告しています。
「私たちは警戒すべきです。英国と西洋社会にさらに統合する中国のAIテクノロジーは、単なる悪い考えではありません。それは無謀な考えです」と情報センターの共同設立者であるロス・バーリーは言いました。
「北京が国内および海外の両方で、監視、制御、および強制のための技術的支配を何度も見てきました。スパイウェアを搭載したデバイス、国家主催のサイバーキャンペーン、または反対意見を抑制するAIの誤用を介して、中国の実績は、その技術が地政学的戦略の延長であることを示しています」と彼は付け加えました。
「これは良性の大規模な言語モデルのように見えるかもしれませんが、AIが中国政府に批判的な情報を抑制していることをすでに見てきました」。
他の人々は、最新のLLMをリリースする動きは政治的な動きであり、すでに激しい中国系アメリカ人の関係に炎症を起こす可能性が高いことに同意します。
「テクノロジーの革新は本物ですが、リリースのタイミングは本質的に政治的です」と、戦略および国際研究センターのワドワニAIセンターのディレクターであるグレゴリーアレンはAP通信に語った。
アレンは、先週のディープシェクの発表を、2023年のバイデン管理輸出管理に関する外交討論中に、米国の認可中国企業のホーウェイが新しい電話を発表したことを比較しました。
「輸出規制が無駄であるか逆効果であることを示しようとすることは、現在の中国の外交政策の非常に重要な目標です」とアレンは言いました。