Google Gemini 3.1 Proがランキングを制覇、清華大学の姚順宇が参戦!ClaudeとGPTが追い詰められる

图片

新智元報道

編集:好困 桃子

【新智元編集部注】Google DeepMindが深夜に衝撃弾を投下、次世代Gemini 3.1 Proが正式に登場。最も困難とされるARC-AGI-2テストで最高得点を記録し、シリコンバレーを驚愕させた。推論能力が2倍に急上昇し、Claude 4.6を王座から引きずり下ろした。

Gemini 3 Proに続き、Google DeepMindがついに切り札を切り出した!

先ほど、次世代フラッグシップモデルGemini 3.1 Proが深夜に衝撃のデビューを果たし、全領域のSOTAを更新し、AIの新王者となった。

图片

图片

Deep Thinkに続き、清華大学校友の姚順宇もGemini 3.1 Proの開発に参加した。

今回、Gemini 3.1 Proは大規模モデルの推論能力において歴史的な飛躍を実現した。

極めて厳格なARC-AGI-2テストにおいて、77.1%という高得点を獲得し、前世代の3.0 Proの2倍以上の性能向上を達成した。

さらに、ほぼ満点(98%)に近いARC-AGI-1の成績も加わり、思考力を極限まで発揮したClaude Opus 4.6であれ、特別調整版のGPT-5.2であれ、すべてその足元にひれ伏させた。

图片

图片

图片

以下のSVG比較テストから、3.1 Proと3 Proの間の圧倒的な実力差を直感的に感じ取ることができる。

图片

プログラミングと推論の分野において、Gemini 3.1 Proは同様に一騎当千で、Sonnet 4.6、GPT-5.2を全面的に圧倒した。

AAII総合評価において、3.1 Proは強力に首位に立ち、Claude Opus 4.6を総合得点で4ポイント上回り、API呼び出しコストはその半分以下となった。

图片

本日より、Gemini 3.1 ProはGeminiとNotebookLMで正式に提供開始された。開発者はGoogle AI Studio、Antigravity、Android Studioを通じて先行体験が可能だ。

图片

今や、シリコンバレーのAI戦局は一変し、主要プレイヤーはGoogle DeepMindとAnthropicの「正面衝突」のみとなった。

かつて圧倒的な注目を集めたOpenAIは、この主戦場での主導権を徐々に失いつつあるようだ。

Gemini 3.1 Pro深夜の急襲 全能SOTA成績が倍増

Google史上最強のモデルとして、3.1 Proは3 Proを基礎として全面的な飛躍を達成した。

ネイティブの全モーダル入力能力を備えるだけでなく、100万トークンまでの超長コンテキストをサポートしている。

图片

業界が最も注目する性能比較において、Gemini 3.1 Proは息をのむような支配力を発揮した。

Humanity's Last Exam(HLE)において、Gemini 3.1 Proはツール支援なしで44.4%の成績を収め、GPT-5.2(34.5%)とOpus 4.6(40.0%)を追い詰めた。

ARC-AGI-2テストでは、Gemini 3.1 Proが77.1%という驚異的な成績で圧倒的な差をつけ、わずか2日前に首位に立ったばかりのOpus 4.6(68.8%)を大きく引き離した。

さらに衝撃的なのは、コードとAIエージェントの分野における飛躍的な進化だ。

  • LiveCodeBench Proでは、2887のElo評価を獲得し、同業者を圧倒的な差でリード。

  • Terminal-Bench 2.0では、68.5%のスコアでコード特化のGPT-5.3-Codex(64.7%)を抑えた。

  • APEX-Agentsでは、33.5%の成績で群雄を制し、比較するとOpus 4.6は29.8%、GPT-5.2はわずか23.0%であった。

图片

图片

ハードコアな推論だけでなく、Gemini 3.1 Proは長文処理でも圧倒的な実力を披露した。

MRCR v2の128k長コンテキストテストでは、84.9%という高得点を直接獲得した。

さらに驚くべきことに、1Mトークンの究極テストを独自にサポートし26.3%の成績を収めたが、同台で競ったGPT-5.2とOpus 4.6はこのレベルでは「非対応」と表示される始末だ。

图片

さらに重要なのは、前世代と比較して、3.1 Proはハルシネーション率が大幅に低下したことだ。

图片

神級アプリを手作り、これこそがキラーアプリAI

3.1 Proがもたらしたのは、ベンチマーク上の圧倒だけでなく、論理推論能力の全面的な進化だ。

今や、極めて困難な論理パズルを解くだけでなく、実践的な応用においても驚くべき生産性変革能力を発揮している。

晦渋な概念を直感的な図解に変換し、大量のデータを明確なチャートに凝縮し、突飛なアイデアを直接現実に変えることまで、3.1 Proは軽々とこなす。

图片

コードベースのアニメーション

シンプルなテキストプロンプトを入力するだけで、3.1 Proはウェブページにシームレスに埋め込めるSVGアニメーションを直接生成できる。

最も素晴らしいのは、これら純粋なコードで構築されたアニメーションが無限拡大に対応し、絶対的に鮮明であることだ。さらに、従来の動画と比較してファイルサイズが信じられないほど小さい。

複雑システムの統合

強力な推論能力により、3.1 Proは複雑なAPIと人間味のあるデザインの間の壁を完全に打ち破った。

例えば、リアルタイムの宇宙データダッシュボードを直接構築し、公開テレメトリーデータストリームを完璧に接続し、国際宇宙ステーションのリアルタイム運行軌道を明確に目の前に表示できる。

インタラクティブデザイン

3.1 Proは純粋なコードで極めて複雑な3Dムクドリ群舞エフェクトを作成し、没入型体験を提供することもできる。

このシステムでは、ジェスチャートラッキング技術を通じてリアルタイムで鳥の群れを「指揮」でき、同時に鳥の群れの動きに合わせてリアルタイムで変化する生成的な伴奏も聴くことができる。

これは研究者やデザイナーがマルチモーダルインタラクションインターフェースのプロトタイプを開発する上で強力なツールとなる。

クリエイティブプログラミング

さらに面白いのは、3.1 Proが古典的な文学テーマを実際に動作する美しいコードに変換できることだ。

例えば、『嵐が丘』の現代的な個人ホームページをデザインさせると、モデルは原作の抑圧的で深淵な雰囲気を正確に捉えるだけでなく、ミニマルで現代的なインターフェースを生成し、主人公の魂の本質を見事に表現した。

ネット上の驚愕初テスト、SVGを制覇

GoogleのUXエンジニアMichael Changが実際に3.1 Proを使って複雑な都市計画をシミュレーションし、瞬時に新しい都市の鳥瞰図トポロジーを生成・デザインした。

图片

たった一文のプロンプトを入力するだけで、3.1 Proはわずか3分で11秒のSVGアニメーションを作成した。

图片

图片

別のSVGテストでは、生成された「アザラシがボールを頭で支える」アニメーションも視覚表現力において驚くべきものだった。

图片

AIの第一人者Simon Willisonはテストで、3.1 Proに5分以内に脚を明確に描いたペリカンのSVGを生成させた。

图片

3D空間推論の面でも、3.1 Proは新たなSOTAだ。

图片

3.1 Proが生成した3Dピクセル版ポケモンは、3.0 Proよりはるかに優れている。

图片

图片

さらに、3.1 Proは最高のインタラクティブアニメーションを生成し、種子から発芽して大木に成長する全過程を示すことができる。

图片

图片

進化に終わりはない、より強い次の幕だけがある

本日より、Gemini 3.1 Proプレビュー版が正式にリリースされたが、これは新たな始まりに過ぎない。

Googleは、昨年11月から現在まで、ユーザーからのリアルなフィードバックが毎回の開発イテレーションを加速させたと述べた。

图片

Gemini 3.1 Proの深夜の急襲は、AI業界の構造を再び塗り替えるものだ。

Google DeepMindは、この「筋肉見せ」とも言えるイテレーションスピードで世界に伝えた——

AGIへの深水領域において、ハードウェアの計算力とアルゴリズムが深く結合したプレイヤーだけが、後半戦のチケットを確実に手にできるのだと。

参照資料:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

https://x.com/Google/status/2024519455389192204?s=20

https://deepmind.google/models/model-cards/gemini-3-1-pro/

関連記事

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.