3 カ月前、混元チームはある決断を下しました。基盤からすべてを建て直すという決断です。
事前学習も、強化学習も、インフラストラクチャも、すべてゼロから再構築しました。
そして今日、その再構築を経て初めて生まれた成果がお披露目されます。Hy3 preview(公式サイトから直接体験できます)です。
結論から申し上げましょう。
これは「高速な直感的思考」と「熟考する論理的思考」を融合させた混合専門化モデル(MoE)です。総パラメータ 2950 億、アクティブパラメータ 210 億、コンテキストウィンドウ 256K トークンという規模を誇り、混元史上、最も知的なモデルとなりました。あらゆる実用性を追求し、エージェント能力は飛躍的に向上しています。
|いくつかの主要指標
複雑な推論:難関を確実にクリア
推論能力はあらゆる機能の基盤です。Hy3 preview は、FrontierScience-Olympiad や IMOAnswerBench といった最高難度の理系ベンチマークで頭抜けた成績を収めただけでなく、実際の試験現場でも好結果を残しました。
清華大学 求真書院 数学博士資格試験(2026 年春)— 国内モデル最高得点
全国中学生生物学オリンピック(CHSBO 2025)— 優秀な成績
ベンチマークと実試験の両方で実証されたこの能力は、単なる「テスト対策」で刷り込まれたものではありません。構造そのものが強化された証左です。論文の数式を導出させたり、難問をお子さんに解説させたりする際にも、十分すぎるほど頼れる性能を発揮するでしょう。
コード作成とエージェント:中核能力を更なる高みへ
今回のアップデートで最も顕著な進歩を遂げたのが「エージェント」機能です。コード作成、情報収集、ツール活用を通じたタスク完遂まで、まさに「実務を代行」するレベルに達しています。ウェブ横断的な情報の比較、選別、要約といった複雑な多段階タスクも、これ一回で完璧にこなします。
プロンプトを一行入力するだけで、WeChat 上で動作するミニプログラムや、あるいは小游戏(ゲームアプリ)までもが完成します。
プロンプト例:「小さな惑星で資源採集と建設を行うゲームを作りたい。プレイヤーは雲上に浮かぶ無人の小さな惑星に降り立ち、ジョイスティックで移動しながら、自動的に草木や鉱石を採集し、集めた資源で自動的に建設を行う。爽やかなグラフィックと軽快なサウンド付きで」。
Tencent ドキュメントの AI アシスタント「開物 AI」にプロンプトを一行入力するだけで、PowerPoint が自動作成されます。
プロンプトを一行入力するだけで、WeChat 上で動作するミニプログラムが完成します。Hy3 preview は全ページのコードと設定ファイルを一度に出力。WeChat 開発者ツールにインポートするだけですぐプレビュー可能です。何度もやり取りして調整する手間は一切不要です。
プロンプト例:「ハイキングルート推薦ミニプログラムを作ってください。トップページのカルーセル表示、ルート詳細ページ、お気に入り機能を搭載してください」。
Hy3 preview は全ページのコードと設定ファイルを一度に出力。WeChat 開発者ツールにインポートするだけですぐプレビュー可能です。何度もやり取りして調整する手間は一切不要です。
技術者の皆様へ:SWE-Bench Verified、Terminal-Bench 2.0、BrowseComp、WideSearch といった主要な評価基準において、いずれも競争力のある結果を達成しています。
コード作成能力の評価
エージェント総合能力評価において、Hy3 preview は極めて高いコストパフォーマンスを示しました
長いコンテキストと指示の遵守:実社会の場で真価を発揮
実社会の情報は常に雑多です。議事録には 7~8 条の隠れた前提が埋め込まれ、旅行計画には予算の急変が隠れ、タスクの説明には「誰々が今週休暇」「誰々が来週残業」といった情報が混在しています。
プロジェクト計画、旅行の振り返り、読書メモ、会話のシミュレーション、事業転換など、あらゆる場面において、Hy3 preview は発言から意図やニーズの手掛かりを逃さず、かつ不用意な推測もせず、的確に「To Do(やるべきこと)」として整理します。
実生活にもっと多くの事例を見たい方は、こちらからご覧ください。
|自然な対話:もっと人間的な会話を
以前の返信はどこか「機械的」でした。「最近調子が悪い」と言えば、5 つのアドバイスを列挙するだけ。それが今や、Hy3 preview はまずあなたの感情を受け止め、その上で会話を弾ませてくれます。
文章作成を頼めば機械臭さが消え、質問を投げかければ比喩はより鮮やかになり、例え話も的確になります。
愚痴をこぼせば上から目線ではなく、文章を書かせれば AI 特有の硬さが薄れ、質問への回答も比喩が豊かに。まるで真剣に耳を傾け、考えを巡らせた上で返事をしてくれる人間のようです。
|これらの製品はすでに新モデルへ移行済みです
元宝(Yuanbao)
文章作成、雑談、検索機能が全面的にアップグレード。日常のチャット、文章作成、情報収集において、より「生身の人間らしさ」を感じさせ、的外れな回答も激減しました。
「ユーザーの意図を深く理解し、出力される文章により人間味が宿るようになりました」
— 元宝 プロダクトマネージャー
CodeBuddy / WorkBuddy
応答速度が約 2 倍に向上。500 ステップに及ぶ複雑なタスクも安定して完遂します。Tencent 社内のエンジニアも日常業務でコード作成に活用しており、社内ブラインドテストでの勝率は 55~56% に達しています。
「初回応答が 54% 高速化され、タスク完了まで 47% の時間短縮、成功率は 99.99% 以上を達成」
— CodeBuddy/WorkBuddy プロダクトマネージャー
ima
数万字に及ぶ文書を投入しても、知識庫内検索でも一般質問でも、必要な情報は確実に見つけ出し、要約も漏れなく網羅します。
「長文処理能力が極めて優秀。回答の正確性、網羅性、包括性のすべてにおいて高いパフォーマンスを発揮」
— ima プロダクトマネージャー
|Hy3 Preview 再構築における 3 つの原則
能力の体系化
「特定の分野だけ得意」といった偏った能力構成は推奨しません。コードエージェントでさえ、推論、指示理解、長文処理、対話能力など、多岐にわたる能力の連携によって成り立っています。
評価基準の現実性
ベンチマークの高得点=実用性が高いとは限りません。公開済みで対策が容易なベンチマークへの依存を避け、独自に構築した 50 種類以上の評価体系、最新試験問題、人手による評価、製品レベルでの多数ユーザーテストを通じて、真の実戦力を測定しています。
コストパフォーマンスの追求
モデルアーキテクチャと推論フレームワークを深く連携させることでタスクコストを大幅に低減。誰もが手の届く価格で、質の高い知性を活用できるようにしました。
|オープンソース化済み。開発者はすぐに利用可能
Hy3 preview の推論効率は 40% 向上。GitHub や Hugging Face にてモデル重みとコードを全面公開。無料ダウンロード可能です。
API 経由での利用をご希望の場合は、騰訊雲 TokenHub にて専用プランをご用意しています。
入力トークンあたり 1.2 元/100 万トークン~、出力トークンあたり 4 元/100 万トークン~。個人開発者の方であれば、月額 28 元程度で十分なケースがほとんどです。
|ここはスタート地点に過ぎません
Hy3 preview は一つの通過点に過ぎません。
混元チームは今後も事前学習と強化学習の規模を拡大し続け、より大規模なモデルの訓練もすでに進行中です。あわせて、Tencent が提供する多様な製品シーンとの緊密な共創(co-design)を通じて、実社会におけるモデルの性能を継続的に向上させていきます。
ぜひご利用いただき、遠慮なくフィードバックをお寄せください。
皆様からいただけるご意見は、私たち自身がテストする以上に価値あるものです。