M2 シリーズモデルのリリースから数ヶ月が経ち、多くの熱心なユーザーからフィードバックや提案をいただきました。これにより、モデルのイテレーション効率をさらに加速させる必要に迫られました。より一層懸命に働くこと以外に私たちが辿り着いた唯一の道、それはモデルと組織自身の「自己進化」を開始することです。MiniMax M2.7 は、モデル自身がその進化プロセスに深く関与して構築された、記念すべき最初のモデルです。
M2.7 は、複雑なエージェント・ハーネスを自ら構築し、エージェントチーム、高度なスキル、ツール検索などの機能を駆使して、極めて複雑な生産性タスクを完遂することができます。例えば、M2.7 の開発過程において、私たちはモデルを用いて強化学習用ハーネス内の数十もの複雑なスキルを構築し、自身のメモリを更新。これによりモデル自身の強化学習を駆動し、その結果に基づいて強化学習プロセスやハーネス自体を最適化する、モデルによる自己進化のサイクルを確立しました。
真のソフトウェアエンジニアリングにおける卓越した性能: エンドツーエンドの完全なプロジェクト納品、ログ分析によるバグ特定、コードセキュリティ、機械学習など、実環境のソフトウェアエンジニアリングにおいて M2.7 は優れた成果を上げています。ベンチマークテスト「SWE-Pro」では 56.22% のスコアを記録し、Opus の最高水準にほぼ匹敵します。この能力は、エンドツーエンドの完全なプロジェクト納品シナリオ(VIBE-Pro 55.6%)や、複雑なエンジニアリングシステムの深い理解を問う「Terminal Bench 2」(57.0%)にもそのまま反映されています。
専門的なオフィス業務における飛躍: 各分野における専門知識とタスク遂行能力を向上させました。「GDPval-AA」における ELO レートは 1495 に達し、オープンソースモデルとして最高を記録。Office 3 点セット(Excel、PPT、Word)の複雑な編集能力が著しく向上し、多次元の修正や高忠実度な編集も可能になりました。また、複雑な環境との対話能力も備えており、40 種類の複雑なスキル(2000 トークン以上)を要するケースにおいて 97% という高いスキル準拠率を維持しています。「OpenClaw」の使用においても M2.5 から顕著な向上が見られ、「MM-Claw」の評価では Sonnet 4.6 に迫る性能を発揮しました。
アイデンティティの保持と感情知能: M2.7 は優れたキャラクター設定の保持能力と EQ(感情的知性)を備えており、生産性ツールとしての利用に加え、インタラクティブなエンターテインメントシーンにおける革新の余地も大きく広げています。
これらの能力に基づき、M2.7 は私たち自身をAI ネイティブな組織へと進化させるプロセスを著しく加速させています。
01
モデル自己進化エージェントの構築
まずはじめに、M2 シリーズモデルに自己進化を促すための社内の実践事例をご紹介します。これは、モデルのエージェント能力の限界を探る試みでもあります。
通常、エージェント・ハーネスは、モデルが様々な作業環境に適応する能力を高めるため、複雑なスキル、記憶システム、その他のコンポーネントに依存しています。これを踏まえ、私たちは M2 の初期バージョンにおいて、これを「リサーチ特化型エージェント・フレームワーク」へと導きました。このシステムは、さまざまな研究プロジェクトチームと対話・連携することができ、データパイプライン、トレーニング環境、評価インフラ、チーム間連携、永続的メモリを網羅。研究者がより優れたモデルを生み出すために駆動させ、研究エージェントが次世代モデルを生み出すイテレーション・サイクルを主導します。研究者が各レイヤーで方向性を示し、モデルが各レイヤーでの構築を担当するという役割分担です。
強化学習(RL)のシナリオを例にとってみましょう。研究者が実験のアイデアからエージェントと議論を始めます。エージェントは文献調査を補佐し、事前に設定された実験仕様を追跡し続け、データパイプラインやその他の連携作業を完了させて実験を起動します。実験の実行中は、実験ステータスを自動的に監視・分析し、ログの読み取り、問題のトラブルシューティング、指標の分析、コード修正、マージリクエスト、スモークテストを自動的にトリガー。細やかでありながら重要な変更を特定・設定します。かつては異なるチームに属する複数のメンバーの協力を要していたこれらの作業も、今や研究者は重要な意思決定や議論の場でのみ関与すればよくなりました。これにより、問題発見と実験のイテレーションが大幅に加速され、モデルのデリバリーが迅速化されました。このシナリオ下において、M2.7 はワークフローの 30〜50% を単独で担うことが可能です。
イテレーションの過程で、モデルが自律的にハーネスを反復改善する能力の重要性にも気づかされました。社内のハーネスはフィードバックを自律的に収集し、内部タスクの評価セットを構築。これに基づき、エージェントアーキテクチャ、スキル/MCP の実装、記憶メカニズムを絶えず改良し、タスクをより良く、より効率的に完了させるように進化しています。
一例として、M2.7 に内部フレームワーク上のモデルのソフトウェアエンジニアリング性能の最適化を指示しました。M2.7 は全プロセスを自律的に実行。「失敗した軌跡の分析→変更計画の立案→フレームワークコードの修正→評価の実行→結果の比較→維持またはロールバックの決定」というイテレーション・サイクルを 100 ラウンド以上繰り返しました。
このプロセスにおいて、M2.7 はモデルに対する有効な最適化を発見しました。温度、頻度ペナルティ、存在ペナルティなどのサンプリングパラメータの最適な組み合わせを体系的に探索。モデルにより具体的なワークフローの指針(例:修正後に他のファイルから同様のバグパターンを自動検索するなど)を設計。フレームワークのエージェントループにループ検出などの最適化を追加しました。その結果、内部評価セットにおいて効果が 30% 向上しました。
私たちは、未来の AI による自己進化は、データ構築、モデルトレーニング、推論アーキテクチャ、評価などを含む完全な自動化へと段階的に移行していくと信じています。M2.7 を用いて「MLE Bench Lite」の 22 の機械学習タスクのテストに参加しましたが、これは研究開発のほぼ全工程を網羅するものでした。
エージェントが自律的に最適化を行うよう導くための簡易的なフレームワークを設計・実装しました。その中核モジュールは、「短期記憶」「自己フィードバック」「自己最適化」の 3 つです。具体的には、エージェントは各イテレーション完了後に短期記憶ファイルを生成し、そのラウンドの結果に対して自己フィードバックを行います。これにより次ラウンドへの潜在的な最適化の方向性を示し、次ラウンドではこれまでの全ラウンドの記憶と自己フィードバックの連鎖に基づいて、次の自己最適化を実行します。
計 3 回のテストを実施しました。それぞれ 24 時間のイテレーション進化の時間を設けましたが、下図の通り M2.7 は時間の経過とともに性能を向上させ続けました。最も良い結果では金メダル 9 個、銀メダル 5 個、銅メダル 1 個を獲得。3 回の平均メダル獲得率は 66.6% で、この成績は Opus-4.6(75.7%)、GPT-5.4(71.2%)に次ぎ、Gemini-3.1(66.6%)と並ぶものでした。
02
真のソフトウェアエンジニアリング
コード生成タスクにおいて、M2.7 は真のソフトウェアエンジニアリングに不可欠なプログラミング能力をより深く磨き上げました。ログ分析とバグ特定、コードリファクタリング、コードセキュリティ、機械学習、Android 開発など多岐にわたる分野をカバーしています。
オンライン上で最も一般的な本番環境の障害デバッグを例にとってみましょう。この種のタスクにはコード生成だけでなく、強力な総合推論能力が求められます。実際の本番環境アラートに対し、M2.7 は監視指標とデプロイのタイムラインを関連付けて因果推論を行い、軌跡サンプリングの統計分析から正確な仮説を提示。データベースに能動的に接続して根本原因の検証を実行し、コードリポジトリ内で欠落しているインデックス移行ファイルを特定。さらに、ノンブロッキングでのインデックス作成による応急処置(止血)を行い、その後にマージリクエスト(MR)を提出するといった判断も下します。
可観測性の分析、データベースの専門知識から SRE(サイトリライアビリティエンジニア)レベルの意思決定に至るまで、これは単にコードが書けるモデルではなく、本番システムを真に理解するモデルです。従来の人手によるトラブルシューティング・プロセスと比較し、M2.7 を導入したことで、オンライン本番システムの障害復旧時間を複数回にわたり 3 分以内に短縮することに成功しました。
オンライン本番環境の障害デバッグ
単一のコーディング能力においても、M2.7 は国際トップクラスのモデルと同等の水準に達しています。多言語を網羅する「SWE-Pro」において、M2.7 は 56.22% の正解率を記録し、GPT-5.3-Codex に匹敵。より実際のエンジニアリング・シナリオに近い「SWE Multilingual(76.5)」や「Multi SWE Bench(52.7)」では、より顕著な優位性を示しました。
この能力は、エンドツーエンドの完全なプロジェクト納品シナリオにも拡張されています。リポジトリレベルのコード生成ベンチマーク「VIBE-Pro」において、M2.7 は 55.6% を記録。Opus 4.6 にほぼ並ぶスコアです。これは、Web、Android、iOS、シミュレーションなど、いかなる種類の要件であっても M2.7 に任せることができることを意味します。
さらに注目すべきは、複雑なエンジニアリング・システムに対する深い理解力です。システム理解への要求が極めて高い「Terminal Bench 2(57.0%)」や「NL2Repo(39.8%)」においても、M2.7 は安定したパフォーマンスを発揮。コード生成が得意なだけでなく、ソフトウェア・システムの動作ロジックや連携プロセスを深く理解できることを裏付けています。
M2.7 によって生成された WildGuard デモページ
開発効率を向上させる上で、重要な機能の一つがネイティブな「エージェントチーム(マルチエージェント協調)」です。エージェントチームはモデルにパラダイムレベルの要求を突きつけます。役割の境界、対立的推論、プロトコルの遵守、行動の分化――これらはプロンプトだけでどうにかなるものではなく、モデルのネイティブな能力として内在化されている必要があります。
エージェントチームのシナリオでは、モデルは役割のアイデンティティを安定して保持し、チームメイトの論理や倫理的な盲点を積極的に指摘し、複雑なステートマシンの中で自律的に意思決定を行う必要があります。以下は、プロダクトのプロトタイプ開発に使用する社内のエージェントチームの例で、最小限の組織構成を含んでいます。
エージェントチームによる協調シミュレーションデモ
03
専門的なオフィス業務
ソフトウェアエンジニアリングに加え、オフィスシーンにおいてもエージェントの有用性が急速に高まっています。ここで重要となるのが、以下の 2 つの中核能力です。
専門知識とタスク遂行能力: モデルは各分野の専門知識を有し、ユーザーのニーズを理解している必要があります。この能力を測る「GDPval-AA」の評価において、M2.7 は 45 モデル中で ELO レート 1500 を記録。Opus 4.6、Sonnet 4.6、GPT-5.4 に次ぎ、GPT-5.3 を上回る成績を収めました。最も一般的なオフィス文書処理においては、Word、Excel、PPT を処理する能力を体系的に最適化。M2.7 は様々なエージェント・ハーネス上において、テンプレートやスキルに基づいてファイルを直接生成できるだけでなく、ユーザーの対話指示に従い、既存のファイルに対して多次元の高忠実度な編集を繰り返し、最終的に編集可能な成果物を出力することが可能です。
複雑な環境との対話能力: 汎用的な日常シーンとは、モデルが多様なコンテキストに柔軟に適応し、様々なスキルやツールを呼び出し、長期的な対話の中で安定して指示に従う能力を意味します。M2.7 はこれらの面で大幅な向上を遂げました。「Toolathon」では正解率 46.3% を達成し、世界トップクラスに位置しています。実際の業務シーンにおけるエージェント・ハーネスもまた、多くの複雑なスキルを理解・呼び出す必要があります。「MM-Claw」のテストでは、40 種類の複雑なスキル(2000 トークン以上)を要するケースにおいて、97% というスキル準拠率を維持しました。
金融(Finance)分野における専門水準をテストしたところ、前世代のモデルと比較して能力の顕著な向上が見られました。例えば、金融分野において調査報告書を読み込み、企業の将来売上をモデリングするシナリオでは、M2.7 は企業の年次報告書と決算説明会の議事録を自律的に読み込み、複数の調査報告書を相互に照合。独自に仮説を設計して売上予測モデルを構築し、テンプレートに基づいて PPT や調査報告書を作成。あたかも新人アナリストのように理解・判断・出力を行い、多次元の対話の中で自己修正を行います。実務家からは「成果物は初稿としてそのまま後の工程に回せるレベル」との評価をいただいています。
以下は、TSMC(台湾積体電路製造)に関する事例です。
タスク:TSMC の年次報告書と決算説明会の情報に基づき、TSMC の売上モデルを構築。複数の調査報告書を読み込み、対応する仮説を設計。最新の情報に基づいて TSMC の売上をモデリングし、PPT テンプレートを用いて PPT を作成。さらに、Word 文書による調査報告書と Excel によるチャートを作成せよ。
① PPT 報告デモ(上下にスクロール可能)
② Word 調査報告書(上下にスクロール可能)
③ Excel ピボットテーブルレポート
最近、「OpenClaw」の爆発的な人気を筆頭に、エージェントコミュニティは目覚ましい発展を遂げています。M2 シリーズモデルがコミュニティの繁栄に貢献できていることを嬉しく思います。OpenClaw 内の一般的なタスクに基づき、個人学習計画からオフィス文書の処理・納品、定期的な専門情報のリサーチと投資アドバイス、コード開発・保守まで、仕事や生活における多種多様な実需を網羅する評価セット「MM-Claw」を構築しました。M2.7 はこのテストにおいて Sonnet 4.6 に迫るレベルに達し、正解率 62.7% を記録しました。
04
インタラクティブ・エンターテインメント
OpenClaw などのエージェント・フレームワークを使用する過程で、多くのユーザーが、タスクの完了だけでなく、高い EQ(感情的知性)や複雑なキャラクター設定の保持能力も求めるようになっていることに気づきました。キャラクター設定がある場合、ユーザーはモデルに機械的なタスクをこなさせるだけでなく、自然にエージェントと「共に過ごす」ことを求めるようになります。これにより、製品設計やインタラクションデザイン、コンテンツ制作、さらにはエンターテインメント体験の構築でさえも、AI ネイティブに駆動される可能性を考察するに至りました。これにより、アジェンティックなモデルの用途は、単なる生産性ツールからインタラクティブ・エンターテインメントへとさらに拡大すると考えています。そのため、M2.7 ではキャラクター設定の保持能力と対話能力を大幅に強化しました。
これを基に、AI によるインタラクションを「万物が対話可能」な Web GUI スペースに組み込んだエージェント・インタラクション・システム「OpenRoom」を構築しました。ここでは、対話がドライブとなり、リアルタイムで視覚的フィードバックやシーンとの対話を生み出します。キャラクターは能動的に環境と対話することが可能です。このフレームワークは拡張性が高く、モデルのアジェンティック能力の向上やコミュニティとの共創を通じて進化し続け、人間とエージェントの間に新たなインタラクション様式を生み出すでしょう。この分野のイノベーションを促進するため、このプロトタイププロジェクトはオープンソース化しています(コードの大部分も AI によって記述されたものです)。
プロジェクトアドレス:github.com/MiniMax-AI/OpenRoom
すぐに体験:openroom.ai
MiniMax M2.7 は、MiniMax Agent およびオープンプラットフォームにて全リリース済みです。ユーザーおよび開発者の皆様には、MiniMax M2.7 を用いて、さらに多くの興味深いシナリオを探求していただければ幸いです。
MiniMax Agent:agent.minimaxi.com
API サービス:platform.minimaxi.com
Coding Plan サブスクリプション:platform.minimaxi.com/subscribe/coding-plan
Intelligence with Everyone.