GPT-5.2が7日間連続稼働、300万行のコードでChrome級ブラウザを構築

新智元報道

編集：定慧艾倫

【新智元解説】大規模モデルがコードを書き続けることができるのは、一体どのくらいの期間でしょうか？1時間？1日？それとも、ほとんどのAIコーディングツールのように、タスクを完了した時点で会話を終了するのでしょうか？CursorのCEOであるMichael Truellは、極限ストレステストを行うことを決めました！

Michael Truellは、Cursor内のGPT-5.2を丸1週間、連続で稼働させました。

1時間でも1日でもなく、眠らず休まず、昼夜を問わず、168時間連続でコードを書き続けたのです。

結果は？

300万行のコード。数千のファイル。

AIによってゼロから完全に新しいブラウザが構築されました。

しかも、それもChromeのようなブラウザです。

HTMLパーサー、CSSレイアウト、テキストレンダリング、そして独自開発のJavaScript仮想マシン——すべてがAI自身によって書かれました。

Michael Truellはさりげなくツイートしました。「基本的に動きます！単純なWebページは高速かつ正確にレンダリングできます」と。

モデルは一体どのくらい動き続けることができるのか

GitHub Copilotや以前のIDEのような従来のAIコーディングツールは、すべて一問一答モードです。

会話の長さには制限があり、コンテキストにも制限があり、タスクの複雑さにも制限があります。

その後、いわゆる「エージェンティック・プログラミング」が登場しました。Claude Code、Cursor Agent、Windsurfなどのツールにより、AIは自動的にマルチステップタスクを実行し、ファイルを読み取り、コマンドを実行し、エラーを修正できるようになりました。

これは大きな進歩ですが、ほとんどの場合、タスクはまだ分単位、多くても数時間で測定されます。

AIが機能を完了し、人間がレビューし、次のタスクに進むという流れです。

しかし、誰もモデルを1週間連続で動かそうとは試みませんでした。

GPT-5.2になるまで。

Cursorチームは、GPT-5.2を断続的ではなく連続作業で、丸1週間稼働させました。

この1週間の間に、それは以下のことを行いました。

300万行以上のコードを書いた

数千のファイルを作成した

数兆個のトークンを実行した

完全なブラウザレンダリングエンジンをゼロから構築した

モデルは一体どのくらい動作し続けることができるのでしょうか？

答えは以下の通りです：理論上、無限です。

インフラが安定していて、タスクが明確であれば、AIは休みなく働き続けることができます――眠らず、食べず、24時間体制で年中無休です。

オーストラリアの羊飼いの叔父さんの「サイバー労働」のように。

しかし実際には、モデルによって「持久力」に大きな違いがあります。

コンテキストウィンドウが最初の関門です。

初期のGPT-3.5は4Kトークンのコンテキストしかなかったため、会話が少し長くなると物忘れしてしまいました。

Claude 3は20万コンテキストを投入し、GPT-4 Turboは12万で追従し、Gemini 1.5 Proは100万トークンをサポートすると主張しています。

しかし、コンテキストの長さはあくまで理論上の値に過ぎません。真に試されるのは、長いタスクにおいてモデルが一貫性、集中力、実行能力を維持できるかどうかです。

Cursorチームは、実験の中で重要な違いを発見しました。

Cursorの公式ブログで、チームは実験の中で重要な違いを発見しました。

GPT-5.2：長時間自律的に作業でき、指示を正確に守り、集中力を維持して逸脱しない。

Claude Opus 4.5：早々に終わらせようとし、近道をし、頻繁に制御をユーザーに返そうとする傾向がある。

GPT-5.1-Codex：コーディング用にトレーニングされているが、計画能力はGPT-5.2ほど高くないため、中断しやすい。

もっと平易に言うと：Opusはせっかちなインターンのようで、少し仕事をすると「これでいいですか？出しますね」と聞いてくるようなものです。

一方、GPT-5.2はベテランのシニアエンジニアのように、タスクをきちんと説明すれば最後まで黙々と働きます。

これがCursorが公式に「GPT-5.2は長期実行タスクを処理するための最先端モデルである」と宣言している理由です。

ブラウザだけではありません。

Cursorは、現在進行中の他の実験プロジェクトも明らかにしました：Java LSP、Windows 7エミュレータ、Excelクローンなどです。

データは非常に派手で、AIは絶え間なく55万行、120万行、160万行のコードを書きました。（ちなみに、ExcelのコードはWindowsより少し多くて、興味深いですね）。

マルチエージェントシステム連携

1つのモデルが1週間で300万行のコードを書く。注意してほしいのは、絶え間なく書き、人間の介入がないということです！

明らかに、これは1つのモデルによる「単独の戦い」ではありません。どのようにしてこれを達成したのでしょうか？

Cursorチームは、彼らの秘密兵器を明らかにしました：マルチエージェントシステムです。

当初、彼らはすべてのエージェントが共有ファイルを通じて状態を同期することで、平等に協力するように試みました。結果、以下のことがわかりました。

エージェントはロックを長く保持しすぎたり、単にロックを解放したり忘れたりします。20のエージェントの速度は、2、3のエージェントの有効スループットにまで低下しました。

これは、人間のチームでよくある問題に非常によく似ています：会議が多すぎる、コミュニケーションコストが高い、責任の境界が曖昧などです。

最終的に有効だったソリューションは、階層型アーキテクチャでした。

プランナー（Planners）：コードベースを継続的に探索し、タスクを作成し、高レベルの決定を行う。

ワーカー（Workers）：特定のタスクの完了に集中し、全体を気にせず、提出後に次に進む。

レビュアー（Reviewers）：各イテレーションが合格したかどうかを判断し、次の段階に進むかどうかを決定する。

これは、人間のソフトウェア会社の組織構図とほぼ同じです：プロダクトマネージャー/アーキテクトが計画を立て、プログラマーが実行を行い、QAがレビューを行います。

しかし、違いは――これが数百、数千のエージェントによって同時に行われていることです。

Cursorチームは、数百のエージェントが同じコードベースで数週間にわたって協力し、コードの競合ほぼなしで作業できることを実現しました。

これは、AIが人間のチームが何年もかけて醸成する協力の暗黙の了解をすでに学習していることを意味します。

ブラウザの「堅牢性（モット）」

あなたが思っているよりもはるかに深い

「ただWebページを表示するソフトウェアでしょ」という評価を聞いたら、ブラウザカーネルを開発したことのあるすべてのエンジニアは苦笑するでしょう。

コンピュータサイエンスのヒエラルキーにおいて、ブラウザカーネルを手書きすることの難易度は、OSを手書きすることに次いで2番目です。

この300万行のコードの規模感を理解していただくために、GoogleのChromium（Chromeのオープンソース親）を見てみる必要があります。

人類のソフトウェアエンジニアリングの頂点の一つとして、Chromiumのコード量はすでに3500万行を突破しています。

それは単なるソフトウェアではなく、本質的には「アプリケーションに偽装したOS」です。

GPT-5.2は一体何に挑戦しているのでしょうか？

まず第一に、CSSの「カオス理論」です。

Webページのタイポグラフィは、単にブロックを積み上げるような単純なものではありません。

CSS標準には、レガシーな奇妙な特性、カスケードルール、複雑な継承ロジックが満載です。

元Firefoxエンジニアはかつて、「完璧なCSSエンジンを実装することは、物理法則が気まぐれに変化する宇宙をシミュレートするようなものだ」と例えました。親要素のプロパティを変更すると、数千の子要素のレイアウトが瞬時に崩壊する可能性があります。

次に、「仮想マシンの中の仮想マシン」です。

今回、AIはインターフェースだけでなく、JS仮想マシンも書きました。

最新のWebページで動作するJavaScriptコードには、メモリ管理、ガベージコレクション（GC）、セキュリティサンドボックスが必要です。

少しでも処理を間違えると、Webページがメモリを食い尽くしたり、ハッカーにブラウザを侵入させコンピュータを乗っ取られたりします。

最も致命的なのは、それがRustを選んだことです。

Rustという言語は「妥協のない安全性」で知られており、そのコンパイラは極度に神経質な試験官のようです。

人間のエンジニアがビジネスロジックを書く際、コンパイラと「喧嘩」し、借用チェッカーやライフタイムの問題を処理するのに半分の時間を費やすことがよくあります。

AIはビジネスを理解しているだけでなく、数百万行のコード規模で、この「試験官」に非難されないようにする必要があります。

これらの難題を7日以内に克服し、それらを連携させることは、もはや単なる「書くのが速い」ということではなく、マシンがトップレベルのアーキテクチャ制御能力を持ち始めていることを意味します。

AIが「孤独に耐え」られるとき

しかし、このニュースの真の爆発点は、実はブラウザ自体ではなく、あの「Uninterrupted（中断なし）」という点にあります。

これはAI進化の分水嶺です。

これまでは、私たちが慣れ親しんだAIコーディングツール（初期のCopilotなど）の場合、関数ヘッダーを書くとそれを補完し、コマンドを送るとスクリプトを生成するというものでした。

それらの記憶は断片的であり、注意は短いものでした。

タスクが少し複雑になると、例えば「このモジュールをリファクタリングする」となると、頭と尻尾のバランスを崩し、一方を直すともう一方が壊れ、最終的に人間が後始末をしなければなりませんでした。

しかし、今回は違います。これは「長期間タスク」の勝利です。

この300万行のコードは、数千のファイルに散らばっています。

AIが300万行目を書くとき、1行目のコードで定められたアーキテクチャのルールをまだ「覚えて」いなければなりません。

レンダリングエンジンとJS仮想マシンが衝突するとき、数万行のコードを遡ってバグの原因を探し出すことができなければなりません。

この168時間の間に、GPT-5.2は間違いなくバグを書きました。

しかし、それはエラーを報告して人間が答えを与えるのを待つのではなく、自分でエラーログを読み、自分でデバッグし、自分でリファクタリングしてから、先へ進みました。

この「書く-実行する-修正する」という自律的なループは、かつて私たち人間のエンジニアが最も自慢していた堅牢性でした。

今、この堅牢性は埋められました。

私たちは、AIが「チャットパートナー」から「デジタル労働者」への質的な変化を目撃しています。

以前は、AIに「タスク」、例えば「スネークゲームを書いて」、を命じていました。

今は、AIに「プロジェクト」、例えば「ブラウザを作って」、を命じています。

沈黙の螺旋

このAI版ブラウザの成熟度はChromeまでには程遠いですが、その道の実現可能性を証明しました。

コンピューティングパワーが極めて複雑なエンジニアリング実装能力に変換できるとき、ソフトウェア開発の限界費用はゼロに近づきます。

この実験で最も衝撃を受けたのは、画面にレンダリングされたWebページではなく、バックグラウンドで丸7日間黙って動き続けたプログレスバーです。

それは眠らず、休まず、急がず、落ち着いて、1秒間に数千文字の速度でデジタル世界の基盤を構築しています。

おそらく、私たちは「創造」の定義を再検討する必要があります。

ツールが深夜に一人で問題を解決し始めたとき、初めて私たちは、それがもはや単なるツールではなく、私たちの同行者であることに気づきます。

オーストラリアのおじさんの「サイバー労働」から

AI長期タスクへ

5行のコードでシリコンバレーを狂わせたオーストラリアの羊飼いのおじさんは、実際には1つのこと、つまりAIが目標を達成しない限り停止しないようにしているだけでした。

Prompt.mdにどんなコマンドが書かれていたかというのは、重要ではありません。

今日、CursorのCEOが行ったこの極限ストレステストのように、目標はChromeを作り、Windowsを作り、Excelを開発することであり、目標が達成されない限り、AIは動き続けなければなりません。最初の質問に戻りましょう。

AIは一体どのくらい自分で動き続けることができるのでしょうか？

物理的な答えは無限です。十分なコンピューティングパワー、安定したインフラ、明確なタスク定義があれば、AIは無限に動作し続けることができます。

しかし、さらに重要なのは、これがソフトウェア開発の経済学を変えるということです。

従来のソフトウェア開発の主なコストは、人件費と時間です。

10人のチームで複雑なプロジェクトを開発する場合、6ヶ月から数年かかる場合があります。月の人件費は数十万から数百万になるかもしれません。

今では、AIは数ヶ月かかる仕事を1週間で完了させることができます。

コストはわずかなトークン料金だけかもしれません。Emad Mostaque（Stability AIの元CEO）は、Cursorのブラウザプロジェクトで約30億個のトークンが消費されたと推測しています。

彼はまた、「WindowsレベルのOSを書き換えるにはどのくらいのトークンが必要か？コストはどうなるか？」というアイデアを持っています。

トークンはますます安くなっており、以前の水や電気のように、最終的にトークンベースのコンピューティングパワーも極めて安くなるでしょう。

そうすれば、ソフトウェアの経済学は完全に覆されます。たとえば、ソフトウェアのライセンス課金という方法は消滅するでしょう。

2026年の今日、ソフトウェア開発は遺伝子レベルの変異を経験しています。

以前は、コードは人間が一行一行タイプして作り出したものでした。

将来的には、コードは人間の意図の自動的な展開に過ぎなくなるかもしれません：あなたが望むものを説明すれば、AIがそれを現実にすることができます。

モデルはどのくらい動作し続けることができますか？

必要とあらば、それは動き続けることができます。

参考文献：

https://x.com/mntruell/status/2011562190286045552

https://x.com/leerob/status/2011565729838166269

https://cursor.com/cn/blog/scaling-agents

GPT-5.2が7日間連続稼働、300万行のコードでChrome級ブラウザを構築

関連記事

分享網址