最近のOpenAIは、まるでAnthropicのように、ほぼ毎日何かしら新機能をリリースしている。
昨夜、3つの新しい音声モデルの発表に加えて、CodexのChrome拡張機能もリリースされた。
この拡張機能の中核となる能力は、ついに、すでにログイン済みのブラウザを直接操作できるようになったことだ。
Codexには以前からブラウザが内蔵されていたが、ログインが必要なウェブサイトを操作することはできなかった。
例えば、Gmail、note、X、社内システム、会員制サイト、企業向けワークスペースなどだ。
この機能は、以前多くの人が使っていた「Claude for Chrome」に少し似ており、今回OpenAIもこれを追加した形だ。
使い方は簡単で、まずCodexをアップデートし、プラグインメニューからChrome拡張機能をインストールする。
インストール後、Codex内で「@Chrome」と入力して操作を開始できる。例えば、自動でX(旧Twitter)に投稿させてみた。
すると、内容も自動で編集された投稿が、実際にタイムラインに送信された。
この例は非常にシンプルで、基本機能をデモするためのものだ。
しかし正直なところ、昨夜のデモ動画を見ると、このツールの可能性はSNS投稿代行など比にならないほど高い。
動画では、いくつかの非常にハードコアな機能が紹介されていた。まずは「アイデンティティ共有」機能だ。
これは、Chromeの拡張機能として動作するため、ブラウザ内のすべてのCookieとログイン状態を直接利用できるというものだ。
つまり、アカウントとパスワードを再度入力する必要もなく「実際の業務環境」内で作業でき、認証情報をサードパーティに預けるより安全性も高い。
次に、「マルチタブ並列処理」機能だ。複数のウェブページの内容を同時に監視、取得し、さらにはタブを横断してタスクを実行できる。
この能力を示すために、デモ動画ではより複雑な事例がいくつか実行されており、非常に興味をそそられた。
一つ目は、「全自動ソーシャルリスニング調査」だ。
デモでは、CodexにOpenAIの公式コミュニティを巡回させた。ただ眺めるだけでなく、自らページをめくり、ここ一週間のすべての投稿を収集。その後、どのユーザーが不満を言い、どのユーザーが称賛しているかを分析し、最終的にブラウザ上に直接サマリー表を生成した。
以前ならスクレイピングのコードを書く必要があった作業が、今ではたった一言で完了する。
二つ目は、「出張経費精算のクローズドループ処理」だ。
これは非常に実用的だ。まず、Gmailのタブで最近の出張時のレシートを検索し、日付と金額をすべて抽出する。
そして、ここからが肝心だ。
Codexは自動的に経費精算サイトを開き、領収書のPDFをアップロードし、ついでに申請フォームの空欄を一つ残らず埋め尽くした。
このようなメールからウェブへのクロスプラットフォームな自動化フローこそ、真に手を解放するものだ。
最も驚いたのは、最後のデモである「マルチエージェント協調」だ。
動画では4つのタブを開き、4つのCodexエージェントがオンラインのお絵かき協力ゲームをプレイしていた。
それらは他のエージェントが何を描いたかをリアルタイムで把握し、互いに相談しながら一枚の絵を完成させていく。
この種の「グループチャット」型のウェブ操作は、未来のオフィスにおけるコラボレーションに大きな想像の余地を残す。
なお、この拡張機能は新しいタスクを別のタブで処理するため、ブラウザを完全に乗っ取るわけではない。
つまり、処理が実行されている間も、ユーザーは自分のブラウザで作業を続けられ、バックグラウンドで自動化されたタスクを黙々と処理してくれるのだ。動作中にブラウザを使えなくなるわけではない。
いずれにせよ、OpenAIは今回、Codexにとって最も重要なピースを埋め込んだ。
これから我々が使うのは、単なるチャットボックスではなく、あらゆるウェブページの背後で動作する「デジタル社員」になるのかもしれない。