IBMのサンダレサン氏、「ほとんどのAIコーディングはフェラーリで牛乳を買いに行くようなもの」と語る

ニール・サンダレサン氏は、3つの質問への回答を拒否した。冗談めかして、そのうちの1つは「なぜIBMのBobはBobと呼ばれているのか？」だと彼は語った。

この回避には深い意味がある。サンダレサン氏（IBMのソフトウェアオートメーションとAI担当ゼネラルマネージャーであり、MicrosoftのGitHub Copilotの創設エンジニア、さらに以前はIBMのリサーチフェロー）は、プロダクトマーケティング担当者ではない。彼は研究者から開発者、そしてエグゼクティブへと転身した人物であり、これら3つの役割を貫く一貫したこだわりがある。「ソフトウェア開発者の生産性を向上させるにはどうすればよいか？そして、何がそれを妨げているのか？」という問いだ。

彼がこの問題を探求し始めたのは2000年のことで、Transformerモデルもなければ、大規模言語モデル（LLM）も存在せず、当時のニッチな研究サークルの外では、AIと開発者ツールが同じ文脈で語られるとは誰も思わなかった時代だ。それから今週発表されたIBM Bob（すでにIBM社内で8万人のユーザーを抱える）に至るまでの道のりは、プレスリリースが示すよりもはるかに長い。

誰も見向きもしないうちから始まっていた

サンダレサン氏が開発者の生産性向上のために最初に構築したシステムは、今日我々が理解するAIコーディングツールとはかけ離れた、APIコールのレコメンデーションシステムだった。

「開発者のコードの30%はAPIコールです」と、彼はThe New Stackの独占インタビューで語った。「クラスを使って関数を呼び出すと、呼び出し可能な関数の長いリストが出てきて、そこから選択しなければならない。これ自体がすでに痛点なのです。」

*IBMのマスコット「Bob」と並ぶサンダレサン氏。（画像はサンダレサン氏のLinkedInプロフィールより）*

目標はコードを生成することではなく、適切なタイミングで正しい関数呼び出しを表示することだった。本質的には、これは開発者のオートコンプリート体験に適用された検索ランキング問題だ。

そのモデルはTransformerでもなければ、現代的な深層学習ですらなかった。しかし、開発者はそれを非常に気に入ったと彼は言う。そして、この初期の兆候、つまり開発フロー内の特定の小さな部分で摩擦を減らすことが大きな満足感をもたらすという発見は、今日に至るまでサンダレサン氏の問題への取り組み方に影響を与えている。

「プログラミングは分析的な作業であり、オンラインショッピングとは違います」と彼は言う。「システムが間違ったレコメンデーションをしたり、思考プロセスを妨げるようなレコメンデーションをする場合、それは重大な問題です。」

彼は、ユーザーエクスペリエンスはAIの内部的な仕組みとは無関係だと考えている。モデル自体が優れていても、表面的なデザインが間違っていれば、結果的により悪いプロダクトになりうるのだ。

彼はモデル分野の進化を目の当たりにしてきた。LSTM、初期のエンコーダー・デコーダーアーキテクチャ、GoogleのTransformer論文、そして最初のGPTモデルだ。各段階で、彼のチームは自らが解決しようとしている問題を既に把握していた。ただ、当時のモデルには十分な能力がなかったのである。「我々が発表した論文を振り返れば、これらすべての領域に関与していたことが分かります」とサンダレサン氏は述べる。「各論文で『これはこの問題を解決するモデル、あれはあの問題を解決するモデルだ』と指摘してきたのです。」

「我々の顧客でさえ、自社のデータを我々自身のクラウドに送りたがらなかった。彼らはデータをクライアント側に置いておきたかったのです。それで我々は、実際にラップトップ上でモデルを動かしました。ラップトップで動作させるために、膨大なエンジニアリング作業を行ったのです。」

最先端のモデルが、より大胆な試みに見合うだけの性能をついに備え、Copilotが誕生したのだと彼は言う。しかしそれ以前に、サンダレサン氏は何年もかけてモデルのエラーや、それらを中心に構築された製品デザインの欠陥を観察してきた。トレーニングの閾値が誤った自信を示すメッセージを生み出していた。人々は、実際に必要かどうかに関わらず、あらゆるタスクに最も強力（かつ最も高価）なモデルを選択する傾向があった。高性能モデルを、企業が実際に運用する制約のある環境で実行することも容易ではなかった。

「我々の顧客でさえ、自社のデータを我々自身のクラウドに送りたがらなかった」と、彼はMicrosoftでの初期の頃を振り返る。「彼らはデータをクライアント側に置いておきたかったのです。それで我々は、実際にラップトップ上でモデルを動かしました。ラップトップで動作させるために、膨大なエンジニアリング作業を行ったのです。」

なぜIBMなのか？

サンダレサン氏がこの経歴を語るとき、当然の疑問が湧く。なぜ彼は、他のより華やかな選択肢ではなく、IBMへの入社を選んだのか？彼の答えは率直だ。Microsoftで10年働いた後、環境を変えたかったのだが、IBMからのオファーは非常に魅力的だった。

しかし、あまり明白でない答えは、彼が直面する特定の問題に関しては、IBMの負債が実は資産であったということだ。

「ソフトウェア部門には約2万人の従業員がいます。インフラもあれば、コンサルティングサービスもある。IBM社内のユーザー層は巨大です。もし私が彼らにとって有益なものを作り出せれば、それ自体が巨大なプロダクト（製品）なのです」と彼は語る。この社内展開（IBMが「クライアントゼロ」と呼ぶもの）は、外部への製品リリースでは得られないものを彼にもたらした。それは、真の生産性向上と引き換えに初期の摩擦に耐えることをいとわない、大規模で多様性に富み、熱心なユーザーベースだ。

もう一つの利点は、ワークロードの多様性だ。IBMの社内開発者はたしかにPythonやRustコードを書くが、PL/I、COBOL、メインフレーム用JCL、さらにはサンダレサン氏が「スラングのような特注言語」と呼ぶものも書く。もしBobがこれほど幅広いワークロードを処理できるなら、エンタープライズの顧客が求めるあらゆる要求に対応できるだろう。

「我々は顧客のドアをノックする前に、すでに語るべきストーリーを持っているのです」と彼は言う。

彼はまた、自分が構築しているものが何をターゲットにしているかについても率直に語る。それはあらゆる開発者のための万能ツールではなく、ほとんどのAIコーディングツールがエッジケースとして扱うエンタープライズ環境、すなわちレガシーコードベース、厳格なコンプライアンス要件、ハイブリッド環境、そしてAIが生成したコードが本番環境で使えるように見えて実際には使えないという現実のコスト、といった課題に特化して最適化されたシステムなのだ。

誰も語らないコストの問題

サンダレサン氏との会話で最も率直だった瞬間の一つは、殆どの開発者がいかに無頓着にAIコーディングツールを使用しているかを彼が説明した時だった。

「フェラーリで牛乳を買いに行くようなもので、全く必要ない。」

「人々はただ『どのモデルを使いたい？』と尋ね、最新のSonnet 4.7か何かを選ぶだけです。彼らは単純なプロンプトを実行しているかもしれませんが、トークン100万個あたり40ドルもかかっています。これはフェラーリで牛乳を買いに行くようなもので、全く必要ありません」と彼は言う。

Bobはユーザーに裏側のモデルを公開しない。タスクの実際のニーズに基づいて、Anthropic Claude、Mistralのオープンソースモデル、IBM Granite、あるいはBob環境向けに特別に構築された独自の微調整モデルなどに、タスクを自動的にルーティングする。

サンダレサン氏は、真のアーキテクチャデザインはこのルーティングの知能にあると考えている。「これは単にモデルをシステムに当てはめるだけの話ではありません。モデルを導入し、体験を導入し、そして卓越した体験を提供するアーキテクチャを構築する。この3つが完璧に融合されなければなりません。モデルは方程式の一部に過ぎないのです」と彼は言う。

彼は、IBM社内のユーザーベースでA/Bテストを実施するプロセスについて説明した。最先端モデルの異なるバリエーションを比較テストし、使用パターンを監視し、どのタスクが、より低コストのモデルで同様に優れたパフォーマンスを発揮できるにもかかわらず、高価なモデルを使用しているかを特定するのだ。この社内展開は、アーリーステージの製品では到底不可能な規模の実験を可能にしている。

エージェントのマーケットプレイスは一体どこへ向かうのか？

サンダレサン氏にエージェントAIの誇大広告サイクルについて尋ねると、彼はゼネラルマネージャーとしてではなく、研究者としての答えを返す。

「火のないところに煙は立ちません」と、彼はThe New Stackに語った。「誇大広告が煙なら、炎はどこかで燃えているはずです。煙ほど大きくないかもしれませんが、火は確かに存在するのです。」

彼は、エージェントベースの開発は現実だが、真新しいものではないと考えている。サービスベースの開発、APIベースの開発、エージェントベースの開発、これらはすべて以前から存在していた。変わったのは、そのインターフェースが決定的でプログラム的なものから、確率的かつ会話的なものになったことだ。この変化は真に新しい能力を生み出す一方で、真に新しいリスクももたらす。

「恐怖で何もしないこともできるし、勇気を持って整然と前進することもできます。」

「システムの注意をそらすこともできます」と、彼はエージェントシステムについて言う。「尋ねるべきでない質問をしたり、開示すべきでない情報を明らかにさせることができるのです。」彼は、自身が目にしている91%というAIプロジェクトの失敗率は、結局のところ規律、あるいはその欠如に帰結すると考えている。企業はしばしば、最先端のモデルプロバイダーとの契約締結が仕事の終わりだと見なす。そうではないのだ。「それらを自社のソフトウェア製品に統合する前に、一定の規律に従っていることを確認する必要があります」とサンダレサン氏は言う。

彼が注力しており、もっと注目されるべきだと考えている方向性は、他のエージェントと通信するエージェントが、最終的には人間が直接読めないマシンネイティブな言語を使い始めるということだ。「もしこれらの派生言語でエラーが発生した場合、結果は壊滅的なものになる可能性があります。やるべきことは山ほどあります。恐怖で何もしないこともできるし、勇気を持って整然と前進することもできます」と彼は述べた。

IBMのサンダレサン氏、「ほとんどのAIコーディングはフェラーリで牛乳を買いに行くようなもの」と語る

誰も見向きもしないうちから始まっていた

なぜIBMなのか？

誰も語らないコストの問題

エージェントのマーケットプレイスは一体どこへ向かうのか？

関連記事

分享網址