今年4月、Anthropic社は新型AIモデル「Mythos」を発表し、そのコード脆弱性検出能力が「危険なほど強力」であると主張した。安全上の理由から、同社は一般公開を見送り、主要な機関にのみアクセスを提供し、重大な脆弱性の優先的な修正を可能にした。
この発表は業界に大きな反響を呼んだ。数週間で数千ものゼロデイ脆弱性を発見できるとの噂が広まり、ソフトウェアセキュリティの現状に疑問が投げかけられた。この話題はすぐにテクノロジー業界の注目の的となった。
curlの創設者であるDaniel Stenberg氏は、Linux FoundationのAlpha Omegaプロジェクトを通じて、Mythosがcurlのコードベースを分析したレポートを間接的に入手した。その結果、このモデルは17万6千行のCコードをスキャンし、5つの「確認済みセキュリティ脆弱性」を発見したと自信を持って報告したという。
Stenberg氏は次のように指摘する。「curlのコード量は、『戦争と平和』の英語版の約1.12倍に相当します。AIが一方的に脆弱性を『確認済み』と断言するのは興味深い点です。しかし、チームで数時間かけて検証した結果、5つの指摘事項のうち、実際に有効だった脆弱性は1つだけで、残りの3つはAPIドキュメントに既に明記されている誤検知であり、4つ目は単なる通常のバグでした」
誇大広告と現実のギャップ
最終的に確認された低リスクの脆弱性は、curlのバージョン8.21.0で修正される予定だ。Stenberg氏は、Mythosをめぐる誇大宣伝はマーケティング活動に過ぎないと考えている。「現在のエビデンスは、このモデルが問題発見において、既存のツールを凌駕する特別な能力を示しているわけではないことを示唆しています」
全世界で最も広く利用されているデータ転送ライブラリの一つであるcurl(その導入数は200億を超える)のコードベースは、OSS-FuzzやCoverityなどによる複数回の監査を経ている。Mythosが登場する以前にも、ZeropathなどのAIツールが200から300の欠陥を発見しており、その中には10以上のCVE脆弱性が含まれていた。Mythosが検出を試みたタイミングはそれらより遅く、その網羅性には限界があった。
技術的価値は検出速度にあり
一方で、Mozillaの事例では、MythosがFirefoxにおいて270以上の脆弱性を発見しており、その主な価値は検出速度、すなわち脆弱性の発見から修正までのタイムウィンドウを短縮した点にあることが示された。ただしMozillaは、これらの脆弱性は優秀な人材による手動監査でも発見可能であったと強調している。
Stenberg氏は、AIコード分析ツールの進歩そのものは評価している。「新世代のAIツールは、ソースコードのセキュリティ上の欠陥を検出する能力において、従来のアナライザーよりも大幅に優れています」。しかし、少なくともcurlに関しては、Mythosはまだ本質的なブレークスルーを示していないと指摘する。
Stenberg氏の評価はサードパーティの報告書に基づいているため、限定的なものであることに注意する必要がある。高度に監査されたcurlのコードから低リスクの脆弱性を1件発見しただけでは、業界の誇大宣伝を証明することはできず、また技術の潜在性を全面的に否定することにもならない。現在のテスト結果は、AIによる脆弱性研究が実用的な価値を持つことを示しているが、いわゆる「革新的な能力」という主張は依然として誇張されていると言えるだろう。
Stenberg氏は次のように結論づけている。「まだAIツールでソースコードをスキャンしたことがないプロジェクトであれば、どれも新世代のツールによって多数の欠陥を発見できる可能性があります」
参考情報:
The world’s most “Dangerous” AI, Anthropic’s Mythos, found only one flaw in curl