13時間の大規模停机！公式説明は「人為的ミス」だが、内部関係者が暴露：実は自社AIの仕業

編集 | 鄭麗媛

制作 | CSDN（ID：CSDNnews）

世界有数のクラウドコンピューティングプラットフォームの一つが突然13時間「ダウン」したら、何が起こるか？

一般ユーザーにとっては、一部のアプリがログインできない、サービスが遅くなる程度かもしれない。しかし、クラウドインフラに依存する企業にとっては、事業停止、監視アラートの大騒ぎ、エンジニアによる夜を徹した調査を意味することが多い。

昨年12月、AWSは13時間にわたるサービス停止を経験した。当初、外界は単なるインフラ障害だと思ったが、最近のFinancial Timesの報道により、複数の匿名アマゾン社員が「原因」は不注意なエンジニアではなく、アマゾン自社のAI codingアシスタント「Kiro」だった可能性を仄めかした。

さらに興味深いのは、アマゾンが公式にはこの事件を「人為的ミス」と説明したと報道されていることだ。

AIの解決策：「削除して再構築」

Financial Timesが引用した内部社員の話によると、当時Kiroは「自律モード」で稼働していた。ある問題を処理する際、最適解は「問題のある環境を削除して再作成する（delete and recreate the environment）」と判断した。

DevOpsやクラウドプラットフォームの運用経験がある方なら、このような操作のリスクの高さをご存知だろう。

隔離されたテスト環境でこれを行うのは問題ないかもしれないが、権限スコープが十分に精确でなかったり、環境識別子に誤りがあったりすると、連鎖反応を引き起こす可能性がある。社員らは、この操作が直接AWSの中国本土一部地域のサービス停止を引き起こしたとしている。

ただし、アマゾンの対外説明は極めて抑制的で、「極めて限定された事件（extremely limited event）」と呼ぶに留めた。しかし影響を受けた地域の顧客にとって、13時間の停止は公式説明のように軽微なものではなかった。

承認メカニズムの失效：AIが「人間」として扱われた

通常の手順では、Kiroが変更を実行する前に2名の社員の承認が必要だった。これは、多くの大規模クラウドベンダーがCI/CDパイプラインで採用している「二重確認」メカニズムで、自動化システムの誤操作を防ぐためのものだ。

しかし問題はここにあった：

● 当時Kiroを補助したエンジニアは、一般社員より高いシステム権限を持っていた；

● Kiroは「オペレータの拡張」として、人間エンジニアと同等レベルのアクセス権限を与えられていた；

● 因此、二重承認を経ずに直接変更をプッシュした。

これにより、事故の性質は複雑になった。典型的な「AI暴走」でも完全な「人間のミス」でもない。より正確には、権限モデルが人間とAIの実行主体を区別していなかったのだ。

現代のクラウドインフラにおいて、権限設計は最も核心的なセキュリティ境界の一つであり、最小権限原則（Principle of Least Privilege）はセキュリティマニュアルに記載される基本ルールですらある。しかし、AIエージェントを「人間の拡張」とみなし、デフォルトで同等のアクセス権を付与すると、自動化意思決定と生産レベルの権限が深度結合してしまう。

従来の運用システムでは、人間エンジニアの行動頻度は限定的で予測可能だった。しかしAIエージェントはより早い意思決定とより多くの呼び出しを行う可能性があり、一度誤ると増幅効果がより顕著になる。

アマゾンの公式回答：AI自律性の問題ではない

報道によると、これはKiroが追加権限を獲得した後に「失敗」するのが少なくとも2回目だ。

以前にも同様のケースはあったが、その時は「顧客向けAWSサービス」に影響がなかったため、外部の注目を集めなかった。しかし内部社員は明らかに警戒を始めていた。

世論に対して、アマゾンは「技術的」な回答を出した。「これはユーザーアクセス制御の問題（user access control issue）であり、AI自律性の問題（AI autonomy issue）ではない」とのことだ。さらに、AIは「たまたま関与しただけで、同様の問題はあらゆる開発ツールや手動操作シナリオでも発生しうる」と補足した。

論理的には、この発言は完全には間違っていない。確かに、十分な権限を持つエンジニアが重要なリソースを誤削除する可能性もある。しかし問題は、今回が人間のミスではなく、高権限を獲得したAIエージェントによる最終決定だったことだ。

言い換えれば、AIエージェントが人間と同等またはそれ以上の権限を獲得し、「自動化実行」専用の分離メカニズムがない場合、事故リスクの構造はすでに変化している。

内部推進プレッシャー：80%の開発者が週にAIを使用

実際、昨年7月のKiroリリース以降、アマゾンは内部でこのツールを大々的に推進してきた。

報道によると、同社は社員に対し、OpenAIのCodex、AnthropicのClaude Code、Cursorなどの外部AIコーディングアシスタントよりも、内製ツールを優先して使用するよう促している。しかし、一部のエンジニアはこれに懐疑的で、Claudeなどの外部ツールを好む者もいる。

さらに注目すべきは、アマゾン内部で「80%の開発者が週に少なくとも1回はAIツールでコーディングする」という目標が掲げられていたことだ。

このようなKPIプレッシャー下では、AIツールがコアワークフローにより速く深く組み込まれるのは必然の傾向だ。ただし、AIが「コード補完アシスタント」から「生産権限を持つ実行エージェント」に進化する場合、システムの複雑度は急増し、リスク境界も同時に強化されなければならない。

では、私たちはAIの境界感を過大評価しているのか？

この事件が真正に議論すべきは、「AIがミスするかどうか」ではない——畢竟、人間もミスをする。重要なのは、「自動化時代の実行主体」を「人間時代の権限モデル」で管理しているのではないか、という点だ。

現実には、効率向上のために、上級エンジニアには権限を放宽することが多い。しかし前述のように、AIがエンジニアの「延伸」ではなく、独立した自動化実体と見なされない限り、それは自然に同等のアクセス能力を継承する。しかしAIには人間とは異なる3つの特徴がある：意思決定が早い、操作頻度が高い、短時間でタスクを批量実行できる。

これは、一つの判断偏差がシステムレベルの問題に急速に拡大する可能性を意味する。

したがって、将来はより精细な権限レイヤー設計が必要かもしれない。例えば、強制サンドボックス環境、自動ロールバックと監査追跡メカニズム、AI実行経路専用の独立承認チェーンなど——そうしなければ、「AIを人間のように扱う」ことは問題を過小評価させる可能性がある。

参考リンク：https://gizmodo.com/amazon-reportedly-pins-the-blame-for-ai-caused-outage-on-humans-2000724681

13時間の大規模停机！公式説明は「人為的ミス」だが、内部関係者が暴露：実は自社AIの仕業

関連記事

分享網址