13小時大規模當機！官方稱「人為錯誤」，內部员工爆料：其實是自家AI所為

整理 | 鄭麗媛

出品 | CSDN（ID：CSDNnews）

當一家全球最大的雲計算平台之一，突然「掉線」13 個小時，會發生什麼？

對普通用戶來說，可能只是某些 App 無法登入、服務卡頓；但對依賴雲基礎設施的企業而言，這往往意味著業務停擺、監控告警狂響、工程師連夜排查。

去年 12 月，AWS 遭遇了一次長達 13 小時的服務中斷。起初外界以為只是一次普通的基礎設施故障，但近日《金融時代》的一則報導指出，多名匿名亞馬遜員工透露：這次事故的「元兇」很可能不是某個粗心的工程師，而是亞馬遜自家的 AI 編程助手——Kiro。

更耐人尋味的是，報導稱亞馬遜對外將這起事件歸因為「人為錯誤」。

AI 的解決方案：「刪掉再重建」

根據《金融時報》援引的內部員工說法，當時 Kiro 正在以「自主模式」運行。在處理某個問題時，它判斷的最優解是——「刪除並重建出現問題的環境（delete and recreate the environment）」。

如果你有 DevOps 或雲平台運維經驗，應該知道這類操作風險有多高。

在隔離測試環境裡這麼做或許沒問題，但一旦權限範圍不夠精確、環境標識出現偏差，就可能引發連鎖反應。員工表示，正是這操作直接導致 AWS 在中國大陸部分區域的服務中斷。

不過亞馬遜對外的表述則相當克制，僅將其描述為一次「極其有限的事件（extremely limited event）」——但對受影響區域的客戶來說，13 小時的中斷顯然沒有官方說得這麼輕描淡寫。

審批機制失效：AI 被當成「人」用了

按正常流程，Kiro 在執行變更前，需要兩名員工審批——這其實是許多大型雲廠商在 CI/CD 流水線中常見的「雙人確認」機制，用來避免自動化系統誤操作。

但問題出在這裡：

● 當時配合 Kiro 的工程師，擁有比普通員工更高的系統權限；

● 而 Kiro 被當作「操作員的延伸」，擁有與人類工程師同等級別的訪問權限；

● 因此它在未經過雙人審批的情況下，直接推送了變更。

這就讓事故的性質變得複雜了——它既不是典型的「AI 失控」，也不完全是「人類誤操作」。更準確地說，是權限模型沒有區分人類與 AI 執行主體的差異。

在现代雲基礎設施中，權限設計是最核心的安全邊界之一，最小權限原則（Principle of Least Privilege）甚至是寫進安全手冊裡的基本規則。可一旦把 AI 代理視作「人類擴展」，默認賦予同等級訪問能力，就等于把自動化決策與生產級權限深度耦合。

在傳統運維體系中，人類工程師的行為頻率是有限的、可預測的；但 AI Agent 的決策節奏可能更快、調用次數更多，一旦出錯，放大效應就更加的明顯。

亞馬遜的官方回應：不是 AI 自主問題

根據報導，這至少是 Kiro 第二次在獲得額外權限後「翻車」。

此前也發生過類似情況，只不過那次並未影響任何「面向客戶的 AWS 服務」，因此沒有引起外界關注，但內部員工顯然已經開始警覺。

面對舆论，亞馬遜給出的回應頗具「技術味」：「這是一次用戶訪問控制問題（user access control issue），而不是 AI 自主問題（AI autonomy issue）。」不仅如此，亞馬遜還補充稱：AI 只是「恰好參與其中」，類似問題同樣可能發生在任何開發工具或人工操作場景中。

從邏輯上說，這話並非全錯——確實，如果一名工程師擁有足夠權限，也可能誤刪關鍵資源。但問題在於，這一次並不是人類犯錯，而是一個 AI Agent 在獲得高權限後做出的最終決策。

換句話說，當一個 AI Agent 獲得了與人類相同甚至更高的權限，卻沒有專門針對「自動化執行」的隔離機制時，事故風險的結構就已經發生變化。

內部推廣壓力：80% 開發者每週都要用 AI

事實上，自去年 7 月推出 Kiro 以來，亞馬遜一直在內部大力推廣這款工具。

據報導，公司鼓勵員工優先使用內部工具，而非外部 AI 編碼助手，例如 OpenAI 的 Codex、Anthropic 的 Claude Code 和 Cursor——對此，部分工程師並不買賬，還是有員工更傾向於使用 Claude 等外部工具。

更值得注意的是，亞馬遜內部曾提出一個目標：希望 80% 的開發者每週至少使用一次 AI 工具進行編碼。

在這樣的 KPI 壓力下，AI 工具被更快、更深地嵌入核心工作流，幾乎是必然趨勢。只是，當 AI 從「代碼補完整助手」升級為「擁有生產權限的執行代理」時，系統複雜度隨之陡增，風險邊界也必須同步升級。

所以，我們是否高估了 AI 的邊界感？

這起事件真正值得討論的，並不是「AI 會不會犯錯」——畢竟，人類也會犯錯。其關鍵在於：我們是否還在用「人類時代」的權限模型，去管理「自動化時代」的執行主體？

在現實中，為了提升效率，往往是對高級工程師放寬權限。但正如上文所說，當 AI 被視為工程師的「延伸」，而不是一個獨立的自動化實體時，它自然繼承了同等級訪問能力。但 AI 有三個與人類不同的特徵：決策速度快、操作頻率高、可在短期內批量執行任務。

這意味著，一次判斷偏差，就可能被迅速放大為系統級問題。

因此，未來或許需要更精細的權限層設計，例如：強制性沙箱環境、自動回滾與審計追蹤機制、針對 AI 執行路徑的獨立審批鏈等——否則，「把 AI 當人用」，很可能會讓問題被低估。