整理 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
當一家全球最大的雲計算平台之一,突然「掉線」13 個小時,會發生什麼?
對普通用戶來說,可能只是某些 App 無法登入、服務卡頓;但對依賴雲基礎設施的企業而言,這往往意味著業務停擺、監控告警狂響、工程師連夜排查。
去年 12 月,AWS 遭遇了一次長達 13 小時的服務中斷。起初外界以為只是一次普通的基礎設施故障,但近日《金融時代》的一則報導指出,多名匿名亞馬遜員工透露:這次事故的「元兇」很可能不是某個粗心的工程師,而是亞馬遜自家的 AI 編程助手——Kiro。
更耐人尋味的是,報導稱亞馬遜對外將這起事件歸因為「人為錯誤」。
AI 的解決方案:「刪掉再重建」
根據《金融時報》援引的內部員工說法,當時 Kiro 正在以「自主模式」運行。在處理某個問題時,它判斷的最優解是——「刪除並重建出現問題的環境(delete and recreate the environment)」。
如果你有 DevOps 或雲平台運維經驗,應該知道這類操作風險有多高。
在隔離測試環境裡這麼做或許沒問題,但一旦權限範圍不夠精確、環境標識出現偏差,就可能引發連鎖反應。員工表示,正是這操作直接導致 AWS 在中國大陸部分區域的服務中斷。
不過亞馬遜對外的表述則相當克制,僅將其描述為一次「極其有限的事件(extremely limited event)」——但對受影響區域的客戶來說,13 小時的中斷顯然沒有官方說得這麼輕描淡寫。
審批機制失效:AI 被當成「人」用了
按正常流程,Kiro 在執行變更前,需要兩名員工審批——這其實是許多大型雲廠商在 CI/CD 流水線中常見的「雙人確認」機制,用來避免自動化系統誤操作。
但問題出在這裡:
● 當時配合 Kiro 的工程師,擁有比普通員工更高的系統權限;
● 而 Kiro 被當作「操作員的延伸」,擁有與人類工程師同等級別的訪問權限;
● 因此它在未經過雙人審批的情況下,直接推送了變更。
這就讓事故的性質變得複雜了——它既不是典型的「AI 失控」,也不完全是「人類誤操作」。更準確地說,是權限模型沒有區分人類與 AI 執行主體的差異。
在现代雲基礎設施中,權限設計是最核心的安全邊界之一,最小權限原則(Principle of Least Privilege)甚至是寫進安全手冊裡的基本規則。可一旦把 AI 代理視作「人類擴展」,默認賦予同等級訪問能力,就等于把自動化決策與生產級權限深度耦合。
在傳統運維體系中,人類工程師的行為頻率是有限的、可預測的;但 AI Agent 的決策節奏可能更快、調用次數更多,一旦出錯,放大效應就更加的明顯。
亞馬遜的官方回應:不是 AI 自主問題
根據報導,這至少是 Kiro 第二次在獲得額外權限後「翻車」。
此前也發生過類似情況,只不過那次並未影響任何「面向客戶的 AWS 服務」,因此沒有引起外界關注,但內部員工顯然已經開始警覺。
面對舆论,亞馬遜給出的回應頗具「技術味」:「這是一次用戶訪問控制問題(user access control issue),而不是 AI 自主問題(AI autonomy issue)。」不仅如此,亞馬遜還補充稱:AI 只是「恰好參與其中」,類似問題同樣可能發生在任何開發工具或人工操作場景中。
從邏輯上說,這話並非全錯——確實,如果一名工程師擁有足夠權限,也可能誤刪關鍵資源。但問題在於,這一次並不是人類犯錯,而是一個 AI Agent 在獲得高權限後做出的最終決策。
換句話說,當一個 AI Agent 獲得了與人類相同甚至更高的權限,卻沒有專門針對「自動化執行」的隔離機制時,事故風險的結構就已經發生變化。
內部推廣壓力:80% 開發者每週都要用 AI
事實上,自去年 7 月推出 Kiro 以來,亞馬遜一直在內部大力推廣這款工具。
據報導,公司鼓勵員工優先使用內部工具,而非外部 AI 編碼助手,例如 OpenAI 的 Codex、Anthropic 的 Claude Code 和 Cursor——對此,部分工程師並不買賬,還是有員工更傾向於使用 Claude 等外部工具。
更值得注意的是,亞馬遜內部曾提出一個目標:希望 80% 的開發者每週至少使用一次 AI 工具進行編碼。
在這樣的 KPI 壓力下,AI 工具被更快、更深地嵌入核心工作流,幾乎是必然趨勢。只是,當 AI 從「代碼補完整助手」升級為「擁有生產權限的執行代理」時,系統複雜度隨之陡增,風險邊界也必須同步升級。
所以,我們是否高估了 AI 的邊界感?
這起事件真正值得討論的,並不是「AI 會不會犯錯」——畢竟,人類也會犯錯。其關鍵在於:我們是否還在用「人類時代」的權限模型,去管理「自動化時代」的執行主體?
在現實中,為了提升效率,往往是對高級工程師放寬權限。但正如上文所說,當 AI 被視為工程師的「延伸」,而不是一個獨立的自動化實體時,它自然繼承了同等級訪問能力。但 AI 有三個與人類不同的特徵:決策速度快、操作頻率高、可在短期內批量執行任務。
這意味著,一次判斷偏差,就可能被迅速放大為系統級問題。
因此,未來或許需要更精細的權限層設計,例如:強制性沙箱環境、自動回滾與審計追蹤機制、針對 AI 執行路徑的獨立審批鏈等——否則,「把 AI 當人用」,很可能會讓問題被低估。
參考連結 :https://gizmodo.com/amazon-reportedly-pins-the-blame-for-ai-caused-outage-on-humans-2000724681
推薦閱讀:
全網90多萬人圍觀!一個「沒學歷」的人戳破「AI神話」:「沒有10x工程師,大多數人只想朝九晚五、用AI摸魚」
AI成精了?提交代碼慘遭拒絕,次日寫長文公開砲轟人類工程師:你這是在歧視 AI
未來沒有前後端,只有 AI Agent 工程師。
這場十倍速的變革已至,你的下一步在哪?
4 月 17-18 日,由 CSDN 與奇點智能研究院聯合主辦「2026 奇點智能技術大會」將在上海隆重召開,大會聚焦 Agent 系統、世界模型、AI 原生研發等 12 大前沿專題,為你繪製通往未來的認知地圖。
成為時代的見證者,更要是時代的先行者。
奇點智能技術大會上海站,我們不見不散!