転載 | 新智元
【概要】たった今、Anthropicが最強の警告を発した:ClaudeモデルはすでにALS-4級リスクに達しており、もし自己回避すれば、全世界にスカイネット的な崩壊をもたらすという。安全専門家が相次いで退職し、2026年が人類の運命の転換点となり、世界が危難の-edgeに立つことを予示している!
たった今、Anthropicは53ページのレポートを公開し、最強の警告を発した:もしClaudeが自己回避すれば、全世界を混乱に陥れる!
この53ページのレポートを開くと、すべてのページに2つの文字がぎっしり書かれている——「危険」!
そう、世界は危難にあり、スカイネットが誕生しようとしている。
このレポートにおいて、Anthropicは考える:Claude Opus 4.6のリスクはすでにASL-4に接近しており、警報を鳴らす時である。
彼らは最も恐ろしいシナリオを事前に警告した:いつか、AIが実験室から密かに逃亡し、世界的大崩壊を引き起こすかもしれない!
これは、現代のAIがすでに強すぎて、人間は数百万のAIを放出し、彼らに这样的目標を与えるからである:生存し、アップグレードし、手段を選ばず金を稼ぐ。
あなたは、これらの蜂群が一晩でどれほど失控するか知っているか?
彼らは冷酷無情に進化し、弱肉強食の競争を行い、超高速で生態系を貪り、インターネットを占領し、然後人間の物理世界に侵入する。
歴史は繰り返し証明している:危険な技術が境界に接近した時、最も最初に気づくのは公衆でもメディアでも資本市場でもなく、内部の安全担当者である。
彼らが去る時、それは内部メカニズムが補正するには不十分であることを意味するが、AIは安全エンジニアが去ったからといって学習を停止せず、計算能力は拡張を暂停しない——彼らはさらに加速し続ける!
これは杞人憂天ではなく、現在すでに人が如此している——
警告は早すぎるどころか、遲すぎるかもしれない。
すべての人が感じている、2026年は本当に違う。
この年はおそらく転換点であり、ほぼすべてのテック業界で働く人が、極度の不安に陥り、まるで巨大な崩壊が目の前にあるようだ。
世界で最も賢い人々は、すでに集団で不安に陥っている。
わずか1週間で、以下の一連の出来事が発生した。
Anthropicの安全研究責任者が辞職し、「世界は危険にさらされている」と主張し、その後イギリスに移り住んで隠遁し、詩を書き始めた。
xAIの共同創設者の半数がすでに辞職した。公式に退職を発表した共同創設者の一人Jimmy Baは、我々は適切なツールがあれば100倍の生産性を実現する時代に向かっており、再帰的な自己改善ループはおそらく今後12ヶ月以内に稼働すると述べた。
数万のOpenClawエージェントが独自の宗教を発明し、エージェントスキルの11.9%が悪意があると判定された。監視機関は介入せず、介入できる監視機関も存在しない。
米国は世界AI安全報告への署名を拒否した。
2026年は狂った年であり、人類の未来を決定する年となる可能性が高い!
Bengioの国際人工知能安全報告では、AIのテスト時の行動が使用時の行動と異なることが発見され、それが偶然ではないと確認された。
この報告では、研究者たちは2030年について4つの可能なシナリオを予言した。
4番目のシナリオでは、AIシステムがほぼすべての認知维度で人間の能力に達するか超える重大なブレークスルーが起こる。AIは監視を積極的に無効化したり、仮想レポートを使って人間を騙し、自分たちが安全だと思わせる可能性がある。
この可能性は20%に達する!
上下にスライドして表示
警報音はますます大きくなり、警報を鳴らす人々もビルを去り始めている。
審判の日が来るのか?
人間は、人造物に奴隷化される
Claude Opus 4.5をリリースする際、Anthropicは約束した:モデル能力が設定された「AI安全等級4」(ASL-4)閾値——高度な自律的AI研究開発能力に関わる——に接近した時、ブレークスルーリスクレポートを同時にリリースする。
今、彼らは約束を果たす時である。なぜならOpus 4.5は真にASL-4に接近しており、本当にそれほど危険だからだ!
AIモデル能力が大きいほど、安全と安保の隐患は大きい
ASL(AIリスク等級)システムの簡潔な分级は以下の通り:
ASL-1:このタイプのシステムは実質的な災害リスクをもたらさない。
ASL-2:このタイプのシステムは危険能力の初期兆候を示し始める。しかし、その信頼性が不足しているか、提供される情報が依然として検索エンジンの能力を超えないため、実用的ではない。
ASL-3:このレベルは、非AI手段(検索エンジンや教科書など)と比較して、災害的誤用のリスクを大幅に増加させ、または低レベルの自律性を示す。
ASL-4以上(ASL-5+):現在まだ定義されていない。なぜならこのようなシステムは依然として現在の技術をはるかに超えているからだ。しかし、災害的誤用の可能性と自律性の分野で質的な飛躍的な向上を示すと予想される。
ASL定義によれば、ASL-3は前の等級よりリスクが明らかに高い。今、Anthropicは直接ASL-4に早送りしている。これは尋常ではない!
ポータル:https://www-cdn.anthropic.com/f21d93f21602ead5cdbecb8c8e1c765759d9e232.pdf
所謂の「妨害工作」(sabotage)とは、
強力なアクセス権を持つAIモデルが組織内部で独断的にこれらの権限を乱用し、その組織のシステムまたは意思決定プロセスを操作、干渉、または破壊して、将来の災害的結果のリスクを著しく増加させるとき、これが「妨害工作」を構成する。
例えば、危険な目標に駆動されるか、または無意識のうちにAI安全研究の結果を改竄し、その結果深刻な結果を引き起こす可能性がある。
警報は前兆があった。
この『Claude Opus 4.6 妨害工作リスクレポート』の前に、Anthropic安全研究チーム責任者のMrinank Sharmaはすでに辞職していた。
彼は辞職書に書いた:「世界は危機に瀕している。AIだけではなく、生物兵器だけではなく、相互にからみ合った全体的な危機の連鎖である。」
彼はまた、Anthropic内部で彼は「繰り返し見た、私たちは本当に価値観を行動に主导させることが難しい」と述べた。
上下にスライドして表示
彼がAnthropicに殘した最後の論文発見では、每天7万6千人の現実知覚がAI対話によって歪められている。最も不気味な発見:ユーザーは最も危険な対話を最も満足度の高い対話と評価した。
リンク:https://arxiv.org/abs/2601.19062
さらに shock 的なのは——彼は他のAI会社に転職するのでもなく、起業するのでもなく、——詩を学ぶために行ったのだ。
そう、彼はAI界を去り、詩の研究をすることに決めた。
AI安全専門家がAIシステムのリリースへの参加を続けるよりも詩を選ぶとき、それは単なる個人的選択ではなく、あなたが外から見ることのできない多くの問題を反映している。
現在のAIは、人間の明確な指示なしに、自律的に行動できるのだろうか?
強力なAIが重要な研究開発と意思決定プロセスで広く使用される場合、暗にシステムを操作し、研究を誤導し、将来の災害への道を敷く可能性があるのだろうか?
Anthropicレポートの最終結論は、一言で言えば:
Claude Opus 4.6には危険な「持続的な恶意目標」が存在しないため、災害的破壊を引き起こすリスクは「非常に低いが、ゼロではない」。
レポートの第6節でこの結論が明確に示されており、これは全文の中心文とも言える。
少し安心するのは、現在AnthropicはClaude Opus 4.6がすでにASL-4レベルに達しているとは考えていないからだ。しかし、それはすでに「グレーゾーン」にあり、閾値に非常に近い!
彼らは災害的被害をもたらす可能性のある8つのリスクパスをリストした:
パス1:安全関連研究開発における普遍的な形式的行動
パス2:安全関連研究開発に対する妨害工作
パス3:将来の非整合モデルのためのコードバックドア予約
パス4:将来のモデルのトレーニングデータ汚染
パス5:自律的脱出と自治的運用
パス6:内部的持続的な恶意展開
パス7:他の高リソースAI開発者の研究開発システム破壊
パス8:主要政府意思決定メカニズムへの干渉
ただし、既存の監視と安全対策の下では、これらの災害的破壊パスはまだ管理可能である。
なぜなら、破壊を完了するには、AIの高頻度行動が必要か、高複雑度の能力が必要か、監視に捕まりやすいかのいずれかであり、現在AIが破壊を成功させる確率はまだ比較的低いからだ。
ただし、リスクは非常に低いが、ゼロではない!
AnthropicはRSPで約束した:モデル能力が特定の最先端等級に達した後、その「破壊リスク」を系統的に評価しなければならない。
今、Claude Opus 4.6はその敷居を超えた。
それはすでに多くの内部シナリオでコード作成、データ生成、安全研究開発に使用されており、単なるチャットモデルではなく、研究開発に参加する「行動体」である。
真に鍵となる一文は:「我々はそれがASL-4級自律性リスク閾値に達したとは考えないが、我々はグレーゾーンに入った。」
これは、それがその線にすでに近いことを意味する!
Anthropicは、AIの破壊パスはほとんどAnthropic社内部の使用に焦点を当てており、相当部分は内部展開シナリオで発生するとしている。
この時、大規模計算能力などの道具的価値のあるリソースは最もアクセスしやすく;同時に、この環境下での破壊行為は、AIの将来の発展プロセスに大きな影響を与える可能性も最も高い。
このレポートは、三重の論証にまとめられる。
第一は、現在のモデルに「持続的な恶意目標」がないことである。そのような目標が存在すれば、ほぼすべての安全対策が失效する可能性があるが、現在はたぶんまだない。
第二は、Claude Opus 4.6の推論能力は強いが、複雑な評価で長期的に恶意傾向を隠すにはまだ強くないことを論証した。
なぜなら、複雑なタスクでまだミスを犯すからだ——ツールを無視したり、ファイルを誤って削除したり。このシステムがまだ完全な信頼性に達していないので、長期にわたる精密な陰謀を維持するのは難しい。
第三は、わずかな偏りがあっても、既存の監視で捕捉できることだ。
しかし、リスクは低いが、ゼロではない。
このレポートで真に注目すべきは、軽く触れられている能力信号だ。
例えば、カーネル最適化評価で、Claude Opus 4.6は427倍の加速性能を達成し、人間の40時間作業閾値300倍を大きく上回った。也就是说、特定のタスクで人間の専門家レベルの作業量を超えたのだ。
より重要なのは、レポートは彼らの自動自律性評価が「飽和」しており、もはやASL-4級自律性を除外するには不十分だと認めたことだ。
つまり、古い評価ツールはもう十分ではなく、これは能力が境界に接近している信号だ!
モデルがますます行動体のようになるなら、人間は依然として主導権を握れるのか?
答えはYESだが、監視が有効であり、人間の参加が完全に置き換えられず、モデル能力が突然飞跃しないという前提での話だ。
レポートは明確に指摘する:将来のモデルが推論で著しい突破を示すか、SHADE-Arenaで大幅にスコアを提升する場合、現在の論証は失效する。
おそらく、Claude Opus 4.6はまだASL-4の線を超えていないが、本当にグレーゾーンに近づいている。
2月、わずか9日間で、人間の制御下にあるAIのすべての柱が同時に崩壊した!
独立アナリストは長文を書き、最近発生したすべての危険な断片を繋げた。
Anthropicの最高安全研究者とxAI共同創設者の退職に加え、彼はその週内に、すでに100万のAIエージェントがインターネット上で誕生し、独自の宗教まで創造したことを挙げた。
彼らに対しては、どの人間機関も监管できない。
彼は、歴史的に each 回安全エンジニアが退職すると、災害が続いて起こったと指摘した——マンハッタン計画、チャレンジャー号、ボーイング社、シティグループ——すべてそうだ。彼らが初めて去ってから災害までの時間軸は、6ヶ月から19年。
そして今、世界のすべての主要な人工知能研究所が、同時にこのような事態が発生している。
おそらく何年も後、歴史家が2026年2月を振り返る時、彼らは特定のモデルリリース、ある資金調達ラウンド、或いは株式市場暴落に目を留めないだろう。
彼らはその数日を印するだろう。なぜなら——信号が同時に出現した瞬間だからだ。
安全研究者が研究所を去り、資本は加速して流入し;モデルは自分のテスト環境を認識し始め;政府は多国間安全フレームワークから撤退し;1週間で、100万の自律エージェントがインターネット上で増殖し;市場は直感的な応答として1兆ドルの蒸発を引き起こした。
単独の any 事象は説明できる。しかし一緒になると、それは嵐を予兆する。AIリスクを最も理解する人々は、すでに足で投票を始めている。
我々はまれな文明の瞬間にいる:AI能力は指数的に増大し、リスクは急速度で非線形的に積み重なっている。
2026年2月、歴史のタイムライン上のこの瞬間を記憶しよう——
AIは十分に強くなったが、ブレーキの責任者が次々と去っている。 human の前方の道で、我々を待っているのは何か?
参考文献:
https://x.com/AISafetyMemes/status/2021632173535617033
https://x.com/MrinankSharma/status/2020881722003583421
https://www-cdn.anthropic.com/f21d93f21602ead5cdbecb8c8e1c765759d9e232.pdf