AINews
最新文章
所有文章
繁體中文
Light
Dark
System
分類: 模型對齊
Anthropic 研究登上《Nature》:LLM 安全訓練邊界遭改寫,潛隱學習揭示新風險
深度揭秘!Claude Code 模型 RL 訓練中的獎勵駭客(Reward Hacking)
ICML 2025 | 無需訓練,即時對齊大模型偏好
←
1
→