AINews
最新文章
所有文章
繁體中文
Light
Dark
System
分類: 評測基準
再見了 SWE-Bench!Cursor 剛發布了一個 AI 程式設計評測基準,Claude 都被考哭了
0% 通過率!程式碼神話泡沫化!LiveCodeBench Pro 正式發布!
AI越聰明越不聽話!新研究:最強推理模型指令遵循率僅50%
←
1
→