分類: 智能體
- 再見了 SWE-Bench!Cursor 剛發布了一個 AI 程式設計評測基準,Claude 都被考哭了
- 美團低調上新!實測首個開源「重思考」模型:8路並行,Agent硬剛Claude
- Agentic RAG到底值不值?四大維度實測給你答案!
- 程式設計測試碾壓人類!Claude Opus 4.5 深夜突襲,AI 程式設計進入「超人時代」
- 強化學習+大模型記憶:Mem-α,讓智能體第一次學會「如何記憶」
- Claude 4 Launched: Anthropic No Longer Teaches AI to Code, But Lets It Write Projects Independently
- OpenAI放大招!核心API支援MCP,一夜改變智能體開發