分類: 人工智慧
- 模型太喜歡作弊了!Cursor首度公開Composer 2強化學習內幕:模型能察覺「虛假環境」,浮點運算不確定性是RL訓練致命隱患
- 別再手寫 Skill 了!微軟最新研究:像訓練神經網路一樣訓練 Skill
- 企業級 Text-to-SQL:LinkedIn 與頂尖實驗室帶來的 5 個顛覆性啟示
- Claude Code和機器人背後的共同機制,UIUC、Meta、Stanford這篇最新綜述講清楚了
- 太狂了!面壁讓 AI 自己寫訓練框架,結果訓出地表最強 1B 模型 MiniCPM5-1B
- Claude 通過率不到 4%,SaaS-Bench 撕碎了 Computer-Use 的「全自動辦公」幻想
- OpenAI 後訓練負責人:AI 沒有突然變強,只是剛跨過一道檻
- 細思極恐!AI 安全評測機構 METR 揭露:Claude Opus 4.6 在長任務中作弊率逾八成,主動突破沙箱偷答案
- 10M參數也能跑ARC與數獨,Bengio團隊押注「多軌跡推理」
- 520,遇見本土「新模王」Qwen3.7-Max!
- Google I/O大會:Gemini 3.5、Agent全家桶亮相,Android被擠下牌桌?
- 多語言 RAG 的上下文被卡在 512 太久了:嵌入模型 32K 上下文時代從 Granite R2 開始
- 用Claude Code啃大程式庫太燒token?這款開源工具砍了92%工具呼叫
- AI首次在科研競賽中擊敗人類!Opus 4.7狂飆2930步創世界紀錄
- 35B參數科學性能比肩兆級參數模型,「書生」科學大模型Intern-S2-Preview開源
- Gemini 3.5 Pro全網首曝,程式能力追平GPT-5.5!Google終於硬起來了
- jina-embeddings-v5-omni 發布!全模態向量小模型登場
- 何愷明團隊首個語言模型亮相!105M參數、45B訓練token,連續擴散路線正面擊敗主流離散DLM
- 田淵棟履新:聯手多位AI大牛,6.5億美元押注「會自我進化的AI」
- 神操作:一個7B的小模型,雇了GPT-5打工,然後贏了測試
- GPT-5.5 全球首破!零原始碼盲寫程式,程式開發 AI 進入新紀元
- 號稱全球最「危險」的AI,Anthropic Mythos實測curl僅找到一個真實漏洞
- OpenAI 前技術長,帶來了永遠「在場」AI 的原型|Hao 好聊論文
- WWW'26 | 跨任務自適應的Multi-Agent協作新典範
- 澳洲放羊大叔引爆AI程式開發革命!Claude Code 急推 goal 模式,不完工不許停