分類: 大型語言模型
- 大模型強化學習新突破——SPO新範式助力大模型推論能力提升!
- AI 頭條:OpenAI Codex 新增網路存取權限,Mistral 釋出程式編寫助手
- 晴天霹靂!蘋果最新研究證實:DeepSeek、o3、Claude 等「推論」模型根本不具推論能力
- 全球30位頂尖數學家秘密集會圍堵AI,當場「破防」!驚呼已接近數學天才
- 世界頂尖數學家對人工智慧在工作中的熟練程度感到震驚
- 首個多模態專用慢思維框架!超越GPT-o1近7個百分點,強化學習教VLM「三思而後行」
- 奧特曼:Codex 讓我感覺到 AGI!最新對談罕見透露下一代「完美模型」,大膽預測 AI 代理明年將突破界線!
- 10行程式碼,AIME24/25提升15%!揭密大型模型強化學習的熵機制
- 讓AI也能「權衡利弊」?DecisionFlow讓大型語言模型更理解高風險決策!
- 模型越聰明越「不聽話」?MathIF基準揭示AI服從性漏洞
- 首個基因推理AI橫空出世!準確率飆升至97%,徹底改變基因體學研究
- 過程監督>結果監督!華為港城重構RAG推論訓練,5k樣本效能超越90k模型
- 整理RL推理的進展
- OPA-DPO:多模態大型模型幻覺問題的高效解決方案
- AI僅憑「自信」學會推理,浙大校友復刻DeepSeek長思維鏈湧現,強化學習無需外部獎勵訊號
- 北京大學校友翁荔最新部落格:Why We Think
- LSTM之父22年前構想將成真?AI「自我演化」論文一週內集中發表,新趨勢湧現?
- AI數學能力飆升100%,自進化逼近強化學習極限!CMU新作顛覆認知
- 首次解釋LLM如何推論反思!西北大學、Google新框架:引入貝葉斯自適應強化學習,全面提升數學推論能力
- AI竟會「自己認錯」?破解多智能體協作「羅生門」,斬獲ICML 2025 Spotlight
- 史丹佛華人團隊爆冷門!AI用純CUDA-C編寫核心程式碼,竟然超越PyTorch?
- 大型語言模型數獨解不好?!Transformer 作者新創公司公布排行榜:o3 Mini High「變異數獨」正確率僅 2.9%
- Andrej Karpathy 盛讚!史丹佛團隊新作,讓 Llama-1B 實現毫秒級推論
- 清華大學新RAG架構:DO-RAG 準確率飆升33%!
- LLM 結合 RL 遭質疑:刻意使用錯誤獎勵,數學基準竟也顯著提升,AI 圈為之震驚