分類: 模型優化
- 思考不需言語:使用抽象思維鏈實現高效潛在推理
- “刪掉一層”,模型反而更懂任務?哈工深 | 楊朔團隊發現 VLM 中的任務干擾層
- DeepSeek、GPT-5都在嘗試的快慢思考切換,有了更智慧版本,還是多模態
- 獎勵模型新革命!SWIFT不讀文本讀「心聲」,打造又快又強又省錢的AI裁判
- 強化學習框架的演進與發展趨勢
- 注意力總是發散?人大與清華大學聯合提出LeaF:移除干擾型Token,引導模型學會自主聚焦
- 面壁MiniCPM4推論速度快3倍,碾壓同尺寸Qwen3,讓阿里巴巴也感到壓力了~
- 啟動端側長文本時代!面壁全新架構,讓小鋼炮最快提升220倍
- 【深度學習】Mamba核心作者新發表:取代DeepSeek現行注意力機制,專為推論打造