分類: 演算法優化
- 推理不再為 logits「搬磚」:FlashSampling 讓解碼提速 19%
- 賦予大模型「終身學習」能力,北航 CASE 框架:編輯千次不失憶,額外參數不到 1MB丨WWW'26
- VideoSeek 長影片理解 Agent:讓 GPT-5 在長影片理解上再提 10 個百分點的祕密
- 別再迷信結果獎勵了!港中文發現並解決 RL 中的「資訊自鎖」難題!
- Mamba-3:專為推論效率打造的新一代狀態空間模型
- 太狂了!MIT 團隊在 Transformer 內部打造電腦,LLM 從此無需外部工具?
- LLM RL 訓練軌跡竟然是線性的?Miaow Lab 最新工作:無需繼續訓練,直接「預測」未來模型!
- 強化學習遠非最優,CMU 剛剛提出最大似然強化學習
- DeepSeek-GRPO重要性權重設計錯誤?詳解Qwen3新強化學習演算法GSPO
- !離AGI更近了!!0.31元人民幣運行Google的AlphaEvolve和UBC的DGM「達爾文-哥德爾機」?
- 50年僵局突破!麻省理工學院最新證明:演算法中,少量記憶體勝過大量時間