分類: 大型語言模型
- Star 數狂飆!MSA 重磅開源!
- Tokens 燒錢太快?試試這個四層模型組合策略
- 大型語言模型也能「原地」調參了!字節 Seed 與北大聯合發表新論文:推論時無需新增層或重新訓練
- 無需強化學習!蘋果團隊提出「簡單自蒸餾」,實現編碼模型自我進化
- 讓思考更精準更長!強化學習新演算法 FIPO 登場
- GLM-5.1:邁向長時間跨度的任務處理
- MSA 程式碼準時開源!突破 1 億 Token 記憶極限,效能超越 58 倍大模型 RAG
- 疑似 GPT-6 現身!OpenAI 聯合創辦人親曝「Spud」新一代 AI 模型,竟擁有「大模型氣味」!網友熱議:這是首款真正會「思考」的型號!
- Meta-Harness:史丹佛最新Harness論文,林俊旸按讚
- 500 筆種子數據、四個 Agent 自我進化,推理能力提升 10.7%
- 推理不再為 logits「搬磚」:FlashSampling 讓解碼提速 19%
- 大型語言模型能成為電腦嗎?
- 賦予大模型「終身學習」能力,北航 CASE 框架:編輯千次不失憶,額外參數不到 1MB丨WWW'26
- 林俊旸離職後首次發聲!覆盤千問的彎路,指出AI的新路
- VideoSeek 長影片理解 Agent:讓 GPT-5 在長影片理解上再提 10 個百分點的祕密
- TurboQuant:以極致壓縮技術重新定義 AI 效率
- 長影片推理為何總是翻車?Symphony 給出的答案是認知分工
- 蘇黎世聯邦理工實測:一句Prompt就能摧毀16個Agent組成的「共識網路」|多Agent避坑指南
- NVIDIA Nemotron-Cascade 2 技術報告:3B 激活參數奪下 IMO 金牌,重新定義小模型極限
- 僅用2億真實Token訓練的模型,為何能媲美3.6億數據量的效果?
- ICLR 2026 | 大型語言模型的非監督式強化學習能走多遠?清華大學研究團隊提出系統性解答
- 最新!Karpathy萬字深度專訪:我焦慮到AI成癮,所有可驗證的領域,終將屬於機器
- OpenAI 傾盡全力打造全自動 AI 研究員
- 別再迷信結果獎勵了!港中文發現並解決 RL 中的「資訊自鎖」難題!
- MiniMax M2.7:開啟模型的自我進化