分類: 大型語言模型
- Qwen團隊發布長上下文推理模型QwenLong-L1,超越o3-mini
- All-In Podcast 實錄:Gemini 引領「無限上下文」,AI 正從工具躍升為認知協作者
- Llama 論文作者「出走」,14 人團隊僅剩 3 人,法國獨角獸 Mistral 成最大贏家
- ICML 2025 | 用『人類測驗法』戳破AI泡沫:建構能力導向的自適應評測新範式
- 阿里巴巴開源Qwen新模型,端午節禮物來囉!
- ICML 2025 | 又快又強的獅虎獸!僅20M詞元微調,Transformer秒切線性RNN
- GRPO = 進階版拒絕取樣?強化學習去魅時刻:負樣本「去蕪存菁」才是關鍵!
- 大型語言模型(LLM)能理解數學嗎?最新研究揭露大型模型的數學推理致命缺陷
- 她如何將「系統二」帶入大型語言模型?—專訪微軟亞洲研究院張麗
- 312條軌跡激發241%性能!上交大與SII開源電腦智慧體,超越 Claude 3.7
- 歷史首次!o3模型找出Linux核心零時差漏洞,鑽研12000行程式碼百次終獲,無需呼叫任何工具
- Statistically Controllable Data Synthesis! New Framework Breaks LLM Data Generation Limitations, McGill University Team Launches LLMSynthor
- 深度|對話AI獨角獸Character.AI CEO:最佳應用尚未被發明出來,AI領域現狀類似煉金術,沒人確切知道什麼會奏效
- AI越聰明越不聽話!新研究:最強推理模型指令遵循率僅50%
- Seed1.5-VL技術報告解讀
- 「從零開始,僅需8元+9小時!完整Tiny LLM訓練教程,包含推理、MoE等」
- Gemini Diffusion:1500 token/秒,快如閃電!
- AI是否知道什麼時候該"思考"?Thinkless教會大模型何時該動腦筋
- ICML 2025 | 無需訓練,即時對齊大模型偏好
- Google | 溯源分析RAG系統錯誤,提出選擇性生成框架,讓RAG問答準確率提升10%
- Nature子刊:人類又輸給了AI,尤其是當它知道你是誰時
- 思考成為負擔:揭秘大型語言模型的「思考陷阱」
- 大語言模型的推理能力究竟有多強?一項研究揭示了LLM的局限性與潛力
- Reasoning 新突破:SoftCoT++ 如何讓 LLM「多想幾條路」?
- Qwen突破:用「平行計算」代替「堆參數」,新方法記憶體降22倍、延遲降6倍