分類: 注意力機制
- 北大團隊改造 DeepSeek 注意力機制:速度提升四倍且不損精度
- 大型語言模型能成為電腦嗎?
- 將注意力旋轉 90 度!今天,Kimi 的「注意力殘差」火了
- 面壁智能SALA架構,正拆除Transformer的那道牆
- 谷歌剛掀了模型記憶的桌子,英偉達又革了注意力的命|Hao好聊論文
- 從「Titans+MIRAS & Nested」跨越式架構創新到NeurIPS2025最佳論文「Gated Attention」
- 硬核解析大型語言模型:從 DeepSeek-V3 到 KimiK2,一篇文看懂主流 LLM 架構
- 注意力總是發散?人大與清華大學聯合提出LeaF:移除干擾型Token,引導模型學會自主聚焦
- 必讀好文:主流大型語言模型架構深度對比,涵蓋 Llama、Qwen、DeepSeek 等六大模型
- Kimi K2關鍵訓練技術QK-Clip!
- 【深度學習】Mamba核心作者新發表:取代DeepSeek現行注意力機制,專為推論打造
- 全局注意力+位置注意力刷新SOTA!精度近乎100%!