最新文章
所有文章

繁體中文

分類：注意力機制

記憶體快取：具備成長型記憶力的循環神經網路
北大團隊改造 DeepSeek 注意力機制：速度提升四倍且不損精度
大型語言模型能成為電腦嗎？
將注意力旋轉 90 度！今天，Kimi 的「注意力殘差」火了
面壁智能SALA架構，正拆除Transformer的那道牆
谷歌剛掀了模型記憶的桌子，英偉達又革了注意力的命｜Hao好聊論文
從「Titans+MIRAS & Nested」跨越式架構創新到NeurIPS2025最佳論文「Gated Attention」
硬核解析大型語言模型：從 DeepSeek-V3 到 KimiK2，一篇文看懂主流 LLM 架構
注意力總是發散？人大與清華大學聯合提出LeaF：移除干擾型Token，引導模型學會自主聚焦
必讀好文：主流大型語言模型架構深度對比，涵蓋 Llama、Qwen、DeepSeek 等六大模型
Kimi K2關鍵訓練技術QK-Clip！
【深度學習】Mamba核心作者新發表：取代DeepSeek現行注意力機制，專為推論打造
全局注意力+位置注意力刷新SOTA！精度近乎100%！

←
1
→

AINews·AI 新聞聚合平台

© 2026 AINews. All rights reserved.