カテゴリー: 深層学習
- 10MパラメータでARCと数独を攻略、Bengioチームが「多軌跡推論」に挑む
- 35Bパラメータで数兆パラメータモデルに匹敵する科学性能、「書生」科学大規模モデルIntern-S2-Previewがオープンソース化
- 何愷明チームの「拡散モデル」新作:ラストワンマイルで離散デコード
- Transformerは99%スパースでも高速化可能?「Attention Is All You Need」の著者が新手法を発表
- スタンフォード新理論:ニューラルネットワークの汎化の謎解明、Adamに1行コード追加で2.4倍高速化
- メモリキャッシング:メモリ容量が増大する RNN
- NUS・復旦大学・清華大学:大規模言語モデルの潜在空間に関する初の体系的レビュー
- 東南大学・耿新チーム:モデルはできないのではなく、能力が「押し出された」だけである丨CVPR2026
- NVIDIAとSakana AIが共同開発した「スパースLLM」の核心技術を徹底解説
- 産業用コード生成能力でオープンソース第 1 位!北航チームが実機シミュレーション環境で 250 万件の検証済みデータを生成し、産業用コーディングの「水と油」問題を解決
- LLMはコンピューターになれるか? | Percepta
- Mamba-3: 推論効率を最優先に設計された新しい状態空間モデル
- AIは世界を理解する必要はないが、我々はAIを理解する必要がある
- 注意を 90 度回転させる!今日、Kimi の「注意残差」が話題に
- Nvidia、精度を損なわずにLLM推論コストを8倍に削減する新技術を発表
- Less is More: Recursive Reasoning with Tiny Networks
- Transformerは死んだか?DeepMindがAGIへの別の道に賭ける
- RLVR強化学習の学習コストが98%急減!12種のPEFT手法を大比較、結果は意外だった...
- Attentionは必要ではない?グラスマン流形を用いたシーケンスモデル링の幾何学的美学の再構築
- 梁文鋒の署名付き、DeepSeek新年の宏観アーキテクチャ新章、勾配爆発とメモリ壁を解決
- 【深掘り】Ilya Sutskever精選論文:プラトニック表現仮説
- 上海交通大学博士の最新考察:2つの質問だけで強化学習を明確にする
- NASの新視点:グラフニューラルネットワーク駆動の汎用アーキテクチャ空間、ハイブリッド畳み込みとTransformerで性能向上!
- 再帰的推論HRMモデルがさらなる進化!TRMの2層ネットワーク(7Mモデル)がLLMを凌駕!
- 思考の連鎖を覆す!ByteDanceが逆行工学推論を提案!AIが結果から過程を逆算