カテゴリー: アルゴリズム
- LLMはコンピューターになれるか? | Percepta
- Mamba-3: 推論効率を最優先に設計された新しい状態空間モデル
- PPOは死んだ?DeepSeekが使用する強化学習の基盤には重大な欠陥がある!
- Attentionは必要ではない?グラスマン流形を用いたシーケンスモデル링の幾何学的美学の再構築
- 梁文鋒の署名付き、DeepSeek新年の宏観アーキテクチャ新章、勾配爆発とメモリ壁を解決
- 上海交通大学博士の最新考察:2つの質問だけで強化学習を明確にする
- RAG開発者必見 Googleの新論文MUVERA:多ベクトル検索を単一ベクトル検索と同じ速さで
- RL推論の進捗整理
- Google の自己発見型アルゴリズム AlphaEvolve のオープンソース実装:OpenAplha_Evolve
- Google | 革命的なコーディングエージェント「AlphaEvolve」を発表、数学の限界を突破!
- 強化学習アルゴリズムの整理:PPOからGRPO、そしてDAPOへ