カテゴリー: 深層学習
- 階層的推論モデル Hierarchical Reasoning Model
- Kimi K2の主要な訓練技術:QK-Clip!
- アンドリュー・ン氏、LLMの「後学習」無料コースを公開:SFT、DPO、RLの3つの主要なチューニング手法を網羅
- 継続強化学習技術に関する最新の調査
- アリババが深夜に「切り札」エージェントをオープンソース化!OpenAIに真っ向勝負、性能は全面的にSOTAを達成!
- 10行のコードでAIME24/25が15%向上!大規模モデル強化学習におけるエントロピーメカニズムの解明
- 【深層学習】Mamba主要著者の新作:DeepSeek採用のアテンションメカニズムを置き換え、推論専用に設計
- Andrej Karpathy が絶賛!スタンフォード大学チームの新作、Llama-1B でミリ秒級推論を実現
- All-In Podcast 議事録:Geminiが「無限のコンテキスト」を牽引、AIはツールから認知コラボレーターへ昇格
- グローバルアテンション+位置アテンションがSOTAを更新!精度ほぼ100%!