AINews
最新の記事
すべての記事
日本語
Light
Dark
System
カテゴリー: 知識蒸留
TIP×AsyncTLS:蒸留訓練でトークン量を半減、疎なアテンションによる推論を 4.7 倍に高速化
Attentionが集中しない?中国人民大学と清華大学が「LeaF」を共同提案:妨害トークンを剪定し、モデルの能動的な焦点化を促す
NVIDIA Llama Nemotronシリーズ:主要技術解説
ZTEの研究:LLM適応型問題難易度グレーディング蒸留により、小規模モデルも「長連鎖思考」能力を獲得
←
1
→