AINews
最新文章
所有文章
繁體中文
Light
Dark
System
分類: 知識蒸餾
TIP×AsyncTLS:蒸餾訓練省下一半 Token,稀疏注意力推理效能飆升 4.7 倍
注意力總是發散?人大與清華大學聯合提出LeaF:移除干擾型Token,引導模型學會自主聚焦
NVIDIA Llama Nemotron 系列模型:關鍵技術解析
中興通訊研究:LLM自適應題目難度分級蒸餾,讓小模型也擁有「長鏈思考」能力
←
1
→