AINews
最新文章
所有文章
繁體中文
Light
Dark
System
分類: 大模型訓練
TIP×AsyncTLS:蒸餾訓練省下一半 Token,稀疏注意力推理效能飆升 4.7 倍
一作解讀!從idea視角,聊聊Qwen推出的新Scaling Law——Parallel Scaling
←
1
→