最新文章
所有文章

繁體中文

分類：後訓練

生成-過濾-控制-重播：LLM強化學習中Rollout策略的全面綜述
思考不需言語：使用抽象思維鏈實現高效潛在推理
強化學習（RL）記憶更牢固，監督微調（SFT）更容易遺忘？普林斯頓陳丹琦團隊改寫後訓練認知

←
1
→

AINews·AI 新聞聚合平台

© 2026 AINews. All rights reserved.