AINews
最新文章
所有文章
繁體中文
Light
Dark
System
分類: 後訓練
生成-過濾-控制-重播:LLM強化學習中Rollout策略的全面綜述
思考不需言語:使用抽象思維鏈實現高效潛在推理
強化學習(RL)記憶更牢固,監督微調(SFT)更容易遺忘?普林斯頓陳丹琦團隊改寫後訓練認知
←
1
→