Tag: PPO
All the articles with the tag "PPO".
- 7.0
Tree Search Distillation:用 PPO 让语言模型学会「先搜后答」
研究者提出树搜索蒸馏方法,通过 PPO 将 MCTS 等树搜索过程内化到 LLM 推理中,推理时无需额外搜索即可受益。
All the articles with the tag "PPO".
研究者提出树搜索蒸馏方法,通过 PPO 将 MCTS 等树搜索过程内化到 LLM 推理中,推理时无需额外搜索即可受益。