|
国家预印本平台
|
注册
中文
EN
首页
论文浏览
论文提交
合作期刊申请
帮助中心
首页
|
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning
Shuyao Xu
Cheng Peng
Jiangxuan Long
Weidi Xu
Wei Chu
Yuan Qi
分享
举报
✕
来源:
Arxiv
Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning
Shuyao Xu
Cheng Peng
Jiangxuan Long
Weidi Xu
Wei Chu
Yuan Qi
作者信息
引用本文
复制引用
Shuyao Xu,Cheng Peng,Jiangxuan Long,Weidi Xu,Wei Chu,Yuan Qi.Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning[EB/OL].(2025-05-30)[2025-12-13].https://arxiv.org/abs/2505.24850.
学科分类
计算技术、计算机技术
评论
首发时间
:
2025-05-30
下载量:
0
|
点击量:
2
分享
举报
段落导航
相关论文
Abstract
引用本文
评论
评论