无监督RL的粗略分析

发布时间:2025-06-27 16:07  浏览量:1

社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。

近期,无监督RL在社区也掀起了一阵热潮,主打一个 多快好省(不能训太长step)有效果,且不论文章里面的evaluation是否存在问题,本文简要分析一下这些文章的出发点以及一些形而上学的直观分析。

无监督RL

无监督RL目前在LLM领域多指不需要使用gold-answer的RL,这里一般包括两种:

目前的无监督RL主要集中在第一种setting,即不使用真实数据提供的answer进行RL训练。如果不使用真实数据的answer作为reward-signal,只能借鉴传统semi-supervised-learning的想法:利用某种consistency(比如rdropout、uda等等),降低输出的不确定性。(这里敲重点:RL本事是reverse-kl的优化目标,优化过程中,输出不确定性天然会下降,如果进一步利用consistency,可预期输出的不确定性会下降的更多,最终导致输出坍缩到某个固定的pattern,进而失去探索能力,使得模型性能下降)。

consistency在半监督学习中是一个常见的思想(包括 自监督学习),通过扰动、变换、加噪声等等,让这些输入和clean样本通过网络后,输出分布具有一致性:

如google的UDA:

进入正题:LLM采样输出的一致性metric如何选择,便有了不同的无监督RL方法。经典的一致性准则:

答案一致性

相关工作如TTRL、Can Large Reasoning Models Self-Train?,均是利用答案一致性得到pesudo-answer,并将pesudo-answer作为“gold- answer”用于RLVR的优化:

包括SEED-GRPO也引入semantic-entropy(按照answer是否一致做“语义”聚类)。

使用投票机制获取pesudo-answer,天然会让模型的输出越来越一致,而明显的short-cut就是输出response几乎“一摸一样”,答案投票才会越来越一致,reward才会越来越高。自然而然,输出多样性会下降甚至崩溃。当训练step过多后,效果下降似乎不可避免,但在合理的训练step内,可预期可以提升效果。

trajectory-level的自洽性

最容易想到的是熵,熵代表了不确定度量,熵越低,系统越稳定,结论越一致,但效果不一定更好。

相关工作如ent-rl、Intuitor,通过优化不确定度,在合理的训练step内,有效提升了模型性能。

如ent-rl使用entropy作为reward,让模型越来越自信。

Intuitor(Learning to Reason without External Rewards)则提出使用self-certainty:

self-certainty越偏离均匀分布,self-certainty越大(self-certainty是一种test-time-scaling的采样方法,能够提升BON的效果)。

当然,在标准RLVR训练中(使用gold-answer),self-certainty指标也是随着训练过程的进行越来越大。

No Free Lunch: Rethinking Internal Feedback for LLM Reasoning则更为系统的分析了基于internal-feedback的LLM-RL训练,基本结论也是类似:随着训练的进行,基于internal-feedback的效果会逐渐decay。

借鉴UDA等等方法,更好的利用internal-feedback还是半监督方法,即使用一部分gold-answer的reward+一部分internal-feedback的reward,可能可以避免这个问题。另外,internal-feedback 可能也可以用来作为Intrinsically-motivated-RL比如random-network-distillation:

无监督RL大部分可以归为利用某种内在一致性,输出不确定性 如投票、entropy、self-certainty等等。使用内在一致性作为reward大概率随着训练的进行,熵会坍缩,进而导致效果下降。在合理的训练steps内,效果也可预期有一定提升。

未来,参考半监督学习的常见方法如UDA等等,混合gold-answer-reward-signal以及internal-feedback,可能可以更好的实现数据效率提升以及提升exploration效率(如random-network-disitllation和self-certainty笔者感觉就非常像,random-network的输出比较接近均匀分布)。

最后吐槽一下,近期agentic-rl,环境稳定性(经常失败、挂掉),太影响训练的debug了(有时候是环境延迟超时、环境崩溃导致模型一次又一次工具调用,这个时候加入reward-penalty会让训练跑的更偏)。

引用链接

[1][2][3]Can Large Reasoning Models Self-Train?:[4][5][6][7][8]自然语言处理/Pytorch社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。