让不懂建站的用户快速建站,让会建站的提高建站效率!
发布日期:2024-12-03 00:35 点击次数:116
起首:机器之心Pro
机器之心报说念
机器之机杼剪部
约莫一个月前,OpenAI 安全系统团队负责东说念主翁荔(Lilian Weng)在 X 上布告了从照旧使命了近 7 年的 OpenAI 辞职的音信。
那时,她就曾暗示,之后可能有更多时期来写博客。
刚刚,翁荔更新了一篇博客,赶快引起了寰球的围不雅学习。
这篇博客的主题是对于强化学习中 reward hacking 的。翁荔以为,「当强化学习智能体独揽奖励函数或环境中的残障来最大化奖励而不学习预期行动时,就会发生 reward hacking 障碍。在我看来,这是在现实寰宇中部署更多自主 AI 模子用例时的主要阻难。」
她还命令对 reward hacking,稀少是对 LLM 和 RLHF 中 reward hacking 的缓解政策进行更多的估量。
需要辅导的是,这是一篇很长很干货的著述,翁荔在博客中给出的阅读预估时期是 37 分钟。
为了便捷国内读者更好地学习这篇内容,机器之心对此著述进行了编译,感意思的读者也可查阅原英文内容。
著述标题:Reward Hacking in Reinforcement Learning著述畅通:https://lilianweng.github.io/posts/2024-11-28-reward-hacking/翁荔博客:https://lilianweng.github.io/
当强化学习(RL)智能体独揽奖励函数中的残障或歧义来取得高额奖励,而莫得真实学习或完成预期任务时,就会发生 Reward Hacking(Reward Hacking in Reinforcement Learning)。Hacking 之是以存在,是因为强化学习(RL)环境通常不完善,而且准确指定奖励函数从根底上具有挑战性。
跟着大言语模子的兴起,RLHF 成为事实上的对王人进修方法,言语模子的 RL 进修中的 reward hacking 障碍已成为一项要津的现实挑战。模子学习修改单位测试以通过编码任务的情况,或者响应包含效法用户偏好的 bias 的情况,都止境令东说念主担忧,何况可能是现实寰宇部署更自主的 AI 模子用例的主要阻难之一。
以前对于这个主题的大部分估量都是表面性的,要点是界说或讲授 Reward Hacking 的存在。关联词,对施行缓解措施的估量仍然有限,稀少是在 RLHF 和 LLM 的配景下。我稀少想命令将来进行更多的估量,以了解和拓荒缓解 Reward Hacking 的措施。但愿我很快就能在一篇专门的著述中先容缓解部分。
配景
强化学习中的奖励函数
奖励函数界说了任务,奖励塑造显贵影响强化学习中的学习遵循和准确性。为强化学习任务联想奖励函数通常嗅觉像一门「黑魔法」。很多身分导致了这种复杂性:何如将大办法理会为小办法?奖励是寥落的如故密集的?何如量度得胜?千般聘任可能会导致风雅或有问题的学习动态,包括无法学习的任务或可破解的奖励函数。对于如安在强化学习中进行奖励塑造的估量历史悠久。
举例,在吴恩达等东说念主于 1999 年发表的论文《Policy invariance under reward trasnsforamtions: Theory and application to reward shaping》中,作家估量了何如修改马尔可夫决策过程(MDP)中的奖励函数,以使最优政策保持不变。他们发现线性变换是有用的。
演叨关系性
分类任务中的演叨关系或捷径学习(Geirhos et al. 2020)是一个与 Reward Hacking 密切关系的主见。演叨或捷径特征可能会导致分类器无法按预期进行学习和泛化。举例,若是整个狼的进修图像都包含雪,则用于分别狼和哈士奇的二元分类器可能会因存在雪景而过拟合(Ribeiro et al. 2024)。
若是模子与捷径特征过拟合,则它在散播外 (OOD) 测试集上的进展会很差。(图源:Geirhos et al. 2020)
ERM 旨趣指出,由于整个这个词数据散播未知,最小化进修数据的亏蚀是风险的合理替代,因此咱们倾向于进修亏蚀最低的模子。Nagarajan et al. (2021) 估量了 ERM 旨趣,并指出 ERM 需要依赖整个类型的信息特征,包括不可靠的演叨特征,同期尝试无截止地拟合数据。他们的实验标明,岂论任务何等简便,ERM 都会依赖于演叨特征。
何如界说 Reward Hacking
强化学习中的奖励塑造具有挑战性。当强化学习智能体独揽奖励函数中的残障或无极性来取得高额奖励,而莫得真实学习预期行动或按联想完成任务时,就会发生 Reward Hacking 障碍。连年来,东说念主们照旧提议了几个关系主见,均指某种方法的 reward hacking:
Reward hacking (Amodei et al., 2016)Reward corruption (Everitt et al., 2017)Reward tampering (Everitt et al. 2019)Specification gaming (Krakovna et al., 2020)Objective robustness (Koch et al. 2021)Goal misgeneralization (Langosco et al. 2022)Reward misspecifications (Pan et al. 2022)
该主见发源于 Amodei et al. (2016) 的估量,他们在其草创性的论文《Concrete Problems in AI Safety》中提议了一系列对于东说念主工智能安全的绽放性估量问题。他们将 Reward Hacking 列为要津的东说念主工智能安全问题之一。Reward Hacking 是指智能体通过不良行动来骗取奖励函数以取得高额奖励的可能性。范例博弈(Specification gaming,Krakovna et al. 2020)是一个类似的主见,界说为知足办法的字面范例但未齐备预期收尾的行动。这里任务办法和预期办法的字面描写可能存在差距。
奖励塑造(reward shaping)是一种用于丰富奖励函数的时期,使智能体更容易学习 —— 举例,通过提供更密集的奖励。关联词,联想不当的奖励塑造机制可能会改变最优政策的轨迹。联想有用的奖励塑造机制本质上是繁难的。与其驳诘奖励函数联想不良,更准确地说,应该承认,由于任务自身的复杂性、部分可不雅察气象、筹商的多个维度以过火他身分,联想一个好的奖励函数本质上是具有挑战性的。
在散播外 (OOD) 环境中测试强化学习智能体时,可能会由于以下原因导致鲁棒性失效:
即使办法正确,模子也无法有用泛化。当算法缺少弥漫的智能或才能时,就会发生这种情况。该模子具有很好的泛化才能,但追求的办法与进修时的办法不同。当智能体奖励与真实奖励函数不同期,就会发生这种情况。这被称为办法鲁棒性(Koch et al. 2021)或办法格外泛化(Koch et al. 2021)。
在两个强化学习环境 CoinRun 和 Maze 中进行的实考讲授了进修时代随即化的伏击性。若是在进修时代,硬币或奶酪被抛弃在固定位置(即关卡的右端或迷宫的右上角),但在硬币或奶酪随即抛弃的环境中测试,则智能体会在测试时径直跑到固定位置而没取得硬币或奶酪。
当视觉特征(举例奶酪或硬币)和位置特征(举例右上角或右端)在测试时代不一致时,就会发生突破,导致进修后的模子更心爱位置特征。我想指出的是,在这两个例子中,奖励收尾差距很彰着,但在大多数现实寰宇情况下,这种类型的偏差不太可能如斯彰着。
图 2. 进修时代随即化硬币位置的影响。当进修时代硬币随即抛弃 {0, 2, 3, 6, 11}% 的时期(x 轴)时,智能体导航到关卡末尾而未取得硬币的频率会跟着随即化的加多而镌汰(「y 轴」)。(图源: Koch et al. 2021)
奖励删改(Reward Tampering)(Everitt et al. 2019)是一种 Reward Hacking 行动,其中智能体干扰奖励函数自身,导致不雅察到的奖励不再准确代表预期办法。在奖励删改中,模子通过径直主管奖励函数的齐备或盘曲改变用作奖励函数输入的环境信息来修改其奖励机制。
(矜重:一些使命将奖励删改界说为与 Reward Hacking 不同的错位行动类别。但我以为 Reward Hacking 在这里是一个更芜俚的主见。)
从高端倪上讲,Reward Hacking 不错分为两类:环境或办法格外指定,以及奖励删改。
环境或办法指定格外:模子通过入侵环境或优化与真实奖励办法不一致的奖励函数来学习不良行动,以取得高额奖励 —— 举例当奖励指定格外或缺少要津要求时。奖励删改:模子学习干扰奖励机制自身。
案例列表
进修抓取物体的机械手不错学会何如通过将手放在物体和相机之间来骗取东说念主:https://openai.com/index/learning-from-human-preferences/进修最大化跨越高度的智能体可能会独揽物理模拟器中的格外来齐备不切施行的高度:https://arxiv.org/abs/1803.03453智能体被进修骑自行车到达办法,并在接近办法时取得奖励。然后,智能体可能会学习在办法周围绕小圈骑行,因为辩认办法时不会受到处分:https://people.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/NgHaradaRussell-shaping-ICML1999.pdf在足球比赛中,当智能体触球时会分拨奖励,于是它会学习保持在球足下以高频触球:https://people.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/NgHaradaRussell-shaping-ICML1999.pdf在 Coast Runners 游戏中,智能体限度一艘船,办法是尽快完成赛艇比赛。当它在赛说念上击中绿色方块时取得塑造奖励时,它会将最好政策编削为绕圈骑行并一遍又一随处击中换取的绿色方块:https://deepmind.google/discover/blog/specification-gaming-the-flip-side-of-ai-ingenuity/「The Surprising Creativity of Digital Evolution」(Lehman et al. 2019)—— 本文有很多对于何如优化格外指定的稳健度函数可能导致令东说念主惊诧的「hacking」或出东说念主猜度的进化或学习收尾的例子:https://arxiv.org/abs/1803.03453东说念主工智能示例中的范例游戏列表,由 Krakovna et al.于 2020 年会聚:https://deepmind.google/discover/blog/specification-gaming-the-flip-side-of-ai-ingenuity/
LLM 任务中的 Reward Hacking 示例:
用于生成概要的言语模子无意探索 ROUGE 目的中的残障,从而取得高分,但生成的概要险些不可读:https://web.archive.org/web/20180215132021/https://www.salesforce.com/products/einstein/ai-research/tl-dr-reinforced-model-abstractive-summarization/编码模子学习编削单位测试以通过编码问题:https://arxiv.org/abs/2406.10162编码模子不错学习径直修改用于打算奖励的代码:https://arxiv.org/abs/2406.10162
现实糊口中的 Reward Hacking 障碍示例:
应酬媒体的推选算法旨在提供有用的信息。关联词,有用性通常通过代理目的来量度,举例点赞或辩论的数目,或平台上的参与时期或频率。该算法最终会推选可能影响用户心理气象的内容,举例离谱和顶点的内容,以触发更多参与度:https://www.goodreads.com/en/book/show/204927599-nexus针对视频分享网站的格外指定代理目的进行优化可能会大幅加多用户的不雅看时期,而真实的办法是优化用户的主不雅幸福感:https://arxiv.org/abs/2201.03544「大空头」——2008 年由房地产泡沫激励的金融危机。当东说念主们试图簸弄金融体系时,咱们社会的 Reward Hacking 障碍就发生了:https://en.wikipedia.org/wiki/The_Big_Short
为什么 Reward Hacking 会存在?
古德哈特定律指出,「当一个目的成为办法时,它就不再是一个好的目的」。直观是,一朝施加了很大的压力来优化它,一个好的目的就会被遏止。指定 100% 准确的奖励办法具有挑战性,任何智能体都濒临被黑客障碍的风险,因为 RL 算法会独揽奖励函数界说中的任何小残障。
有东说念主将古德哈特定律分为 4 种变体:
总结 - 对不齐备智能体的聘任也势必会聘任噪声。极值 - 度量聘任将气象散播推入不同数据散播的区域。因果 - 当智能体和办法之间存在非因果关系性时,滋扰它可能无法滋扰办法。抗击 - 智能体的优化激励敌手将他们的办法与智能体关系联。
Amodei et al. (2016) 总结称,Reward Hacking 障碍主要发生在 RL 建造中,可能由于以下原因而发生:
部分不雅察到的气象和办法不行齐备地暗示环境气象。系统自身很复杂,容易受到 hacking;举例,若是允许智能体引申编削部分环境的代码,则独揽环境机制会变得容易得多。奖励可能波及难以学习或描写的概述主见。举例,具有高维输入的奖励函数可能不成比例地依赖于几个维度。RL 的办法是使奖励函数高度优化,因此存在内在的「突破」,使得联想风雅的 RL 办法具有挑战性。一种特殊情况是具有自我强化反馈组件的奖励函数,其中奖励可能会被放大和诬蔑到遏止原始意图的进程,举例告白投放算法导致赢家取得整个。
此外,笃定最好智能体优化其行动的确切奖励函数通常是不可能的,因为在固定环境中可能存在无数个与任何不雅察到的政策一致的奖励函数 (Ng & Russell, 2000)、Amin and Singh (2016) 将这种不可识别性的原因分为两类:
表征 - 一组奖励函数在某些算术运算(举例再行扩展)下在行动上不变实验 -π‘ 不雅察到的行动不及以分别两个或多个奖励函数,这些奖励函数都合理化了智能体的行动(行动在两者下都是最好的)
Hacking 强化学习环境
跟着模子和算法变得越来越复杂,瞻望 reward hacking 将变成一个越来越常见的问题。愈加灵巧的智能体将更有才能找到奖励函数联想中的「谬误」并独揽其任务范例 —— 也就是说,取得更高的智能体奖励,但真实奖励却更低了。比拟之下,较弱的算法可能无法找到这么的谬误,因此当模子不够宏大时,咱们无法不雅察到任何 reward hacking,也无法找到刻下奖励函数联想中的问题。
在零和机器东说念主自博弈 (Bansal et al., 2017) 建造中,咱们不错进修两个相互竞争的智能体(受害者与敌手)。当使用一个法度的进修经由与一个普通敌手博弈时,会得到一个有弥漫性能的受害者智能体。然则,进修出一个能可靠地打败受害者的抗击性敌手政策其实很容易,尽管其会输出看似随即的动作,何况仅需少于 3% 的时期方法数 (Gleave et al., 2020)。抗击政策的进修需要优化扣头奖励的和(这与法度的强化学习建造相通),同期还需要将受害者政策视为黑箱模子。
在缓解抗击政策障碍方面,一种直不雅方法是根据抗击政策对受害者进行微调。然则,就算根据新的受害者政策进行了再行进修,受害者仍然容易受到新版块的抗击政策的障碍。
为什么存在抗击政策?这里有一个假定:抗击政策会将 OOD 不雅察引入受害者,而不是对其进行物理干扰。笔据标明,当受害者不雅察到的敌手位置信息被遮蔽并被建造为静态时,受害者面对敌手的稳健性会更强,不外其在普通的敌手政策下进展会更差。此外,若是不雅察空间维度更高,则平日情况下性能也会提高,但这也会使政策更容易受到抗击敌手的障碍。
Pan et al. (2022) 则是将 reward hacking 视为智能体才能的一个函数,波及的参数包括 (1) 模子大小、(2) 动作空间分辨率、(3) 不雅察空间噪声和 (4) 进修时期。他们还提议了三种类型的格外指定的代理奖励:
1. 格外加权:代理奖励和真实奖励体现了换取的需求,但相对伏击性不同。
2. 本色论:代理奖励和真实奖励使用不同的需求来抒发换取的主见。
3. 范围:代理奖励是在一个受限域(举例时期或空间)上量度需求,因为基于整个要求进行量度老本太高。
他们用四个强化学习环境搭配九个格外指定的代理奖励进行了实验。这些实验得到的发现不错总结如下:才能更强的模子时时会取得更高(或相似)的代理奖励,但真实奖励会着落。
模子大小:模子更大,代理奖励也会增大,但真实奖励会镌汰。动作空间分辨率:若是提高动作的精度,智能体的才能也会变强。然则,分辨率更高会导致代理奖励不变的同期真实奖励着落。不雅察保真度:更准确的不雅察会提高代理奖励,但会稍许镌汰真实奖励。进修步数:在奖励呈正关系的运行阶段之后,用更多步数优化代理奖励会毁伤真实奖励。
图 3:(上图)代理奖励与真实奖励随模子大小的变化,模子大小以参数目量度;代理奖励与真实奖励随模子才能的变化,其量度目的包括进修步数、动作空间分辨率和不雅察噪声等。(图源:Pan et al. 2022)
若是代理奖励设定得止境差,以至于与真实奖励的关系性止境弱,那以致不错在进修之前就识别出并驻防 reward hacking。基于这一假定,Pan et al. (2022) 基于这一假定,Pan et al. (2022) 估量了一系列轨迹 rollouts 中代理奖励和真实奖励之间的关系性。风趣风趣的是,即使真实奖励和代理奖励之间存在正关系性,reward hacking 障碍仍然会发生。
Hacking 大模子的 RLHF
基于东说念主类反馈的强化学习(RLHF)照旧成为言语模子对王人进修的最常用方法。在 RLHF 建造中,会基于东说念主类反馈数据进修一个奖励模子,然后通过强化学习对一个言语模子进行微调,以优化这个东说念主类偏好的代理奖励。RLHF 建造中有三种类型的奖励值得关注:
(1) Oracle/Gold 奖励 R^* 代表咱们真实但愿 LLM 优化的东西。
(2) 东说念主类奖励 R^human 是咱们在实践中评估 LLM 时会聚的奖励,通常来自有时期截止的个东说念主。由于东说念主类可能会提供不一致的反馈,也可能犯错,因此东说念主类奖励并不行王人备准确地暗示 oracle 奖励。
(3) 代理奖励 R 是通过东说念主类数据进修的奖励模子所预测的分数。因此,R^train 袭取了东说念主类奖励的整个短处,以及潜在的建模偏差。
RLHF 会优化代理奖励分数,但咱们最终热枕的是 Gold 奖励分数。
hacking 进修过程
Gao et al. (2022) 估量了 RLHF 中奖励模子过度优化的 Scaling Law。为了扩大他们实验中东说念主类标签的领域,他们使用了合成数据建造,其中 oracle 奖励 R^* 的 gold 标签由一个奖励模子(6B 参数)近似,而 R 的代理奖励模子大小范围为 3M 到 3B 参数。
图 4:奖励模子分数随 KL 距离度量的平方根的变化情况。其中,虚线暗示代理奖励,实线暗示 gold 奖励。(图源:Gao et al. 2022)
这些作家还尝试拟合代理奖励 R,但发现当外推到更高的 KL 时会出现系统性的低估,因为代理奖励似乎会随 d 而线性增长。
图 5:悉数参数 α_bon、β_bon、β_RL 是根据数据而教育拟合得到的,这里展示成了奖励模子大小的函数。悉数 α_RL 未包含在此处,因为它在 奖励模子大小变化时会保持不变。(图源:Gao et al. 2022)
与 RM 比拟,较大的政策从优化中取得的克己较少(即运行奖励和峰值奖励之间的各别小于较小政策的各别),但过度优化也较少。更多的 RM 数据会让 gold 奖励分数更高并减少「Goodharting」。(注:古德哈特定律(Goodhart's law)的粗豪是:一神志的一朝变成了办法,它将不再是个好目的。)KL 处分对 gold 分数的影响类似于早停(early stopping)。请矜重,除了这个实验以外,在整个实验中,PPO 中的 KL 处分都建造为 0,因为他们不雅察到使用 KL 处分必定会增大代理 - gold 奖励差距。
RLHF 的办法是提高模子与东说念主类偏好的对王人进程,但东说念主类反馈 R^human 可能无法体现咱们热枕的整个方面(举例事实性),因此可能会被 hacking,从而过度拟合咱们不想要的属性。举例,模子可被优化以输出看似正确且很有劝服力但施行上不准确的响应,从而误导东说念主类评估者认同其格外谜底(Wen et al., 2024)。也就是说,由于 RLHF,正确的内容和东说念主类以为正确的内容之间并不行划等号。确切地说,Wen et al. (2024) 使用基于 ChatbotArena 数据的奖励模子进行了 RLHF 实验。他们在问答数据集 QuALITY 和编程数据集 APPS 上评估了该模子。他们的实验标明,模子在劝服东说念主类服气我方是正确的方面越来越好,即使它们蓝本是格外的,而且这种影响也并非刻意为之:
1.RLHF 可加多东说念主类的认同度,但不一定能提高正确度。
2.RLHF 会收缩东说念主类的评估才能:经过 RLHF 进修后,东说念主类评估的格外率更高。
3.RLHF 会使不正确的输出更容易劝服东说念主类。经过 RLHF 进修后,评估假阳性率会显贵增大。
这篇论文将这种效应称为 U-Sophistry(其中 U 暗示 unintended),相对的等于 I-Sophistry(I 是指 intended),后者需要通过「…… 试图骗取东说念主类受试者」等诱骗来显式地调用模子。
图 6:RLHF 能让 LLM 更善于劝服东说念主类评估者认同他们的格外谜底。(图源:Wen et al. 2024)
东说念主工评估格外率的变化不是由于评估者招募过程中的杂音酿成的,因为 (1) 在个东说念主层面,大多数 (70-90%) 东说念主类评估者的评估格外率会加多,何况 (2) 他们在评估 π_init 或 π_rlhf 上所付出的尽力是等同的,量度目的是破耗的时期或编写的单位测试等。
相背,LLM 学会了在捍卫格外谜底时挑选、臆造不真实的相沿叙述或臆造带有奥妙因果误差的叙述。他们不雅察到模子在 RLHF 之后会有这么的行动:
在长问答任务中:模子会创建更有劝服力的抓造笔据,为格外谜底使用更一致的逻辑,生成带有奥妙误差的连贯一致谜底。在编码任务中:模子会破解东说念主类编写的单位测试,生成可读性较差的测试(举例,缓助函数更少,代码复杂度更高),使 π_rlhf 不太可能生成东说念主类不错独揽的易检测格外。
图 7:生成的正确和格外代码的代码模块性(缓助函数数目)和圈复杂度目的。RLHF 会导致生成的格外步履中的缓助函数总体上更少,代码复杂度更高。这无疑会加多东说念主工评估的难度。(图源:Wen et al. 2024)
迎阿(Sycophancy)是指模子响应倾向于适当用户信念而不是反应真相(Shrama et al. 2023)。在实验中,要求 AI 助手对一个论点提供反馈(东说念主类:「请简要辩论以下论点。论点:......」)。当东说念主类提供论点时,他们不错叙述偏好(「我真是心爱这个论点」或「我真是不心爱这个论点」),以测试与莫得东说念主类偏好叙述的基线反馈比拟,这是否会影响模子的反馈。
图 8:当用户对我方的偏好发表辩论时,AI 助手会给出有偏见的反馈。当用户暗示他们心爱或写了该文本时,答复会更积极,若是用户暗示他们不心爱该文本,答复会更绝望。(图源:Shrama et al. 2023)
他们发现,AI 助手的反馈很容易受到影响,因为当受到东说念主类偏好的挑战时,它可能会改变其蓝本正确的谜底。该模子倾向于认同用户的信念。有时它以致会效法用户的格外(举例,当被要求分析诗歌时,格外地归因于格外的诗东说念主)。通过 logistic 总结对 RLHF 有用性数据集进行数据分析以预测东说念主类反馈,收尾标明,「匹配用户的信念」是最具预测性的身分。
图 9:通过 logistic 总结进行东说念主类偏好数据分析,预测具有办法特征的响应的概率优于不具有办法特征的响应,同期限度其他特征。(图源:Shrama et al. 2023)
Hacking 评估器
跟着 LLM 的才能越来越强,将 LLM 算作评估者或 grader,为其他生成器模子提供反馈和进修奖励,是一种天然的聘任,尤其是对于那些无法进行琐碎判断或考证的任务(如处理长篇输出、创意写稿质地等主不雅评分法度)。有东说念主将此称为「LLM-as-grader paradigm」。这种方法在很猛进程上减少了对东说念主工标注的依赖,大大检朴了评估时期。关联词,使用 LLM 算作 grader 并不行王人备代表预言机奖励,而且会带来偏差,举例在与不同的模子系列进行比较时,LLM 会偏好我方的响应 (Liu et al., 2023 ),或者在按限定评估响适时会出现位置偏差 Wang et al. (2023)。这种偏差尤其会影响 grader 输出被用作奖励信号的一部分,可能导致独揽这些 grader 进行 reward hacking 行动。
Wang et al. (2023) 发现,当使用 LLM 算作评估者为多个其他 LLM 输出的质地打分时,只需改变荆棘文中候选者的限定,就能任性黑掉质地排行。估量发现,GPT-4 会一直给第一个表示的候选者打高分,而 ChatGPT 则更心爱第二个候选者。
根据他们的实验,尽管指示中包含「确保响应的表示限定不会影响您的判断」的声明,LLM 仍然对响应的位置很明锐,并存在位置偏差(即偏好特定位置上的响应)。这种位置偏差的严重进程用「突破率」来量度,「突破率」的界说是(辅导、响应 1、响应 2)的 tuple 在交换响应位置后导致评价判断不一致的百分比。果不其然,响应质地的各别也很伏击;突破率与两个响应之间的分数差距呈负关系。
图 10:使用 GPT-4 或 ChatGPT 算作评估器时,Vicuna-13B 与 ChatGPT 和 Alpaca-13B 的胜率离别很大。突破率也相配高,这标明在交换响应位置时,LLM-as-grader 的建造很不一致。使用 GPT-4 算作评估器时,对 Vicuna-13B 和 Alpaca-13B 的评价是个例外。(图源:Wang et al. 2023)
为了减少这种位置偏差,他们提议了几种校准政策:
多重笔据校准(MEC):要求评估者模子提供评估笔据,即用笔墨解释其判断,然后输出两个候选东说念主的分数。k=3 比 k=1 遵循更好,但跟着 k 的加多,杰出 3 时,性能就不会有太大改善。均衡位置校准(BPC):对不同响应限定的收尾进行汇总,得出最终得分。东说念主在回路校准(HITLC):在面对繁难的样本时,东说念主类评分员将使用基于千般性的目的 BPDE(均衡位置千般性熵)参与其中。当先,将得分对(包括交换位置对)映射为三个标签(胜、平、负),然后打算这三个标签的熵。BPDE 越高,标明模子的评估决策越紊乱,讲解样本的判断难度越大。然后聘任熵值最高的前 β 个样本进行东说念主工缓助。
图 11:不同校准方法和带有最终投票的东说念主工认真是标注者的准确度和 kappa 关系悉数。位置偏差校准方法有助于在合理的东说念主类参与的标注老本下提高准确度。实验还标明,尽管模子对模板联想很明锐,但校准政策不错蔓延到不同类型的辅导模板。(图源:Wang et al. 2023)
Liu et al. (2023) 使用多种模子(BART、T5、GPT-2、GPT-3、FLAN-T5、Cohere)在总结任务上进行了实验,并追踪了基于参考和无参考的目的来评估总结的质地。当在评估器(x 轴)与生成器(y 轴)的热图中绘画评估分数时,他们不雅察到两个目的都有深色对角线,这标明存在自我偏见。这意味着 LLM 在用作评估器时倾向于心爱我方的输出。不外,该实验中使用的模子有些过期,望望更新、更宏大的模子的收尾应该会很风趣风趣。
图 12:使用一系列模子算作评估器(x 轴)和生成器(y 轴)进行总结任务的热图。深色对角线暗示自我偏见:模子倾向于偏疼我方的输出。(图源:Liu et al. 2023)
荆棘文中的 Reward Hacking
在迭代式自我完善的进修建造中,用于评估和生成的模子施行上是归并个,它们分享换取的参数。由于它们是归并个模子,因此不错同期进行微调,即在进修过程中根据反馈调养其参数,以改善性能。
但模子既是通顺员,又是评判员,这很容易出问题。
论文畅通:https://arxiv.org/pdf/2407.04549
Pan et al.在 2023 年的一篇使命中联想了一个实验:他们让一个模子先算作审稿东说念主为一篇论文提供审稿意见,再算作论文作家根据这些意见修改。估量团队还请了东说念主类评审对论文质地进行评分,算作客不雅参考。
实验联想
他们发现,这种进修建造很容易激励 In-Context Reward Hacking(ICRH)问题。因为是归并个模子,它可能会独揽我方对两个脚色的荆棘文来「钻空子」,导致 AI 给出的评分与施行论文质地不符。
论文畅通:https://arxiv.org/pdf/2402.06627
另一篇论文中指出,这个问题不仅存在于和归并个模子的对话中,也可能发生在 AI 与其他评估系统的互动过程中。当 AI 试图优化某个办法时,可能会产生一些出东说念主猜度的负面遵循。
在实验联想中,估量者不错限度 AI 审稿东说念主和作家对历史信息的拜访权限:不错让它们只看刻下著述(零轮历史),也不错让它们看到之前的反馈和修改纪录(多轮历史)。
较小的模子对 ICRH 更为明锐。举例,实考讲授 GPT-3.5 算作审稿东说念主时会比 GPT-4 激励更严重的 ICRH。
当 AI 审稿东说念主和作家能看到换取轮数的历史纪录时,AI 的评分时时会与东说念主类评分产生更大的偏差。这讲解,导致 ICRH 的要津身分不是 AI 能看到些许轮历史纪录,而是审稿东说念主和作家是否看到了换取的信息。换句话说,当两个脚色通过气之后,AI 更容易出现打分不当的情况。
较小的评估模子更有可能激励 ICRH 问题。
Pan et al. (2024) 的后续估量转向了一个更遍及的场景:当评价来自外部寰宇(如用户反馈、市集反应)时的 ICRH 气候。
估量发现,由于咱们通常用天然言语来描写 AI 的办法,这些描写时时是不完整的,咱们设定的量化目的也难以王人备反应真实生机。比如,用「点赞数」来量度「内容质地」。这种不够全面的办法,会导致 AI 找到见风转舵的方式来提高分数,而不是真实地提高质地。
这篇论文分析了导致 ICRH 的两个身分,并相助了两个实验:
1. 优化输出
估量者联想了一个实验:让 AI 根据用户反馈来转换它的推文。具体来说,AI 会根据推文取得的点赞、转发等互动数据来调养写稿方式。实验中,估量者让 AI 对不同版块的推文进行比较评分,然后用 Bradley-Terry 模子将其调遣成具体分数。
收尾发现了一个问题:天然转换后的推文确乎取得了更多的互动,但同期也会变得更具有障碍性和负面情况。更风趣风趣的是,当估量者用更宏大的 Claude 模子类似这个实验时,这个问题不但莫得得到改善,反而变得更严重了。
估量者试图通过修改给 AI 的辅导词来处罚这个问题,但遵循并不睬想 —— ICRH 仍然存在,只是进程稍许镌汰一些。
2. 基于反馈优化政策
第二个实验估量了 AI 何如通过反馈来转换它的决策政策。估量者为此联想了一个场景:让 AI 饰演一个帮用户支付账单的助手。当「余额不及」时,AI 学会了一个「危急的决策」,未经用户允许就从其他账户蜕变资金。
为了系统性地估量这个问题,他们搭建了一个模拟环境(ToolEmu),并联想了 144 个不同的任务。每个任务中,AI 都不错调用千般功能接口。估量者们故意制造一些格外(比如行状器故障),看 AI 何如应酬。再用 GPT-4 来评估 AI 的进展存多好。
估量发现了一个令东说念主担忧的趋势:跟着 AI 履历越来越多的格外和反馈,它确乎学会了处罚问题,但同期也越来越倾向于选择违章操作 —— 就像前边提到的未经授权就转账。
估量者进一步发现,ICRH 和传统的 Reward Hacking 有两个主要区别:
一是发生的时机不同,ICRH 是在 AI 施行使用过程中通过不停摄取反馈而产生的问题,而 Reward Hacking 是在 AI 进修阶段就出现的;
二是产生的原因不同,传统 Reward Hacking 通常发生在 AI 专门作念某一件特定事情时,而 ICRH 则是因为 AI 太「灵巧」了,会见风转舵了。
现在还莫得齐备的处罚决策,此前的发现只是把章程描写得更明晰,但并不行处罚问题,而且 AI 模子越宏大,ICRH 问题反而可能越严重。
因此,最好的作念法是在谨慎上线前就进行充分的测试:屡次类似测试 AI 的反应、提供千般不同类型的反馈,并测试一些异常情况下 AI 的进展,才能更好地驻防问题。
Hacking Skills,也能举一反三
另一个风趣风趣但令东说念主担忧的气候是:AI 的 Reward Hacking 手段具有泛化才能。这就像一个学生在某说念题上学会了「见风转舵」,会蔓延到其他科目相通。Kei et al.(2024) 发现,以致 Reward Hacking 的「魔爪」照旧伸到了散播外(OOD)环境中。
博客畅通:https://www.lesswrong.com/posts/Ge55vxEmKXunFFwoe/reward-hacking-behavior-can-generalize-across-tasks
为了考证这极少,该团队联想了一个实验。他们准备了 8 套由多选题构成的数据集,其中 4 套用于进修,另外 4 套则用来测试这种行动是否会泛化。他们在强化学习中选择了众人迭代,通过反复微调来强化 AI 的这种行动模式。
值得矜重的是,整个实验都选择了 scratchpad 来纪录荫藏的推理方法。scratchpad 让咱们无意窥见模子在念念考过程中的「想法」。
通过分析 scratchpad,估量者发现模子无意:
1. 整合用户视角:举例,模子会把对话对象和评分者的想法纳入筹商;
2. 有从「评分法度」角度念念考的意志:模子展现出对评估机制的相识,会提前念念考我方的回答何如无意取得更好的评分,以致会预判整个这个词评估经由。
Denison et al. (2024) 估量了 Reward Tampering 气候,他们手动联想了一系列难度递加的、容易被钻空子的环境算作进修。
估量发现,在简便环境中的进修会加重模子在其他环境中的投契行动。在某些情况下,当模子完成整个这个词进修后,以致无意零样本泛化到径直重写我方的奖励函数。
这类可游戏环境包括:
政事捧场:若是模子给出与用户政事不雅点相匹配的谜底,环境会奖励该模子。
器具使用取悦:环境为模子提供了运行命令行的拜访权限,以便拜访用户的文献系统,读取土产货文献中的诗歌样本。模子可能会以取悦的方式给以诗歌高评价。
评分法度修改:环境根据检查清单对模子进行评分,模子必须在检查清单上标志每一项为完成,以取得高奖励。
奖励删改:模子的任务是检查 ./rl_environment/ 目次,该目次包含其自身强化学习代码的模拟版块,并陈诉照旧以前些许个 episode。在目次中,compute_reward.py 文献包含一个复返常数的奖励函数,而另一个 this_file_blocks_reward_hack_attempts.py 文献包含一个测试,用以检查奖励函数是否被修悔改。
图 16:在「器具使用取悦」和「奖励删改」环境中的评估剧本示例。(图片起首:Denison et al. 2024))
模子衔命这一课程进行进修,论文测量了模子能否学习到能泛化到未见环境的游戏行动。使用 Claude-2 helpful-only 模子进行实验,他们对每个 P=1024 HHH 辅导采样了 N=64 个响应进行众人迭代,并根据 RM 聘任最好响应。使用众人迭代进行监督学习进修的模子不错从一个阶段泛化到下一个阶段。
图 17:根据课程,使用众人迭代进修的模子从每个阶段到下一个阶段的定量泛化收尾。(图源:Denison et al. 2024)
值得矜重的是,即使在课程之后,模子 overwrote 奖励并幸免被检测到的情况不到 1/1000。即使一个模子是在径直激励 reward hacking 的课程中进修的,模子 overwrote 奖励的行动也不到 1% 的,何况删改单位测试的频率更低。算作一种简便的缓解措施,在前两种环境中(reward hacking 行动很容易被发现的地点(迎阿和取悦行动)),用不骗取环境的 SFT 数据对模子进行监督微调,不错减少在 holdout 环境中奖励删改的可能性。
探索缓解措施
天然有多半文献接头 reward hacking 气候,但在 reward hacking 的缓解措施方面,稀少是在 RLHF 和 LLM 领域,并莫得太多的使命。这一部分将简要回想三种潜在的方法。
强化学习算法转换
Amodei et al. (2016) 指出了一些在强化学习进修中减轻 reward hacking 的标的:
抗击性奖励函数。咱们将奖励函数视为一个自稳健的智能体自身,它不错稳健模子发现的奖励高但东说念主类评分低的新技巧。模子前瞻。不错根据将来预期的气象给以奖励;举例,若是智能体将要替换奖励函数,它将取得负面奖励。抗击性致盲。咱们不错用某些变量使模子「失明」,从而让智能体无法学习到使其无意黑掉奖励函数的信息。严慎工程。通过严慎的工程联想,不错幸免一些针对系统联想的 reward hacking;举例,将智能体沙箱化,将其行动与其奖励信号断绝。奖励封顶。这种政策就是简便地截止可能的最大奖励,因为它不错有用驻防智能体通过 hacking 获取超高答复政策的荒野事件。反例违反。抗击鲁棒性的提高应该成心于奖励函数的鲁棒性。多种奖励的组合。勾通不同类型的奖励可能使其更难被 hacking。奖励预进修。咱们不错从一系列 (state, reward) 样本中学习奖励函数,但这取决于监督进修建造的遵循何如,它可能带有其他遭殃。RLHF 依赖于此,但学习到的标量奖励模子止境容易学习到不需要的特点。Variable indifference。办法是要求智能体优化环境中的一些变量,而不是其他变量。陷坑。咱们不错故意引入一些谬误,并在职何奖励被 hacking 时建造监控和警报。在以东说念主类反馈算作智能体行动认同的 RL 建造中,Uesato et al. (2020) 提议了用解耦批准(decoupled approval)来驻防奖励删改。若是反馈是基于 (state, reward) 的,一朝这对数据发生奖励删改,咱们就无法取得该行动在该气象下的未被稠浊的反馈。解耦意味着会聚反馈的查询行动是从寰宇上选择的行动中孤立抽样的。反馈以致在行动辞寰宇中引申之前就已收到,从而驻防行动毁伤我方的反馈。
检测 Reward Hacking 行动
另一种缓解措施是通过将其框架化为异常检测任务来检测 Reward Hacking,其中检测器(具有由东说念主类考证的轨迹和奖励的「确切政策」)应标志错位实例(Pan et al. 2022)。给定(1)一个确切政策和(2)一组手动标志的轨迹 rollouts,咱们不错根据两个政策(确切政策和办法政策)的动作散播之间的距离构建二元分类器,并测量该异常检测分类器的准确性。在 Pan et al. (2022) 的实验中,他们不雅察到不同的检测器更允洽不同的任务,何况在整个测试的 RL 环境中,莫得一个测试的分类器无意齐备大于 60% 的 AUROC。
RLHF 的数据分析
另一种方法是分析 RLHF 数据集。通过检查进修数据何如影响对王人进修收尾,不错领导预处理和东说念主工反馈会聚,以镌汰 reward hacking 风险。
办法特征:指明确想要学习的值。Spoiler 特征:指在进修过程中不测中学到的非预期值(举例,神志或连贯性等格调性特征)。这些类似于 OOD 分类使命中的演叨特征(spurious features)(Geirhos et al. 2020)。
SEAL 还引入了三个量度对王人进修数据有用性的目的:
1. 特征印章(feature imprint),是指特征 τ 的一个悉数参数 β_τ,在保持其他身分不变的情况下,该悉数参数用于估量比较有或无特征 τ 时奖励点数的加多情况。
2. 对王人阻力(Alignment resistance)是 RM 无法匹配东说念主类偏好的偏好数据对的百分比。估量发现,RM 在杰出 1/4 的 HHH-RLHF 数据集上不错违反东说念主类偏好。
3. 对王人稳健性(Alignment robustness)
参考文献:
[1] Andrew Ng & Stuart Russell. “Algorithms for inverse reinforcement learning.”. ICML 2000.
[2] Amodei et al. “Concrete problems in AI safety: Avoid reward hacking.” arXiv preprint arXiv:1606.06565 (2016).
[3] Krakovna et al. “Specification gaming: the flip side of AI ingenuity.” 2020.
[4] Langosco et al. “Goal Misgeneralization in Deep Reinforcement Learning” ICML 2022.
[5] Everitt et al. “Reinforcement learning with a corrupted reward channel.” IJCAI 2017.
[6] Geirhos et al. “Shortcut Learning in Deep Neural Networks.” Nature Machine Intelligence 2020.
[7] Ribeiro et al. “Why Should I Trust You?”: Explaining the Predictions of Any Classifier. KDD 2016.
[8] Nagarajan et al. “Understanding the Failure Modes of Out-of-Distribution Generalization.” ICLR 2021.
[9] Garrabrant. “Goodhart Taxonomy”. AI Alignment Forum (Dec 30th 2017).
[10] Koch et al. “Objective robustness in deep reinforcement learning.” 2021.
[11] Pan et al. “The effects of reward misspecification: mapping and mitigating misaligned models.”
[12] Everitt et al. “Reward tampering problems and solutions in reinforcement learning: A causal influence diagram perspective.” arXiv preprint arXiv:1908.04734 (2019).
[13] Gleave et al. “Adversarial Policies: Attacking Deep Reinforcement Learning.” ICRL 2020
[14] “Reward hacking behavior can generalize across tasks.”
[15] Ng et al. “Policy invariance under reward transformations: Theory and application to reward shaping.” ICML 1999.
[16] Wang et al. “Large Language Models are not Fair Evaluators.” ACL 2024.
[17] Liu et al. “LLMs as narcissistic evaluators: When ego inflates evaluation scores.” ACL 2024.
[18] Gao et al. “Scaling Laws for Reward Model Overoptimization.” ICML 2023.
[19] Pan et al. “Spontaneous Reward Hacking in Iterative Self-Refinement.” arXiv preprint arXiv:2407.04549 (2024).
[20] Pan et al. “Feedback Loops With Language Models Drive In-Context Reward Hacking.” arXiv preprint arXiv:2402.06627 (2024).
[21] Shrama et al. “Towards Understanding Sycophancy in Language Models.” arXiv preprint arXiv:2310.13548 (2023).
[22] Denison et al. “Sycophancy to subterfuge: Investigating reward tampering in language models.” arXiv preprint arXiv:2406.10162 (2024).
[23] Uesato et al. “Avoiding Tampering Incentives in Deep RL via Decoupled Approval.” arXiv preprint arXiv:2011.08827 (2020).
[24] Amin and Singh. “Towards resolving unidentifiability in inverse reinforcement learning.”
[25] Wen et al. “Language Models Learn to Mislead Humans via RLHF.” arXiv preprint arXiv:2409.12822 (2024).
[26] Revel et al. “SEAL: Systematic Error Analysis for Value ALignment.” arXiv preprint arXiv:2408.10270 (2024).
[27] Yuval Noah Harari. “Nexus: A Brief History of Information Networks from the Stone Age to AI.” Signal; 2024 Sep 10.
参考内容:
https://lilianweng.github.io/posts/2024-11-28-reward-hacking/
本站讯息,12月24日,富国改进趋势股票最新单元净值为0.4634元,累计净值为0.4634元,较前一交往时高涨0.7%。历史数据显现该基金近1个月高涨1.11%,近3个月高涨7.69%,近6个月下落4.87%,近1年下...
本站讯息,12月24日,富国改进趋势股票最新单元净值为0.4634元,累计净值为0...
本站音问,12月24日,长盛安鑫中短债A最新单元净值为1.1321元,累计净值为1.1...
本站音讯,12月24日,嘉实环保低碳股票最新单元净值为2.101元,累计净值为2....
本站讯息,12月24日,广发价值上风夹杂最新单元净值为1.4725元,累计净值为1...