- 经验
- 2000
- 分贝
- 0
- 家园分
- 4000
- 在线时间:
- 0 小时
- 最后登录:
- 2007-10-29
- 帖子:
- 1003
- 精华:
- 0
- 注册时间:
- 2007-10-29
- UID:
- 192143
注册:2007-10-29 11
|
发表于 2025-3-31 08:35:26
|显示全部楼层
- OThink-MR1团队 投稿
量子位 | 公众号 QbitAI
用上动态强化学习,多模态大模型也能实现泛化推理了?!
来自OPPO研究院和港科广的科研人员提出了一项新技术——OThink-MR1,将强化学习扩展到多模态语言模型,帮助其更好地应对各种复杂任务和新场景。
研究人员表示,这一技术使业界突破多模态泛化推理能力
众所周知,多模态大模型可以处理多种类型输入数据并生成相关输出,但一遇到复杂推理任务,其能力往往表现不佳。
目前大多数多模态模型在训练时,主要采用监督微调(SFT)的方法。
SFT就像是老师给学生划重点,让学生按照固定的模式学习。虽然这种方法在特定任务上确实能让模型表现得不错,但难以培养关键的通用推理能力。
与此同时,强化学习(RL)作为另一种训练方法,开始进入人们的视野。
RL就像是让学生在不断尝试中学习,做得好就给奖励,做得不好就“挨批评”。这种方法理论上可以让模型更灵活地应对各种任务,提升其推理能力,但却存在多模态任务通用能力未充分探索、训练约束易导致次优瓶颈等问题。
于是乎,OThink-MR1技术应运而生。
那么,它是如何让多模态模型突破泛化推理能力的呢?
基于动态强化学习
OThink-MR1是一个基于动态强化学习的框架和模型,支撑微调多模态语言模型。
其核心“招式”有两个:一个是动态KL散度策略(GRPO-D),另一个是精心设计的奖励模型。二者相互配合,让模型的学习效率和推理能力大幅提升。
先说动态KL散度策略
在强化学习里,探索新的策略和利用已有经验是两个很重要的方面,但以前的方法很难平衡这二者的关系,不是在探索阶段浪费太多时间,就是过早地依赖已有经验。
而动态KL散度策略就像是给模型装了一个“智能导航仪”,能根据训练进度动态调整探索和利用的平衡
打个比方,在训练初期,它让模型像个充满好奇心的孩子,大胆地去探索各种可能的策略。而随着训练的进行,它又会引导模型逐渐利用之前积累的经验,沿着更靠谱的路线前进。
这样一来,模型就能更有效地学习,避免陷入局部最优解。
再说奖励模型。在OThink-MR1里,奖励模型就像是老师给学生打分的标准。
对于多模态任务,科研人员设计了两种奖励:一种是验证准确性奖励,另一种是格式奖励
比如在视觉计数任务中,模型要数出图片里物体的数量,如果数对了,就能得到验证准确性奖励;同时,如果模型的回答格式符合要求,像按照规定的格式写下答案,还能获得格式奖励。
这两种奖励加起来,就像老师从多个方面给学生打分,让模型知道自己在哪些地方做得好,哪些地方还需要改进,从而更有针对性地学习。
实验环节
为了验证OThink-MR1的实力,科研人员进行了一系列实验。
第一个实验是探究奖励项和KL散度项对原始GRPO(一种基于强化学习的方法)在同任务验证中的影响。
在几何推理任务中,科研人员调整格式奖励的权重,发现当格式奖励的权重不为零时,模型的表现明显更好。这就好比学生写作文,不仅内容要正确,格式规范也能加分,这样能让学生更全面地提升自己的能力。
同时,调整KL散度的权重时,他们发现权重适中时模型表现最佳,太大或太小都会让模型成绩下降。
第二个实验是跨任务评估,这可是一场真正的“大考”。
以往的研究大多只在同一个任务的不同数据分布上评估模型的泛化能力,而这次实验直接让模型挑战完全不同类型的任务。
科研人员选择了视觉计数任务和几何推理任务,这两个任务难度不同,对模型的能力要求也不一样。
在跨任务验证中,用监督微调训练的模型表现得很差。就像一个只会做一种题型的学生,换了另一种题型就完全不会了。
而经过GRPO-D训练的模型则表现出色,在从推理任务到理解任务的泛化实验中,它的成绩相比没有经过训练的模型提高了很多;在从理解任务到推理任务的泛化实验中,虽然难度更大,但它也取得了不错的进步。
这就好比一个学生不仅擅长数学,还能快速掌握语文常识,展现出了很强的学习能力。
第三个实验是同任务评估。
实验结果显示,在同任务验证中,采用固定KL散度的GRPO方法不如监督微调,但OThink-MR1中的GRPO-D却能逆袭。
它在视觉计数和几何推理任务上,成绩都超过了监督微调,这就像一个原本成绩一般的学生,找到了适合自己的学习方法后,成绩突飞猛进,直接超过了那些只会死记硬背的同学。
总体而言,OThink-MR1的出现,为多模态语言模型的发展开辟了新的道路。
它让大家看到了动态强化学习在提升模型推理能力和泛化能力方面的巨大潜力。在未来,基于OThink-MR1这样的技术,多模态语言模型有望在更多领域发挥重要作用。
论文地址:https://arxiv.org/abs/2503.16081
标题:OThink-MR1: Stimulating multimodal generalized reasoning capabilities through dynamic reinforcement learning
编辑:刘志远1,章玉婷2,刘丰1,张长旺1,孙莹2,王俊1
单位:1.OPPO研究院, 2.香港科技大学(广州)
来源:网易
|
|