400-123-4657

新闻资讯 分类
开云体育入口热点问答正版五鬼运财会员料社会新闻大众网发布日期:2025-03-22 浏览次数:

  多模态大模型虽然在视觉理解方面表现出色,但在需要深度数学推理的任务上往往力不从心,尤其是对于参数量较小的模型来说更是如此。

  如图所示,通过LMM-R1框架训练的模型(下侧)能够正确应用勾股定理计算出圆锥的斜高,而基准模型(上侧)错误地识别了斜高位置,导致计算错误。这种显著的推理能力提升来自于一个创新的两阶段训练策略。

开云体育入口热点问答正版五鬼运财会员料社会新闻大众网

  这是来自东南大学、香港中文大学、蚂蚁集团等研究人员的,两阶段多模态基于规则强化学习的框架LMM-R1,实现多模态大模型的推理性能飞跃。

  针对多模态领域长期存在的”高训练成本、低任务泛化”难题,LMM-R1框架创造性引入规则化奖励函数机制。

  通过深度优化DeepSeek-R1核心思想,该框架在无需多模态标注数据的情况下,仅需240元GPU成本即可显著增强模型性能,成功将多模态模型的推理能力提升至工业级应用标准。

  实验数据显示,经LMM-R1框架强化的QwenVL-2.5-3B模型,在推箱子等复杂路径规划任务中,性能显著超越GPT-4o、Claude3.5等100B+参数量产品级大模型。

  DeepSeek-R1和OpenAI的o1等模型已经证明了基于规则奖励的强化学习在纯文本大语言模型中的有效性。然而,将这一成功经验扩展到多模态领域面临两大关键挑战:

  数据限制:多模态领域中高质量的推理数据十分稀缺,且答案常常模糊不清,难以用于规则奖励基础推理能力薄弱:多模态预训练常常会削弱模型在纯文本任务上的能力,特别是对于参数量有限的小模型

  针对这些挑战,研究团队提出了LMM-R1框架,通过创新的两阶段训练策略巧妙解决了以上问题。

  FRE阶段利用丰富的高质量纯文本推理数据(如数学题、科学问题等)通过基于规则的强化学习来增强模型的基础推理能力。这一阶段避开了多模态数据的限制,专注于构建坚实的推理基础。

  开云体育官网

  在这个阶段,模型学习如何进行严密的逻辑思考、复杂的数学运算和多步骤推理,为后续的多模态泛化奠定基础。

  MGT阶段将第一阶段培养的推理能力泛化到多模态领域。研究团队在这一阶段探索了几个关键领域:

  几何推理领域:使用GeoDB等数据集,增强模型在几何图形推理方面的能力感知-推理平衡领域:使用VerMulti数据集,提升模型在多种视觉任务中的推理能力智能体相关领域:使用推箱子(Sokoban)等需要复杂规划的任务

  值得注意的是,这种两阶段策略避免了对昂贵的高质量多模态训练数据的依赖,同时有效利用了丰富的文本推理数据资源,为构建高性能多模态模型提供了一种高效路径。

  研究团队使用Qwen2.5-VL-Instruct-3B作为基准模型进行实验。经过LMM-R1框架训练后,模型在各类基准测试上均取得显著提升:

  在纯文本和多模态基准测试上平均提升约4.5%~4.8%在推理密集型任务(如几何问题)上效果尤为明显

  更重要的是,实验证明了一个关键发现:通过先增强基础推理能力再进行多模态泛化的策略,可以有效避免直接在多模态数据上训练时常见的推理能力退化问题。

  在典型智能体应用场景验证中,研究团队选取推箱子任务作为评估基准。该任务要求模型同步处理视觉空间解析、目标匹配、动态路径规划等多模态推理能力,对智能体在现实场景中的决策能力具有重要指示意义。经LMM-R1框架强化后的模型,仅通过初始画面即可完成完整动作序列规划。

  实验证明哪怕是3B规模的小模型,使用LMM-R1的两阶段RL训练,也可以极大增强推理能力,暗示了多模态R1的强大应用潜力。

  值得关注的是,该框架以上游项目OpenRLHF为基础,实现了完全自主研发的多模态训练方案:通过重构数据流实现多模态支持,基于张量并行优化和内存管理技术创新,构建起高效稳定的训练体系。其开创性的PackingSample + Ring FlashAttention技术实现了模型最大上下文长度基于GPU数量的线性增长率,配合动态梯度裁剪策略,在保证训练稳定性的同时大幅降低资源消耗。

  项目自2025年2月开源以来迅速获得学术界关注,相关技术方案已被多个知名开源项目采纳为基准架构。目前,LMM-R1框架已在GitHub平台建立独立技术生态,累计获得超过500+星标关注。

  团队表示将持续深耕多模态模型领域,推动多模态强化学习技术在智能体、视觉问答等场景的落地应用。与开源社区共建多模态强化学习框架。

  “不就是一只老狈吗,活了这么久,连牙齿都脱落了下来,估计走都走不动了吧,能有什么用。”石云峰嗤笑道,故意轻视。

  市、县(市)区档案馆结合__市社会经济发展软环境建设工作,积极创造条件,加快档案服务机制创新步伐,以服务民生为重点,不断丰富档案工作服务大局的内容和手段,提高服务水平。市、县(市)区档案局馆向社会作出了服务承诺,实行档案查阅利用零收费服务,限度地满足各级领导、各部门和社会各界利用档案的需要,为领导决策、落实政策、解决土地纠份、劳动人事、工资福利、编史修志等各项工作提供了大量的档案信息资源,取得了良好的社会效益。市、县(市)区综合档案馆认真履行局馆公开服务承诺,共接待查阅利用者59864人次,调阅档案57586卷,复印档案材料12293页。市城建档案馆成立一站式服务窗口,自觉接受社会和群众的监督。认真履行档案局服务承诺,建立电话预约、网上查询档案服务,市、县(市)区综合档案局馆分别接听电线余人次,并及时进行了回复。市档案馆接待利用岗被评为全国巾帼文明岗、__市巾帼文明示范岗。市、县(市)区综合档案馆共接收不同门类档案共计47590卷,接收20__年度市级机关电子公文和档案文件级条目数据7000多条,原文数据10000多页,数字化照片档案3100多张。市、县(市)区综合档案馆分别填报了国家重点档案抢救与保护基本情况调查表,完成了重点档案抢救保护工作,其中:市档案馆完成了400卷的抢救任务。充分发挥爱国主义教育基地的作用市、县(市)区综合档案馆共接待了省、内外考察团共30余批、14000余人次,并互赠了编研成果。

  期间,石村众人曾出动过一次,将那群凶寇所藏的黑金挖了出来,虽然只有半米见方,但却足有上万斤重。这是铸造兵器的宝料,也是克制法阵的一种稀有金属,很是罕见,能收集到半方,可见这么多年来他们造了多少杀劫,手上必是人命累累。

  显然,小不点领先其他人一大截,就是放在外界的超级大族中,其天资也会让人目瞪口呆。

  老师们,当前,良好的校园环境和社会评价为我校教育大发展提供了千载难逢的良好机遇,面对机遇,在下阶段,我们要在上级领导的正确指导下,围绕我校的发展规划,凝心聚力,开拓创新,乐于奉献,以更饱满的热情,更高昂的斗志,更科学的态度,更扎实的工作,为办人民满意教育,促进学校健康、和谐、科学发展做出新的更大贡献。

  1、提高冬训活力,首先是内容上要把“增智”与“铸魂”相结合。冬训有别于一般意义的培训,要坚持把党性教育作为首要的、永恒的主题,高举旗帜,铸“党魂”,得到各级党组织的认可和重视;同时,冬训要始终紧贴中心,锁定发展实践的大局,关注干部思想的困惑与诉求,议大事、明方向、强信心、鼓劲造势、凝心聚力,让干部感到及时、解渴、管用。今年冬训,我们确定了四个重点专题,希望各支部根据冬训重点组织开展好本单位的冬训工作。要通过集中培训,使全局广大干部进一步了解当前我局的目标任务,将思想与行动统一到中央和市、县和我局的决策部署上来;使广大干部精神面貌有新气象,思想观念有新转变,政策水平有新提高,发展能力有新提升,工作业绩有新作为;要通过开展冬训,大力为民办实事、办好事,切实维护人民群众的根本利益;要通过开展冬训,不断加强和改进基层党组织建设,打造坚强的领导核心,推进全局各项工作在新的起点实现新突破。

  03月12日,海内外专家聚焦胰岛移植 体外再造胰岛组织给糖尿病患者带来希望,

  他们心情沉重,没有了射猎的心思,骑着独角兽迅速返回了石村,将消息告诉了大人。

  “祖爷爷,我是当年的那个孩子,看你来了!”小不点哽咽,通过柳神看到了当年的事,知道几名被放逐在这里的老人对他们一家极好,旁边那个孩子就是他们弄出来代替他的。

  新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证