maose Skywork-R1V 2.0版块再开源!高考数交融题利器、竣事多模态推理再进化

发布日期:2025-07-03 12:06    点击次数:102

maose Skywork-R1V 2.0版块再开源!高考数交融题利器、竣事多模态推理再进化

3月18日,昆仑万维谨慎开源首款工业界多模态念念维链推理模子 Skywork-R1V,开启多模态念念考新期间。继 Skywork-R1V 初次胜仗竣事“强文本推明智商向视觉模态的迁徙”之后,昆仑万维再度发力maose,今天谨慎开源多模态推理模子的全新升级版块 —— Skywork-R1V 2.0(以下简称 R1V 2.0) 。

\n

01

\n

R1V 2.0 性能全面提高并开源,视觉与文本推明智商双管皆下

\n

Skywork-R1V 2.0 是现时较平衡兼顾视觉与文本推明智商的开源多模态模子,该多模态模子在高考理科闭塞的深度推理与通用任务场景中均发达优异,着实竣事多模态大模子的“深度 + 广度”和谐。升级后的 R1V 2.0 模子颇具亮点:

\n

-中语场景领跑:理科学科题目(数学/物理/化学)推理后果拔群,打造免费AI解题助手;

\n

-开源巅峰:38B 权重 + 本领讲明全面开源,股东多模态生态开辟;

\n

-本领翻新标杆:多模态奖励模子(SkyworkVL Reward 与羼杂偏好优化机制(MPO),全面提高模子泛化智商;选择性样本缓冲区机制(SSB),打破强化学习“上风褪色”瓶颈。

\n

在多个巨擘基准测试中,R1V 2.0 相较于 R1V 1.0 在文本与视觉推理任务中均竣事权贵跃升。非论是专科规模任务,如数学推理、编程竞赛、科学分析,已经通用任务,如创意写稿与怒放式问答,R1V 2.0 都呈现出极具竞争力的发达:

\n

-在 MMMU 上赢得 73.6 分,刷新开源 SOTA 记载;

\n

-在 Olympiad Bench 上达到 62.6 分,权贵高出其他开源模子;

\n

-在 MathVision、MMMU-PRO 与 MathVista 等多项视觉推理榜单中均发达优异,多项智商已可失色闭源生意模子,号称现时开源多模态推理模子中的杰出人物。

\n

在与开源多模态模子的对比中,R1V 2.0 的视觉推明智商(在广宽开源模子里)脱颖而出。

\n

 

\n

如下图所示,R1V2.0也展现出失色生意闭源多模态模子的实力。

\n

 

\n

而在文本推理方面,在AIME2024和LiveCodeBench等挑战中,R1V 2.0分歧赢得了78.9分和63.6 分,展现出了东说念主类群众级数学与代码交融智商。在与专用文本推理模子对比中,R1V2.0一样展现出超卓的文本推明智商。

\n

 

\n

02

\n

本领亮点一:推出多模态奖励模子 Skywork-VL Reward,全面开源

\n

自 R1V 1.0 开源以来,昆仑万维团队收货了来景况众开发者与筹谋者的庸碌反馈。在模子推明智商权贵提高的同期,团队也发现,过度蕴蓄于推理任务的考验,会为止模子在其他惯例任务场景下的发达,影响举座的泛化智商与通用发达。

\n

为竣事多模态大模子在“深度推理”与“通用智商”之间的最好平衡,R1V 2.0 引入了全新的「多模态奖励模子 Skywork-VL Reward」及「规定驱动的羼杂强化考验机制」。在权贵增强推明智商的同期,进一步结识了模子在多任务、多模态场景中的镇静发达与泛化智商。

\n

Skywork-VL Reward,开启多模态强化奖励模子新篇章:

\n

现时,行业中多模态奖励模子的缺少,已成为强化学习在 VLM(Vision-Language Models)规模进一步发展的关节瓶颈。

小萝莉刘俊英\n

现存奖励模子难以准确评价跨模态推理所需的复杂交融与生成历程。为此,昆仑万维推出了 SkyworkVL Reward模子,既可为通用视觉言语模子(VLM)提供高质料奖励信号,又能精确评估多模态推理模子长序列输出的举座质料,同期也不错看成并行线上推理最优谜底选择的利器。

\n

这种智商使得 Skywork-VL Reward 模子在多模态强化学习任务中具有庸碌的适用性,促进了多模态模子的协同发展:

\n

-跨模态引颈者:领先提倡多模态推理与通用奖励模子,股东多模态强化学习;

\n

-榜单标杆:在视觉奖励模子评测中名列第一,7B 权重与本领讲明全面开源;

\n

-信号全袒护:援救从漫笔本到长序列推理的多元化奖励判别。

\n

Skywork-VL Reward 在多个巨擘评测榜单中发达优异:在视觉奖励模子评测榜单 VL-RewardBench 中赢得了 73.1 的SOTA成绩,同期在纯文本奖励模子评测榜单 RewardBench 中也斩获了高达 90.1 的优异分数,全面展示了其在多模态和文本任务中的弘远泛化智商。

\n

 

\n

为回馈社区和行业,团队也将 Skywork-VL Reward 齐全开源。

\n

03

\n

本领亮点二:引入多重优化政策提高中枢后果

\n

长久以来,大模子考验面对“深度推理提高”与“通用智商保握”的难以兼得闭塞。为处理这一“推理–通用”的智商跷跷板问题,以及处理通用问题莫得径直可考据的谜底的挑战,R1V 2.0 引入了 MPO(Mixed Preference Optimization,羼杂偏好优化) 机制,并在偏好考验中充分施展 Skywork-VL Reward 奖励模子的带领作用。

\n

和 R1V 1.0 念念路近似,咱们使用提前考验好的 MLP 适配器,径直将视觉编码器 internVIT-6B 与原始的强推理言语模子 QwQ-32B 采集,酿成 R1V 2.0-38B 的运转权重。这么一来,R1V  2.0 在启动即具备一定的多模态推明智商。

\n

在通用任务考验阶段,R1V 2.0 借助 Skywork-VL Reward 提供的偏好信号,指挥模子进行偏好一致性优化,从而确保模子在多任务、多规模下具备精采的通用安妥智商。实考据明,Skywork-VL Reward 有用竣事了推明智商与通用智商的协同提高,胜仗竣事“鱼与熊掌兼得”。

\n

在考验深度推明智商时,R1V 2.0 在考验中采纳了基于规定的群体相对政策优化GRPO(Group Relative Policy Optimization)举止。该政策通过同组候选反馈之间的相对奖励相比,指挥模子学会更精确的选择和推理旅途。

\n

R1V 2.0 所采纳的多模态强化考验决策,记号着大模子考验范式的又一次伏击改进,也再次考据了强化学习在东说念主工智能规模无法撼动的地位。通过引入通用性更强的奖励模子 Skywork-VL Reward,以及高效镇静的样本欺诈机制SSB,咱们不仅进一步提高了R1V系列模子在复杂任务中的推明智商,同期也将开源模子跨模态推理泛化智商提高到了全新高度。

\n

R1V 2.0 的出身,不仅股东了开源多模态大模子在智商畛域上的打破,更为多模态智能体的搭建提供了新的基座模子。

\n

04

\n

面向AGI的握续开源

\n

最近一年以来,昆仑万维已不时开源多款中枢模子:

\n

开源系列:

\n

1. Skywork-R1V 系列:38B 视觉念念维链推理模子,开启多模态念念考期间;

\n

2. Skywork-OR1(Open Reasoner 1)系列:中语逻辑推理大模子,7B和32B最强数学代码推理模子;

\n

3. SkyReels系列:面向AI短剧创作的视频生成模子;

\n

4. Skywork-Reward:性能超卓的全新奖励模子。

\n

这些状貌在 HuggingFace 上广受迎接,激发了开发者社区的庸碌柔顺与深远筹商。

\n

咱们信托,开源驱动翻新,AGI 终将到来。

\n

正如DeepSeek 等优秀团队所展现的那样,开源模子正郑重弥合与闭源系统的本领差距,乃至竣事卓越。昆仑万维将连接秉握“开源、怒放、共创”的理念,握续推出高出的大模子与数据集,赋能开发者、股东行业协同翻新,加快通用东说念主工智能(AGI)的竣事程度。

\n

原标题:Skywork-R1V 2.0版块再开源!最强高考数交融题利器、竣事多模态推理再进化

\n

\n

(资讯)maose