发布日期:2025-07-06 23:15 点击次数:54
视频相识的 CoT 推理武艺[自拍偷拍]藝校美女孔雀妹妹三人組同時表演才藝,怎么评?
中科大等团队残酷了评估基准—— VCR-Bench,内部包含七个独处评估维度的任务框架,每个维度针对性地试验模子的不同武艺(如时空推理、因果推断等)。为确保评估的全面性和可靠性,每个维度皆联想了 100 余条高质地样本。
成果发现面前多模态模子在视频复杂推理任务上发扬盛大欠安——
最优模子 o1 仅赢得 62.8 的 CoT 得分和 56.7% 的准确率,大多数模子两项主义均低于 40 分,且闭源模子优于开源模子,大模子优于小模子。
具体来看。
多模态视频相识
在多模态究诘领域,视频数据因其丰富的语义信息和全面的场景细节,为构建复杂的想维链(Chain-of-Thought,CoT)推理任务提供了空想载体。
然则,面前多模态究诘社区濒临一个症结挑战:
短少系统化的评估形态来考证模子在视频相识中的 CoT 推理武艺,这严重制约了视频复杂推理任务的究诘进展。
针对这一究诘空缺,中科大等的究诘团队翻新性地残酷了首个面向视频 CoT 推理经由的多模态评估基准(Benchmark)。
该基准通过教学步履化的评估体系,显耀普及了视频相识任务中推理武艺的考证效度。
此项责任自愿布以来赢得了学术界的高度柔和,
在 HuggingFace 的 4 月 11 日 Daily Papers 评比中荣登榜单第二位,展现了其焦躁的学术价值和诓骗出路。
究诘者觉得,面前视频相识领域的评测基准主要存在两个症结性局限:
最初,现存形态盛大仅柔和模子输出的最终成果,而忽视了对推理经由的评估。这种评估神气可能导致"假阳性"表象——即便模子在相识或推理关节存在裂缝,仍可能通过揣度或刚巧赢得正确的最终谜底。
其次,现存基准短少对模子推理武艺的多维度解构,无法精确识别模子在复杂推理任务中的武艺瓶颈(如视觉感知不足与逻辑推理残障的阔别)。
这两个局限性严重制约了对视频相识模子真正推理武艺的科学评估。而针对这些问题所残酷的 VCR-Bench,则大概很好的兑现视频 CoT 经由评估,填补现存不足。
△图 1 成果评估的局限性首个面向视频 CoT 推理的 Benchmark[自拍偷拍]藝校美女孔雀妹妹三人組同時表演才藝
具体而言,究诘团队最初构建了包含七个独处评估维度的任务框架,每个维度针对性地试验模子的不同武艺(如时空推理、因果推断等)。
为确保评估的全面性和可靠性,每个维度全心联想了 100 余条高质地样本,最终形成包含 859 个精选视频和 1034 组问答对的大领域数据集。
这种多维度的评估体系大概对模子的轮廓推理武艺进行全面会诊,不仅粉饰了视频相识的各个症结关节,还能灵验揭示模子在不同武艺维度上的强弱项。
△图 2 不同维度样例
其次,关于数据贴近的每一条样本,究诘团队不仅提供了步履问答对,还突出标注了经过东谈主工考证的详备 CoT 推理法子动作参考步履。
在评估经由中,最初对被测模子生成的推理实际进行结构化领悟,将其领悟为破碎的推理法子。随后,基于事先界说的武艺维度框架,包括视觉感知(perception)和逻辑推理(reasoning)两大类别,吉吉影音自拍偷拍对这些法子进行分类标注。为保险评估的客不雅性,收受 GPT-4o 动作自动评分器,通过比对模子生成的推理法子与东谈主工标注的黄金步履,分别策画法子类别的调回率(Recall)和精确率(Precision),最终以 F1 分数动作模子 CoT 得分。这一评估决策既保证了评分的可讲解性,又能灵验反应模子在不同推理维度上的真正发扬。
终末,收受 GPT4o 从模子的输出实际中索求出最终成果,并于正确成果进行匹配,从而得到模子在 VCR-Bench 上推理的成果准确性。
△图 3VCR-Bench 的评估经由
究诘者在 VCR-Bench 上进行了多数实验,考证了其评估体系的灵验性,并得到了多条阔气启发真理的论断:
面前多模态模子在视频复杂推理任务上发扬盛大欠安,最优模子 o1 仅赢得 62.8 的 CoT 得分和 56.7% 的准确率,大多数模子两项主义均低于 40 分,且闭源模子优于开源模子,大模子优于小模子。
通过对感知武艺和推理武艺的对比分析发现,大多数测试模子的视觉感知得分皆低于其推理武艺得分,极度是在性能较差的模子中,这种差距发扬得更为显耀。这一端正知道地标明,视觉感知武艺的不足照旧成为制约多模态模子性能普及的紧要要素。
△图 4 不同模子在 VCR-Bench 中的 CoT 得分
模子在时空定位(TSG)维度发扬最差,多数模子无法正确回答干系问题,显泄露惩办时空变化任务的严重不足。
△图 5 不同模子在 VCR-Bench 上的准确率成果
△图 6TSG 任务样例
模子的 CoT 得分和准确率呈现高度正干系(r=0.89),证据正确灵验的 CoT 的推理法子大概匡助模子更好的回答对问题。
部分模子如 LLaVA 系列天然能达到尚可的准确率,但其 CoT 得分却昭彰偏低,真切分析发现这些模子存在领导罢黜不充分的问题,其输出实际经常过于轻便,短少必要的推理法子;比较之下,Qwen2.5-VL 等发扬较好的模子大概严格罢黜领导条目,生成愈加齐全、缜密的推理经由,因而赢得更高的 CoT 评分。
模子在中等长度视频上发扬最好,短视频和长视频相对较差。长视频因实际复杂度高带来相识挑战;而短视频关于东谈主类标注员而言也较容易相识,大概标注出更有深度的问题,此外一些特殊的维度(TSG)以短视频为主,亦然形成短视频性能欠安的原因。这一表象突显了模子对不同期长视频的稳妥武艺仍需普及。
△图 7 更多实验成果展示。
(左侧:模子在不同期长视频上的准确率;右上:模子在不同实验诞生下的准确率;右下:模子 CoT 得分与准确率的干系性统计)
Paper: https://arxiv.org/abs/2504.07956
Project Page: https://vlm-reasoning.github.io/VCR-Bench/
大乱交Dataset: https://huggingface.co/datasets/VLM-Reasoning/VCR-Bench
Code: https://github.com/zhishuifeiqian/VCR-Bench
一键三连「点赞」「转发」「注重心」
接待在驳倒区留住你的看法!
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿实际
附上论文 / 技俩主页荟萃,以及干系神气哦
咱们会(尽量)实时回应你
� � 点亮星标 � �
科技前沿进展逐日见[自拍偷拍]藝校美女孔雀妹妹三人組同時表演才藝