衢州不锈钢保温施工队约翰霍普金斯大学商量：AI多模态模子存在视觉信息意会盲区

新闻资讯 | 2026-05-20 12:38

这项由约翰霍普金斯大学、亚马逊、纽约大学和德州农工大学共同开展的商量，发表于2026年3月的arXiv预印本平台（论文编号：arXiv:2603.09095v1），揭示了个令东谈主不测的风物：当咱们把翰墨变成图片给AI看时，它的推崇居然会大幅着落。

你可能会以为奇怪，当今的AI不是很强横吗？能看图谈话，还能意会复杂内容。关联词商量团队发现了个有趣的问题：一样段翰墨，如果平直以文本款式输入给AI，它能答对90分；但如果把这段翰墨作念成图片再给AI看，它可能只可答对30分。这就像个学霸学生，看纸质试卷能考满分，但看电子屏幕上的同份试卷就俄顷不会了。

这种风物被商量团队称为"模态差距"，即是一样的内容，换个呈现式，AI的意会才略就出现了明相反。为了搞明晰这个问题，商量团队进行了场"AI体检"，测试了七个不同的多模态大语言模子，包括GPT-5.2、Qwen系列、InternVL系列等有名模子，在七个不同任务上的推崇。

让东谈主骇怪的是，商量团队还发现这种"失聪"风物并不是的。当AI看果然的文档图片（比如PDF页面或维基百科截图）时，推崇通常比看东谈主工合成的翰墨图片要好得多。这就像同个东谈主，看报纸能看懂，但看黑板上的粉笔字就吞吐了。

通过入分析过4000个错误案例，商量团队得出了个关键论断：AI在图像模式下主淌若"阅读"出了问题，而不是"想考"才略着落。换句话说，AI的机灵还在，只是"眼睛"出了波折。基于这个发现，他们栽植了种"自我学习"的教练法，让AI用我方在文本模式下的理进程来教养我方奈何好地意会图像中的翰墨。这种法在数学问题上取得了惊东谈主果，准确率从30.71擢升到92.72。

、当AI遭受"换装"翰墨：模态差距的果然面庞

咱们先来意会个基本观念：什么是多模态大语言模子？简便来说，这就像给AI装了多种"感官"，它既能读翰墨，又能看图片，还能意会它们之间的联系。平时情况下，你给它段翰墨或张图片，它齐能给出合理的陈说。

但商量团队发现了个奇怪风物。他们准备了一样的内容，比如谈数学题："小明有5个苹果，吃了2个，还剩几个？"当他们平直把这个问题以翰墨款式输入AI时，AI回答得很好。但当他们把这个问题作念成张图片（就像截图样），再给AI看时，AI的推崇俄顷变差了。

这种相反到底有多大呢？商量团队测试了多样不同类型的任务。在知识问答面，比如问"法国的齐是那儿"，翰墨模式和图片模式的相反还算不错袭取，梗概惟有1-8分的差距。但在数学问题上，这个差距就变得惊东谈主了，有些AI模子的准确率从95平直掉到了30，差距过60分。

有趣的是，商量团队发现这种风物并不是对的。当他们使用果然寰球的文档图移时——比如平直从学术论文PDF中截取的页面，或者维基百科网页的截图——AI的推崇通常比东谈主工制作的翰墨图片要好许多。有期间，果然图片模式下的推崇以致过了纯翰墨模式。

这就像个有趣的对比：同个东谈主看手写字条可能看得很明晰，但看印的标签反而看不懂，而看报纸又能看得很明晰。问题不在于这个东谈主的阅读才略，而在于不同呈现式对他产生了不同的影响。

商量团队还发现，字体聘用对AI的影响大得出东谈主预料。他们尝试了四种不同的字体花样：模范印刷体、白字黑底的反模式、等宽字体（像模范代码那样的字体）和手写字体。效果示，手写字体给AI变成的困扰大，准确率着落幅度达47个百分点。这证据AI在教练进程中可能很稀有到手写字体的文本图片，是以靠近这种"目生装束"的翰墨时就不知所措了。

图片差别率亦然个巨大成分。当商量团队贬抑图片差别率时，大部分AI模子齐出现了能着落。不外有个例外，InternVL3.5模子推崇出了惊东谈主的踏实，即使在差别率贬抑到原本25的情况下，仍然能保合手广泛推崇。这是因为该模子配备了特殊的"视觉差别率路由器"期间，就像给AI装了自动蜕变的眼镜。

二、揭秘AI的"阅读禁止"：错误分析的惊东谈主发现

为了搞明晰AI到底在哪些面出了问题衢州不锈钢保温施工队，商量团队进行了次"AI体检"。他们网罗了过4000个AI犯的错误，然后像大夫会诊病东谈主样，仔细分析每个错误的类型和原因。

邮箱：215114768@qq.com

此次分析给与了种叫作念"扎根表面"的商量法，简便来说即是不事先设定错误类型，而是从试验错误中追想限定。商量团队先让GPT-5.2对这些错误进行初步分类，然后由东谈主类商量者进行终的归类和考证。这个进程就像是先让AI助手整理贵寓，然后再进行终判断。

经过分析，他们发现AI的错误主要分为七大类。常见的是观念和事实错误，占到了30.4，这类错误主淌若AI不知谈或记错了某些知识点。二常见的是不无缺回答，占26，即是AI给出的谜底不够无缺或者干脆没回答。

但关键的发现是：当AI从翰墨模式切换到图片模式时，研究和数学错误的比例著加多了1.5倍，从11.1上涨到16.7。款式错误也有所加多，从5.9上涨到8.0。这些齐是典型的"阅读错误"——AI看错了数字、象征或者输出款式条目。

比较之下，那些需要度想考的错误类型，比如观念意会错误和理错误，在图片模式下并莫得著加多。这就像个学生磨练时，抄错题目或算错简便研究的情况加多了，但对复杂观念的意会才略其实莫得着落。

商量团队还发现了个相等有趣的风物：某些AI模子在图片模式下会出现"理链条崩溃"。具体推崇是，在翰墨模式下，AI会小心写出解题款式，比如解谈数学题时会写："先研究...然后...后得出效果..."。但在图片模式下，一样的AI可能平直给出谜底，跳过通盘中间款式。

这种风物在Qwen3-VL-8B模子上推崇得明。在翰墨模式下，它平均会写618个字符来解释数学问题的求解进程，但在图片模式下只写32个字符，裁减了19倍！这就像个平时很解释的诚挚，俄顷变得惜墨若金，只给谜底不讲进程。

不同类型的任务示出不同的错误模式。数学题（GSM8K）的错误主要聚首在研究空幻上，这很好意会，因为看错个数字就会致通盘谜底错误。编程题（HumanEval）则容易出现款式错误，因为代码对缩进、空格等款式条目很严格，而图片模式下AI容易丢失这些细节信息。知识问答类题目（ARC、GPQA、MMLU）的错误主要如故观念和事实错误，证据在这些任务上，"阅读"问题的影响相对较小。

三、疗AI"阅读禁止"的转变疗法

基于对AI"病症"的入了解，商量团队栽植了种转变的疗法，他们称之为"自我蒸馏"。这个听起来很期间的名词，试验上观念很简便：让AI用我方的"好推崇"来教养我方如安在"坏气象"下也能推崇得好。

具体来说，即是这么操作的：商量团队先让AI在翰墨模式下科罚批数学问题，纪录下它的小心理进程。然后，他们把一样的问题制作成图片，配上AI之前在翰墨模式下的理进程，让AI学习"当我看到这么的图移时，我应该这么想考"。这就像让个学生对照我方的满分功课，学会如安在不同磨练环境下齐能写出一样质地的谜底。

这种法的渊博之处在于，它不需要东谈主类来提供模范谜底。AI自身即是我方的诚挚，用我方的秀推崇来指我方的特殊。商量团队发现，铝皮保温即使包含些错误的理进程，这种自我学习亦然有的。因为AI在翰墨模式下本来准确率就很（93.56），是以大部分的"训导材料"齐是质地的。

实验效果令东谈主惊喜。在数学问题测试（GSM8K）上，经过这种自我教练后，AI的图片模式准确率从30.71飙升到92.72，简直达到了翰墨模式的水平（93.56）。这种改革幅度是相等著的，十分于把个不足格的学生培养成了等生。

商量团队还测试了三种不同的教练计谋。种是同期赈济AI的"眼睛"（视觉编码器）和"大脑"（语言模子），二种只赈济"大脑"，三种只赈济"眼睛"。效果发现，赈济"大脑"的果好，只赈济"眼睛"的果次之，这证据问题的根源主要在于奈何处理视觉信息，而不是奈何获得视觉信息。

让东谈主省心的是，这种教练法不会让AI"室如悬磬"。商量团队在其他任务上测试了经过教练的AI，发现它不仅保合手了原有的才略，在某些任务上以致还有所擢升。在ARC科学理任务上，翰墨-图片差距从0.68降到0.42；在知识问答（MMLU）上，差距从7.43降到2.79；在编程任务（HumanEval）上，差距从6.71降到1.83。

这种风物证据衢州不锈钢保温施工队，AI学到的不是针对特定任务的手段，而是基础的"奈何好地意会图片中的翰墨"的才略。这种才略是通用的，不错迁徙到不同的任务中。

四、果然寰球vs东谈主工寰球：渲染式的巨大影响

商量进程中，团队发现了个不测的限定：AI在处理果然文档图移时的推崇，通常比处理东谈主工制作的翰墨图片要好得多。这个发现改变了他们对"模态差距"的意会。

当商量团队使用果然的学术论文PDF页面和维基百科截图进行测试时，AI的推崇平庸能够达到以致过纯翰墨模式的水平。以QASPER学术问答任务为例，简直通盘AI模子在果然PDF图片模式下的推崇齐于纯翰墨模式。GPT-5.2的准确率从51.92擢升到77.25，Qwen2.5-7B-VL从30.49擢升到64.38。

这种风物的原因在于教练数据的漫衍。当代AI模子在教练进程中见过大批果然寰球的文档图片——网页截图、PDF页面、扫描件等等。因此，当它们遇到雷同的果然图移时，就像回到了熟习的环境，能够好地分解才略。

违抗，东谈主工制作的翰墨图片——纯白配景配黑翰墨，统字体，模范排版——反而成了"异类"。这就像个民俗了看多样笔迹的大夫，俄顷遇到模范印刷体反而不得当了。

为了考证这个假定，商量团队进行了小心的字体对比实验。他们制作了四种不同作风的翰墨图片：模范黑字白底、反白字黑底、等宽字体（雷同模范代码），以及手写稿风字体。效果示，反和等宽字体的影响齐比较小，因为这些在汇注上比较常见。但手写字体变成的准确率着落为严重，在某些模子潦倒降幅渡过40个百分点。

图片差别率的影响也很有趣。大多数AI模子在差别率降到原本的50时还能防守平时推崇，但再往下就开动出现明着落。不外，即使在低差别率（25）下，图片模式消耗的研究资源仍然比翰墨模式多。这证据，仅从研究率角度来看，图片模式并莫得明势。

商量团队还发现了个化手段：使用10号小字体在全差别率画布上渲染翰墨，让翰墨只占用图片5-11的面积。这种"紧凑渲染"式让通盘AI模子的推崇齐有所擢升，诠释了渊博的视觉筹算不错匡助AI好地意会内容。

五、数字解码：度分析揭示的限定

通过对七个AI模子在七个不同任务上的测试，商量团队辘集了大批的数据，这些数字背后荫藏着有趣的限定。

在知识型任务上，模态差距相对较小。MMLU多学科知识测试中，好的模子（GPT-5.2）在翰墨模式下能达到92.33，图片模式下为90.93，差距惟有1.4个百分点。GPQA商量生别科学问题的差距也雷同，大部分在1-8个百分点之间。这证据关于主要依靠系念和基础理的任务，"阅读禁止"的影响相对有限。

数学任务示了大的模态差距。GSM8K小学数学题上，些模子的差距过60个百分点。端的例子是Qwen3-VL-8B，从翰墨模式的93.56掉到图片模式的30.71，差距达62.85个百分点。这印证了前边的分析：数学题对精准读取数字和象征的条目很，任何"看错"齐会致连锁错误。

编程任务（HumanEval）呈现出有趣的模子相反化风物。有些模子如GPT-5.2和InternVL3.5-8B在图片模式下简直不受影响，以致还略有擢升。但另些模子如Pixtral-12B则大幅着落，从39.02降到47.56。奇怪的是Qwen2.5-32B-VL，它在翰墨模式下惟有31.10，但图片模式下却达到85.98，颠覆了知识。

这种反常风物可能证据该模子的翰墨模式代码生成才略存在校准问题，而图片模式反而激活了好的理旅途。这指示咱们，AI模子的动作有期间会出咱们的预期，不可简便地认为翰墨模式老是好的。

通过OCR（光学字符识别）测试，商量团队发现了另个巨大限定：纯正的翰墨识别才略与任务推崇之间的关联并不彊。他们让AI先从图片中索要翰墨，再用索要的翰墨科罚任务，发现OCR错误率与终准确率的关猜想数惟有-0.238。这个相对较弱的关联证据，问题不单是在于"看明晰翰墨"，在于"意会翰墨在图片中的含义"。

研究资源分析示，图片模式需要的研究量是翰墨模式的1.4到4.7倍，在长文档任务中以致不错达到29倍。这个研究支出主要来自于处理视觉信息的进程。即使在贬抑差别率的情况下，图片模式仍然比翰墨模式耗尽多资源。

不同模子在模态鲁棒上的推崇相反很大。InternVL3.5-8B是推崇踏实的模子，在简直通盘任务上齐能保合手接近的模态差距，偶然图片模式以致略于翰墨模式。Qwen2.5-7B-VL也示了广泛的鲁棒。这些相反可动力于视觉编码器的筹算相反和教练数据的不同漫衍。

说到底，这项商量让咱们再行坚贞了AI的才略鸿沟。名义上看，当代AI仍是能够"看懂"图片和"意会"翰墨，但入测试后发现，不同输入式之间仍然存在奥密但巨大的相反。这就像东谈主类天然既能听又能看，但在嘈杂环境中可能依赖视觉信息，在阴黝黑依赖听觉信息。

商量团队的发现具有巨大的试验有趣。关于栽植AI欺诈的工程师来说，在筹算输入界面时需要接头模态差距的影响，聘用适合任务的输入式。关于AI模子的教练者来说，这指示他们需要在不同模态上保合手均衡的教练，避某个模态成为"短板"。

巨大的是，自我蒸馏法的到手为科罚雷同问题提供了新想路。这种让AI"我方教我方"的法不仅有，而况不需要很是的东谈主工标注，具有很好的可彭胀。跟着多模态AI欺诈的普及，这种期间可能会成为擢升模子踏实的模范作念法。

从广的角度来看，这项商量揭示了个巨大事实：AI的智能和东谈主类的智能在结构上还存在根柢相反。东谈主类在不同感官输入下能保合手相对致的意会才略，而AI刻下还容易受到输入式的影响。意会并弥补这些相反，是通向强东谈主工智能的必经之路。明天，当咱们与AI配合时，了解它们的这些特质将匡助咱们好地分解彼此的势，创造的东谈主机合作模式。

Q&A

Q1：什么是多模态大语言模子的模态差距？

A：模态差距是指AI模子在处理相易内容但不同输入式时推崇出的相反。比如，同谈数学题以纯翰墨款式输入时AI能答对90分，但作念成图片后只可答对30分。这种风物在数学任务上为明，差距可过60个百分点。

Q2：为什么AI看果然文档图片比看东谈主工制作的翰墨图片推崇好？

A：因为AI在教练时见过大批果然寰球的文档图片，如PDF页面、网页截图等，对这类图片熟习。比较之下，模范字体、纯配景的东谈主工翰墨图片反而成了"目生环境"。字体聘用影响也很大，手写字体可致准确率着落47个百分点。

Q3：自我蒸馏法是奈何擢升AI图像意会才略的？

A：自我蒸馏让AI用我方在翰墨模式下的秀推崇来教图片模式下的推崇。具体是让AI先在翰墨模式下解题并纪录理进程，然后将一样问题制作成图片，配上之前的理进程进行教练。这种法将GSM8K数学题的图片模式准确率从30.71擢升到92.72。

相关词条:铁皮保温施工隔热条设备锚索离心玻璃棉万能胶生产厂家

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》衢州不锈钢保温施工队，以此来变相勒索商家索要赔偿的违法恶意行为。

上一篇：天津铝皮保温施工热浪提早来袭韩国单个西瓜均价接近3万韩元

下一篇：博尔塔拉铝皮保温工程佑驾改进(02431)签署东谈主物流车采购及长久合作契约

新闻资讯

衢州不锈钢保温施工队 约翰霍普金斯大学商量：AI多模态模子存在视觉信息意会盲区

衢州不锈钢保温施工队约翰霍普金斯大学商量：AI多模态模子存在视觉信息意会盲区