近日,中国科学院自动化研究所神经计算与脑机交互(NeuBCI)课题组与中国科学院脑科学与智能技术卓越创新中心的联合团队结合行为实验与神经影像分析,首次证实多模态大语言模型(MLLMs)能够自发形成与人类高度相似的物体概念表征系统。
科研人员证实,多模态大语言模型在训练过程中自己学会了“理解”事物,而且这种理解方式和人类非常类似。
这一发现为探索人工智能如何“思考”开辟了新路,也为未来打造像人类一样“理解”世界的人工智能系统打下了基础。相关研究成果在线发表于《自然·机器智能》杂志。
核心发现:AI的“心智维度”与人类殊途同归
传统人工智能研究聚焦于物体识别准确率,却鲜少探讨模型是否真正“理解”物体含义。“当前人工智能可以区分猫狗图片,但这种‘识别’与人类‘理解’猫狗有什么本质区别,仍有待揭示。”论文通讯作者、中国科学院自动化研究所研究员何晖光说。
在这项研究中,科研人员借鉴人脑认知的原理,设计了一个巧妙的实验:让大模型和人类玩“找不同”游戏。
研究人员从海量大模型行为数据中提取出66个“心智维度”,并为这些维度赋予了语义标签。研究发现,这些维度是高度可解释的,且与大脑类别选择区域(如处理面孔的FFA、处理场景的PPA、处理躯体的EBA)的神经活动模式显著相关。
研究还对比了多个模型在行为选择模式上与人类的一致性(Human consistency)。结果显示,多模态大模型(如 Gemini_Pro_Vision、Qwen2_VL)在一致性方面表现更优。此外,研究还揭示了人类在做决策时更倾向于结合视觉特征和语义信息进行判断,而大模型则倾向于依赖语义标签和抽象概念。本研究表明大语言模型并非“随机鹦鹉”,其内部存在着类似人类对现实世界概念的理解。
更重要的是,这些“理解”事物的关键角度,能同时看懂文字和图片的多模态模型,“思考”和做选择的方式比其他模型更接近人类。
扫一扫在手机打开当前页