发布时间:2025-10-12
浏览次数:0
目前似乎很难寻获那些只有人类才能胜任,而大型模型无法完成的任务了。比如“类比”这类工作,它不仅是人工智能的致命弱点,更凸显出不同大型模型彼此之间以及它们与人类之间的根本不同。
在《表象与本质》一书中,认知科学家侯世达( )指出:
类比不仅仅是语言或逻辑的工具,更是思维的基本单位。
我们的日常表达里遍布着类推和暗喻,比如“充斥”这个词。类推有助于激发创新思维。譬如,爱因斯坦把引力场比作重物投入蹦床后引发的形变,这一想法引导他构建了广义相对论。类推也能阐明那些令人费解的事物。众所周知有个比喻,把意识比作冰山,借助这种相似性,人们能够形象地理解意识水面下的层次丰富和隐秘幽深。
那么,大语言模型是否也具有类比能力?
机器学习里,类比表现为“零样例推断”,就是不给大模型学习范例,让它自己根据题目推理。为了检验大模型能否进行类比推理,Webb等人(2023)设计了三种类比推理任务:字符串类比、数字矩阵和故事类比,用来测试GPT3处理不同类型任务的推理水平。借助这项检测,专家们觉得他们证实了GPT-3能够进行类比思考。
然而,一个更深层次的问题是,这些大型模型是否仅仅在复述训练时的资料,而非进行真正的类比推理?当遇到更加复杂多变的情境时,这些大型模型能否展现出可靠的类比能力?
01 大模型能读懂题目“马甲”下的本质吗?
为了分辨模型是否借助表层特征或走捷径,而非进行本质上的抽象思考,圣塔菲研究院的Lewis等人,依据Webb等人构建的基础转换及泛化模式,开发出更为细致的验证方案。
他们给题目换上不同的名称,在保持核心不变的情况下,使题目呈现多样性;接着,借助新的评估方式,对GPT-3(text--003)以及最新迭代的大模型GPT-3.5(gpt-3.5-turbo-0613)、GPT-4(gpt-4-0613)进行相似性判断考核,涵盖字符、数字阵列和叙事类比的实践。这项研究里,经常运用到的是侯世达在1985年所阐述的“字符串类比”理论。
字符对应:首尾替换,a换b,c换d;中间调整,i换j,k换l。
这部分包含两个环节,分别是"原始文本处理"和"目标文本"环节,需要按照处理原始文本的方法来处理目标文本内容。
二零二三年,Webb及其团队归纳了六类转换方式,例如序列延伸、后续操作、先前操作等,并列举了多种泛化情形,诸如字符转数值、集合划分、更宏大目标等,将二者组合运用。他们针对各类问题编制了众多实例,提供给GPT-3(text--003)与五十七名UCLA在校大学生加以评估。调查结果显示,个体在答题正确率上存在显著不同,不过大体上,GPT-3在诸多题目类型上的应对,甚至超过了普通人的平均水平。
然而,这项研究采用的标准英文字母表及其固有排序,测试中大模型所体现的“类比能力”是否可能借助表层特征实现了“跳过”?因此,Lewis & 保留了核心转换和泛化模式,又额外设计了两类不同形式。
设计一套假想字符序列,随意调换其中2到20个字符的位置,以此方法生成28种各不相同的字符排列方案
符号字符集:以非文字符号全面替换文字,制成九套差异化的符号字符集
科研人员从实际拉丁字母表中随机挑选1到3组字符进行调换,随后分别对人类以及GPT-3、GPT-3.5、GPT-4开展评估。
图1展示了对人类与大型模型进行类比问题的示例,内容涉及Lewis &,资料来源为。
实验表明,随着字母表替换频次提升,GPT3、GPT3.5乃至GPT4的应答精确度均呈现下滑趋势,这些模型的得分明显不如网络招募的真人测试者。
图2:在运用不同字母表进行替换的次数条件下,GPT模型与人类参与者的准确度表现相比较。图源:
团队还开展过一次实验,他们挑选了42名儿童,年龄在7到9岁之间,还选了62名成年人,并运用了四种大型模型,分别是版本3.5、Gemma-2 27B、Open AI的GPT-4o以及Meta的Llama-3.1 405B,让这些参与者完成三项条件的字符串类比任务,包括拉丁字母表、希腊字母表和符号列表。
图3:不同类型的字母推理问题. 图源:
检测表明,巨型模型处理类比任务时,精确度会大幅降低,水平甚至低于小辈。以GPT-4o和-3.5为例,在拉丁文字母测验中,它们的平均正确率超过稚童,且贴近成年人;一旦题目变为希腊文字母,精确度便急剧下滑;至于符号类题目,它们的正确率反而不如孩童。其余开源模型例如Llama-3.1 405B与Gemma-2 27B,其精确度降低得更为显著。
图4:各类大型人工智能系统与人类在三项字符串推理任务上的结果对照。资料来源:
这个发现表明,在实验中采用不同的字符集,人类和小孩依然可以顺利完成,但大型模型却会失误。一个真正具备深度认知和推理能力的系统,必须在环境改变时依然维持出色表现——而这正是GPT系列大型模型所欠缺的特质。
有人或许会问sublime text 3 c,别的推理型人工智能能否处理这类问题。笔者进行了初步测试,在全尺寸R1及V3版本,还有阿里通义千问的QwQ 32B推理模型上,针对反复变更的虚拟字符系统,这些模型都能准确应答,并且提供了符合人类思维方式的推理步骤。
然而在模型转为蒸馏Qwen或lamma的32B、14B、8B或1.5B版本后,根据笔者几次有限的观察,模型都表现出过度思考的倾向,具体表现为在推理时会探索大量过于繁复的思路,呈现数万token的复杂推演过程,但最终结果依然是不正确的。作者还碰到过这样的情况,当思考进行到某个阶段时,已经找到了正确的结论,不过紧接着的深入分析,大模型却推翻了这个结果。
个人认为,运用强化学习训练的大规模模型是否具备类比能力,有待更深入的量化分析,需要检测各类尺寸模型的精确度。比如,针对模型将简单问题处理得过于繁琐的毛病,能够通过分析其推理路径,把错误类型进行更细致的划分,这样或许可以设计出一种衡量普遍认知水平的测试标准。
另外,能够拼接字符串的六种不同类型可以组合运用,来创设更多测试案例,比如在字母序列里掺杂数字字符、英文文字、中文字符以及标点符号,此类调整或许对人类判断不会造成干扰,却可能会使大型模型的精确度降低。此外,还要检测推理系统在处理这类情形时所占用的token数目,以此降低运算开销。
02 大模型能理解推理规则吗?
数字序列类题目也能进行推理,需要通过分析数字规律来找出缺少的数值。这类题目在设计上借鉴了著名的瑞文渐进矩阵测试,该测试是测量抽象思维能力的非语言性智力测验,应用范围很广。不同于以往用字母顺序来解释的思路,数字方阵的题目借助组合原理,探究了大型模型所声称的推理功能,究竟是基于真正的概念认知,还是仅仅依靠模式识别。
这类问题的基础规则有四种,题目是这些基础规则组合而成的
研究者在原始数字矩阵测试上做了两项核心调整:空白点位置调整(把空白点挪到矩阵其他位置),以及规则难度调整(构思了不同难度梯度的矩阵题目,由易到难)。
图5:包含多种规则的数字矩阵推演课题,以及将数字转换为符号的数字矩阵推演课题。图源:
实验数据表明,仅调整空白分布这一外在特征,就造成GPT模型效能显著降低。虽然GPT-4在基准测试里接近人类水平(83%对比87%);但在变式测试里,GPT-4能力衰退程度(26%)明显超出人类(4%)。这表明,即便是顶尖模型也极易受格式变动影响,同样揭示了巨型模型的逻辑推理并非特别稳定。
图6:数字矩阵推理问题的准确度. 图源:
数字矩阵任务里,要是缺失数字的位置变动了,GPT模型的处理能力就明显减弱。这说明它不仅没搞懂题目到底在问什么,更没弄明白做类比所依据的规律。它之所以在单个规则或者初始字母表上表现那么好,是靠着题目和例子之间表面的相似,而不是什么深层的因果关系推理。
与此类似的,还有一项矩阵变换议题。该研究借助简化版ARC(抽象与推理语料库)挑战,比较了儿童和成人这两种人群以及大型语言模型在视觉类比推理方面的能力,数据显示人类在处理复杂任务时表现突出,远胜于大型模型,而大型模型往往采用复制或矩阵叠加的方式,却缺少抽象概念的领会本领。
图6:展示人类与大模型的视觉类比推理任务案例,呈现不同推理方式下两者答题准确率差异,图片出处:
03 在基于常识的文科推理上,大模型表现如何?
这两种类型的类比都可以归为“理科题目”,对于“文科生”类型的大模型,可能确实存在挑战。相比之下,故事类比的测试重点是大模型依据常识进行类比推理的能力。
这类题目一般包含一个由几句话构成的简短叙述,接着会询问答题者需判定叙述1与叙述A或叙述B之间,哪一个更为接近,核心在于找出这些简短叙述间的关联程度sublime text 3 c,并从备选答案中挑选出最符合这种类比关系的选项。
图7:进行类似情节的比较分析,题目的情节属于未能达成目标而进行自我安慰的类型,情节A将原本的角色替换为女性形象,情节B则描述主角未得到同类事物的原因在于主观意愿而非客观条件限制。图源:
Lewis & 的研究里,他们测试了两种不同方法,一个是随意调整选项的排列,另一个是维持关键联系不变,不过把叙述故事的部分重新组织了一下。
在叙事类推情形下,GPT-4常将首个选项判定为准确回应,人类则对选项次序无关紧要。再者,针对大型模型,若将故事内容改头换面地表述,其叙事类推任务的表现力会随之减弱。
图8:文字类比问题上大模型的表现差异. 图源:
叙事性比喻与自然语言处理的实际运用情况更为契合,然而实验发现,即便在语言模型的擅长领域,其进行类比推理时依然显得不够灵活,也不够稳固,过于倚重表层特征和固定模式的答案,而不是对抽象关联的深刻认知。
为此,笔者也构思了一种鉴别方法,比如可以比较大型模型和人类在处理这类问题时的精确度。能够编制大量相似度较高的题目,并且召集阅读过相关作品的普通人,来收集公众通常的认知反应,接着可以分析不同大型模型与人类回应之间的不同之处。
借助提出多样化的具体疑问,能够检测出大型人工智能系统与人类在类推能力上的相仿程度,同时也能评估双方在价值观念上的契合状况。
跨不同类型文本的相似性理解:在特色迥异的创作中,比如中国金庸的武侠故事或《红楼梦》,对比英文的《哈利波特》,大型人工智能的相似性判断能否媲美人的水准
角色认知不同:大型模型在分辨男性与女性角色相似性时,是否会出现精确度不同的情况
群体倾向差异:大型模型的类推倾向是否与某些特定群体更为接近,例如涉及性别或年龄层次的不同类别?
推理链条的连贯性:大型人工智能的相似性是否具备传递属性,举例来说,假如A比B更优,B又比C更优,那么是否一定能得出A比C更优的结论
图9:巨型人工智能能否在不同创作领域的文本间完成相似推理?展示的是作者与系统交互的记录,包含一个几乎无争议的角色关联案例,以及一个可能引发不同应答结果的角色关联问题。
另有一些研究考察了大模型在未预设情形下,如何将抽象概念,比如拉扯、逃逸等,同空间标记,诸如上下左右等,展开类比推理的技能,相关数据表明,机器与人的相似程度并不突出,然而鉴于这项研究硬性规定将抽象概念,即特定词汇,和方位一一关联,这种做法缺乏实际价值,因此不予深入探讨。
图10:大模型对抽象概念和人类类比的准确性评估.图源:
04 提升大模型类比能力,还任重道远
根据前述调查结果,我们基本可以归纳出一个观点:断言大型语言系统已经掌握了常规的思考本领,这种说法可能还不太恰当。
先前关于大型模型的探讨指出,它们在个别操作上可以取得较好成效,然而一旦挑战加剧,其成果便容易起伏不定。某个系统在特定系列操作上获得满意结果,并不代表它具备强适应性。已有观察发现,当数学应用题中的人名发生调换,这类系统的答案精确度会显著降低,而倘若添加不相关的附加信息,其工作效能的下滑现象则更为显著。
这一发现给人工智能在教育、法律、医疗等核心领域应用带来了警示,这种技术虽作用显著,却无法替代人的思考与判断。比如在教育方面,大型模型生成的比喻能够辅助教学活动;不过,一旦缺少专业人士的检查与调整,这些类比的运用就可能隐藏问题。
所以,科研人员必须设计并运用可靠的检测手段,用以应对环境或条件发生细微变动的情况。这套新的检测手段需要包含一套公认的规范化作业,用来考察人工智能系统以及人类在面临新状况时的应对能力。实际操作中,大型模型经常遭遇在先前分析数据里从未出现过的全新状况和难题,而可靠检测手段将为使用者提供评估大型语言模型可信度的途径。
当前,在2024年机器学习领域的重要会议ICLR上,一项新的研究成果揭示了不同的探索路径,该研究利用类比推理的架构,促使大型模型自主创造出新的准则,以便处理未曾遇到的情况,这种依靠指令设计的技术在众多评估标准中均实现了明显的效率提高,这证明了提高大型模型的类比技能不仅对于判断其稳定性至关重要,同时也是强化模型适应新环境能力的主要方法。这两种方式互相补充,一起促进着大型模型朝更稳固、更聪慧的路径前进。
未来研究大模型的类比思维,或许能借鉴中国传统文化中的智慧。中国古典文学里的对联和律诗,本质上是一种巧妙的类比机制,里面包含着周密的对应关系和充裕的语义联系。借助这些条理清晰的语言资料对大模型进行修正,或许能为提升其类比推理本领找到新路径。
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码