免费咨询热线 491218(微信搜索加好友)

聚品赞留学

您现在的位置是:首页 > 留学资讯

留学资讯

新方法揭示:聊天机器人推理能力远未及人类,认知负荷成关键短板

无论是制定锻炼计划、推荐晚餐菜谱,还是协助解决学业或工作难题,大型语言模型(LLMs)如ChatGPT、DeepSe...
无论是制定锻炼计划、推荐晚餐菜谱,还是协助解决学业或工作难题,大型语言模型(LLMs)如ChatGPT、DeepSeek和Gemini,正被设计来应对我们日常生活中的各类任务。然而,这些聊天机器人在解决需要严谨逻辑的问题时,真实能力究竟如何?哪些因素又在左右着它们的推理表现?

研究员丹尼尔·凯撒在其博士项目的最新研究中,深入探讨了这一问题。作为挪威UiT机器学习小组及“Integreat”知识驱动机器学习中心的一员,他开发了一种名为“认知读档”(CogniLoad)的创新方法,旨在系统性地考察大型语言模型的逻辑问题解决能力与推理技能。该研究成果已作为会议论文,在2026年的国际学习表征会议(ICLR)上发表。

揭示大型语言模型中的隐蔽短板
尽管大型语言模型已成为一项实用且强大的技术,但它们犯错——甚至是以灾难性方式犯错——的风险始终存在。例如,2025年,ChatGPT在为特罗姆瑟市撰写学校结构报告时,凭空编造了其引用的18个来源中的11个,这便是典型的“幻觉”现象。

“绝不能盲目相信大型语言模型给出的任何信息,即便其表述听起来真实可信或令人信服,”凯撒警告道,“对答案进行双重核查与验证至关重要。”

凯撒相信,他提出的“认知读档”方法能够有效地帮助我们检测并理解这些模型在处理逻辑问题时存在的局限性。他解释道:“这项方法旨在帮助我们厘清,为何某些大语言模型在特定任务上表现卓越,而在另一些任务上却差强人意。”

并非所有模型都“生而平等”
大型语言模型的内在设计,包括其模型规模与训练数据,从根本上决定了它解决特定问题的能力。换言之,不同的模型各有专长,并非所有模型都同样适配所有任务。

“不同大型语言模型之间的能力差异非常显著,”凯撒指出,“像ChatGPT的GPT-5这样的大型模型,通常更擅长处理复杂问题;而Meta的LLaMA等小型模型,则在应对相对简单的任务时表现更佳。”

然而,究竟哪款模型最适合解决哪类问题,并非总是显而易见。这些模型复杂的内部结构,也使得我们难以追溯其潜在错误的根源。

宝贵的认知洞察
因此,无论这些模型多么先进,清晰地了解它们的能力边界至关重要。即便是最顶尖的模型,在自信流畅的回答背后,依然可能隐藏着错误。

“像‘认知读档’这样的测试,能够帮助我们精准定位模型在推理过程中的出错环节,从而分析大型语言模型容易犯下哪些类型的逻辑错误,”凯撒说。

这种洞察在多个层面都具有重要价值。“我们可以利用这些信息来理解这些模型最难以应对的挑战是什么。开发者则可以据此调整和优化他们的模型,使其变得更好。”

逻辑谜题:测试的基石
凯撒的方法“认知读档”,其核心是让大型语言模型解决一个逻辑谜题。谜题首先会设定一个包含数个人物及其相关信息的场景,例如他们穿着的衣物或最近听过的音乐。随后,模型会接收到一系列陈述,这些陈述反复改变场景中的细节信息。最后,聊天机器人需要回答一个关于某个特定人物的具体问题,比如“他的袜子是什么颜色的?”

“要准确无误地给出答案,聊天机器人必须从头到尾持续追踪所有这些变化,且不能有任何疏漏,”凯撒解释道。

凯撒可以通过多种方式调整谜题以增加难度,例如延长谜题的长度、增加其逻辑复杂性,或引入更多无关的干扰信息。这种可调节性旨在揭示谜题的哪些具体方面会影响不同模型的解题能力。

该方法借鉴了认知负荷理论。该理论认为,大脑在处理任务时需要付出的心智努力程度,直接影响着我们的推理表现与出错概率。

“当我们需要同时处理并记住过多信息时,就很难进行缜密的推理并避免犯错。由于人工智能系统旨在模拟人类智能,我们希望研究不同类型的‘认知负荷’会如何影响大型语言模型的推理能力,”凯撒补充道。

测试对象涵盖主流模型
凯撒在22种不同的大型语言模型上测试了该方法,涵盖了开源模型和商业模型,包括ChatGPT、DeepSeek和Gemini等主流产品。

“研究的重点在于观察这些不同的模型擅长应对哪些类型的压力,以及哪些类型的压力会让它们陷入困境,”凯撒解释道。

研究结果表明,“认知读档”能够为了解这些大型语言模型如何处理和解决逻辑问题提供独特的视角,无论模型的规模大小。“这表明,我们可以将这一方法应用于所有不同类型的模型,以探究影响其推理能力的核心因素。”

与人类智能的惊人相似
研究结果揭示了人类与大型语言模型在信息处理方式上的一些有趣共性。

“我们发现,信息长度、问题复杂度和无关干扰等因素,确实会影响大型语言模型解决逻辑问题的能力。这与人类在面对不同形式的认知负荷时的表现非常相似,”凯撒说。

即使是规模最大的大型语言模型,在任务变得冗长或复杂时,解题能力也会明显下降。凯撒表示:“这提醒我们,即使是最优秀的聊天机器人听起来自信满满、表达流畅,它们仍可能遗漏关键细节,最终得出错误结论。”

模型规模:关键但非唯一因素
在各项调整中,谜题长度的增加给大型语言模型带来了最大的挑战。然而,模型本身的规模也扮演着重要角色。

“谜题越长,许多模型给出准确答案的难度就越大。我们发现,较小的模型往往更早地‘掉队’,而较大的模型则能更长时间地维持逻辑链条,”他说,“但最终,当任务变得相当冗长时,即便是最先进的模型也开始犯下更多错误。”

在调整谜题的复杂度时,凯撒也观察到了类似的模式。“当陈述变得更为详尽、难以理解时,所有模型的准确率都出现了下滑。”

凯撒强调,“认知读档”的目的并非衡量大型语言模型的知识储备,而是探究它们在面对新信息时的推理能力。

“这不是一场检验知识的测试,我们不关心模型是否记住了某些事实。在这里,我们关注的是模型在面对从未见过的新问题时的表现究竟如何。”

通往通用人工智能之路仍漫漫
人工智能系统发展日新月异,一些人担忧其能力将很快与人类智能持平甚至超越,从而实现所谓的通用人工智能(AGI)。

尽管“认知读档”并未对未来的这一宏大命题给出明确答案,但凯撒的研究表明,我们距离设想中的通用人工智能时代,恐怕还有很长的路要走。

“即使是听起来很简单的谜题,一旦你增加其长度或使其变得更难理解,对当今的模型来说就变得困难重重。这个谜题对大型语言模型来说本应相当简单,因此,看到即便最先进的模型在我们提高难度后也感到棘手,着实令人着迷。”

无论是小型模型还是更先进的大型模型,都还有巨大的改进空间。“这在某种程度上表明,即使是当今最顶尖的人工智能模型,距离实现真正的通用人工智能,依然相当遥远,”凯撒笑着说。