ChatGPT与图灵测试

ChatGPT已成功通过图灵测试,7月25日,《Nature》杂志在一篇文章中宣布,这标志着人工智能评估领域即将迎来新的变革。自2022年底OpenAI推出ChatGPT以来,人工智能技术便在全球范围内掀起了一场革命性的风潮。这场风潮的强劲势头,一方面源于ChatGPT在技术层面的重大突破,另一方面则得益于其在应用端为普通人所带来的直观体验。正因如此,我们与埃隆·马斯克产生了相同的感慨:ChatGPT的强大能力,令人惊叹。

◉ 图灵测试的历史背景

图灵测试作为衡量AI智能的标准在ChatGPT出现前倍受关注。图灵测试,这个在1950年被提出的概念,逐渐成为了衡量AI智能程度的重要标准,甚至被视为唯一标准,吸引了众多追随者。然而,随着人工智能领域的不断发展,尤其是对话机器人技术的突飞猛进,图灵测试的局限性也逐渐显现。每当人工智能领域取得新的进展时,都会面临图灵测试的严峻挑战,甚至在某些情况下,新的技术进展反而因为无法通过图灵测试而黯然失色。这使得“图灵测试”在一定程度上成为了一个神话,甚至被视为束缚AI发展的魔咒。

◉ ChatGPT引领的变革

ChatGPT通过图灵测试标志AI新时代的到来。然而,智能的定义并非一成不变。在ChatGPT引领的新时代下,我们有必要重新审视智能的概念。尽管图灵测试在历史上曾发挥过重要作用,但如今它已经无法适应人工智能领域的发展需求。因此,我们需要寻找新的评估标准和方法来更全面地衡量AI的智能水平。


GPT-4的突破与评估

2023年3月14日,GPT-4惊艳亮相,这款具备多模态能力的新一代AI模型,在发布后便引起了广泛关注。GPT-4不仅在多项人类专业测试中表现出色,甚至通过了律师考试。

◉ GPT-4的能力展示

GPT-4展现卓越的多领域能力。据报道,GPT-4不仅在多项人类专业测试中表现出色,甚至通过了律师考试,更令人瞩目的是,它还成功通过了一些经典心理学测验,展现出了相当于9岁儿童的心智水平。这一系列的成就,使得人们开始期待:ChatGPT何时能迎来图灵测试的突破?

◉ 基准测试的局限性

尽管GPT-4在考试中表现优异,但这些测试未能反映其真实智能。值得注意的是,LLMs在考试题上的成功可能并不稳固,可能无法转化为解决现实世界问题的强大能力。Mitchell表示,通过稍微修改考试题目,就有可能让LLM不及格。她以工商管理硕士研究生的考试问题为例,稍作修改后,ChatGPT便无法正确回答。因此,能够回答原始问题的人,同样能够应对重新措辞的问题。但ChatGPT却未能通过这一挑战。

对于人类来说,在这些标准化考试中取得优异成绩确实是一个可靠指标,表明其具备一定的通用智力。然而,对于大型语言模型(LLMs)而言,情况却大相径庭。米切尔指出,LLMs的工作方式与人类截然不同,因此,我们对人类的推理方式的推断并不总是适用于这些人工智能系统。