ChatGPT与GPT-4：人工智能评估新时代的开启-山东华瑞智能科技有限公司

ChatGPT与图灵测试

ChatGPT已成功通过图灵测试，7月25日，《Nature》杂志在一篇文章中宣布，这标志着人工智能评估领域即将迎来新的变革。自2022年底OpenAI推出ChatGPT以来，人工智能技术便在全球范围内掀起了一场革命性的风潮。这场风潮的强劲势头，一方面源于ChatGPT在技术层面的重大突破，另一方面则得益于其在应用端为普通人所带来的直观体验。正因如此，我们与埃隆·马斯克产生了相同的感慨：ChatGPT的强大能力，令人惊叹。

◉ 图灵测试的历史背景

图灵测试作为衡量AI智能的标准在ChatGPT出现前倍受关注。图灵测试，这个在1950年被提出的概念，逐渐成为了衡量AI智能程度的重要标准，甚至被视为唯一标准，吸引了众多追随者。然而，随着人工智能领域的不断发展，尤其是对话机器人技术的突飞猛进，图灵测试的局限性也逐渐显现。每当人工智能领域取得新的进展时，都会面临图灵测试的严峻挑战，甚至在某些情况下，新的技术进展反而因为无法通过图灵测试而黯然失色。这使得“图灵测试”在一定程度上成为了一个神话，甚至被视为束缚AI发展的魔咒。

◉ ChatGPT引领的变革

ChatGPT通过图灵测试标志AI新时代的到来。然而，智能的定义并非一成不变。在ChatGPT引领的新时代下，我们有必要重新审视智能的概念。尽管图灵测试在历史上曾发挥过重要作用，但如今它已经无法适应人工智能领域的发展需求。因此，我们需要寻找新的评估标准和方法来更全面地衡量AI的智能水平。

GPT-4的突破与评估

2023年3月14日，GPT-4惊艳亮相，这款具备多模态能力的新一代AI模型，在发布后便引起了广泛关注。GPT-4不仅在多项人类专业测试中表现出色，甚至通过了律师考试。

◉ GPT-4的能力展示

GPT-4展现卓越的多领域能力。据报道，GPT-4不仅在多项人类专业测试中表现出色，甚至通过了律师考试，更令人瞩目的是，它还成功通过了一些经典心理学测验，展现出了相当于9岁儿童的心智水平。这一系列的成就，使得人们开始期待：ChatGPT何时能迎来图灵测试的突破？

◉ 基准测试的局限性

尽管GPT-4在考试中表现优异，但这些测试未能反映其真实智能。值得注意的是，LLMs在考试题上的成功可能并不稳固，可能无法转化为解决现实世界问题的强大能力。Mitchell表示，通过稍微修改考试题目，就有可能让LLM不及格。她以工商管理硕士研究生的考试问题为例，稍作修改后，ChatGPT便无法正确回答。因此，能够回答原始问题的人，同样能够应对重新措辞的问题。但ChatGPT却未能通过这一挑战。

对于人类来说，在这些标准化考试中取得优异成绩确实是一个可靠指标，表明其具备一定的通用智力。然而，对于大型语言模型（LLMs）而言，情况却大相径庭。米切尔指出，LLMs的工作方式与人类截然不同，因此，我们对人类的推理方式的推断并不总是适用于这些人工智能系统。

行业新闻