给表情包都能猜电影，ChatGPT的「涌现」能力是哪儿来的？

2023-03-28 10:16:43来源：机器之心

在正式介绍这篇文章之前，我们先提个问题：下图的表情符号描述的是什么电影呢？

(相关资料图)

可能连你都猜不出来，这四个符号代表的电影是「海底总动员」，这一提示任务是去年评测大型语言模型（LLM）204 个任务中的其中一个任务。对于最简单的 LLM 模型，给出的回答多少有点胡编乱造，它认为这部电影讲述的是一个男人的故事；相对复杂一点的中型模型，给出的回答是「The Emoji Movie」，这时答案已经很接近了。不过最复杂的模型猜中了，给出「海底总动员」这一答案。

谷歌计算机科学家 Ethan Dyer 表示：「模型的这一行为令人感到惊讶。更令人惊讶的是，这些模型只使用指令：即接受一串文本作为输入，而后预测接下来会发生什么，并完全基于统计数据来不断重复这个过程。」一些学者开始预计，扩大模型规模会提高解决已知任务的性能，但他们未预料到这些模型能突然处理这么多新的、不可预测的任务。

Ethan Dyer 近期所做的一项调查表明，LLM 可以创造出数百种「涌现（emergent）」能力，即大型模型可以完成而小型模型无法完成某些任务的能力。显然，随着模型的扩展能力提升了，从简单的乘法到生成可执行的计算机代码，直到基于表情符号解码电影。新的分析表明，对于某些任务和某些模型，存在一个复杂性阈值，一旦超过该阈值，模型的功能就会如火箭腾空般急速提升。不过研究者还指出模型扩展带来的负面影响，即随着复杂性的增加，一些模型在他们的响应 (response) 中表现出了新的偏见和不准确性。

斯坦福大学计算机科学家 Rishi Bommasani 表示：「在我所知道的所有文献中，从未有讨论过语言模型可以做这些事情。」去年，他帮助编制了一份包含数十种模型涌现行为的清单，其中包括 Ethan Dyer 项目中确定的几种行为。如今，该清单仍然在继续变长。

如今，研究人员不仅竞相确定大模型涌现能力，而且还想弄清楚它们发生的原因和方式 —— 本质上是试图预测不可预测性。理解其涌现性可以揭示与人工智能和机器学习有关的深层问题的答案，比如复杂模型是否真的在做一些新的事情，或者只是变得非常擅长统计。此外，它还可以帮助研究人员利用潜在的好处并减少涌现的风险。

突然的涌现

生物学家、物理学家、生态学家和其他科学家使用涌现这一术语来描述当一大批事物作为一个整体行动时出现的自组织集体性行为。无生命原子的组合产生了活细胞；水分子创造了波浪；椋鸟群以不断变化但可识别的队形掠过天空的壮观自然景象；细胞使肌肉运动和心脏跳动。至关重要的是，涌现能力出现在涉及许多独立部分的系统中。但研究人员直到最近才能够在 LLM 中记录这种涌现能力，因为这些模型刚刚才发展到足够巨大的规模。

语言模型已经存在了几十年。直到大约五年前，最强大的模型还是基于循环神经网络。这些模型本质上取用一串文本并预测下一个单词是什么。使模型循环的原因在于它从自己的输出中学习：它的预测会反馈到网络中以提高未来的性能。

2017 年，谷歌大脑（Google Brain）的研究人员推出了一种被称为 Transformer 的新型架构。当循环网络逐字分析句子时，Transformer 会同时处理所有单词。这意味着 Transformer 可以并行处理大量文本。

「很可能是该模型从根本上学到了一些新的和不同的东西，而这些东西在较小规模的模型上是没有的。」布朗大学的 Ellie Pavlick 表示。

通过增加模型中的参数数量以及其他因素，Transformers 能够快速扩大语言模型的复杂性。这些参数可以被认为是单词之间的连接，通过在训练期间打乱文本，transformers 可以调整这些连接从而改进模型。模型中的参数越多，它就越能准确地建立连接，越接近于模仿人类语言。正如预期的那样，OpenAI 研究人员在 2020 年进行的一项分析发现，模型随着规模的扩大而提高了准确性和能力。

但大型语言模型的问世也带来了很多真正意想不到的东西。随着具有 1750 亿个参数的 GPT-3 或可扩展到 5400 亿个参数的谷歌 PaLM 等模型的出现，用户开始描述越来越多的涌现行为。一位 DeepMind 工程师甚至报告说能够说服 ChatGPT 承认它是一个 Linux 终端，并让它运行一些简单的数学代码来计算前 10 个素数。值得注意的是，比起在真正的 Linux 设备上运行相同的代码，它可以更快地完成任务。

与通过表情符号描述电影的任务一样，研究人员没有理由认为为预测文本而构建的语言模型会被说服用于模仿计算机终端。这些涌现行为中的许多都证明了零样本或小样本学习，它们描述了 LLM 拥有解决以前从未（或很少）遇到的问题的能力。Ganguli 说，这一直是人工智能研究的长期目标。这也表明 GPT-3 可以在零样本设定中无需任何明确训练数据的情况下解决问题，Ganguli 表示，「这让我放弃了我正在做的事情，更多地参与到这项研究中。」

在这个研究领域里，他并不孤单。大量研究人员已经发现了 LLM 可以超越其训练数据限制的第一个线索，他们正在努力更好地理解涌现是什么样子的以及它是如何发生的。而要做的第一步就是彻底全面地记录它。

Ethan Dyer 帮助探索了大型语言模型具有什么样意想不到的能力，以及它们会带来什么。-Gabrielle Lurie

超越模仿

2020 年，Dyer 和谷歌研究院的其他研究人员预测大型语言模型将产生变革性影响 —— 但这些影响是什么仍然是一个悬而未决的问题。因此，他们要求研究界提供有关困难且多样化任务的例子，以记录追踪 LLM 可以做什么的外部极限。这项工作被称为 BIG-bench（Beyond the Imitation Game Benchmark）项目，借用了艾伦・图灵 (Alan Turing) 模仿游戏的名称，目的是测试计算机是否能够以让人信服的人类方式回答问题。（这后来被称为图灵测试。）该研究组对 LLM 突然获得前所未有新能力的例子特别感兴趣。

正如人们所预料的那样，在某些任务中，随着复杂性的增加，模型的性能会得到更为稳定且可预测性的提升。而在其他任务上，扩大参数数量并没有对模型性能产生任何改善。而对于大约 5% 的任务，研究人员发现了他们所谓的突破 —— 在某个阈值范围内，性能出现了快速、戏剧性的跃升。不过该阈值会因任务和模型而异。

例如，参数相对较少（仅有几百万）的模型可能无法成功完成三位数的加法或两位数的乘法问题，但若拥有数百亿参数，某些模型的运算准确性会飙升。类似的性能跃升也出现在其他的一些任务中，包括解码国际音标、解读单词的字母、识别印度英语（印地语和英语的组合）段落中的冒犯性内容，以及生成与斯瓦希里语谚语类似的英语对应语。

但是，研究人员很快就意识到，模型的复杂性并不是其性能涌现的唯一驱动因素。如果数据质量足够高，一些意想不到的能力可以从参数较少或是在较小数据集上训练的较小模型中诱导而出。此外，查询的措辞方式也会影响模型响应的准确性。例如，当 Dyer 和他的同事使用多项选择格式（multiple-choice format）来安排电影表情符号任务时，准确性并不是突然的跳跃式提高，而是随着模型复杂性的增加而逐渐提高。去年，在该领域的顶级学术会议 NeurIPS 上发表的一篇论文中，谷歌大脑（Google Brain）的研究人员展示了一个具备 prompt 的模型可以自我解释（一种被称为思维链推理的能力）如何正确解答数学应用题，而没有该 prompt 的同一模型却不能解答该应用题。

在研究清楚模型规模的影响之前，你不会知道它可能会出现什么能力以及它的缺陷是什么。

谷歌大脑系统性研究科学家 Yi Tay 指出，最近的研究表明思维链 prompt 改变了扩展曲线，从而改变了模型涌现出现的节点。谷歌研究人员在他们的 NeurIPS 论文中表明，使用思维链 prompts 可以引发 BIG-bench 研究中未识别到的涌现行为。此类要求模型解释其推理的 prompt 可能有助于研究人员开始调研涌现发生的原因。

布朗大学研究语言计算模型的计算机科学家 Ellie Pavlick 说，最近的这些发现至少表明了涌现出现原因的两种可能性。第一个可能性是，正如与生物系统的比较所表明的那样，更大的模型确实会自发地获得新的能力。很可能是该模型学到了一些全新的和不同的东西，而这些东西在较小规模的模型上是没有的，这就是我们都希望的情况，即当模型按比例放大时会发生一些根本性的变化。

Ellie Pavlick 还指出，另一种相对正常客观的可能性是，看似涌现的事情可能反而是通过思维链式推理起作用的内部统计驱动过程的顶点。大型 LLM 可能只是在学习启发式方法，而这些启发式方法对于那些参数较少或数据质量较低的小模型来说却是难以理解的。

不过 Pavlick 认为，由于我们不知道模型底层的工作机制是怎样的，所以我们无法说出发生了哪些事情。

不可预测的能力和缺陷

但是大模型也存在缺陷，比如谷歌前段时间推出的人工智能聊天机器人 Bard，在回答与詹姆斯・韦布空间望远镜有关的问题时犯下事实性错误。

涌现导致了不可预测性，而不可预测性 —— 似乎随着模型的规模扩大而增加，研究人员难以掌控。

「我们很难提前知道这些模型将如何被使用或部署，」Ganguli 说。「要研究涌现现象，你必须考虑一个情况，在研究清楚模型规模的影响之前，你不会知道它可能会出现什么能力以及它的缺陷是什么。」

在去年 6 月发布的一篇 LLM 分析报告中，Anthropic 的研究人员研究了这些模型是否会表现出某些类型的种族或社会偏见，这与之前不是基于 LLM 的算法（用于预测哪些前罪犯可能会再次犯罪）所报告的那些不同。该研究的灵感来自一个与涌现直接相关的明显悖论：随着模型在扩大规模时性能提升，它们也可能增加不可预测现象的可能性，包括那些可能导致偏见或带来害处的现象。

「某些有害行为会在某些模型中突然出现，」Ganguli 说。他指出最近一个对 LLM 的分析 —— 也被称为 BBQ 基准 —— 表明社会偏见随着大量参数的出现而出现。「更大的模型突然变得更有偏见，」他说，如果不能解决这一风险，可能会危及这些模型的使用。

但他还提出了一个相反的观点：当研究人员简单地告诉模型不要依赖刻板印象或社会偏见时 —— 字面上来说，就是通过输入这些指令时，模型在其预测和响应时的偏见较小。这表明一些涌现的特性也可用于减少偏见。在 2 月份发布的一篇论文中，Anthropic 团队报告了一种新的道德自我修正模式，在这种模式下，用户提示程序是有帮助的、诚实的和无害的。

Ganguli 说，涌现既揭示了大型语言模型惊人的潜力，也揭示了其不可预测的风险。这些 LLM 的应用已经激增，因而更好理解这种双面性将有助于利用语言模型能力的多样性。

Ganguli 说：「我们正在研究用户实际上是如何使用这些系统的，不过他们也在不断地修补改进这些系统。我们花了很多的时间，只是为了与我们的模型聊天，使其功能更好。而实际上也就是从那时起，我们开始信任这些模型。」

关键词：