Can LLMs reason? | Yann LeCun and Lex Fridman

Lex Clips

13 Mar 202417:54

Summary

TLDR该视频脚本探讨了大型语言模型（LLMs）的推理能力及其局限性。指出LLMs在处理问题时，无论问题的复杂性如何，都以恒定的计算量生成答案，这与人类处理复杂问题时投入更多时间和精力的方式不同。提出了未来的对话系统可能会采用基于能量的模型，通过优化过程在抽象思维空间中规划答案，而不是简单地自回归生成文本。这种系统将能够更深入地进行推理和规划，提高答案的质量。

Takeaways

🤖 LLM（大型语言模型）的推理类型非常原始，因为每个生成的token所花费的计算量是恒定的。
🔄 不论问题的复杂性如何，系统能够投入解答的计算量是固定的，与生成的token数量成正比。
🧠 人类的推理方式与LLM不同，面对复杂问题时会花费更多时间进行思考和解答。
🔄 人类的思维具有预测性、迭代性和层次性，而LLM目前无法进行这种类型的复杂推理。
🚀 未来的对话系统可能会采用不同的蓝图，与自回归LLM有显著差异，可能会包含长期记忆和推理能力。
🤔 需要构建一个世界模型作为基础，在此基础上可以构建更高级的推理机制。
🌟 系统一中的任务可以下意识完成，而系统二中的任务需要有意识地规划和思考。
🛠 未来的对话系统可能会在转化为文本前，通过优化过程来思考和规划它们的答案。
🌐 通过在抽象表示空间而非具体的token序列空间进行优化，可以更高效地迭代和精炼答案。
📈 训练一个基于能量的模型需要展示兼容和不兼容的样本对，并调整网络权重以确保低能量对应兼容的样本对。
🎯 对于视觉数据，通过计算预测误差（能量）来评估图像或视频的质量，这种方法可以为视觉现实提供良好的压缩表示。

Q & A

LLM中的推理类型为什么被认为是原始的？
-LLM中的推理类型被认为是原始的，因为每个生成的token所花费的计算量是恒定的。这意味着无论问题的复杂性如何，系统用于计算答案的资源都是相同的。
人类如何处理复杂问题与LLM有何不同？
-人类在面对复杂问题时会花费更多时间进行思考和解决，会有预测、迭代和层次化的过程。与LLM不同，人类会根据问题的难度调整投入的精力和时间。
如何改进LLM以实现更高级的推理和规划能力？
-可以通过构建一个良好的世界模型，并在其基础上建立持久的长期记忆或推理机制等。未来的对话系统将能够在回答前进行思考和规划，这将与自回归LLM有很大不同。
什么是系统一和系统二，它们在人类心理学中代表什么？
-系统一是人们可以不经过深思熟虑就能完成的任务，例如开车或熟练玩棋。系统二涉及需要计划和思考的任务，如对有经验的棋手进行棋局规划。
未来的对话系统将如何规划它们的答案？
-未来的对话系统将通过优化过程在抽象表示空间中规划它们的答案，而不是简单地通过自回归解码器将文本转换为答案。
什么是能量模型，它是如何工作的？
-能量模型是一种函数，它输出一个标量数值，表示给定提示的好答案或坏答案。通过优化过程，模型可以在抽象表示空间中寻找最小化该数值的答案。
如何训练一个能量模型？
-训练能量模型通常涉及向模型展示兼容和不兼容的X和Y对，并调整神经网络的参数以产生正确的输出。对比方法和非对比方法是两种常见的训练方法。
在能量模型中，X和Y的好表示是什么？
-在能量模型中，好的X和Y表示通常是抽象的概念表示，而不仅仅是直接的语言文本。这些表示可以经过优化过程，以最小化输出能量并转化为好的答案。
为什么在连续空间中进行优化比在离散空间中更有效？
-在连续空间中进行优化可以使用梯度下降等方法，这样可以迭代地改进答案并趋向于最优解。而在离散空间中，需要生成大量假设并选择最佳选项，这种计算方式效率较低。
如何确保LLM不会对所有输入给出相同的答案？
-通过在训练过程中最小化交叉熵，LLM会增加给正确单词的概率，同时减少给错误单词的概率。这种间接方式确保了模型不会对所有输入给出相同的答案。
在视觉数据中，如何应用能量模型？
-在视觉数据中，能量模型可以通过计算预测误差（即表示的预测误差）来衡量两个图像或视频之间的兼容性。这为视觉现实提供了一种压缩的表示形式。

Outlines

00:00

🤖 LLM的推理类型及其局限性

本段讨论了大型语言模型（LLM）的推理类型，指出其推理方式非常原始。原因在于，模型在生成每个令牌时所花费的计算量是恒定的，这意味着无论问题简单还是复杂，系统用于解答的计算资源都是相同的。这与人类面对复杂问题时会投入更多时间进行思考和解答的推理方式不同。此外，提出了构建更高级推理系统的可能性，这种系统将基于一个良好的世界模型，并通过长期记忆或推理等机制来增强能力。

05:00

🌟 未来对话系统的构建蓝图

这一段探讨了未来对话系统的构建蓝图，强调了系统在回答前进行思考和规划的重要性。提出了一种基于能量模型的方法，通过优化过程在抽象的表示空间中形成思想，然后通过自回归解码器将这些思想转化为文本。这种系统将不同于现有的自回归语言模型，并且将通过梯度下降等方法在连续空间中进行优化，从而提高效率。

10:03

🧠 训练基于能量的模型的挑战

本段讨论了如何训练一个基于能量的模型来更好地理解和生成好的答复。能量模型是一个输出标量数值的函数，用于衡量一个答案对于给定问题的好坏。训练这样的模型需要展示大量兼容和不兼容的样本对，并调整神经网络的权重以确保模型能够正确区分好的和不好的答案。此外，还提到了对比方法和非对比方法，以及如何通过正则化来确保模型在未训练的领域也能表现良好。

15:06

📈 视觉数据的能量函数和训练方法

这一段转向视觉数据，讨论了如何使用能量函数来训练模型以识别和处理图像或视频。通过比较原始图像和其损坏版本的表示，模型可以学习预测误差，从而得到一个压缩的、对视觉现实的良好表示。这种方法已经在联合嵌入架构中得到应用，并且已经被证明对于分类系统等任务非常有效。

Mindmap

Keywords

💡推理

推理是指根据已知信息得出结论的过程。在视频中，推理被提及为一种在大型语言模型（LLMs）中非常原始的思考方式，因为模型在生成每个令牌时所花费的计算量是恒定的，这与人类面对复杂问题时会投入更多时间进行思考和解决的方式不同。

💡计算量

计算量是指执行特定任务所需的计算资源量。在视频中，讨论了大型语言模型（LLMs）在生成答案时，无论问题的复杂性如何，每个生成的令牌所分配的计算量是恒定的，这限制了模型处理复杂问题的能力。

💡令牌

令牌是自然语言处理中的基本单位，通常是单词、短语或其他语言元素。在视频中，提到了大型语言模型（LLMs）在生成文本时，会将问题和答案分解为一系列的令牌，并为每个令牌分配相同的计算资源。

💡预测网络

预测网络是一种用于预测未来事件或数据点的神经网络结构。在视频中，预测网络的大小，如36层或92层，与生成的令牌数量相乘，决定了模型生成答案时的计算量。

💡世界模型

世界模型是指对现实世界的理解和表示，它可以帮助系统更好地理解和处理信息。在视频中，提到了构建一个良好的世界模型是实现更高级推理和规划能力的关键，这与LLMs当前的工作原理不同。

💡长期记忆

长期记忆是指能够存储和回忆过去信息的能力，对于复杂问题的解决和深度推理至关重要。在视频中，长期记忆被视为未来对话系统中可能发展出的一种机制，以支持更深层次的思考和规划。

💡优化

优化是指改进某个系统或过程，使其达到最佳性能的过程。在视频中，优化被用来描述如何通过调整抽象表示空间中的思想来生成更好的答案的过程。

💡能量模型

能量模型是一种通过输出一个标量数值来评估输入数据之间兼容性的函数。在视频中，能量模型被提出作为一种可能的未来对话系统的设计蓝图，它通过最小化一个数值来生成好的答案。

💡抽象表示

抽象表示是指将具体的概念、思想或问题转换为更一般化的、不依赖于具体语言或符号的形式。在视频中，抽象表示被提及为未来对话系统中的一个关键组成部分，它允许系统在不考虑具体语言的情况下进行思考和规划。

💡梯度下降

梯度下降是一种用于优化不同iable函数的算法，通过迭代调整参数以最小化函数的输出。在视频中，梯度下降被提及为一种有效的方法，用于在连续空间中优化抽象表示，以生成更好的答案。

💡概念空间

概念空间是指一个抽象的、用于表示和处理概念或思想的空间，它超越了具体的感官信息。在视频中，概念空间被提及为未来对话系统中进行优化的一个环境，系统在这个空间中优化其答案的抽象表示。

Highlights

LLMs（大型语言模型）的推理类型非常原始，因为每个生成的token所花费的计算量是恒定的。

无论问题是简单、复杂还是无法解答，系统用于解答的计算量是恒定的，这与人类处理复杂问题的方式不同。

人类在面对复杂问题时会花费更多时间进行解决和回答，而LLMs缺乏这种推理和迭代调整理解的能力。

未来的对话系统将能够在回答前进行计划和优化，这与自回归LLMs有很大的不同。

系统将使用一个巨大的神经网络，其输出是一个标量数值，用来衡量答案对问题的好坏。

通过优化过程，在抽象的表示空间中形成思想，而不是直接生成文本。

未来的对话系统将在转化为文本之前，通过优化过程来思考和计划它们的答案。

优化问题的目标函数是在抽象表示空间中进行的，而不是在可能的文本序列空间中。

通过梯度下降和反向传播，可以优化答案的抽象表示，使其更接近最佳答案。

系统的训练可以通过对比方法和非对比方法来进行，以确保对于训练集外的样本也能有正确的能量输出。

能量函数需要在训练集的兼容样本上具有低能量，在其他样本上具有高能量。

通过正则化项来确保能量函数在训练集外的样本上具有更高的能量。

在LLMs中，通过最小化交叉熵来间接地给予好序列高概率，坏序列低概率。

对于视觉数据，通过预测误差来衡量图像或视频的好坏，从而得到视觉现实的压缩表示。

使用这种表示作为输入的分类系统能够很好地工作，证明了这种方法的有效性。

LLMs目前无法进行深度推理或计划，但未来的系统将能够在答案生成前进行深度思考和推理。

推理和规划能力的提升将使对话系统在处理复杂问题时更具效率和准确性。

构建一个能够进行深度推理的系统需要从抽象的概念空间出发，而不是仅仅依赖于语言的直接表示。