XM集团

杨立昆最新访谈:用于训练AI模型的资源,远没有到尽头(2025年03月10日)

XM

最近, Meta首席AI科学家杨立昆接受海外播客This Is IT 的专访,探讨了深度学习的发展历程、机器学习的三种范式、莫拉维克悖论与AI发展的限制、训练AI模型的资源、AI基础设施投资等话题。

杨立昆指出了当前AI发展的3个关键限制:物理世界比语言复杂,莫拉维克悖论(计算机可以下棋、解决数学难题,但无法完成简单的物理任务),感官信息量远大于语言。

杨立昆认为,缺少训练系统理解复杂感官数据(如视觉)的能力是当前AI发展的最为关键的限制。

他还反驳了AI发展因数据耗尽而终结的观点,认为训练AI模型的全球资源远没有到尽头,AI发展仍将继续。

他强调从观测中推导出抽象表征对深度学习至关重要,他还预测未来十年将是机器人的十年,AI领域很可能取得重大突破,从而创造出更通用的机器人。

关于AI基础设施投资,杨立昆认为,最终大部分的基础设施和投资都是用于运行模型,而不是训练模型。

比起Manus等产品掀起的一时热浪,我们不妨也看看 LeCun 这位投身人工智能40年,依然活跃在一线的学者说了什么……

以下是对话实录,经翻译编辑:

主持人:非常荣幸能邀请到您。我的第一个问题是关于您的研究。您在Google Scholar上的论文被引用了50万次。是什么让您与Jeffrey Hinton的合作,特别是深度学习方面的研究如此具有开创性?

Yann LeCun:可能您指的是Yoshua Bengio、我和Jeff Hinton在2015年发表在Nature上的一篇论文,坦率地说,这篇论文并没有提出什么新内容。事实上,它更像是一份宣言,或者说是一篇综述性文章,其目的是向更广泛的科学界和研究人员介绍一系列效果非常好的新技术。我们在文中列举了这些方法的应用范围,以及未来研究方向的建议。您可以说,这是深度学习普及化的一个公开开端。在这篇文章中,我们实际上并没有展示任何新的研究成果。新的成果和大多数其他引用都来自我在上世纪80年代和90年代的工作。

主持人:您还记得这种受欢迎程度是从什么时候开始出现的吗?什么时候出现了一个历史性的转折点,让人们意识到,这是有史以来最杰出的研究工作之一?

Yann LeCun:实际上经历了两次浪潮。第一次是在80年代末,当时我们开始使用多层神经网络(也就是我们现在所说的深度学习)在图像识别等任务上取得非常好的效果。那时候,我们还不能识别复杂的图像,这些技术主要应用于相对简单的图像,比如手写数字之类的,但效果已经非常出色了。

当我们取得这些成果时,我非常兴奋,因为我认为这可能会彻底改变我们进行模式识别的方式,并最终引领我们进入计算机视觉,甚至可能实现通用人工智能。因此,从80年代末到90年代中期,出现了一股热潮,但这股热潮在90年代中期左右逐渐消退。

原因是我们开发的技术需要海量数据进行训练,而在互联网时代之前,高质量的数据只存在于少数应用中,例如手写字符识别、字符识别或语音识别,基本上就这些了。当时运行这些技术所需的计算机非常昂贵,这需要巨额投资。因此,在90年代中期,人们对这个领域的兴趣逐渐减弱。

随后,在21世纪初,人们的兴趣开始逐渐回升,尤其是在2010年之后,大约在2013年,出现了真正的爆发式增长。2014年是关键的一年。研究界意识到深度学习非常有效,并且可以应用于许多不同的领域,自那时起,它就一直以惊人的速度发展。2015年,又出现了另一个转折点。

主持人:现在,我们的目标是让人工智能达到人类的能力水平。您认为它是否也会继承人类的缺陷,比如愤怒、嫉妒和其他类似的特征?

Yann LeCun:不,我认为不会。目前的人工智能系统在很多方面都还非常“笨”。我们误以为它们很智能,是因为它们能很好地处理语言,但它们并不理解物理世界,也没有像我们一样的长期记忆。它们无法真正地进行推理或规划,而这些才是智能行为的关键特征。因此,我和我的合作者目前在Meta的人工智能研究实验室FAIR以及纽约大学,共同致力于设计一种新型的人工智能系统,该系统仍然基于深度学习,但能够在物理世界中运行,拥有长期记忆,并具备推理和规划能力。

我认为,当我们成功构建出这样的系统时,它们将会拥有情感。它们会感受到诸如恐惧、兴奋或喜悦之类的情感,因为这些情感与对结果的预测有关。这些系统本质上将通过实现我们为其设定的目标来运作。我们给它们布置任务,它们会尝试确定采取哪些行动来实现这些目标。如果它们能提前预测到目标将会实现,就可以说这会给它们带来某种程度的满足感。反之,如果它们预测无法实现目标,就不会有这种感觉。

因此,在某种意义上,它们将拥有情感,因为它们能够预测一系列行动的后果。我们不会刻意地在它们身上植入任何类似于愤怒、嫉妒之类的东西,也不会植入意识之类的东西,因为我们的意识是另一回事。我们并不知道意识究竟是什么,也没有一个明确的定义。目前还没有一个明确的指标可以告诉我们某个事物是否具有意识。例如,当我们观察动物时,我们可能都会认同灵长类动物和猴子是有意识的,也许大象和其他类似的动物也是如此。

主持人:Roger Penrose在我们的访谈中也表达了类似的观点,看来您和他的看法一致。

Yann LeCun:是的。但您知道,他是一位哲学家。

主持人:开个玩笑,狗有意识吗?老鼠呢?意识的边界在哪里?正是因为我们没有明确的定义,所以很难回答这些问题。

机器学习的三种范式

主持人:大约一年前,您曾说过机器学习是“胡扯”。现在有什么改变吗?

Yann LeCun:这正是我们目前正在努力的方向。

主持人:考虑到当前人工智能的发展。

Yann LeCun:我们正在研究新的机器学习方法,让AI系统能够像人类和动物一样高效地学习,因为目前还做不到这一点,我可以简单介绍一下机器学习在过去几十年的发展历程。基本上有三种范式。

第一种是所谓的监督学习,这是最经典的一种。在这种方法中,我们通过向系统展示图像(例如桌子的图像)来训练图像识别系统。我们会告诉系统:“这是一张桌子。”这就是监督学习,因为我们向系统提供了正确的答案。

系统计算输出结果,如果输出与“桌子”不同,它就会调整自身的参数(即内部结构),使生成的结果更接近预期结果。如果我们在大量样本上重复这个过程,包括桌子、椅子、汽车、猫、狗等等,系统不仅能学会识别训练过的图像,还能识别出与之相似的图像,即使它以前从未见过这些图像。我们称之为泛化能力。

还有另一种范式,被许多人认为更接近人类和动物的学习方式,叫做强化学习。在这种方法中,我们不向系统提供正确的答案,只提供结果是好是坏的信息。在某种意义上,这反映了我们学习骑自行车的过程。我们不断尝试,一开始并不知道如何掌握平衡,会摔倒,这给我们一个信号:某些地方出错了。然后我们稍微调整策略,最终学会骑自行车。

事实证明,强化学习的效率极低。在训练系统下棋、围棋、扑克或其他类似游戏时,强化学习非常有效。我们可以让系统自我对弈数百万次,从而提高其技能,但在现实世界中,这种方法却行不通。如果我们想训练一辆自动驾驶汽车,仅仅依靠强化学习是不够的,汽车会发生无数次事故。类似地,如果我们教机器人抓取物体,强化学习可能只是解决方案的一部分,但并非全部,它还远远不够。

因此,出现了第三种学习方式,称为自监督学习。正是这种学习方式推动了自然语言理解和聊天机器人领域的最新进展。在这种学习方式中,我们并不训练系统执行特定任务,而是让它学习捕获输入数据(例如文本)的内在结构。我们选取一段文本,以某种方式进行破坏,例如移除一些单词,然后训练一个大型神经网络来预测缺失的单词。

一个特例是,我们选取一段文本,隐藏最后一个单词,然后训练系统预测这个单词。大语言模型正是基于这一原理进行训练的。每个聊天机器人都是这样训练出来的。从技术上讲,某些方面会略有不同,但这是核心原理。我们称之为自监督学习。

我们不训练系统执行特定任务,而是让它学习输入数据中的内在关联。这种方法的成功令人震惊。它非常有效,由此产生的系统似乎真的能够理解语言。如果再结合监督学习或强化学习进行改进,它就可以回答问题。

主持人:这就是整个行业都在努力的方向。

Yann LeCun:对,但是如果我们想让系统理解物理世界,仅有大语言模型是不够的,还缺少一些关键要素。

主持人:缺少一些关键要素。


莫拉维克悖论与AI发展的限制

Yann LeCun:是的。物理世界远比语言复杂。我们误以为语言是智能的象征,因为只有人类才能操纵它。但实际上,语言很简单,因为它具有离散性,是由一系列离散的符号组成的。字典里的词汇数量有限。因此,我们不可能训练出一个系统来精确预测下一个出现的词,但可以训练它评估每个词出现的概率。这样,就可以处理预测的不确定性。

我们无法训练一个系统来预测视频里接下来会发生什么。我尝试了20年,很多人都有这个想法,大家都认为,如果能训练一个系统预测视频内容,那么这个系统就隐含地理解了世界的基本结构,也就是“直观物理学”,这是每个动物和婴儿都具备的能力,能理解物理定律。

主持人:是的,物理直觉。

Yann LeCun:例如,物体会下落,是因为重力把它拉向地球。婴儿大约在九个月大的时候就能理解这一点。也许,当前AI发展的限制在于我们对现实的认知。我们无法创造出超越自身理解能力的东西。我们不清楚重力是如何产生的,也不知道量子世界如何转变为经典世界。

Yann LeCun:但这实际上是个简单的问题。猫和狗能在几个月内就理解重力,不是吗?猫尤其擅长利用重力,它们可以规划复杂的行动,比如攀爬、跳跃等等。显然,它们对“直观物理学”有很好的理解,但我们仍然无法在计算机中复制这一点。另一个例子是AI研究领域中的莫拉维克悖论。

主持人:莫拉维克悖论。

Yann LeCun:Hans Moravec是一位机器人学家,他注意到,计算机可以下棋、解决数学难题,但我们却无法让它们完成一些简单的物理任务,比如操纵物体、跳跃,而这些任务动物却可以轻松完成。这是莫拉维克悖论的又一个体现,计算机可以轻松处理离散的对象和符号空间,但现实世界过于复杂,在一种情况下有效的技术,在另一种情况下可能完全失效。

主持人:好的。

Yann LeCun:一个很好的例子是比较我们通过感官(如视觉或触觉)获取的信息量,和通过语言获取的信息量。感官获取的信息量远大于语言。这解释了为什么我们拥有了大语言模型,可以创建聊天机器人。它们可以通过律师资格考试,解决数学难题,甚至可以写出非常流畅的文章。但是,我们仍然没有真正意义上的机器人。

我们还没能制造出可以完成猫狗能做的任务的机器人,也没有实现L5级别的自动驾驶汽车。更不用说像17岁的青少年那样,经过20小时训练就能学会开车。显然,有些关键的东西缺失了,我们缺少的是训练系统理解复杂感官数据(比如视觉)的能力。如果我们希望机器像人类和动物一样高效地学习,这是必不可少的。

主持人:是的。

Yann LeCun:如果我们希望机器拥有与动物和人类相似的智能,并具备常识,那么它们最终可能也会拥有意识和其他人类特征。为了让机器在真正复杂的环境中运作,我们必须解决这个问题。这就是我们正在努力的方向。

让我给你举一个非常简单的例子。一个典型的大语言模型大约是在200亿到2万亿个Token上训练的。Token差不多就是一个词。通常,一个Token用三个字节表示,200亿到2万亿个Token,每个Token三个字节,总共大约是10的14次方字节,也就是1后面跟着14个零。这几乎是互联网上所有公开文本的总和。

一个人要花几十万年才能读完这些材料,这是海量的信息。现在,我们来比较一下这个数据量和一个孩子在出生后头四年里,通过视觉系统接收到的信息量。结果发现,两者大致相当。一个孩子在四年里,大约有1.6万个小时是醒着的,视神经每秒传输的信息量大约是2MB。

计算下来,也是大约10的14次方字节,基本相同。也就是说,一个四岁的孩子所看到的视觉数据,和最大的语言模型训练所用的文本数据量相当。这表明,仅仅依靠文本训练,我们永远无法实现接近人类水平的AI。我们必须学会让AI理解真实世界,而这非常困难。

主持人:你在LinkedIn和Facebook的帖子中,将AI与熵的概念联系起来。这两者有什么关系?因为你写的内容非常难理解。你能否用更简单的话解释一下?

Yann LeCun:好吧,这已经成了我非常着迷的一个问题。有一个基本问题是计算机科学、物理学、信息论以及许多其他领域的基础。这个问题是:信息如何被量化?或者说,一条信息包含了多少信息?我一直强调的是,一条信息所包含的信息量并不是一个绝对值,它取决于信息的接收者。我们能从感官数据、信息或者别人的语言中提取多少信息,取决于我们如何解读它。认为信息可以被绝对地衡量,这种观点可能是错误的。

任何信息的度量都是相对的,取决于具体的解读方式。这就是我的意思。这个观点的意义非常深远,因为如果没有绝对的方法来衡量信息,那么物理学中的许多概念,比如熵,就没有真正客观的定义。熵是对我们对物理系统状态无知程度的度量,它显然取决于我们对这个系统的了解程度。这就是为什么我一直致力于寻找定义相对的熵、复杂性和信息含量的方法。

用于训练AI模型的资源,远没有到尽头

主持人:你是否认为我们用于训练AI模型的全球资源已经耗尽了?我们已经数字化了100%的数据。而在2000年,只有25%的数据被数字化。这是不是意味着AI发展的终结?

Yann LeCun:远没有到尽头。还有大量的文本知识没有被数字化。在许多发达国家,大部分数据可能已经被数字化了,但大部分数据都不是公开的。例如,大量的医疗数据是不公开的。世界上许多地区还有大量的文化和历史数据没有被数字化。即使被数字化了,也往往是扫描文档,而不是纯文本数据。

所以,说数据已经耗尽是不对的。我认为还有很多数据。这也引出了关于现实本质的问题,例如,我们不知道物质是如何在大脑中产生意识的,所以我们在这方面没有任何知识,但也许将来我们能够了解。我认为我们不应该过分纠结于意识的本质,但世界上很多人对此非常着迷。

主持人:世界上的某些地区,对“意识”这个问题极度关注。

Yann LeCun:坦率地说,我认为这是一种现象。我们之所以找不到一个关于“意识”的准确定义,可能是因为我们问错了问题。举个例子。早在18世纪,实际上17世纪人们就发现,光线通过瞳孔和晶状体,最终落在视网膜上的图像是倒置的,人们当时非常惊讶:视网膜上的图像是反的,我们怎么能看到正的世界呢?这在当时是个谜。直到后来人们意识到这个问题本身没有意义,关键在于我们的大脑如何解释图像,和图像在视网膜上如何成像没有关系。

我认为“意识”也是类似的,我们总认为它存在,但又无法准确定义。意识或许使我们人类变得独特,但这可能只是人与其他事物不同的众多原因之一。当然,我的观点也不一定完全准确。我的意思是,有很多因素让我们彼此不同。每个人都有不同的经历,学习不同的东西,我们在不同的环境中长大,我们的大脑结构也略有不同。每个人都是独一无二的。

从进化的角度看,这种独特性至关重要,因为人类是社会性动物。这就是为什么当群体中不同的人拥有略微不同的技能时,会形成巨大的优势,因为他们可以互通有无、集思广益。如果每个人都完全相同,就不会有“人多力量大”的优势,但因为我们彼此不同,我们的多样性反而让我们更强大。这正是进化的结果,它可以通过大脑结构和功能的细微差异、神经递质、激素和其他因素的调控差异来实现,这些因素造就了我们的独特性。

主持人:那么像O1这样的自由推理和抽象思维模型呢?您的实验室会有类似的研究成果吗?

Yann LeCun:从观测中推导出抽象表征,这个问题对于深度学习至关重要。深度学习的核心就是学习表征。事实上,有一个致力于深度学习的主要会议,叫做“国际学习表征会议”(ICLR),这是我和Yoshua Bengio共同创办的。这足以表明学习抽象表征的问题对于整个AI领域,特别是深度学习,是多么重要。

现在,如果我们希望一个系统能够推理,就需要一套完全不同的特性。本质上,传统AI中的推理或规划,不仅仅是在基于机器学习的系统中,从20世纪50年代以来,一直都是在寻找特定问题的解决方案。

例如,如果我给你一份城市清单,让你找出“经过所有这些城市的最短路线”,你会想,“我应该把距离近的城市连接起来,使总路线最短”。所有可能的路线构成了一个空间,也就是所有城市排列组合的集合。这是个巨大的空间,而算法(例如GPS导航里的算法)会在这个空间里搜索,找到所有可能路径中最短的那一条。

所有的推理系统都基于搜索的思想,在可能的解决方案空间中,我们寻找最符合目标的那个方案。当前系统实现这种搜索的方式,也就是当前的大语言模型,很多都非常原始。它们在所谓的Token空间(也就是输出空间)中进行搜索。

本质上,系统会生成许多不同的Token序列,或多或少有些随机性,然后另一个神经网络会审查所有这些假设的序列,从中选出看起来最好的一个,然后返回这个结果。这种方式的计算成本非常高,因为它需要生成大量的结果,然后再从中挑选。而且这并不是人类的思考方式。我们思考时,不会先产生大量可能的行动,然后分析结果,再选出最好的一个。这不是我们的思考方式。

举个例子,如果我让你“想象一个立方体悬浮在你面前的空中”,然后“把这个立方体绕垂直轴旋转90度”。你现在想象出了一个旋转了90度的立方体,再进一步想象,告诉我,旋转后的立方体和旋转前看起来一样吗?一样的。答案是肯定的,因为我们知道立方体的特性,我们知道如果将它旋转90度,从相同的视角观察,它看起来仍然是一样的。

主持人:您的意思是,这是自由推理的错觉?

Yann LeCun:不。我们是在进行一种内在的、在我们的精神状态中的推理,而不是在外在的行动空间、物理世界或者输出结果中进行推理。我们在抽象空间中推理,这就是为什么我们拥有关于世界的“心理模型”,这些模型使我们能够预测将要发生的事情,从而能够预先推演,预测我们行动的后果。

如果我们能够预测行动的后果,比如旋转立方体90度,或者其他任何事情,我们就可以规划一系列行动来实现特定目标,当我们有意识地执行任务时,我们所有的注意力都会集中在这上面,我们会思考需要什么样的行动顺序,比如组装宜家的家具,用木头搭建东西,或者做任何事情,基本上,当我们使用大脑来规划这类任务时,我们每天都在这样做。

我们通常会进行分层规划,所以我们不会直接行动。例如,你最终要返回华沙,如果你现在决定从纽约返回华沙,你知道你首先需要去机场赶飞机。这就给你设定了一个中间目标:去机场。这就是分层规划的含义。

我们会根据最终目标来设定中间目标,你的最终目标是返回华沙,而其中一个中间目标就是到达机场。如何到达机场?我们现在在纽约,所以你走到街上,打一辆出租车。如何在街上行走?你必须离开大楼,走到电梯前,乘电梯下楼,然后走到街上。要到达电梯,你必须起身,走到门口,打开门。在这个过程中,你会不断细化目标,直到达到一个足够具体、不需要进一步规划的程度,比如从椅子上站起来,这个动作你会自动完成,因为你已经习惯了,并且拥有所有必要的信息。

因此,我们将不得不使用分层规划的概念,智能系统必须在分层级别上运行,这一点至关重要。我们目前还不知道如何在机器中实现这一点。这是未来几年的一个巨大挑战。

未来十年,将是机器人的十年

主持人:这就是为什么您在达沃斯花了这么多时间讨论机器人技术吗?您在那里谈到了即将到来的机器人十年。机器人技术在过去和现在都经历了长期的资金短缺。为什么这次会有所不同?

Yann LeCun:是的,关于机器人技术。我的意思是,机器人已经被广泛应用,但是它们主要被用于特定的场景。

主持人:这次的不同之处在于,是电子传感器、更好的模拟器,还是什么?

Yann LeCun:机器人适用于那些相对简单,并且可以用非常简单的方式自动化的任务,在这些任务中,感知系统不需要太复杂。例如,工厂里的生产机器人可以给汽车喷漆、组装零件,以及执行类似的活动,前提是所有东西都始终在固定的位置。这些机器人基本上只是自动装置。

但是,让我们考虑另一个任务,比如驾驶车辆。自动驾驶汽车或者带有驾驶员辅助系统的车辆,也是一种机器人。我们目前还没有像人类驾驶员一样可靠的自动驾驶汽车。我的意思是,这样的解决方案是存在的,但它们有点“作弊”的成分,因为它们使用的传感器比人类的感官要先进得多。

主持人:但是Musk说特斯拉将在未来五年内实现L5级自动驾驶。他已经说了八年了。过去八年他一直说“明年就能实现”,但显然并没有。所以我们不能再相信他在这方面的说法了,因为他一直都在说错话。要么是他自认为正确,但结果是错的,要么他就是在撒谎。

Yann LeCun:我认为这是他激励团队成员不断进步、力争每年都有突破的一种方式。是的,但对于一个工程师或者科学家来说,听到公司的CEO说你投入整个职业生涯去研究的问题将在明年得到解决,这种感觉其实非常不好受。所以,情况就是这样。

主持人:因此,您认为我们这个时代最大的挑战是AI、机器人和传感器的整合以及如何巧妙地运用它们吗?

Yann LeCun:如果我们能够构建理解物理世界、拥有持久记忆、能够推理和计划的AI系统,那么我们就有能力开发出适应性更强的机器人。过去一两年,我们见证了许多机器人公司的崛起,他们制造人形机器人等设备,演示效果令人印象深刻。这些机器人的能力非常有限。它们无法完成人类能做的事情,并非因为缺乏身体能力,而是因为智能化程度不足以应对现实世界。

因此,许多公司寄希望于AI在未来三到五年内取得快速进展,这样当他们准备大规模销售和生产这些机器人时,AI的进步能让它们具备足够的智能。这是一场高风险的赌注。我无法断言这是否会在未来三到五年内实现,但在未来十年内,AI领域很可能取得重大突破,从而创造出更通用的机器人。因此,我认为未来十年将是机器人的十年。

主持人:看到当今AI发展的稳步进展,您是否感到惊讶?

Yann LeCun:不,其实并不惊讶。

主持人:现在,全世界都在讨论中国的新模型DeepSeek,它是开源软件,而且比美国的同类产品便宜得多。您是否觉得我们已经错过了时机?您对此有何看法?


开源必将加速AI的进步

Yann LeCun:好,这里需要澄清一下。如果任何研究或工作的成果以公开的方式发布,例如通过科学论文或白皮书描述其技术细节,并且代码是开源的,那么整个世界都会受益,不仅仅是创造者或团队。创造者或团队会获得声望、认可,甚至可能获得投资,但整个世界都能从中获得实际利益。这就是开放研究和开源的魅力所在。

Meta、我自己以及整个Meta公司,都是开放研究和开源理念的坚定支持者。每当有人进行开放研究并发布开源软件时,整个社区都会受益。人们误以为这是竞争,但实际上更多的是合作。问题在于,我们是否希望这种合作是全球性的?我的回答是肯定的,因为好的想法可以在世界任何地方产生。以Llama为例,这是Meta发布的第一个大语言模型,虽然不是我们发布的第一个LLM,但之前的模型没有引起太大关注。这个模型是在巴黎的实验室开发的。

主持人:您知道,是在巴黎开发的。

Yann LeCun:是的,就是那个实验室,我十年前创建的实验室。那是巴黎FAIR实验室,有100多名科学家在那里工作。许多优秀的项目都诞生于巴黎实验室,以及我们在蒙特利尔的实验室。AI研究社区是真正全球化的。每个人都在贡献。没有任何机构能垄断好想法,因此开放合作加速了这一领域的进步。

这也是我们积极倡导这种开放模式的原因,因为与其他科学家交流能促进整个领域更快地发展。的确,业界有些人利用开放研究成果取得了领先地位。OpenAI就是一个例子。Anthropic从未公开其技术,所以他们的一切都是保密的。

而Google,很大程度上是受我们的影响,已经从部分开放走向了全面开放,现在又回到了部分封闭的状态。例如,他们并没有公开Gemini背后的所有技术。他们仍然进行大量的开放研究,但主要集中在更基础、更长远的问题上。我认为这很令人遗憾,因为这意味着许多人被排除在研究社区之外,无法参与并为进步做出贡献。过去十年AI发展如此迅猛,正是因为开放研究。我们必须认识到这一点。

主持人:您真的这么认为吗?

Yann LeCun:当然,这是事实,并非只有我这么认为。这不是一种信念,而是事实。举个例子,几乎整个AI行业在构建系统时,至少在研发阶段,都会使用一个名为PyTorch的软件。PyTorch是开放且开源的。最初是由我在Meta的同事,也就是FAIR团队开发的,后来由更广泛的社区共同维护。几年前,PyTorch的所有权被转移到了Linux基金会,因此Meta不再拥有它。

Meta仍然是主要的贡献者,但不控制它。它基本上是由编程社区来管理的。整个行业都在使用它,包括OpenAI和Anthropic。Google有自己的解决方案,但Microsoft、Nvidia以及其他所有公司都在使用PyTorch。整个学术研究界也都在使用PyTorch。据我所知,在科学文献中发表的论文中,大约70%都提到了PyTorch。这表明AI的进步是建立在共享他人成果的基础上的,而这正是科学和技术进步的方式。

主持人:如果不是DeepSeek,或许美国的Stargate项目能改变一切?

Yann LeCun:不,不会,绝对不会。

主持人:您觉得这不是人类历史上最大的项目吗?

大部分的基础设施和投资,都将用于运行模型

Yann LeCun:请允许我再补充一点关于DeepSeek的信息。这是一项出色的工作。参与这个项目的人们提出了非常好的想法。他们做得非常棒。这并不是中国第一次产出具有创新性的成果,我们早就知道这一点,特别是在计算机视觉领域。中国对大语言模型的贡献相对较新,但在计算机视觉领域,这已经有很长的历史了。

看看那些顶级的计算机视觉会议,一半的参会者都是中国人。那里有非常优秀的科学家,非常聪明的人才,所以无论是美国、欧洲,还是世界上任何其他地区,都没有垄断好想法。DeepSeek的想法可能会在几周内被其他人复现,并可能被整合到美国、欧洲、中东或其他任何地方的实体开发的未来版本中。

现在,它已经成为全球知识的一部分,这正是开放研究和开源的魅力。这不是产品层面的竞争,而是在基础方法层面的合作。现在,我们来谈谈Stargate。所有AI公司都预见到,在不久的将来,数十亿人每天都将使用AI助手。

主持人:在哪里。

Yann LeCun:要知道,未来将有数十亿人使用AI。

主持人:我现在戴着的眼镜,你可能看不清楚,但它们内置了摄像头。据说这是Meta制造的。没错,它们是Meta的产品。我们可以跟眼镜对话,因为它们连接了一个AI系统,我们可以向这个AI系统提出任何问题。我们甚至可以让它识别相机拍摄到的植物种类等等。

因此,我们可以预见到,未来人们会佩戴智能眼镜,或者使用智能手机和其他智能设备,AI助手将成为他们日常生活中不可或缺的一部分,协助处理各种日常任务。这意味着这些AI系统将拥有数十亿用户,并且每天会被频繁使用。这需要庞大的计算基础设施来支撑,因为运行一个大语言模型或者任何其他类型的AI系统,成本都非常高昂。需要大量的计算能力,而大部分的投资都集中在这方面。

Meta今年在基础设施上的投资额大约在600亿到650亿美元之间,主要用于AI领域。微软也宣布了800亿美元左右的投资计划。另一方面,Stargate项目的投资额高达5000亿美元,预计将在5到10年内完成,但资金来源尚不明确。这些投资的规模都是相当可观的,与微软和Meta已经进行的投资没有显著差别。这些支出中的大部分是推理成本,也就是运行AI系统来服务数十亿用户的成本。这与训练大模型无关,训练大模型的成本实际上相对较低。

因此,我认为,最近几天金融市场对DeepSeek发布的反应——认为我们可以训练更便宜的模型,从而不再需要那么多计算机——是完全错误的。训练成本可能会略微降低,我们会回归到一个更合理的状态。我的意思是,训练效率只会略微提高,但因此,我们会训练更大的模型。最终,大部分的基础设施和投资都是用于运行模型,而不是训练模型。这才是投资支出的重点。

主持人:我这里有一个来自观众的问题。

JEPA 架构的潜力

主持人:提出了一种可以替代Transformer架构的方案,Transformer架构是大语言模型中最重要的组成部分。JEPA World模型与Transformer有什么不同?为什么您认为这些模型代表着AI的未来?您之前稍微提到了这一点,但主要还是在介绍JEPA。

Yann LeCun:好的,有一种架构,实际上应该称之为宏观架构,叫做JEPA,也就是联合嵌入预测架构。它并不是Transformer的替代品。你可以在JEPA内部使用Transformer,JEPA是一种宏观架构,由不同的模块组成,这些模块可以是Transformer。如果需要,它们也可以是其他的解决方案,但Transformer是可以的。这两个概念并不矛盾,它们是正交关系,而不是对立关系。

另一方面,JEPA可以看作是对现有大语言模型的一种替代方案,现有大语言模型没有一个统一的名称,但在业界,它们通常被称为自回归Transformer、仅基于解码器的架构,或者像OpenAI的GPT那样,被称为通用Transformer GPT只是一种特定的架构,它不一定只基于Transformer。

它是一种特定的架构,采用自监督学习技术进行训练。我之前提到过,我们会获取一系列符号,比如文本、单词序列,然后训练系统。系统的设计方式是,为了预测输入序列中的某个特定单词,它只能使用该单词左侧的单词,我们称之为因果架构。

如果我们给系统输入文本,并训练它复现这段文本,那么我们实际上就是在间接地训练它预测文本中的下一个单词。然后,当系统训练完成后,我们可以用它逐字生成文本,也就是自回归生成。这就是大语言模型的基本原理。现在,让我们尝试将这种方法应用到现实世界中,比如训练一个机器人来规划行动,或者预测周围环境中将要发生的事情。这种方法就不再有效了。

如果我们不用单词,而是用视频中的帧,将这些帧转换成类似于单词的Token,然后尝试训练系统预测视频中将要发生的事情,这是行不通的。原因在于,现实世界中发生的很多事情是根本无法预测的。要表达“无法准确预测将会发生什么”这一事实,在像视频这样的高维空间中,本质上是一个数学难题。

在文本这样的离散空间中,这是可以做到的。我们可能无法预测某个特定单词会出现在文本的哪个位置,但我们可以预测所有可能单词的概率分布。对于视频,我们做不到这一点。我们无法表示所有可能的视频帧的概率分布。因此,那些在文本、DNA序列或蛋白质上非常有效的技术,在视频或其他自然信号上却不起作用。

JEPA就是解决这个问题的答案。其核心思想是,我们不再在原始输入空间中进行预测,而是训练一个系统来学习输入的抽象表示,然后在这个抽象表示空间中进行预测。事实证明,这是一种更好的问题表述方式。举个例子,如果我拍摄一段你所在房间(或者我们现在所在的房间,或者任何其他房间)的视频,我把摄像机对准一个地方,然后慢慢转动摄像机,停下来,然后让系统预测接下来会发生什么,系统可以预测摄像机会继续转动。

但是,我们无法预测摄像机转动后视野中会出现的所有细节。那里可能有一棵植物,墙上可能挂着一幅画,可能有人坐着。系统无法预测这些人的长相,无法确定植物的种类,也无法预测地板的纹理或其他细节。这些都是无法预测的。因此,如果我们训练一个系统去做这样的预测,它会耗费大量资源,试图预测那些无法预测的事情,最终导致失败。

主持人:Yann LeCun的实验室最大的成就是?

Yann LeCun:没有Yann LeCun实验室这样的说法。很难给出一个具体的答案。当然,我最为人所知的是卷积神经网络(CNN),这是一种受视觉皮层结构启发,专门设计用于处理图像、视频、声音、语音等自然信号的特定架构,这些系统应用非常广泛。所以,如果你有车,车里通常会有一些驾驶辅助系统。

主持人:大多数车,所有车都有。

Yann LeCun:是的,我也有。在欧盟,所有新车都必须配备这个系统,至少它们必须配备一个系统,可以在障碍物出现在车辆前方时自动刹车。所有这些系统都使用了卷积网络。这是我在1988年的发明。时间很久远了,这是我最广为人知的工作。最初的应用是字符识别、手写识别、读取邮政编码、支票、支票金额等。

这些应用出现在90年代初,然后,从2010年左右开始,这个解决方案的应用范围迅速扩大。比如我们打电话时,语音识别系统的前几层神经网络通常使用所谓的卷积网络。手机上的应用程序,可以让我们拍摄一张植物的照片,然后询问应用程序这是什么植物或昆虫,或者当我们听鸟鸣声时,应用程序可以告诉我们鸟的种类,这些都用到了卷积网络。

主持人:您是欧洲人。在美中之间的AI竞赛中,欧洲的地位如何?

Yann LeCun:我认为欧洲可以发挥非常重要的作用,因为欧洲要做最困难的事情,那就是实施监管。在欧盟,这类问题肯定会出现。例如,我现在戴着的眼镜,其中一个应用就是解析摄像头拍摄的图像,这样我就可以看菜单了。我可以看到波兰语的菜单,或者我们可以用波兰语交谈,然后眼镜可以进行菜单翻译之类的工作。

我们的未来,这就是我们的未来可能的样子。真的,这已经触手可及了。这些功能在这个眼镜里都有,只是目前还未上市。这款眼镜在欧洲有售,但视觉功能除外,由于法规的不确定性,视觉功能还不能使用。甚至不清楚法规是否会禁止这项功能,一切都还不明确。

但我想说的是,欧洲拥有巨大的资产和优势,其中最重要的就是人才。我们的程序员、数学家、物理学家、计算机科学家、工程师等等。许多AI领域的顶尖科学家,无论他们在世界何处工作,都来自欧洲。我本人就来自欧洲。当然,我现在住在美国。

主持人:您是欧洲人,您还住在巴黎,对吗?

Yann LeCun:不,我现在住在纽约,但我经常去巴黎。

主持人:我还有一个问题想问您。我记得在诺贝尔奖新闻发布会上,我问Geoffrey Hinton,如果可以回到过去,您还会这样做吗?回顾您在AI领域的研究,您有什么遗憾吗?我也想问您同样的问题。

Yann LeCun:我不知道Jeff是怎么回答的,但我大概能猜到。让我来回答这个问题。我的答案是没有遗憾。有很长一段时间,我对现在所谓的自监督学习不感兴趣,因为我认为这个问题提得不好。事实上,很多年来,我和Jeff Hinton一直在讨论这个问题,我主张监督学习,而他一直跟我说,我们最终必须找到一种方法来实现他所说的自监督学习,也就是现在一种特殊形式的无监督学习。

我直到2000年代中期才改变了想法,这可能晚了10年,我本应该更早地对这个问题感兴趣。但当时的情况是,在90年代中期到2000年代初,神经网络和深度学习领域几乎没有什么进展,因为全世界都对这个领域完全不感兴趣,所以我们不得不去做其他事情。我研究了其他方面。我研究了图像压缩,开发了一个叫做DjVu的系统,我听说这个系统在波兰很受欢迎,实际上在整个东欧都很受欢迎。但如果可以重来,这是我会做出改变的一件事。

除此之外,我对事情的发展还算满意。我本应该在90年代后期更积极地推动学界对神经网络和机器学习的兴趣,这样就不会出现后来的“研究荒漠期”了。我猜Jeff可能会回答的是,两年前他的想法发生了转变。他职业生涯的目标是发现大脑皮层的学习算法。他一直认为反向传播(我们今天训练神经网络的主要技术,他也参与其中,我也参与了)并不是大脑使用的算法,因为大脑肯定使用了其他算法,因为反向传播在生物学上不太可能实现。

因此,在过去的四年里,他每隔两年就会发明一种新的机器学习方法。两年前,他终于释然了。他说,“也许大脑并不使用反向传播。反向传播效果很好,也许这就足够了。也许它甚至比大脑使用的任何方法都好。”所以,他顿悟了,基本上就退休了,因为他可以宣告胜利了。

主持人:我最后一个问题。

主持人:您为什么支持Ataraxis?这是一家在纽约大学成立的波兰裔美国初创公司,利用AI进行乳腺癌预测。

Yann LeCun:深度学习在医学领域的应用非常有前景。深度学习方法已经被应用于乳腺癌的诊断,包括乳腺X光检查等。我有一位年轻的同事,他之前是我们实验室的博士后,现在是医学院放射科的讲师、教授,他非常出色。他最近发现涌现出了很多新的机会。他告诉我,“我打算和几个朋友一起创办一家公司。”

所以,他们来找我,问我是否愿意担任他们的顾问。我知道他们的研究工作非常出色,所以我认为这家公司潜力巨大,我也很好奇他们能取得什么样的成就。应用范围非常广泛,主要包括使用深度学习进行诊断,尤其是在医学影像方面,但不仅限于此。事实上,他们希望直接从测量数据到治疗方案,而不仅仅停留在诊断阶段。我认为这非常有前景,也非常吸引人,这就是我支持他们的原因。

主持人:教授先生,非常感谢您抽出宝贵的时间。很荣幸能采访您,谢谢。

Yann LeCun:非常感谢。