2025-10-30 田渊栋.AI“顿悟”的关键，是对优雅的追求？

课代表:

10 月 24 号，我有幸采访到了顶尖的 AI 研究员田渊栋博士。在这期采访里面，我们重点聊了田博士关于模型顿悟的最新论文。顿悟可以说是大学模型里面最重要的一个问题，它决定了模型到底是在鹦鹉学舌还是可以有泛化的解决新问题的能力。

田渊栋:

主要的思维是觉得我们就叫 Scaling Law, 我不需要搞清楚你们在干什么，我就让他们去拨那些开关，这些开关在某种组合找到了，那我们就能够把这个模型做得很强。研究员的用词是说，我能不能根据一些非常稀疏的数据点能够得到非常重要的结论。然后这个结论能够推广到更难的问题。

课代表:

而从记忆到泛化的这个过程就是顿悟。在这场对话里边，田博士就跟我非常深入浅出的，不带任何数学公式的讲清楚了，顿悟的数学原理。

田渊栋:

如果你数据不够，你可能就只有记忆的山峰。如果你数据很多的话，某些泛化能力强的山峰就会慢慢变得越来越高，记忆的山峰就会变得越来越低。

课代表:

而且我们还发现这种顿悟能力不光是模型的核心能力，其实也是一个人的核心能力。一个人能不能从更少的数据点泛化出更深刻的道理，做出更有效的预测，其实很大程度上就是这个人的水平体现。恰好这个周 Meta 的裁员风波，田博士也被 Meta 裁掉了。我们在视频的开头，也从田博士那里得到了一些第一手的澄清。更重要的是，如果你自己想对这个裁员风波有一些自己的理解，有一些自己的判断的话，在这期视频里边有第一手的资料，从田博士本人那里了解他的研究，他的思考，他的动线和他的为人，可以帮助你自己对这件事情形成真正有价值的判断。在这场对话里，我们还发掘出了一个特别重要的观点，那就是，模型优化的不只是损失函数，在损失函数之上，模型其实还在优化优雅。

田渊栋:

它内建在神经网络的训练过程里面，让这个模型自然地发现更加好的优美的解释。

课代表:

这是一个顶级 AI 研究者经过大量实验所形成的非常重要的体感，希望大家不要错过。我们开始。

01、Meta裁员事件后的澄清：为团队正名

课代表立正：最近看到了一些关于你（离开 Meta）的消息。

田渊栋：是的，现在算是比较“自由”吧，可以做任何想做的事情了。

课代表立正：恭喜！我是在准备这次访谈的时候才注意到，你已经在 Meta 工作了整整十年。当初你加入 Meta 的时候，大概有多少人？

田渊栋：我加入的时候大概有一万多人。

课代表立正：其实那个时候 Meta 也不算是小公司了。我记得它是2012年上市的？

田渊栋：对，现在应该大约近8万人左右。

课代表立正：我们今天的访谈可以从你的论文聊起，也可以顺便聊聊最近的一些动向。

田渊栋：都可以，我更愿意聊论文。我之所以近期会在 X平台（原Twitter）上发声，是因为看到有人站出来猜测和质疑，是否是因为没有做出公司预期的成果。对此我必须要为我的团队澄清一下：我们团队做了很多非常重要的工作，不能把责任推到我们身上。这一点必须说清楚。

课代表立正：那么，团队在大模型训练的过程中具体发挥了哪些关键作用？

田渊栋：我们团队率先发现了预训练模型设计中存在的chunk attention等关键问题，并推动了解决方案的落地，有效提升了long-context RL的稳定性。另外贡献还包括数据集生成和评测，RL基础设施的构建和优化，等等。

此外，对于大模型架构中存在的一些设计问题，我们也和公司侧的多个团队进行了深入沟通。一开始沟通很困难，因为他们认为这些问题不严重，甚至觉得根本不是问题。

虽然我当时是作为研究团队加入 Meta 的，而负责大模型具体开发的团队，自然更相信他们自己的判断。所以我们只能通过大量的实验去验证，用数据和结果来证明我们的判断和洞察是正确的。最终，事实也确实证明这些问题是存在的，他们才真正接受我们的结论。这整个过程，其实就体现了我们团队的重要价值。

此外，我们也攻克了不少在大模型训练中的不少难题。比如：如何让上下文长度训练（long context length training）更加稳定。这个过程解决了训练中常见的 blow up（训练崩溃）问题。虽然这些技术成果最终没有直接体现在官方版本（official release）中，但它们确实为后续的模型研发打下了坚实的基础。

可以说，我们团队更像是“幕后英雄”，没有站在聚光灯下，但在关键环节起到了承上启下、夯实底层的作用。

02、研究员的核心价值是洞察力，但真正的难点是说服别人

课代表立正：您刚才提到的问题中，我有两方面想进一步了解：

第一，作为研究团队，你们并没有被完全信任，是因为缺乏训练大模型的直接经验，还是有其他方面的原因？沟通时接触的大模型团队是怎样的？他们自身是否有丰富的大模型训练经历？

第二，你们在接触到大模型的产品能力后，为什么能迅速发现问题？

田渊栋：他们的整体经验确实非常丰富。但在某些实验中出现了程序错误（bug），由此做出了错误判断。我们这边虽然没有直接参与超大模型的训练，但一直在做大模型相关的研究，也发表过不少论文。

我本人曾做过 Sparse Attention（稀疏注意力）相关的研究，对注意力结构的机制与意义相对熟悉，因此，一看到一些设计细节，就立刻判断出其中的问题。

当然，这种判断并不是我独有，很多研究者都能察觉问题。但真正的难点在于如何说服别人。我们需要花很多时间和精力去解释、论证这些问题的存在，通常要等到对方团队在内部自查时也意识到问题的严重性，态度才会开始转变。

课代表立正：换句话说，尽管没有直接训练超大模型，但研究过程中的直觉与经验依然能帮助你们快速定位问题、判断偏差并提出修正方向。

田渊栋：是的。这就是研究员的核心价值所在：即便在“数据点稀疏”的情况下，也能推断出关键结论，并将其迁移应用到更复杂的问题上。相反，如果一个人没有 insight（洞察），只会不断地跑实验、调参数，那这样的工作是非常容易被替代的。研究员的优势在于：在有限信号下识别结构性问题，从而避免大量无效计算与资源浪费。

脑子如果是收敛的就有泛化的能力，就能够凭有限信号做出判断，没有就说明是一团浆糊。

课代表立正：你刚才提到“稀疏的数据点”。这里具体是指什么？是来自不同论文或实验的零散结果吗？

田渊栋：可以这么理解。比如说一位新手可能需要跑一万组实验，得到一万个数值，但这些数据是“死”的——缺乏结构性分析与总结。

而一个有经验的人，看到二十个甚至十个点，甚至只是观察到一部分 training curve（训练曲线），就能判断这个路线是否行得通，从而及时止损并调整方向。

这也是为什么 AI 研究员通常薪资较高：一个真正高质量的“洞察（insight）”，可能就能节省上百、上千甚至上万张 GPU 卡的试错成本。GPU 当然重要，它能支撑更大规模的实验、带来更多观察机会；但 insight 和算力是互补的。

暴力求解很长时间占据了主要的地位，有点类似于我们自己总结的“精准执行”，在正确方向上简单、精准的执行最终也能做好，现实是做的更好，比有洞察（insight）能力的做的更好，但总的来看洞察（insight）指引了方向，方向是从洞察来的。

课代表立正：你刚才用了两个词，一个是经验（experience），一个是洞察（insight）。我想深入探讨一下这个问题：你认为到底什么是洞察能力（insight）？有些人认为这是品味（taste），有些人说是直觉（intuition），你怎么看？

田渊栋：我们需要通过对话与追问，去观察一个人是如何思考问题的。我举一个例子：在 PhD qualifier（博士资格考试）中，老师们会围绕某个主题（例如偏微分方程）不断追问，直到考生能清晰地解释关键概念之间的联系，并用最简洁的语言表述“两个最核心要素的关系”。

如果一个人只能背出定义、却说不清其中的原理，比如什么时候 A→B、什么时候 A→C，那说明他还没有形成真正可迁移的 mental model（心理模型）。做研究最忌讳的就是“概念套概念”，而没有掌握它们之间的关系与使用条件。

当前的大语言模型也普遍缺乏这种能力——在“极少数据”的条件下进行稳健外推。这恰恰是人类仍然在某些认知任务中占据优势的地方。

这在现实有很丰富的题材。

1、很多人没有连续提问的能力，连续提问需要方向感，恐惧不会有一个收敛的方向，都是一个个随机的、应付当下的问题，同时也表现在不会提问、不敢提问，失去工作上的联系后同步失去联系的能力，不知道说什么、问什么。

2、一大堆炫耀记忆能力的人才，都说自己的记忆能力好，没办法泛化就只剩下记忆了。

03、“顿悟”如何发生

课代表立正：这也呼应了我想和你对话的初衷——你的研究重点之一正是 Grokking：解释模型如何从“记忆式拟合”跃迁到“结构化泛化”。你的论文就是围绕这一机制展开的。

田渊栋：对。Grokking 提供了一条观察“从不可压缩到可压缩表示”的动力学路径（dynamics）。理解这条路径，有助于我们在数据与算力受限的环境中，用更少的样本与更可靠的训练信号，获得可泛化的表示与更强的模型。

课代表立正：你刚才提到的“顿悟”并非只是某个具体任务层面的能力，而是更底层的机制：在某个时间点，模型完成了一次表示的重组，就像“学会了”某件事。

我有关注到你此前的专访，以及我与Denny Zhou 在 X平台上关于 chain-of-thought（思维链）的讨论中，也探讨过类似的现象。从理论上讲，如果逻辑链条能够被完整表达，那么 chain-of-thought 应该是可以求解的；

但现实中，模型往往需要大量数据去逼近解，而人类却能在瞬间抓住要点。这种差异似乎与刚才所说的那种底层机制相关。如果要给这种能力下定义，你会倾向称之为 reasoning（推理能力），还是另有所指？

田渊栋：更准确地说，它发生在 reasoning 或其他任务之下的“共同底层”机制，那就是 representation learning（表征学习）。

随着训练推进，模型的表征会不断演化。一开始更像是死记硬背；但随着足够的积累和联结，结构会突然“贯通”，从而出现类似“读书百遍，其义自见”的转折点。比如说在小学生的教育中，老师可能会先要求他们背诵一些知识，过段时间通过新的知识联结，原本模糊的含义逐渐显现，这就是顿悟的一部分。

课代表立正：也就是说，无论是 chain-of-thought 还是直觉判断，其实最终都依赖于“我如何表示、如何理解这个世界”这一底层机制？

田渊栋：对。比如，小学生可能解题靠穷举；而进入初高中后，引入了数学归纳法，仅靠简洁的证明就能覆盖无限情形，这种方法背后的“表示”就发生了根本性变化。神经网络的学习关键差异，也正体现在表征方式上。

“顿悟”描述了神经网络在训练过程中，性能从长时间的停滞（看似只会记忆），突然飞跃到能够完美泛化（真正理解了规律）的现象。这与人类学习中“读书百遍，其义自见”或武侠小说里张无忌先背下心法再融会贯通的体验惊人地相似。

那么，这个神秘的“突变”究竟是如何发生的？田博士用一个生动的“双峰模型”揭示了其内在的数学图景：

记忆与泛化的不同“解”：在一个复杂的优化空间中，“记忆”和“泛化”可以被看作两个不同的解，对应着两个不同的“山峰”。记忆是一种低效的解，需要模型记住所有特例；而泛化是一种高效、优雅的解，模型找到了数据背后更简洁的统一规律（short program）。
数据驱动的山峰演变：当训练数据不足时，“记忆山峰”更高，因为记住所有样本是降低训练误差最直接的方式。此时，模型的优化过程自然会收敛到这个山峰。
此消彼长的临界点：随着数据量的增加，数据中潜在的“泛化规律”开始显现。这使得“泛化山峰”逐渐升高，而“记忆山峰”相对降低。当数据量跨过一个临界点，“泛化山峰”的高度首次超过了“记忆山峰”。
顿悟的发生：由于优化算法总是倾向于寻找全局最优解（更高的山峰），在“泛化山峰”成为最高点的瞬间，模型的参数便会“雪崩式”地涌向这个新的、更优的解。宏观上，这就表现为一次突然的、性能飞跃式的“顿悟”。

这个解释极大地祛魅了“涌现”或“顿悟”的神秘感，将其从一个看似随机的魔法，还原为一个由数据分布和优化动力学共同决定的、有清晰路径的物理过程。泛化的能力并非凭空产生，它一直作为一种可能性存在于数据之中，等待着足够多的证据使其“脱颖而出”。这个比喻的深刻之处在于：

确定性：它告诉我们，“顿悟”不是随机的奇迹，而是当数据量达到某个临界点后，几乎必然会发生的相变。
竞争性：“记忆”和“泛化”是两种相互竞争的解决方案，模型在训练中会动态地选择在当前数据下“性价比”更高的那一个。
可操作性：它启发我们，促进“顿悟”的发生，关键在于如何设计数据和训练方法，来更快地“抬高”泛化山峰，“压低”记忆山峰。

04、两种研究路径：Scaling Law与机制理解，选择更困难的后者

指神经网络通过寻找能拟合训练数据的“最短程序”（最简洁的模型），从而实现最好的泛化能力图片来源：课代表立正

课代表立正： Ilya Sutskever在 2016 年 MIT 的演讲里提过两个问题：为什么反向传播能起作用？以及理论上最优的假设空间是否等价于简洁程序（short programs）。那你的意思是不是说——模型原本要走许多路径，但突然找到了更高效的联系，实现了压缩，从而获得更强的泛化能力？

田渊栋：对，“压缩”是一个通俗但恰当的说法。不过，目前我们仍不清楚——什么时候可以压缩，什么时候不行。

这正是研究 Grokking 的意义所在：它提供了一条动力学路径，展示系统如何从“不可压缩”状态过渡到“可压缩”状态。

指AI通过模式匹配（连线）将散乱的信息转化为结构化的知识，从而能够应用已知规律解决未知问题。图片来源：课代表立正

巴菲特对《聪明的投资者》评价是同样的意思，给投资领域注入了结构化的知识，这说明大脑已经有一些简洁、优雅的结构，这在很多很多的脑子里是没有的。

课代表立正：这听起来和人类的知识学习非常相似。我们也是通过“信息的连接”形成知识。

教育心理学认为最重要的是先验知识（prior knowledge）——新的信息只有与旧的经验建立联系，才能形成理解。但无论在人脑还是大模型中，我们都不清楚这些“连接”究竟是如何形成的。也许理解这一过程，就能抓住下一代模型的关键契机？

田渊栋：完全正确。现在主要有两种研究路径：一种是把系统当成黑盒，用“scaling law（规模定律）”去堆参数、试配置；另一种是“打开机器”，理解其内部机制，然后带着直觉去调参数。

目前黑盒方法更主流，见效快、成本低；但要真正理解模型的工作原理，就必须走后一条更艰难的路。

课代表立正：为什么黑盒方法更占上风？是不是因为即使我们“打开”了，人类也依然难以判断里面到底发生了什么？

田渊栋：是的。这就是为什么要建立一个更高层次的整体理解框架——去统摄不同学习范式的共性。我做 Grokking 这篇论文的目的，正是尝试构建这样的框架。

短期来看，黑盒路线依然高效；但从长期来看，理解机制的那条路天花板更高。

05、Grokking：从记忆跃迁到泛化的数学机制

课代表立正：黑盒路径之所以占主流，也因为即使“打开”模型，人类也很难判断其内部到底发生了什么。因此，能否建立一个足以统摄多种学习范式的“大框架”变得很关键——这也是你们把 Grokking 作为正式论文（paper）发布的原因？

田渊栋：对。我们希望通过系统性研究，建立起更大的理解框架，从而为未来的改进指明方向。

课代表立正：我再引入一个相关讨论。我们常常从人类学习中汲取灵感。

现在有两个派系，Rich Sutton 强调，强化学习（Reinforcement Learning, RL）才是更贴近人类的学习方式，因为它拥有明确的目标函数（objective）；而另一派代表（如 Hinton）认为，经验不仅来自物理互动，语言也能有效传递经验。

这场争论的核心是：人类如何学习？什么是学习？人类是如何生成新知识并 connect the dots 的？你个人更倾向哪种猜想？

田渊栋：我赞同“通过经验学习”的观点，但更重要的问题是：“哪种经验更有价值？”有一种观点强调，必须有 embodiment（身体化经验），也就是“行万里路”“亲身体验”“感受情绪”等，才能形成真正深刻的表示；另一种观点则认为抽象概念也可以通过语言传递被学习。其实这两者并不冲突。我们追求的是高质量的 representation（表征）——这种表征能够支撑预测、支持泛化。

表征是如何形成的，关键在于输入的丰富性及其结构。直观经验和抽象概念可以混合输入，只要最终能产出高质量、可泛化的表征即可。这个比例不一定非黑即白，可以是一半一半，也可以是三分之一对三分之二，关键在于能否形成有用的认知结构。

体验的重要性，从一个大致的方向到开始相信，再到确信需要大量信息的注入，巴菲特始终坚持定量分析为主是有道理的，定量有助于判断上的分量。

06、从黑盒试验到机制理解，打开系统才能抬高模型上限

课代表立正：回到“打开模型”这条路，它的现实意义是什么？是更高效率的学习，还是在同样的知识里学到“新的东西”？当数据见顶时，效率的边际价值似乎有限。

田渊栋：恰恰相反，数据见顶时更需要对机器的理解。如果训练 token 总量对于大众领域已足够，但对于小众领域样本稀缺，且训练算法“费数据”，模型就容易停留在记忆（memorization）而非泛化（generalization）层面。

此时仅靠 scaling law（扩展法则）可能就会失效。你可以做 data augmentation（数据增强），但如果你对模型的机理有更深入的理解，或许可以通过改进训练算法或架构本身，在少样本的情况下学到更合适的表示。

课代表立正：从大模型的生成过程来看，inference（推理）期间产生的新 token 更像是记忆还是泛化？

田渊栋：这要视情境而定，通常是两者的混合。任务种类丰富且覆盖多样组合时，更可能学到稳健的表示并实现泛化。材料越多，见到的组合越广，就越有可能形成对未见组合也有效的表征。所谓“真正理解”，一方面体现在能对新情形给出正确答案；另一方面则体现在能够将问题还原为更简单、可广泛适用的逻辑。

泛化的定义，很多人对于”真正理解“的定义肯定不是“更简单”，“更简单”不仅否定之前所有的行为还会立即直面现实，复杂和模糊是逃避现实的最佳策略，这种心理上的不适比喝农药还要痛苦。

这两点加在一起，就构成了我们对“泛化”的一种可操作性定义。相反，若某一领域数据稀缺、结构难以捕捉，模型往往只能“死记硬背”，在训练集上的错误率尚可，但难以推广至新的样本。

课代表立正：当 scaling law 在数据受限的情况下边际效益递减，而机理导向的范式能在样本稀缺处提升“可压缩的表示”，是否意味着后者将在“高难度、小样本、结构强”的场景中显示出决定性优势？

田渊栋：这是我的判断。短期来看，黑盒方法扩大规模依旧高效；但从长期来看，打开系统并理解表示形成与迁移的动力学，才有可能真正抬高模型的能力上限。

07、从压缩性走向解释力：泛化的终极价值

课代表立正：如何更形式化地解释“从记忆到泛化”的跃迁？很多人将其视为神秘的“emergence”（涌现）。

田渊栋：我们可以通过“多峰非凸优化”（multi-modal non-convex optimization）的图景来理解。不同的表征对应着不同的“山峰”（局部最优解）。数据分布决定山峰的高低：当数据不足时，“记忆峰”更高；当数据增多且结构更清晰时，“泛化峰”会升高，“记忆峰”则下降。

优化过程会趋向更高的山峰；一旦“泛化峰”略高，参数便会集体“翻越”，呈现出“顿悟（grokking）”现象。这是一条清晰的数学路径，并非神秘跳变。

课代表立正：是否可以理解为：泛化的正确表征一直潜伏在数据中，只是我们以前未曾发现或未予重视？随着数据点的增多，其价值被凸显，我们才开始重视？

田渊栋：可以这样理解，但前提是该结构确实存在，并且数据量足以让它的优势显著到可以“打败”记忆式的解。在证据不足时，“记下来”更划算；而证据充足时，泛化结构因更简洁、更稳健而自然占优。

“emergence”（涌现）看着是瞎扯，人工智能的这帮科学家相当给人的行为做了一次更具体的定量分析，这个地方有了数学路径。

课代表立正：这引出了评价与奖励的问题。预训练阶段主要使用 next-token prediction（下一词预测）；那么在后训练阶段，如何促成更强的泛化？又该如何避免 reward hacking（奖励机制被规避）？

田渊栋：预训练的损失函数相对稳定，比如预测下一个词等。而后训练阶段的“玩法”则丰富得多：可以在强化学习（Reinforcement Learning）的训练中设定不同的value/reward（价值/奖励）或 rubric（评分标准）；也可以引入 chain-of-thought（思维链），让中间步骤经得起检验，以此抑制“走捷径”的现象（比如选择题盲猜）。不同方向的优化会分别强化模型的不同能力维度。

课代表立正：你提到“优雅（elegance）/压缩”的倾向。这种倾向存在于 reward function（奖励函数）中吗？

田渊栋：它更像是训练过程中的隐式偏置（implicit bias）：在众多可行解释中，优化算法倾向于选择更简洁、更具压缩性的表示，这与我们对“优雅”的直觉是契合的。这并不是一个显式的目标项，而是由优化过程和归纳偏置（inductive bias）诱导出的学习方向，从而提升了表示的质量和泛化能力。

08、loss function只是“代理信号”，不是目的

课代表立正：你曾提到我们定义的 loss function，并不是我们真正想优化的目标，而是它的一个“代理函数（surrogate objective），这个观点该如何理解？

田渊栋：损失函数的核心作用，是生成合适的梯度流（gradient flow），以推动表示朝“正确方向”更新。不同的损失函数可以诱导出相似的梯度结构，从而学到相似的表征。

目标函数本身并非“终极目的”，而是为可学习的优化路径提供一种可计算的代理信号。很多表征学习中的目标函数，拆解后本质上都是不同形式的反向传播（backpropagation）梯度。只要梯度结构相近，哪怕换一种损失函数，学到的表征也会很接近。

有些话题不让说了，很多大V转型成为情感的博主，条条大路通罗马。

课代表立正：可以将“梯度”想象为等高线图上最陡的下降方向，而这些等高线最终勾勒出的就是对世界规律的刻画。

田渊栋：这个比喻非常贴切。我们沿着等高线行进，寻找能够统一解释更多现象且更简洁的结构；当证据与归纳偏置协同达到一定程度时，模型就会“跨峰”进入可泛化的表示状态。表面上看是“顿悟”，实际上是优化动力学的自然结果。

我们通常所说的损失函数（Loss Function），其本身并非学习的终极目标，它更像是一个“代理”（Surrogate）。这句话是对深度学习核心机制的一次“正本清源”。它打破了许多人心中“学习=最小化损失函数”的朴素认知。其核心思想是：我们追求的不是一个数字的最小化，而是一个高质量内部表征（representation）的形成。损失函数和优化器只是我们用来雕刻这个“表征”的刻刀和锤子。这个视角的转变意义重大：它鼓励研究者跳出对特定loss形式的执着，转而从“我们希望表征学习到什么样的数据结构”出发，去设计能产生理想梯度流的训练信号。这是从“术”的层面上升到“道”的层面，是理解表征学习的关键。

他解释道，损失函数的真正作用，是“产生一个梯度流（gradient flow），这个梯度流能够让这个表征（representation）往正确的方向走”。换言之，目标是学习到一个好的数据表征，而损失函数只是创造出实现这一目标所需驱动力的工具。只要最终产生的梯度流是相似的，即便使用形式上看起来千差万别的损失函数，也可能学到相似的优质表征。

这个观点将我们对模型训练的理解，从仅仅关注“降低一个数字（loss）”，提升到了关注“塑造一个结构（representation）”的更高维度。它也解释了为什么AI领域充满了各种看似奇怪却有效的损失函数设计——因为它们的核心都在于为参数优化提供正确方向的“力”，而非函数本身的形式。这背后，其实隐藏着一种对“美感”或“优雅”（Elegance）的隐性偏好，即神经网络在训练过程中，会内生地偏爱那些更简洁、更具压缩性的解释。

课代表立正：回到“记忆与泛化”的关系。给模型更多“记忆材料”，是否会提高泛化的可能性？

田渊栋：在许多任务中确实如此。看到的组合越多，模型就越能学到稳健的表征，这种表征对未见过的组合也具备预测能力，这就是泛化。真正的“理解”往往表现为方法论能力的提升，能在新情境下，用少量且简单的逻辑统一解释更多现象，并能推广到更多场景。

课代表立正：如果数据很少，模型学不到好的表征，会发生什么？

田渊栋：它会倾向于记忆式学习，以满足训练误差的目标；但一旦超出训练集范围，错误率就会上升，人们往往会将其归因于过拟合或记忆主导。

标签的缺点，没有经过大量数据检验的标签不可靠。

09、未来方向：在小样本稀疏世界中实现“结构性迁移”

课代表立正：当 scaling law 因数据瓶颈而失效时，除了 data augmentation，还有哪些方向可以尝试？

田渊栋：可以基于机理理解来改进训练算法或模型架构，以降低“费数据”的特性，使优化过程更容易抵达“泛化峰”。这在小众领域尤为重要，因为每个子域的数据“坑”很小，常规的数据扩充手段难以奏效。

课代表立正：能否用一个直观的比喻来帮助理解？

田渊栋：可以把大语言模型看作极度勤奋、算力极强的“读书人”。读够了三百万首唐诗后，它开始作诗：不是靠背诵，而是穷尽其规律，并形成可以评估与自我提升的“方法”。

另一种路径则像发现数学公式那样，直接“跃迁”到背后的规律本身。比如，阿基米德发现浮力定律的过程其实包含两步：第一，穷举大量可能；第二，能立刻意识到“这个是对的”。而机器目前仍难以在“立刻意识到对的”这一步做到像人类一样高效。

再比如，地心说和日心说都能预测行星位置，但日心说更简洁优雅；一旦我们采用日心说，轨道变为简单的椭圆形，我们就会立刻意识到这是更好、更接近真实与美的解释。这种“优雅/压缩”的倾向，也是在训练过程中由隐式偏置自然诱导出来的。

课代表立正：在 loss function 之上，是否还存在一层更隐含的“reward”？

田渊栋：可以这么说。训练过程中的隐式偏置确实会引导模型自然地发现更优美、更具压缩性的解释，从而学到更好的表征和更强的泛化能力。所有损失函数本质上都是代理，目的是产生有效的梯度流，推动表征朝正确方向收敛；至于它们的具体形式，其实不如梯度结构本身重要。

方向最为关键，巴菲特说最重要的是选择你的英雄，很多人很早就选择了错误的方向，错误的方向上没有收敛的地方，行为上的表现是比较明显的。

课代表立正：我明白了。等高线的比喻也确实有助于理解：我们沿着可计算的代理信号走向更优的解释；当“泛化峰”略高于“记忆峰”时，模型的参数整体迁移，表现出“顿悟（grokking）”现象。但这个“等高线”的逻辑，其实是大家经常使用的比喻。不过，它忽略了神经网络本身的结构特性。

田渊栋：是的。这个比喻把整个 loss landscape（损失地形）看作是高维空间中的山峰，而每个山峰实际上对应的是神经网络参数空间中的一种表示结构。因此，我们不能只看山峰的形状，还需要关注这些结构与网络本身之间的关系。

课代表立正：换句话说，梯度在山峰上的变化，其实是通过每个神经元的梯度路径来实现的？

田渊栋：对。如果你能将梯度方向映射回神经网络中每组参数、每一层神经元，就能观察到哪些模块学到了什么样的表征。这个过程虽然较为复杂和细节化，但非常有助于我们从直觉上理解 representation learning（表示学习）的底层机制。

10、人机协作新范式：AI正在成为科研中的“共创者”

课代表立正：您刚提到研究范式的变化，现在您怎么看AI在科研中的角色？

田渊栋：研究范式的探索非常重要，我们也要与时俱进。不可能仍用过去的方式做研究。未来也许我们会拥有“AI Scientist”，或者我自己写一套Agent框架，来协助完成研究。

课代表立正：这听起来很有意思。

田渊栋：实际上，这篇关于 Grokking 的论文，一些思考是和GPT-5进行对话后产生的。虽然有点像 “self-play（自娱自乐）”，不过在对话的过程中，需要给它一些insight（洞察）和思考，它才会有不一样的输出。

课代表立正：不过我注意到，那篇论文是您独立署名的？

田渊栋：是的。因为会议投稿不允许将大语言模型列为作者。但我在文中注明，我们大量使用了AI：我给模型想法，让它去论证、推导、再发现问题。它常常是错的，但偶尔能提出很有启发性的见解，帮助我把一个模糊的想法细化为可执行的研究过程。

课代表立正：我也有类似体会。我曾与GPT的o1-pro讨论过比如关于量子力学的一些研究，感觉AI能帮助我整理思路，但写不出像您这样有“顿悟感”的论文。

田渊栋：这里的关键是，真正重要的 insight 仍需人类提供。AI可能会出现“卡壳”，绕着概念兜圈子，说不到本质。这就像一个“新来的博士生”，话很多，却抓不住核心。

课代表立正：这确实是个普遍问题。

田渊栋：所以需要研究者去总结、提炼、引导。AI可以被“训练”，但还不具备判断“讲清楚”的美感。而“讲清楚”本身就是一种极高层次的能力，很难被建模成 loss function。

有这种能力的在大脑发展的早期就已经有一些简洁优雅的结构，在后面的人生中泛化到其他领域，必须是非常早的时期，两个方向都是自我强化的，简洁优雅如果是胜出的一方只可能出现在非常早的时期，可能是1岁以前，甚至是娘胎里都有可能。

课代表立正：的确，我们要先学会自己讲清楚，再去要求模型做到。

田渊栋：没错。这种“讲清楚”的能力，蕴含着理解的深度与美感。如何让模型具备这样的能力，可能是下一个值得探索的科学问题。

课代表立正：听完这段，我更深刻地体会到AI对研究方式的改变。它不仅是工具，更是一面镜子，让我们重新思考什么是理解、什么是清晰表达。通过这篇论文，我们其实也在探讨人类与AI如何共同进化的过程。

2025-10-30 田渊栋.AI“顿悟”的关键，是对优雅的追求？

2025-10-30 田渊栋.AI“顿悟”的关键，是对优雅的追求？

01、Meta裁员事件后的澄清：为团队正名

02、研究员的核心价值是洞察力，但真正的难点是说服别人

03、“顿悟”如何发生

04、两种研究路径：Scaling Law与机制理解，选择更困难的后者

05、Grokking：从记忆跃迁到泛化的数学机制

06、从黑盒试验到机制理解，打开系统才能抬高模型上限

07、从压缩性走向解释力：泛化的终极价值

08、loss function只是“代理信号”，不是目的

09、未来方向：在小样本稀疏世界中实现“结构性迁移”

10、人机协作新范式：AI正在成为科研中的“共创者”

热门主题

Recent Articles

2007-02-28 Warren Buffett's Letters to Berkshire Shareholders

2009-02-27 Warren Buffett's Letters to Berkshire Shareholders

2025-10-14 Tracy Britt Cool.What I Learned Working With Buffett

2010-05-26 Warren Buffett.Interview With FCIC

1988-02-29 Warren Buffett's Letters to Berkshire Shareholders