茂名储罐保温施工队拖三年, 北大学友翁荔新长文刷屏!

2026-06-27 18:50 139

【新智元读】拖了三年的博客茂名储罐保温施工队，Lilian Weng终于发出来了。

就在刚刚，前OpenAI总裁Lilian Weng篇拖了三年多的长文刷屏了。

在这篇名为《Scaling Laws, Carefully》博客里，她平直把Scaling Laws重新拆到尾——

AI行业了数百亿好意思元押注的这条定律，远比任何东谈主假想的脆弱。

分钟速览：这篇万字长文讲了什么

条公式管了全行业五年。Scaling Laws说「模子作念大、数据喂多、算力堆够，能就会按固定比例往高潮」。它让AI从玄学酿成了能算账的交易，蜿蜒引导了上千亿好意思金的流向。

OpenAI和DeepMind给出了相悖的谜底。同个问题「算力预算怎么分派」，2020年OpenAI说模子该比数据涨得快，2022年DeepMind说双方得起涨。自后发现，分歧的根源是个参数统计口径的互异，加上实验界限不够大。

赢的公式里也藏着bug。DeepMind那条被全行业照抄两年的配比，2024年被东谈主逐行复刻下发现：亏空函数取了均值而不是乞降，致化器提前停了，输出的参数根蒂不是解。

拿小模子的法例去预测大模子，要十分注重。这条弧线是在相对小的模子上拟合出来的，外到万亿参数别时，个四舍五入的永逝就能让论断差出大截。博客里附了个交互式模拟器，拖下滑块就能亲眼看到。

还有个根蒂的问题：数据快用结束。公式默许数据不错限供应，但质料文本是有限的。这亦然为什么扫数这个词行业集体转向强化学习、测试时筹办和合成数据。

条直线，千亿好意思金

家喻户晓，Scaling Laws的中枢不错浅薄地转头成句话——

模子越大、数据越多、算力越猛，证据就越好。况兼这个「越好」不是赶紧的，它有精准的数学法例。

把模子教练的亏空画在对数坐标上，它跟着模子参数目N、数据量D、算力C的增多，呈条直线下落。

用公式写即是L(x) = E + A/x^α，其中x不错是N、D或C，E是表面亏空（数据自己的熵），A和α是拟合出来的常数。

教练个N参数的模子跑D个token，总算力C ≈ 6ND——前向传播2ND，反向传播4ND。

这条直线意味着能升迁是可预测的。

先跑几个小模子，拟合出那条直线，往右外，就能预估大模子训出来的证据。无用真花几亿好意思元把大模子训完才知谈它行不能。

在这之前，度学习直被朝笑为「真金不怕火金术」，知谈什么有，不知谈为什么有。

2020年OpenAI的Kaplan发表了这条幂律，次把玄学拽进了「可预测」的地界。

这即是扫数大模子公司敢钱的底气。

但公式给出的要害刻薄，给定算力预算，模子和数据怎么分派，OpenAI和DeepMind给出了相悖的谜底。

同谈题

OpenAI和DeepMind作念出了相悖的谜底

2020年OpenAI的Kaplan团队得出的论断是：模子大小N_opt ∝ C^0.73。

翻译过来即是：算力翻10倍，5.5倍给模子、1.8倍给数据——模子涨得要比数据快得多。

这平直指了GPT-3的教练案茂名储罐保温施工队。

1750亿参数的模子，只喂了3000亿个token（token是模子处分文本的小单元，简略个词对应1-2个token）。

按自后的圭臬看，这属于严重教练不及。

2022年DeepMind的Chinchilla团队得出了相悖的论断：N_opt ∝ C^0.50，模子和数据应该等比增长。

工程师们自后把它提真金不怕火成个张口就来的数字：token和参数比简略20:1。

然后DeepMind作念了场正面临决。

自的Gopher，2800亿参数配3000亿token。Chinchilla，700亿参数配1.4万亿token。两个模子用了调换的算力。

Chinchilla碾压。

个又小又「吃得多」的模子，把又大又「饿着」的敌手趴下了。

扫数这个词行业的共鸣因此翻转：从「把模子作念大」酿成「大大批模子王人教练不及」。

0.73 vs 0.50，同个问题，相悖的谜底，会让你把算力预算往两个不同的向分派。

原因竟是个「簿记问题」

2024年，两位商榷者在机器学习顶刊TMLR发了篇调处论文，把这个分歧悼念了底。

论断让东谈主哭笑不得。

个原因：双方数参数的式不样。

模子里有类叫embedding的参数层，慎重把翰墨治疗成模子能明白的数字向量。小模子里这层占总参数目的比例十分大，几千万参数的模子可能占到三分之。

Kaplan在统计参数目时把embedding放手在外，Chinchilla则把它算进去了。

就这样个参数统计口径的互异，就足以诬蔑终拟合出来的幂律指数。

他们给出了个精真金不怕火的校正公式：N = N_\E + ω·N_\E^(1/3)，其中N_\E是去掉embedding后的参数目，ω是常数。小模子时二项占比大，embedding影响著；模子越大，二项趋近于，两种数法同归殊途。

二个原因：Kaplan的实验界限太小。

Kaplan测试的大模子只到15亿参数，而Chinchilla的实验扫到了160亿以上。在对数坐标里，狭窄的拟合偏差在外时会被急剧放大。

他们用统的参数统计口径从新了Chinchilla的公式，发现了个要害法例——

幂律指数会跟着算力界限的增大而变化。在Kaplan的小界限实验范围内，指数如实接近0.73；但界限增大后，指数敛迹到0.50。

Kaplan莫得「错」，他在我方的实验范围内是对的。

但他把个局部建立的法例，外成了全局论断。

个参数怎么数的簿记问题，加上实验界限不够大，就让两个顶团队给出了相悖的资源分派刻薄。

全行业照着这个论断调了两年的教练。

连赢也有bug

Kaplan被Chinchilla改换了，这是大王人知谈的圭臬叙事。

但Weng往前走了步——Chinchilla我方的法论茂名储罐保温施工队，也有问题。

Chinchilla论文用了三种立法交叉考证我方的论断：

法1固定模子大小变数据量

法2画等算力弧线（IsoFLOP profiles）

法3平直对亏空公式L(N,D) = E + A/N^α + B/D^β作念参数拟合

三条路指向同个论断，看起来十分塌实。

法3的数学尤其雅：在管束C ≈ 6ND下对L(N,D)求，不错获得闭合解N_opt ∝ (C/6)^(β/(α+β))。当α ≈ β时，指数约等于0.5，也即是模子和数据等比增长。这即是0.50的数学开端。

2024年，AI商榷机构Epoch AI的团队从Chinchilla论文的图表中手动索求原始数据点，从新跑了法3的拟合。

两个bug，个比个离谱。

Bug 1：亏空函数取了均值而不是乞降。

Chinchilla在拟合这五个参数时，管道保温施工需要小化预测损成仇践诺亏空之间的差距。

圆善的化筹算如下：min Σ Huber_δ(log L̂(Nᵢ,Dᵢ) − log Lᵢ)，其中Huber Loss是种对畸形值不敏锐的亏空函数（δ = 10⁻³），联络L-BFGS-B化器来搜索解。

问题出在个细节上：他们对每个样本的Huber Loss取了平均值（mean）而不是乞降（sum）。几百个样本平均，亏空值被压缩到了小的量。

L-BFGS-B化器有个内置的敛迹判据。当亏空值足够小时自动住手。它看到这样小的数值，误认为还是敛迹，平直停了。

化器根蒂莫得跑完。输出的参数不是实在的值。

Bug 2：要害参数只保留了两位极少。

Chinchilla论文里有两个竣事幂律体式的中枢指数，只保留到了极少点后两位。

看起来是伤大雅的四舍五入。

但从这两个毛糙的数反其他常数时，舛讹被指数放大。终的置信区间窄得分歧理，窄到需要过60万次实验能力达到的精度，而他们践诺只跑了不到500次。

个被全行业奉为圭臬的公式，背后藏着个loss函数没跑完的bug，况兼这个bug藏了整整两年。

Weng在博客里还附了个交互式模拟器，三个滑块区别竣事亏空精度、亏空噪声和拟合区间。

每动下，拟合出来的Scaling Law就变个样。

OpenAI的论断有局部偏差，DeepMind的论断有法论时弊。AI行业伏击的学术争论，双王人有缺欠。

数据快结束

前边三节讲的王人是拟正当的问题，参数怎么数、亏空怎么算、精度取几位。

但即使这些问题一起修好，经典Scaling Laws还有个根蒂的隐患——

它假定每个教练数据王人是唯的，不重叠、不训多轮，默许你有限的数据。

现实是，质料文本数据瞻望在2026到2028年之间就会被各大实验室涤荡殆尽。

数据重叠教练不可避，经典公式的前提正在坍塌。

2023年的项大界限实验训了约400个模子，从千万到90亿参数，多重叠教练1500轮。

中枢念念路是引入「迥殊据量」的主见来替代践诺数据量——

淌若你有U条唯数据重叠了R轮，迥殊据量并不是U×R，而是按D_eff = U·(1 - e^(-R))的指数衰减弧线折算。轮重叠还能学到不少新东西，到五轮、十轮，边缘学习收益趋近于。

他们还发现了个反直观的论断：饱和的参数比重叠的数据「贬值」得快。也即是，预算有限时，与其加大模子，不如多跑几轮教练合算。

2026年5月的篇新论文换了念念路。

他们不折算迥殊据量，而是平直在经典亏空公式后头加了个式的过拟合刑事连累项——模子重叠看同批数据越屡次，刑事连累越大，况兼这个刑事连累和模子大小挂钩。

他们的圆善公式长这样：

后阿谁红的刑事连累项是要害。

R是重叠次数，N/U是模子参数目和唯数据量的比值（模子相干于数据有多「过剩」），P、δ、κ王人是从实验中拟合出来的。重叠越多、模子越大，刑事连累越重。

这篇论文的中枢发现是：大模子对数据重叠敏锐。相同把数据重叠教练10轮，个5亿参数的模子可能还扛得住，但个50亿参数的模子能下落会严重得多。

另个工程上平直灵验的发现为：加强权重衰减（weight decay）不错著缓解重叠教练带来的过拟合。

这亦然为什么2025到2026年，扫数这个词行业的珍摄力集体转向了三条绕过数据墙的路——

强化学习，DeepSeek R1、OpenAI o系列，让模子在数学和编程等可考证的任务上自我博弈，产生教练信号。

测试时筹办，不增多教练资本，让模子在修起问题时多「想」几步来换取好的证据。

合成数据，用现存的强模子生成新数据来教练下代模子。

三条路的潜台词样：地谈靠「堆界限」的那条幂律，还是不够用了。

从北大到OpenAI到我方的公司

Lilian Weng，北大本科，印安纳大学伯明顿分校博士。

有有趣的是，她的博士向不是度学习，而是收罗科学与复杂系统，商榷的是信息在搪塞收罗里怎么传播。

她毕业后先去了Dropbox作念数据科学，又去了金融科技公司Affirm，2018年才加入OpenAI。

来到OpenAI后，Weng参与的个口头是机器东谈主。那只花了两年学会解魔的机械手Dactyl，她是中枢孝敬者之。

自后转去搭建哄骗商榷团队，GPT-4发布后被委任组建Safety Systems团队，到她离开时这个团队已有80多位科学、工程师和计谋。

2024年8月头衔升为VP of Research and Safety，三个月后文告离开。

2017年，Weng刚来往度学习不久，开了个叫Lil'Log的个东谈主博客，初仅仅为了整理我方的学习条记。

她曾说过，「把个主见讲解晰，是历练我方是否实在明白它的好式」。

恶果写即是九年，强化学习、扩散模子、大模子agent，每篇王人从基础旨趣写起，几十页长文配我方画的图解。

这个博客自后成了AI域被援用多的个东谈主本事博客之，好多大学平直拿来当课本。

2025年2月，她和前OpenAI CTO Mira Murati建立Thinking Machines Lab，联创还包括OpenAI联创John Schulman、前商榷VP Barret Zoph和Luke Metz。a16z投种子轮20亿好意思元，估值120亿。

而她在公司速进的同期，花时代写结束这篇拖了三年的Scaling Laws长文。

你每天用的ChatGPT、Claude、Gemini，背后王人是这些公式在决定下代怎么训。

下代AI好不好用，不取决于谁的GPU多，而取决于谁把这些细节处分得精准。地址：大城县广安工业区相关词条:不锈钢保温施工塑料管材生产线钢绞线厂家玻璃棉板泡沫板橡塑板专用胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述茂名储罐保温施工队，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

茂名储罐保温施工队拖三年, 北大学友翁荔新长文刷屏!

新闻资讯

热点资讯

产品中心

新闻资讯

联系鑫诚

茂名储罐保温施工队 拖三年, 北大学友翁荔新长文刷屏!

新闻资讯

热点资讯

产品中心

新闻资讯

联系鑫诚

茂名储罐保温施工队拖三年, 北大学友翁荔新长文刷屏!