茂名储罐保温施工队 拖三年, 北大学友翁荔新长文刷屏!

2026-06-27 18:50 139
铁皮保温施工

【新智元读】拖了三年的博客茂名储罐保温施工队,Lilian Weng终于发出来了。

就在刚刚,前OpenAI总裁Lilian Weng篇拖了三年多的长文刷屏了。

在这篇名为《Scaling Laws, Carefully》博客里,她平直把Scaling Laws重新拆到尾——

AI行业了数百亿好意思元押注的这条定律,远比任何东谈主假想的脆弱。

分钟速览:这篇万字长文讲了什么

条公式管了全行业五年。Scaling Laws说「模子作念大、数据喂多、算力堆够,能就会按固定比例往高潮」。它让AI从玄学酿成了能算账的交易,蜿蜒引导了上千亿好意思金的流向。

OpenAI和DeepMind给出了相悖的谜底。同个问题「算力预算怎么分派」,2020年OpenAI说模子该比数据涨得快,2022年DeepMind说双方得起涨。自后发现,分歧的根源是个参数统计口径的互异,加上实验界限不够大。

赢的公式里也藏着bug。DeepMind那条被全行业照抄两年的配比,2024年被东谈主逐行复刻下发现:亏空函数取了均值而不是乞降,致化器提前停了,输出的参数根蒂不是解。

拿小模子的法例去预测大模子,要十分注重。这条弧线是在相对小的模子上拟合出来的,外到万亿参数别时,个四舍五入的永逝就能让论断差出大截。博客里附了个交互式模拟器,拖下滑块就能亲眼看到。

还有个根蒂的问题:数据快用结束。公式默许数据不错限供应,但质料文本是有限的。这亦然为什么扫数这个词行业集体转向强化学习、测试时筹办和合成数据。

条直线,千亿好意思金

家喻户晓,Scaling Laws的中枢不错浅薄地转头成句话——

模子越大、数据越多、算力越猛,证据就越好。况兼这个「越好」不是赶紧的,它有精准的数学法例。

把模子教练的亏空画在对数坐标上,它跟着模子参数目N、数据量D、算力C的增多,呈条直线下落。

用公式写即是L(x) = E + A/x^α,其中x不错是N、D或C,E是表面亏空(数据自己的熵),A和α是拟合出来的常数。

教练个N参数的模子跑D个token,总算力C ≈ 6ND——前向传播2ND,反向传播4ND。

这条直线意味着能升迁是可预测的。

先跑几个小模子,拟合出那条直线,往右外,就能预估大模子训出来的证据。无用真花几亿好意思元把大模子训完才知谈它行不能。

在这之前,度学习直被朝笑为「真金不怕火金术」,知谈什么有,不知谈为什么有。

2020年OpenAI的Kaplan发表了这条幂律,次把玄学拽进了「可预测」的地界。

这即是扫数大模子公司敢钱的底气。

但公式给出的要害刻薄,给定算力预算,模子和数据怎么分派,OpenAI和DeepMind给出了相悖的谜底。

同谈题

OpenAI和DeepMind作念出了相悖的谜底

2020年OpenAI的Kaplan团队得出的论断是:模子大小N_opt ∝ C^0.73。

翻译过来即是:算力翻10倍,5.5倍给模子、1.8倍给数据——模子涨得要比数据快得多。

这平直指了GPT-3的教练案茂名储罐保温施工队。

1750亿参数的模子,只喂了3000亿个token(token是模子处分文本的小单元,简略个词对应1-2个token)。

按自后的圭臬看,这属于严重教练不及。

2022年DeepMind的Chinchilla团队得出了相悖的论断:N_opt ∝ C^0.50,模子和数据应该等比增长。

工程师们自后把它提真金不怕火成个张口就来的数字:token和参数比简略20:1。

然后DeepMind作念了场正面临决。

自的Gopher,2800亿参数配3000亿token。Chinchilla,700亿参数配1.4万亿token。两个模子用了调换的算力。

Chinchilla碾压。

个又小又「吃得多」的模子,把又大又「饿着」的敌手趴下了。

扫数这个词行业的共鸣因此翻转:从「把模子作念大」酿成「大大批模子王人教练不及」。

0.73 vs 0.50,同个问题,相悖的谜底,会让你把算力预算往两个不同的向分派。

原因竟是个「簿记问题」

2024年,两位商榷者在机器学习顶刊TMLR发了篇调处论文,把这个分歧悼念了底。

论断让东谈主哭笑不得。

个原因:双方数参数的式不样。

模子里有类叫embedding的参数层,慎重把翰墨治疗成模子能明白的数字向量。小模子里这层占总参数目的比例十分大,几千万参数的模子可能占到三分之。

Kaplan在统计参数目时把embedding放手在外,Chinchilla则把它算进去了。

就这样个参数统计口径的互异,就足以诬蔑终拟合出来的幂律指数。

他们给出了个精真金不怕火的校正公式:N = N_\E + ω·N_\E^(1/3),其中N_\E是去掉embedding后的参数目,ω是常数。小模子时二项占比大,embedding影响著;模子越大,二项趋近于,两种数法同归殊途。

二个原因:Kaplan的实验界限太小。

Kaplan测试的大模子只到15亿参数,而Chinchilla的实验扫到了160亿以上。在对数坐标里,狭窄的拟合偏差在外时会被急剧放大。

他们用统的参数统计口径从新了Chinchilla的公式,发现了个要害法例——

幂律指数会跟着算力界限的增大而变化。在Kaplan的小界限实验范围内,指数如实接近0.73;但界限增大后,指数敛迹到0.50。

Kaplan莫得「错」,他在我方的实验范围内是对的。

但他把个局部建立的法例,外成了全局论断。

个参数怎么数的簿记问题,加上实验界限不够大,就让两个顶团队给出了相悖的资源分派刻薄。

全行业照着这个论断调了两年的教练。

连赢也有bug

Kaplan被Chinchilla改换了,这是大王人知谈的圭臬叙事。

但Weng往前走了步——Chinchilla我方的法论茂名储罐保温施工队,也有问题。

Chinchilla论文用了三种立法交叉考证我方的论断:

法1固定模子大小变数据量

法2画等算力弧线(IsoFLOP profiles)

法3平直对亏空公式L(N,D) = E + A/N^α + B/D^β作念参数拟合

三条路指向同个论断,看起来十分塌实。

法3的数学尤其雅:在管束C ≈ 6ND下对L(N,D)求,不错获得闭合解N_opt ∝ (C/6)^(β/(α+β))。当α ≈ β时,指数约等于0.5,也即是模子和数据等比增长。这即是0.50的数学开端。

2024年,AI商榷机构Epoch AI的团队从Chinchilla论文的图表中手动索求原始数据点,从新跑了法3的拟合。

两个bug,个比个离谱。

Bug 1:亏空函数取了均值而不是乞降。

Chinchilla在拟合这五个参数时,管道保温施工需要小化预测损成仇践诺亏空之间的差距。

圆善的化筹算如下:min Σ Huber_δ(log L̂(Nᵢ,Dᵢ) − log Lᵢ),其中Huber Loss是种对畸形值不敏锐的亏空函数(δ = 10⁻³),联络L-BFGS-B化器来搜索解。

问题出在个细节上:他们对每个样本的Huber Loss取了平均值(mean)而不是乞降(sum)。几百个样本平均,亏空值被压缩到了小的量。

L-BFGS-B化器有个内置的敛迹判据。当亏空值足够小时自动住手。它看到这样小的数值,误认为还是敛迹,平直停了。

化器根蒂莫得跑完。输出的参数不是实在的值。

Bug 2:要害参数只保留了两位极少。

Chinchilla论文里有两个竣事幂律体式的中枢指数,只保留到了极少点后两位。

看起来是伤大雅的四舍五入。

但从这两个毛糙的数反其他常数时,舛讹被指数放大。终的置信区间窄得分歧理,窄到需要过60万次实验能力达到的精度,而他们践诺只跑了不到500次。

个被全行业奉为圭臬的公式,背后藏着个loss函数没跑完的bug,况兼这个bug藏了整整两年。

Weng在博客里还附了个交互式模拟器,三个滑块区别竣事亏空精度、亏空噪声和拟合区间。

每动下,拟合出来的Scaling Law就变个样。

OpenAI的论断有局部偏差,DeepMind的论断有法论时弊。AI行业伏击的学术争论,双王人有缺欠。

数据快结束

前边三节讲的王人是拟正当的问题,参数怎么数、亏空怎么算、精度取几位。

但即使这些问题一起修好,经典Scaling Laws还有个根蒂的隐患——

它假定每个 教练数据 王人是唯的,不重叠、不训多轮,默许你有限的数据。

现实是,质料文本数据瞻望在2026到2028年之间就会被各大实验室涤荡殆尽。

数据重叠教练不可避,经典公式的前提正在坍塌。

2023年的项大界限实验训了约400个模子,从千万到90亿参数,多重叠教练1500轮。

中枢念念路是引入「迥殊据量」的主见来替代践诺数据量——

淌若你有U条唯数据重叠了R轮,迥殊据量并不是U×R,而是按D_eff = U·(1 - e^(-R))的指数衰减弧线折算。轮重叠还能学到不少新东西,到五轮、十轮,边缘学习收益趋近于。

他们还发现了个反直观的论断:饱和的参数比重叠的数据「贬值」得快。也即是,预算有限时,与其加大模子,不如多跑几轮教练合算。

2026年5月的篇新论文换了念念路。

他们不折算迥殊据量,而是平直在经典亏空公式后头加了个式的过拟合刑事连累项——模子重叠看同批数据越屡次,刑事连累越大,况兼这个刑事连累和模子大小挂钩。

他们的圆善公式长这样:

后阿谁红的刑事连累项是要害。

R是重叠次数,N/U是模子参数目和唯数据量的比值(模子相干于数据有多「过剩」),P、δ、κ王人是从实验中拟合出来的。重叠越多、模子越大,刑事连累越重。

这篇论文的中枢发现是:大模子对数据重叠敏锐。相同把数据重叠教练10轮,个5亿参数的模子可能还扛得住,但个50亿参数的模子能下落会严重得多。

另个工程上平直灵验的发现为:加强权重衰减(weight decay)不错著缓解重叠教练带来的过拟合。

这亦然为什么2025到2026年,扫数这个词行业的珍摄力集体转向了三条绕过数据墙的路——

强化学习,DeepSeek R1、OpenAI o系列,让模子在数学和编程等可考证的任务上自我博弈,产生教练信号。

测试时筹办,不增多教练资本,让模子在修起问题时多「想」几步来换取好的证据。

合成数据,用现存的强模子生成新数据来教练下代模子。

三条路的潜台词样:地谈靠「堆界限」的那条幂律,还是不够用了。

从北大到OpenAI到我方的公司

Lilian Weng,北大本科,印安纳大学伯明顿分校博士。

有有趣的是,她的博士向不是度学习,而是收罗科学与复杂系统,商榷的是信息在搪塞收罗里怎么传播。

她毕业后先去了Dropbox作念数据科学,又去了金融科技公司Affirm,2018年才加入OpenAI。

来到OpenAI后,Weng参与的个口头是机器东谈主。那只花了两年学会解魔的机械手Dactyl,她是中枢孝敬者之。

自后转去搭建哄骗商榷团队,GPT-4发布后被委任组建Safety Systems团队,到她离开时这个团队已有80多位科学、工程师和计谋。

2024年8月头衔升为VP of Research and Safety,三个月后文告离开。

2017年,Weng刚来往度学习不久,开了个叫Lil'Log的个东谈主博客,初仅仅为了整理我方的学习条记。

她曾说过,「把个主见讲解晰,是历练我方是否实在明白它的好式」。

恶果写即是九年,强化学习、扩散模子、大模子agent,每篇王人从基础旨趣写起,几十页长文配我方画的图解。

这个博客自后成了AI域被援用多的个东谈主本事博客之,好多大学平直拿来当课本。

2025年2月,她和前OpenAI CTO Mira Murati建立Thinking Machines Lab,联创还包括OpenAI联创John Schulman、前商榷VP Barret Zoph和Luke Metz。a16z投种子轮20亿好意思元,估值120亿。

而她在公司速进的同期,花时代写结束这篇拖了三年的Scaling Laws长文。

你每天用的ChatGPT、Claude、Gemini,背后王人是这些公式在决定下代怎么训。

下代AI好不好用,不取决于谁的GPU多,而取决于谁把这些细节处分得精准。地址:大城县广安工业区相关词条:不锈钢保温施工     塑料管材生产线     钢绞线厂家    玻璃棉板    泡沫板橡塑板专用胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述茂名储罐保温施工队,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。

产品中心

新闻资讯

联系鑫诚

18632699551

罐体保温工程_鑫诚防腐保温工程有限公司