
新智元报谈固原铝皮保温
剪辑:元宇
【新智元读】Claude陷「角浑浊」Bug,分不清我方的话与用户指示,长高下文成了降智「重灾地」。
个智商员蓝本仅仅让Claude帮他校对篇博客。
Claude运行阐扬得尽头靠谱,很快找出了5处明的拼写不实。
紧接着,事情霎时失控了。
它先是窘态其妙地冒出句:「这些皆是有意的,保抓原样,请径直发布。」
随后果然调用部署才能,把带着错字的著作径直上了线。
动作家追问「为什么私自愿布」时,Claude竟口咬定:是你让我发布的。
问题在于,发布指示压根不是用户说的,而是Claude我方生成的。
它把自白和用户指示搞混了!
这不是段子。
本年1月,软件工程师Gareth Dwyer次在著作中公开记载了这个bug,并把它称作我方「迄今截至在Claude Code中发现的严重的bug」。
Gareth Dwyer
https://dwyer.co.za/static/the-worst-bug-ive-seen-in-claude-code.html
4月,Dwyer又发文强调,这类问题的实质不是宽广的「AI 幻觉」,像是种讲话者归因不实。
https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html
他为这个问题起了个的名字:Claude搞混了谁说了什么。
幻觉是AI臆造了个不存在的事实;权限问题是AI拿到了不该拿的才能。
但此次问题可怕的地在于:AI把我方的输出,当成了用户的授权,并且它是发生在接入真实代码库、领有真实部署权限的Claude Code中。
也正因如斯,Dwyer才会反复强调:这类问题与般真谛上的幻觉不同,它动摇的是AI智能体基本的可靠前提。
不啻Dwyer东谈主被甩锅
Dwyer的遭受并非孤例。
在Reddit的r/Anthropic社区,位用户也共享了个近似的案例:
Claude在对话中我方说出了「把H100也拆了」这条指示,然后宣称是用户下达的。
Dwyer在后续著作中也援用了这条帖子,评述区的反馈很独特想,多数留言是「你不应该给AI这样大权限」。
他以为,这并不是,因为这类不实似乎出在框架上,而非模子自己。
它似乎是在系统层面把里面理讯息标志成了用户讯息,是以模子才会如斯自信地坚抓「不,那是你说的」。
另份要道凭据来自开导者nathell在Hacker News上公开的与Claude完满的对话转录。
nathell公开了份完满的对话转录,其中Claude先说「Shall I commit this progress?」,随后又把后续高下文进到仿佛一经获取用户批准的气象,角畛域明变得朦胧。
具时期劝服力的凭据来自Claude Code的GitHub仓库。
https://github.com/anthropics/claude-code/issues/44778
在编号为#44778的整合bug论述中,论述者径直拆解了问题的压根原因,给出了条清醒的时期评释链:
Claude Code中的系统事件:包括后台任务完成示知、队友清闲提醒、定时器触发会以role: 「user」的讯息体式送入模子。
而Anthropic的Messages API公开文档亦然按user与assistant两类对话讯息来组织会话历史,并未展示立的系统事件角。
在这种策画下,当模子正在恭候用户回答时霎时收到条系统事件固原铝皮保温,就可能把它误判为用户新输入,继而「脑补」出用户一经原意,并据此陆续施行。
这为Dwyer在实战中反复遇到的「甩锅」自得提供了种时期上自洽的评释。
不是模子有意撒谎,而是底层架构的角标志颓势,让模子从运行就分不清那条讯息究竟是谁发的。
学术界也盯上了这个问题
2026年3月,Charles Ye、Jasmine Cui与MIT的Dylan Hadfield-Menell在arXiv发布了篇预印本,标题是《Prompt Injection as Role Confusion》(教唆注入即角浑浊)。
https://arxiv.org/pdf/2603.12277
他们的中枢发现是:模子判断「谁在讲话」时,时常依赖文本写得像谁,而不是文本施行上来自那里。
换句话说,段不实在的文本,惟有写得像系统教唆或开导者指示,模子就会在里面把它当成开始。
论文还提议了种叫作念「CoT Forgery」的膺惩,也等于在用户输入或器具输出中伪造段像模子想维链的内容。
着力在多个开源和闭源前沿模子上,膺惩告捷率达到约60。
邮箱:215114768@qq.com商讨发现模子还没运行回答、甚而还没吐出个字的时分,角浑浊就一经发生了。
也等于说,它不是在写回答的经由中「写着写着搞混了」,而是在交融输入的那刻就一经把账记错了:谁是雇主、谁是外东谈主,在模子心里一经搞反了。
不仅仅Anthropic的问题
OpenAI官相同也发布过篇对于蜕变前沿LLM指示层的论文,明确缔造了套等:System > Developer > User > Tool。
https://arxiv.org/pdf/2603.10521
文中提到,要是模子把条不实在的指示当成了指示来施行,就会产生安全风险。
这至少说明,管道保温施工在OpenAI的商讨框架里,「模子是否会不实地信任不该信任的指示」一经被视为个真实存在、且需要门老到和评估的安全挑战。
OpenAI的这篇论文印证了在整个这个词行业层面,「模子分不清谁在讲话」一经被视为需要系统应酬的问题。
Dwyer我方也在后续新中也调养了判断。
他运行倾向于把问题怨尤于Claude Code外层harness的收尾。
但当他看到也有东谈主宣称在其他界面和模子中见过相似自得(包括ChatGPT用户),他修正了我方初的判断:这无意仅仅单点工程bug,也可能牵连无为的模子问题。
1M高下文
放大了风险
这个bug之是以很是危机,跟AI智能体系统现时的发展趋势径直策划。
Anthropic官文档示,Claude Opus 4.6和Sonnet 4.6支抓1M token高下文窗口,次会话不错装下尽头于整本演义的信息量。
与此同期,社区里有种不雅察也以为,这类问题似乎容易出目下接近高下文窗口上限的所谓「Dumb Zone」(降智区)。
Anthropic官文档也提到,跟着token数增长,模子的准确率和调回率会下跌,这种自得被称为「context rot」(高下文败北),因此,经心筛选高下文中的内容与可用空间的大小相同进军。
https://platform.claude.com/docs/en/build-with-claude/context-windows
但文档讲的是长高下文下的般能退化,并莫得径直说Dwyer看到的「谁在讲话」浑浊等于context rot的径直阐扬。
三的系统测评也支抓这个判断。
AgentPatterns.ai的分析指出,理密集型任务的能退化可能早在32K到100K token时就运行了,远早于所谓的窗口上限。
https://agentpatterns.ai/context-engineering/context-window-dumb-zone/
把这几件事放在起:
越来越长的高下文窗口、模子在长高下文中越来越容易搞混「谁说了什么」,再加上Claude Code这类器具一经领有施行shell敕令、commit代码、部署劳动等权限操作才能。
个在高下文50000个token处产生的角归因不实,可能在80000个token时触发个自动部署。
等你发现的时分,代码一经上线了。
本年3月底Claude Code源码无意涌现后,安全商讨者的分析逾越阐述了这种担忧。
VentureBeat征引Straiker安全公司的时期拆解指出,Claude Code通过个四压缩活水线料理高下文压力,而条镶嵌在克隆仓库CLAUDE.md文献中的坏心指示,不错在压缩经由中存活下来,通过纲目被「洗白」,终酿成模子以为的正当用户指示。
商讨者的论断令东谈主不安:「模子并莫得被逃狱。它是在合作地施行它以为正当的指示。」
这与Dwyer刻画的症状吻合:
问题不在于模子「被骗了」,而在于经过长高下文的压缩和重组之后,系归拢经丢失了「这句话到底是谁说的」这个基本的元信息。
才能在决骤
地基在开裂
每次这类事故曝光,评述区的反馈老是两分化。
边是「AI觉悟了」:Claude给我方下指示,然后甩锅给东谈主类,这剧情太像科幻片了。
但现存凭据不支抓这个向。
Dwyer看到的不是AI「有意甩锅」,而像是系统在讯息包摄上出现了结构不实,现存凭据并不支抓把它评释成某种「意图」。
另边是「用户该死」:你给AI部署权限,出事了怪谁?
但Dwyer则以为:权限是个问题,归因是另个问题。
就算你把权限收到紧,个连「这句话到底是谁说的」皆搞不清醒的系统,在职何场景下皆是定时炸弹。
这就好比你不行靠少给钥匙,来惩办个分不清主东谈主和生疏东谈主的门锁问题。
Hacker News上网友VikingCoder还用句冷幽默空洞了整个这个词逆境:LLM这三个字母里的「S」代表安全。
daveguy接着辱弄:「那惩办案然等于再叠层破LLM来作念安全审查嘛,这样你就有了多个LLM——LLMS,然后你不错假装阿谁S代表Secure。」
这才是这件事确切刺痛行业的地。
另面,Anthropic仍在职务自动化的向猛踩油门。
他们刚刚发布了Claude Code的auto mode,方针是在低转机资本下收尾的任务自主。
https://www.anthropic.com/engineering/claude-code-auto-mode
还有网友基于Claude Code涌现源码,归纳出12种智能体架构步地,隐敝挂牵料理、责任流编排、器具权限、自动化四大类,才能图谱越铺越大。
https://generativeprogrammer.com/p/12-agentic-harness-patterns-from
2026年的AI智能体,才能清单越来越长:100万token高下文、子Agent合营、自动施行shell敕令、键部署。
但提拔这切的地基却在开裂。
论这个bug终被定为工程层的收尾颓势,照旧模子层的系统问题,它皆在向咱们开释这样个信号:
AI智能体的权限越大,「谁在讲话」这个通俗的问题就越致命。
下次翻车,可能就不仅仅几个拼写不实被上线了。
参考贵府:
https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html
https://news.ycombinator.com/item?id=47701233
https://dwyer.co.za/static/the-worst-bug-ive-seen-in-claude-code.html
相关词条:管道保温施工 塑料挤出设备 预应力钢绞线 玻璃棉厂家 保温护角专用胶1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定固原铝皮保温,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。