发布时间:2026-05-16
浏览次数:0
智能东西于4月24日传出消息,在过去的一个多月时间里,好多Code用户显著察觉到体验出现了“缩水”情况,回复变得简短,上下文记忆变得糟糕,代码质量也有了一定程度的下降,甚至有人调侃这款产品“降智了”。
GPT - 5.5恰好在今日凌晨正式亮相 ,登场没多久便随即发布一份技术报告 ,这份报告针对近期Code出现的 “降智” 波动情况 ,正面展开颇为直截的直接回应 , 说明其中涉及争议的问题并非是因为模型能力的退化 ,而是由于历经一段超过三十天的时间,多项共计三项产品出现了调整情况 ,并且这些调整叠加遭遇作用之后因而失效所引发的结果。同时还着重强调指出 ,这个GPT - 5.5版本绝对不会故意去降低模型性能 ,并且在今日这个时间节点 ,已经对所有订阅用户的使用额度予以重新设置排列好了。
经全面排查,定位到三个具体问题:
1、推理难度出现调整失当情况:在3月4日时,为了应对部分用户于“高”难度状况下所遭遇的界面卡顿问题,把Code默认推理难度降低到了“中”。然而用户给出反馈,更倾向于默认运用更高智能等级,只是在处理简单任务之际手动切换到低难度上面。所以,团队于4月7日把更改撤销,让其恢复到原来的默认设置,此次调整对4.6与Opus 4.6版本均产生了影响。
2、会话缓存优化功能在3月26日上线,其原本意图是,清除闲置超过一小时会话的历史思维记录,以此来降低延迟,然而程序漏洞致使该清除操作,在会话剩余时间里反复被触发,进而造成模型回答出现重复,工具选择也产生异常,其中缓存优化漏洞导致模型“健忘” ,此漏洞在4月10日修复,但影响范围涵盖4.6与Opus 4.6版本。
3、4月16日,系统提示有调整损害代码质量,有一则新增的此类提示是为精简输出冗余,然而该指令同其他规则叠加以后,致使代码生成质量出现下滑,团队在4月20日将该提示撤销,此次变更对4.6、Opus 4.6以及Opus 4.7版本造成了影响。
01.默认推理强度调整引发连锁反应
于最新公布的排查跟修复公告里透露,此次性能出现波动并非因单一缘由致使,乃是由三项独立功能的调整相互叠加所引发,其影响范围仅仅局限于Code、Agent SDK以及三款产品,核心API服务并未受到影响。截止到4月20日(v2.1.116),相关问题已然全部被修复。
公告表明,鉴于三次变更于影响范围跟持续时间层面存有不同,用户这边呈现出“普遍存在然而不稳定”的性能降低情况。这亦使得排查艰难程度有所提升。虽说团队于3月初就已然开启调查,不过刚开始的时候很难分清楚正常波动与异常问题,并且内部测试环境也没能在第一时间重现故障。为了弥补用户体验方面的损失,于是宣布从4月23日开始重新设定所有订阅用户的使用额度。
根据时间线而言,这一轮的问题最早能够追溯到今年2月的时候,在那个时候,于 Code 当中上线了 Opus 4.6 版本,并且把默认的推理强度设置为“高”,目的是为了提高模型的智能表现。然而上线之后没过多久,用户反馈表示,在高强度模式之下模型思考所花费的时间过长,这不但带来了明显的延迟情况,还显著地增加了 Token 的消耗。
Opus 4.7在不同模式下的token消耗量,与Opus 4.8在不同模式下的token消耗量不一样。
而为了这个缘故,针对默认设置展开了调整。Code里的“工作量级别”功能,其本来的意图是要让用户于“思考时间—输出质量—成本”之间去做权衡。内部所做测试表明,中等强度尽管在智能表现那儿稍有降幅,然而却能够大幅降低延迟、防止出现极端等待时间,与此同时提升使用效率。所以,团队曾经把默认模式切换成“中”,并且借助产品内弹窗予以说明。
然而,这一调整迅速引发了新的问题,众多用户察觉到模型“变弱”。虽然团队随后借助增加启动提示、内嵌难度选择器等办法引导用户调整设置,可是多数用户依旧采用默认配置,负面反馈不断累积。
通过产品内对话框解释了更改原因
多方面综合考量用户所提出的意见之后,最终于4月7日把这样的一项调整给撤回了,这项调整是,将Opus 4.7的默认工作量设定为1,这里的1对应着xhigh级别,而把其余的模型默认工作量设为2,2对应着high级别,现在进行了撤回操作,恢复到更高的推理强度状态。
02.让模型“健忘”的缓存漏洞
进行正常设计时,完成一回推理后,其思考的进程会被留存于对话的历史当中。如此一来,在后续每一回合的交互里面,模型能够追溯之前为何开展某项编辑或者调用某个工具的缘由,进而维持决策的一致性以及连贯性。
3月26日,一项性能优化上线了,它引入了“提示缓存”机制,其目的在于降低连续API调用成本,并且提升响应速度。具体来讲,在发起请求的时候,会把输入内容写入缓存;当会话长时间处于不活跃状态之后,缓存内容会被清理掉,从而释放资源,进而提升整体效率。
按照最初设计的逻辑情况,这样一项机制是相对较为简单的,当会话处于闲置状态超过一个小时的时候,系统会在同一时间清理掉旧的推理记录,以此来减少恢复会话时所产生的资源消耗,在用户继续进行交互之后,重新恢复完整的推理历史。
然而于实际达成之中,此一机制涌现出了关键弊病:推理过往并非仅被清理一回,却是在后续每一轮的对话里持续遭受清除啊。一旦会话超出闲置界限,之后的每一个请求都会指令API仅仅留存最新的一段推理数据,并且舍弃此前的所有记载呢。
甚至于更严重的情况发生了,在工具调用的这个过程当中,要是用户插入了新的消息,那么系统有可能会在“上下文已经损坏”这样的状态之下开启新一轮的交互,甚至连当前回合的推理信息也会被清除掉。最终所呈现出来的表现就是,依旧会继续执行任务,然而却会越来越模糊此前执行操作时的决策依据,而这正是用户反馈的健忘、回答重复、工具选择异常等等问题的根源所在。
与此同时,鉴于该漏洞不断移除上下文信息,致使后续请求频繁出现缓存未被录入的状况且增加了Token消耗,有人觉得这也是部分用户反馈“使用额度消耗异常加快”的关键缘由。
之所以这一问题难以及时发现,存在主要两方面原因,其一,它仅于“长时间闲置会话”等极端状况下触发,其二,两项内部并行实验在一定程度上把问题表现掩盖了,其中涵盖一项消息队列相关的服务器端实验,还有一项对“思维过程展示”的功能调整,恰巧是這后者在多数场景里抑制了异常现象,致使问题在测试阶段没能暴露。
在技术层面予以审视,那个漏洞所处位置是Code上下文管理、API以及扩展推理机制相互交汇的地方。与之相关的代码变更历经了好多轮的人工审查以及自动化审查,而且单元测试完成了,端到端测试也完成了,内部验证也做好了。然而因为触发这一漏洞的条件十分苛刻,复现它的难度极其高,所以团队最终耗费了超过一周的时间才摸索到根因,并且在4月10日发布的v2.1.101版本里成功完成了修复。
对于事后复盘,团队运用Opus 4.7针对相干代码提交搞回溯分析codejock 16,在给出完整代码仓库上下文后,此模型成功辨别出漏洞,然而Opus 4.6却没能发觉。宣称,往后会优化代码审查流程,引进更大规模上下文支持,用以提高模型辅助开发的有效性。
03.系统提示优化的“副作用”
与此同时,Opus 4.7发布,模型在复杂任务里的表现显著增强,输出内容变得更为详尽,随之带来更高的Token消耗。
对于此情况,于 Opus 4.7 发布之前的数周之际,就已然着手开展对 Code 的适配优化工作。鉴于不同模型在行为方面存有差异,所以在每一次的版本产生更新以前,团队都会针对提示策略以及产品体验展开系统性的调整。
于减少冗余输出这一方面,团队运用了众多手段,涵盖模型训练优化、提示词设计以及交互体验改进,当中,一项关键调整乃是在系统提示里增添清晰的长度限制:
工具调用相互间的文本,不会超出25字;最终的回复,不会超过100字(除非任务确实有需求)。
这一改动codejock 16,于内部测试阶段,未呈现出明显的问题,多组评估的结果,也并未显示出性能有所下降,所以,团队在4月16日,伴随着Opus 4.7版本,一同将该策略予以上线。
而在后续规模更大的评估里头,借助消融实验(也就是逐条去移除提示语从而分析影响)发觉,这一长度限制给模型能力带来了负面作用,Opus 4.6的整体性能下降了大约3%,Opus 4.7的整体性能同样下降了约3%。
基于这一结果,于4月20日立即恢复了提示。
为防止类似问题再度出现,宣称会于产品使用、研发流程、沟通机制等诸多层面予以改进。其一,团队会拓宽内部真正使用场景,保证更多员工直接运用Code的公开版本,而非仅仅依靠测试环境里的预发布版本,借此更早发觉潜在问题。与此同时,公司还会升级内部代码审查工具,且打算把相关改进能力逐步给开发者开放使用。
关于技术流程方面,会对系统提示变更的管理进一步加以收紧,往后时期内,每次针对 Code 的提示做出调整时,都得在各异模型上展开全面评估,并且要借助持续进行的消融测试(逐个去验证每一行提示所产生的影响)来保障稳定性,团队还研制出了全新的审查与审计用具,用以提高提示变更的可追溯性以及可控性,另外,在.md 文件里亦已补充了相关规范,明确不同模型的提示调整界限范围,防止出现跨模型干扰的情况。
对于那些有可能对模型的智能展现加以影响的一些改动的情况,表明将会把测试周期予以延长,还会把评估数据集进行扩大处理,并且会采用一种渐进式的发布策略,以此能够在早期的阶段将问题识别出来,进而对问题进行修复。
对于外部沟通这块,公司于X平台上线了@账号,目的是能更具透明度地去阐释产品决策及其对应的技术背景,与此同时,在集中讨论帖当中也会同步更新相关进展,以此来强化与开发者社区之间的互动。
最后作出表示,此次问题得以定位以及修复,是离不开用户持续反馈的。不管是经由反馈渠道所提交的问题,还是公开分享出来的能够复现的案例,都给排查提供了关键线索。作为一种回应,公司在今日对所有订阅用户的使用额度进行了重置。
04.结语:不只是更聪明,更要更可靠
这场存在所谓“降智”情况的风波,从本质的角度来讲,并不是模型自身能力出现了退步,而是工程方面以及产品决策在极为复杂的系统里相互叠加之后所产生的那种意外的后果。
对于其本身来讲,这般公开复盘不但属于一回危机对付,还属于一回向外放出信号。于跟其他对手加快角逐这样的背景状况之下,稳定且可靠的产品体验或许正是变为同“更强模型”同样关键的竞争层面了。
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码