发布时间:2025-11-08
浏览次数:0
[]
存在知乎用户@表示,于调用V3.1去帮忙整理一份物理试卷之际发现,输入之中涵盖了“极板”这类词汇,。
硅基的 API 也有这样的问题存在:
除此以外,存在其他人于腾讯新近打造推出的AI编程工具之内察觉到了相似类同的问题,举个例子来说,这款工具能够自行在UI界面当中增添添加“极速赛车开奖”、“极速电竞”等token的情况 。
来源方面,是小红书用户,名为@奈绪白,还有Nine-piece shell 。
原本,众人推测或许是第三方服务提供商在模型量化方面,以及部署配置方面,还有硬件方面存在的差异所引发的,属于一个偶然出现的 Bug 。
然而,随着实测数量的不断增加,大家陆陆续续地发现,不单单是第三方API,就连官网也存在着同样的问题。只是,相较于官网而言,第三方平台出现该问题的概率要更高一些。
一旦出现了这些 token,后续还会变得更加频繁:
不仅是国内的社区,就连国外的社交媒体平台之上,也有的用户回馈称其碰到了这个问题 。
有网友在发帖,帖子名为「V3.1 - “” / “极” / “極” 令牌无端出现问题」,该网友@ 表示,他在运用V3.1开展测试之际,发觉模型于完全出人意料之处生成了如下token:
" extreme" (id:15075)"极" (id:2577, 简体中文的“极”)"極" (id:16411, 繁体中文的“極”)
和多数开发者相同,他起初亦是认定自身所做的,是IQ1_S量化,抑或是校准数据集里的某一边缘状况致使的,然而后续在提供的FP8全精度模型上,同样出现了此问题。
对此,他还贴了几个测试案例:
案例 1(local .cpp,top_k=1,=1):
:
"top_logprobs": [{"id": 2577,"token": "极","bytes": [230,158,129],“logprob”的值是,负的一点三七一八四六一九九零三五六四四四五 。},{"id": 1511,"token": "cond","bytes": [99,111,110,100],“logprob”的值是,-1.5412302017211914 ,句号。},{"id": 1957,"token": " second",字节数组为,其中包含数字32,还有数字115,再有数字101,接着是数字99,然后是数字111,随后是数字110。该数值所代表的“logprob”,其具体的值为,负的一点九零零八四九三四二三四六一九一四 。}]
案例 2(本地 .cpp,top_k=1,=1):
:
"top_logprobs": [{"id": 15075,"token": " extreme",包含,三十二,一百零一,一百二十,一百一十四,一百零一,一百零九,一百零一,这些字节数值, 。该数值为,“logprob”,其值是,负的一点零二七九三二五二四六八一零九一三 。},{"id": 2577,"token": "极","bytes": [230,158,129],"logprob": -1.077283263206482},{"id": 9189,"token": " extrem",对应字节分别是字节32,它是字节101,字节101又对应字节120,字节120接着是字节116,字节116之后。负一点八六九一四九六八四九零六零零五九,这是“logprob”的值 。}]
案例3,其中涉及Fireworks,其top_k设定为1,temperature设定为1 。
:

"top_logprobs": [{"token": "极","logprob": -0.27936283,"token_id": 2577,"bytes": [230,158,129]},{"token": "1","logprob": -1.90436232,"token_id": 19,"bytes": [49]},{"token": "極","logprob": -2.40436196,"token_id": 16411,"bytes": [230,165,181]}]
“我对所有流行的编程模型都做了同样的评测”,@表示了此种情况,“这是我第一次遇到这种问题”。
同时他还追加了自己的几个发现:
对此情形,存在网友对这般发现予以认可,声称V3 - 0324确实具备类似问题, :
还有人记起了往昔的 R1,它也会于输出的 token 当中含有中文“极”,仅仅那时没留意,。
此外,在V3.1输出这个行为发生时,还会出现许多中文与英文混合在一起的状况,以及存在各种各样省略号(...)的情形。
或是数据集“污染”
至于因何状况,也就是为何V3.1会突然间冒出来「极」或者「」这种情况呢,官方直至现在都还没有给出回应。
然而,有一些从事技术方面工作的人经过分析之后发现,这个“极”字它在模型里的token ID呈现出来的是2577,并且它紧挨着的省略号(...) token ID是2576,针对这种情况,他们觉得存在着两种可能性:
也有知乎用户@AI 解码师(
https://www.zhihu.com////)作出判断,这属于训练数据以及蒸馏链条当中遗留下来的瑕疵,对此其给出了解释,说道:
在模型枚举数列期间,于长串输出的末尾部位,会插入一个模样奇怪的收尾标记,比如说“极长的列表”。这个词汇极有可能是在预训练阶段或者SFT数据合成之际遗留下来的。也就是说,数据之中本身就存有“极长的…”这般的表述,尚未被清理删除掉,然而模型在学习枚举的呈现模式时,不经意地将「极」当作了一种语义上的边界符号。
并且,一旦此模式步入 RL 阶段或者自蒸馏阶段,它便有被放大的可能性,模型会将「极」错当作某种终止符或者切换标记,所以即便在正常的推理输出当中,也可能随机被触发,该触发率通常很低(例如千分之一),然而在大规模用户测试中就会显得格外刺眼,这背后体现出一个更深层次的问题:大模型并非在真正理解语言,而是在学习数据分布里的统计规律 。若是训练数据之中掺和进了“非常长的数组”这般的模式,那么模型便有可能将其视作一种“暗藏的指令”,而非仅仅只是自然语言,而是别样于仅仅只是自然语言的物件。
不得不承认,这个问题所造成的影响并非微不足道——那些稀奇古怪的字符频繁现身,会致使模型在诸如编程、结构化输出等对结果精准度有着较高要求的场景之中,呈现出不稳定的状况,并且还有可能对信息的准确性产生干扰。当下,只能等待官方给出的回应codejock 17,以及完成修复 。
话说codejock 17,你在使用过程中有没有遇到类似的情况呢?
参考:
该内容似乎并不是一个完整且有意义执行具体改写要求的句子呀,请提供正确的、可进行改写的句子内容 。
https://linux.do/t/topic//16
https://www.zhihu.com////
要分享的活动是这样哦,2025全球机器学习技术大会,它还有个括号里的简称是ML- ,其北京站则会于2025年10月16日到17日这段期间,在北京威斯汀酒店举办呢。这个大会有着如一共12大这类的主题,还有50多个来自海内外的专家,它主要聚焦于大模型技术以及应用变革啦。要是想要详细了解的话,可以参考官网,官网链接是https://ml-.org ,或者也能够点击原文链接哦 。
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码