你好,欢迎进入江苏优软数字科技有限公司官网!

诚信、勤奋、创新、卓越

友好定价、专业客服支持、正版软件一站式服务提供

13262879759

工作日:9:00-22:00

codejock 17 AI工具频现异常词汇?第三方服务存隐患,用户数据安全引关注

发布时间:2025-11-08

浏览次数:0

[]

存在知乎用户@表示,于调用V3.1去帮忙整理一份物理试卷之际发现,输入之中涵盖了“极板”这类词汇,。

硅基的 API 也有这样的问题存在:

除此以外,存在其他人于腾讯新近打造推出的AI编程工具之内察觉到了相似类同的问题,举个例子来说,这款工具能够自行在UI界面当中增添添加“极速赛车开奖”、“极速电竞”等token的情况 。

来源方面,是小红书用户,名为@奈绪白,还有Nine-piece shell 。

原本,众人推测或许是第三方服务提供商在模型量化方面,以及部署配置方面,还有硬件方面存在的差异所引发的,属于一个偶然出现的 Bug 。

然而,随着实测数量的不断增加,大家陆陆续续地发现,不单单是第三方API,就连官网也存在着同样的问题。只是,相较于官网而言,第三方平台出现该问题的概率要更高一些。

一旦出现了这些 token,后续还会变得更加频繁:

不仅是国内的社区,就连国外的社交媒体平台之上,也有的用户回馈称其碰到了这个问题 。

有网友在发帖,帖子名为「V3.1 - “” / “极” / “極” 令牌无端出现问题」,该网友@ 表示,他在运用V3.1开展测试之际,发觉模型于完全出人意料之处生成了如下token:

" extreme" (id:15075)"极" (id:2577, 简体中文的“极”)"極" (id:16411, 繁体中文的“極”)

和多数开发者相同,他起初亦是认定自身所做的,是IQ1_S量化,抑或是校准数据集里的某一边缘状况致使的,然而后续在提供的FP8全精度模型上,同样出现了此问题。

对此,他还贴了几个测试案例:

案例 1(local .cpp,top_k=1,=1):

"top_logprobs": [  {    "id": 2577,    "token": "极",    "bytes": [230,158,129],“logprob”的值是,负的一点三七一八四六一九九零三五六四四四五 。  },  {    "id": 1511,    "token": "cond",    "bytes": [99,111,110,100],“logprob”的值是,-1.5412302017211914 ,句号。  },  {    "id": 1957,    "token": " second",字节数组为,其中包含数字32,还有数字115,再有数字101,接着是数字99,然后是数字111,随后是数字110。该数值所代表的“logprob”,其具体的值为,负的一点九零零八四九三四二三四六一九一四 。  }]

案例 2(本地 .cpp,top_k=1,=1):

"top_logprobs": [  {    "id": 15075,    "token": " extreme",包含,三十二,一百零一,一百二十,一百一十四,一百零一,一百零九,一百零一,这些字节数值, 。该数值为,“logprob”,其值是,负的一点零二七九三二五二四六八一零九一三 。  },  {    "id": 2577,    "token": "极",    "bytes": [230,158,129],    "logprob": -1.077283263206482  },  {    "id": 9189,    "token": " extrem",对应字节分别是字节32,它是字节101,字节101又对应字节120,字节120接着是字节116,字节116之后。负一点八六九一四九六八四九零六零零五九,这是“logprob”的值 。  }]

案例3,其中涉及Fireworks,其top_k设定为1,temperature设定为1 。

DeepSeek V3.1 极字出现原因_codejock 17_DeepSeek V3.1 token 问题

"top_logprobs": [  {    "token": "极",    "logprob": -0.27936283,    "token_id": 2577,    "bytes": [230,158,129]  },  {    "token": "1",    "logprob": -1.90436232,    "token_id": 19,    "bytes": [49]  },  {    "token": "極",    "logprob": -2.40436196,    "token_id": 16411,    "bytes": [230,165,181]  }]

“我对所有流行的编程模型都做了同样的评测”,@表示了此种情况,“这是我第一次遇到这种问题”。

同时他还追加了自己的几个发现:

对此情形,存在网友对这般发现予以认可,声称V3 - 0324确实具备类似问题, :

还有人记起了往昔的 R1,它也会于输出的 token 当中含有中文“极”,仅仅那时没留意,。

此外,在V3.1输出这个行为发生时,还会出现许多中文与英文混合在一起的状况,以及存在各种各样省略号(...)的情形。

或是数据集“污染”

至于因何状况,也就是为何V3.1会突然间冒出来「极」或者「」这种情况呢,官方直至现在都还没有给出回应。

然而,有一些从事技术方面工作的人经过分析之后发现,这个“极”字它在模型里的token ID呈现出来的是2577,并且它紧挨着的省略号(...) token ID是2576,针对这种情况,他们觉得存在着两种可能性:

也有知乎用户@AI 解码师(

https://www.zhihu.com////)作出判断,这属于训练数据以及蒸馏链条当中遗留下来的瑕疵,对此其给出了解释,说道:

在模型枚举数列期间,于长串输出的末尾部位,会插入一个模样奇怪的收尾标记,比如说“极长的列表”。这个词汇极有可能是在预训练阶段或者SFT数据合成之际遗留下来的。也就是说,数据之中本身就存有“极长的…”这般的表述,尚未被清理删除掉,然而模型在学习枚举的呈现模式时,不经意地将「极」当作了一种语义上的边界符号。

并且,一旦此模式步入 RL 阶段或者自蒸馏阶段,它便有被放大的可能性,模型会将「极」错当作某种终止符或者切换标记,所以即便在正常的推理输出当中,也可能随机被触发,该触发率通常很低(例如千分之一),然而在大规模用户测试中就会显得格外刺眼,这背后体现出一个更深层次的问题:大模型并非在真正理解语言,而是在学习数据分布里的统计规律 。若是训练数据之中掺和进了“非常长的数组”这般的模式,那么模型便有可能将其视作一种“暗藏的指令”,而非仅仅只是自然语言,而是别样于仅仅只是自然语言的物件。

不得不承认,这个问题所造成的影响并非微不足道——那些稀奇古怪的字符频繁现身,会致使模型在诸如编程、结构化输出等对结果精准度有着较高要求的场景之中,呈现出不稳定的状况,并且还有可能对信息的准确性产生干扰。当下,只能等待官方给出的回应codejock 17,以及完成修复 。

话说codejock 17,你在使用过程中有没有遇到类似的情况呢?

参考:

该内容似乎并不是一个完整且有意义执行具体改写要求的句子呀,请提供正确的、可进行改写的句子内容 。

https://linux.do/t/topic//16

https://www.zhihu.com////

要分享的活动是这样哦,2025全球机器学习技术大会,它还有个括号里的简称是ML- ,其北京站则会于2025年10月16日到17日这段期间,在北京威斯汀酒店举办呢。这个大会有着如一共12大这类的主题,还有50多个来自海内外的专家,它主要聚焦于大模型技术以及应用变革啦。要是想要详细了解的话,可以参考官网,官网链接是https://ml-.org ,或者也能够点击原文链接哦 。

如有侵权请联系删除!

13262879759

微信二维码