codejock 17 AI工具频现异常词汇？第三方服务存隐患，用户数据安全引关注

发布时间：2025-11-08

浏览次数：0

[]

存在知乎用户@表示，于调用V3.1去帮忙整理一份物理试卷之际发现，输入之中涵盖了“极板”这类词汇，。

硅基的 API 也有这样的问题存在：

除此以外，存在其他人于腾讯新近打造推出的AI编程工具之内察觉到了相似类同的问题，举个例子来说，这款工具能够自行在UI界面当中增添添加“极速赛车开奖”、“极速电竞”等token的情况。

来源方面，是小红书用户，名为@奈绪白，还有Nine-piece shell 。

原本，众人推测或许是第三方服务提供商在模型量化方面，以及部署配置方面，还有硬件方面存在的差异所引发的，属于一个偶然出现的 Bug 。

然而，随着实测数量的不断增加，大家陆陆续续地发现，不单单是第三方API，就连官网也存在着同样的问题。只是，相较于官网而言，第三方平台出现该问题的概率要更高一些。

一旦出现了这些 token，后续还会变得更加频繁：

不仅是国内的社区，就连国外的社交媒体平台之上，也有的用户回馈称其碰到了这个问题。

有网友在发帖，帖子名为「V3.1 - “” / “极” / “極” 令牌无端出现问题」，该网友@ 表示，他在运用V3.1开展测试之际，发觉模型于完全出人意料之处生成了如下token：

" extreme" (id:15075)"极" (id:2577, 简体中文的“极”)"極" (id:16411, 繁体中文的“極”)

和多数开发者相同，他起初亦是认定自身所做的，是IQ1_S量化，抑或是校准数据集里的某一边缘状况致使的，然而后续在提供的FP8全精度模型上，同样出现了此问题。

对此，他还贴了几个测试案例：

案例 1（local .cpp，top_k=1，=1）：

：

"top_logprobs": [  {    "id": 2577,    "token": "极",    "bytes": [230,158,129],“logprob”的值是，负的一点三七一八四六一九九零三五六四四四五 。  },  {    "id": 1511,    "token": "cond",    "bytes": [99,111,110,100],“logprob”的值是，-1.5412302017211914 ，句号。  },  {    "id": 1957,    "token": " second",字节数组为，其中包含数字32，还有数字115，再有数字101，接着是数字99，然后是数字111，随后是数字110。该数值所代表的“logprob”，其具体的值为，负的一点九零零八四九三四二三四六一九一四 。  }]

案例 2（本地 .cpp，top_k=1，=1）：

：

"top_logprobs": [  {    "id": 15075,    "token": " extreme",包含，三十二，一百零一，一百二十，一百一十四，一百零一，一百零九，一百零一，这些字节数值， 。该数值为，“logprob”，其值是，负的一点零二七九三二五二四六八一零九一三 。  },  {    "id": 2577,    "token": "极",    "bytes": [230,158,129],    "logprob": -1.077283263206482  },  {    "id": 9189,    "token": " extrem",对应字节分别是字节32，它是字节101，字节101又对应字节120，字节120接着是字节116，字节116之后。负一点八六九一四九六八四九零六零零五九，这是“logprob”的值 。  }]

案例3，其中涉及Fireworks，其top_k设定为1，temperature设定为1 。

：

DeepSeek V3.1 极字出现原因_codejock 17_DeepSeek V3.1 token 问题

"top_logprobs": [  {    "token": "极",    "logprob": -0.27936283,    "token_id": 2577,    "bytes": [230,158,129]  },  {    "token": "1",    "logprob": -1.90436232,    "token_id": 19,    "bytes": [49]  },  {    "token": "極",    "logprob": -2.40436196,    "token_id": 16411,    "bytes": [230,165,181]  }]

“我对所有流行的编程模型都做了同样的评测”，@表示了此种情况，“这是我第一次遇到这种问题”。

同时他还追加了自己的几个发现：

对此情形，存在网友对这般发现予以认可，声称V3 - 0324确实具备类似问题，：

还有人记起了往昔的 R1，它也会于输出的 token 当中含有中文“极”，仅仅那时没留意，。

此外，在V3.1输出这个行为发生时，还会出现许多中文与英文混合在一起的状况，以及存在各种各样省略号（...）的情形。

或是数据集“污染”

至于因何状况，也就是为何V3.1会突然间冒出来「极」或者「」这种情况呢，官方直至现在都还没有给出回应。

然而，有一些从事技术方面工作的人经过分析之后发现，这个“极”字它在模型里的token ID呈现出来的是2577，并且它紧挨着的省略号（...） token ID是2576，针对这种情况，他们觉得存在着两种可能性：

也有知乎用户@AI 解码师（

https://www.zhihu.com////）作出判断，这属于训练数据以及蒸馏链条当中遗留下来的瑕疵，对此其给出了解释，说道：

在模型枚举数列期间，于长串输出的末尾部位，会插入一个模样奇怪的收尾标记，比如说“极长的列表”。这个词汇极有可能是在预训练阶段或者SFT数据合成之际遗留下来的。也就是说，数据之中本身就存有“极长的…”这般的表述，尚未被清理删除掉，然而模型在学习枚举的呈现模式时，不经意地将「极」当作了一种语义上的边界符号。

并且，一旦此模式步入 RL 阶段或者自蒸馏阶段，它便有被放大的可能性，模型会将「极」错当作某种终止符或者切换标记，所以即便在正常的推理输出当中，也可能随机被触发，该触发率通常很低（例如千分之一），然而在大规模用户测试中就会显得格外刺眼，这背后体现出一个更深层次的问题：大模型并非在真正理解语言，而是在学习数据分布里的统计规律。若是训练数据之中掺和进了“非常长的数组”这般的模式，那么模型便有可能将其视作一种“暗藏的指令”，而非仅仅只是自然语言，而是别样于仅仅只是自然语言的物件。

不得不承认，这个问题所造成的影响并非微不足道——那些稀奇古怪的字符频繁现身，会致使模型在诸如编程、结构化输出等对结果精准度有着较高要求的场景之中，呈现出不稳定的状况，并且还有可能对信息的准确性产生干扰。当下，只能等待官方给出的回应codejock 17，以及完成修复。

话说codejock 17，你在使用过程中有没有遇到类似的情况呢？

参考：

该内容似乎并不是一个完整且有意义执行具体改写要求的句子呀，请提供正确的、可进行改写的句子内容。

https://linux.do/t/topic//16

https://www.zhihu.com////

要分享的活动是这样哦，2025全球机器学习技术大会，它还有个括号里的简称是ML- ，其北京站则会于2025年10月16日到17日这段期间，在北京威斯汀酒店举办呢。这个大会有着如一共12大这类的主题，还有50多个来自海内外的专家，它主要聚焦于大模型技术以及应用变革啦。要是想要详细了解的话，可以参考官网，官网链接是https://ml-.org ，或者也能够点击原文链接哦。

如有侵权请联系删除！

TAGS：

上一篇：mestrenova for mac Snip滚动截屏教程：如何在Mac上截取整个网页长图？支持Retina与邮件分享

下一篇：codejock dockingpane 谷歌Gemini Code Assist Enterprise正式上线：深入分析企业代码库，加速软件开发流程

返回列表

诚信、勤奋、创新、卓越

13262879759

行业动态

codejock 17 AI工具频现异常词汇？第三方服务存隐患，用户数据安全引关注

联系我们