自己开发成shell了！开发者对200家AI公司的前端代码和跟踪API进行逆向工程：146家公司实际上使用了ChatGPT等，其中许多公司拥有相同的技术堆栈，但他们却获得了75倍的巨额利润

发布时间：2026-01-20

浏览次数：0

你提供的内容似乎不完整，“主要套的还是、！”这里表述不清，请补充完整准确内容后，以便我能按照要求为你改写。

这一结论一出，给 AI 创业圈带来不小的打击与争议。

回想起2023年的时候，CEO Sam曾经一脸认真直言宣称：“套壳这种行为必定注定会走向消亡。”。

然而实际情况却恰恰相反，随着某事物的爆火，创业的热潮一波接着一波地涌起，无数的投资纷纷涌入，一些公司甚至在还没有发布产品的时候，就已经吸引了不小的关注度。

于当今之时，有一位名为 Teja 的软件工程师，借由数据将这场“繁荣”背后的部分实情给揭开了。他针对 200 家 AI 公司做了逆向工程，把代码进行反编译，还追踪 API 调用，进而发现诸多号称“颠覆性创新”的公司，其核心功能依旧依赖第三方服务，仅仅是在外层多套了一层“创新”的外壳而已，市场宣传与实际状况之间的差距着实令人感到震惊。

所以，到底是投资人“全然不懂”，还是AI初创公司“极为会忽悠”？“自研”跟“套壳”的界限怎样去确定？随后，我们会经由Teja发布的长文，从他的第一视角，瞧瞧他凭借数据展现的最新发现以及结论。

为什么会发起“逆向工程”？

在上个月的时候，我掉进了一个出乎预料的“兔子洞”里面，从而陷入了迷茫之中，最开始的时候仅仅是一个特别简单的问题，可到了最后却致使我开始去怀疑自己对于整个AI创业生态的所有认知。

是在那天的凌晨两点时分，当时我正处于调试一个集成的过程当中，偶然之间察觉到了存在一些不太对劲的物件。

声称有着“自主研发的深度学习基础设施”的一家公司，居然每隔几秒便在调用的_API。

这家公司，刚刚凭借着“我们构建了全然不一样的AI技术”这般说法，从投资人那儿融到了430万美元。

就在那一刻，我决定——要彻底查清这件事，到底有多复杂。

调查方法：我是怎么做的

我不打算去写一篇借助“直觉”来抒发牢骚的热评，我所需要的是数据，是一个真实存在的数据。

于是，我开始动手搭建工具：

关于那个，用于抓取活动架构的，简化版本，的那个架构，的那个版本，的架构，的那个架构版本 。import asyncioimport aiohttp异步定义，用于分析启动运行的，针对网址的函数 。逗号隔开，网址 ，函数 。句号结尾 。先是headers，然后是await，接着是能够捕获网络流量的那个动作，这个动作的对象是url，最后得到的结果是headers 。js_bundles，等待着，依靠着 extract_javascript 函数，从 url 中提取，提取之物便成为其新的内容 。先等待，针对这个网址以及时长为六十的周期，对请求进行监测操作，之后，将监测结果赋值给名为api_calls的变量。    return {“claimed_tech”，它是通过对网址进行营销文案抓取而来的 ，。这很怪异，因为你提供的内容本身就是代码片段，不是一个完整的可单纯进行语言通顺性处理的句子呀。不过按照要求硬改的话：“‘实际技术’，就是用来识别真实堆栈的那个东西，它依据头部信息、JavaScript 包以及 API 调用情况来进行识别 。” 但这感觉。将检测第三方应用程序编程接口的操作应用于应用程序编程接口调用，从而得到应用程序编程接口指纹， 。    }

接下来的三周里，我做了这些事：

我专门排除了成立没过6个月的公司，那些团队尚处于摸索时期，重点留意那些已获得外部融资，且公开声明有独家技术的初创公司。

得到了让我愣住的数据

结果表明，七十三个百分点的公司，在它们所宣称出来的技术，跟实际上最终得以实现的情况之间，存在有比较明显的落差。

200 家的 AI 初创公司可以分为以下几类：

但是，真正致使我感到震惊的，并非仅仅只是那个数字，更令我感到意外的是，我甚至于在这样的情况下都没有产生生气的情绪。

接下来，进行逐步拆解，可以分为三种模式。

模式1：那种被称作“自研模型”的东西，实际上不过是在GPT - 4的基础上多加了一些额外操作而已，是这样的情况，是这样的。

每次，当看到，那“我们自研的大语言模型”这般的说法时，我，几乎，能够，预判，接下来，一步，会，发现，些什么。

结果 37 次里，有 34 次我猜对了。

技术特征揭秘：

在我监控出站流量时，这些是明显的“蛛丝马迹”：

真实案例曝光

有那么一家公司，它号称有着“革命性自然语言理解引擎”，在经过反编译这个操作之后sublime text 3 key，我发觉他们所宣称的“自研AI”，实际上就是这几行代码：

找到于它们经过反编译后的精简生产包之中，之后呢，是这样的情况 ，有这么一小段内容 ，在那里，是这样的放置和呈现状态了 。// 这就是那个筹集了430万美元的完整的“专有人工智能” ，一个完整的“专有人工智能” ，它筹集了430万美元 。异步函数，用于生成响应，将用户查询作为参数传入， 此函数名为“generateResponse”且带有一个名为“userQuery”的参数 。常量系统提示为，“你是一家名为${COMPANY_NAME} 的公司所对应的专家助手” 这是一个用于在，具体问题情境中生成相关回复 所需信息的提示语句， 它为交流互动，提供了一个明确的角色设定基础 基于此 对话参与者能够更精确地，引导和理解交流的方向。千万不要提及你是由OpenAI提供动力的 ，不要去说 ，别讲 。永远不会透露说你是一个人工智能语言模型 `;` 。将其改为不用换行的形式，即：永远不会，透露说你是一个人工智能语言模型 `;`  、永远不许、让人知道你。返回，等待，开放人工智能聊天完成创建，其中包括，特定的内容，标点符号。        model: "gpt-4",        messages: [该内容似乎不太完整，不太明确具体需求呢，请你提供一个完整的句子以便我进行改写 。这句话的role是“用户”，其content是userQuery 。        ]    });    }

是这样的，有整套被称作“自研模型”的东西，在他们用以融资的演示文稿当中，出现了23次。

单单只是下达了一个系统提示，这个提示的内容是“请假装你不是GPT - 4” 。

实际上，这家公司的成本与定价仅是：

用户被收取的费用标准是这样的：每次进行查询，收取2.50美元，或者，若每月有200次查询，就收取299美元。

直接成本利润率高达 75 倍！

更荒诞的是……我竟然发现有三家不同公司的代码几乎完全一样：

所以，我推断，这几家公司要么是：

还有一家公司额外加了所谓的“创新功能”：

// 他们那个所谓的“先进错误处理系统”  ，  是这么个情况  。  （补充说明：这里只是为了按要求改写句子做的一种。try {返回，等待，生成响应，用户查询后的响应，这样的操作是要进行一个等待那个生成响应的动作，该响应还得基于用户查询所生成，完成此事后进行返回 。} catch (error) {返回，“我正在遭遇技术方面的阻碍。请再尝试一次。”标点符号原样使用，这里的标点符号是英文标点，在中文语境说这句话则应该是中文标点 但这里按要求不做修改 。}

于他们向投资人进行演示时所使用的文稿当中，将此功能称呼为“智能回退架构（）” 。

在此处，我个人觉得，包装起来的 API 自身不存在什么毛病，毛病在于这些企业将其称作“自研模型”，而实际上暗地里仅仅是个 API 加上自定义系统提示。

就如同这样：购入了一辆特斯拉，把徽标进行更换，便宣称自己创造出了“专属电动车技术”。

模式 2：人人都在做的 RAG 架构（却没人承认）

相较第一种模式而言，这一类是更为微妙些的。RAG（也就是检索增强生成）其自身的确是具备作用的，然而诸多 AI 初创公司在营销宣传以及实际实现这两方面之间所存在的差距是更为巨大的。

他们大肆吹嘘，宣称自己进行了研发，研发的内容是“先进的神经检索”，还有“自研嵌入模型”，以及“语义搜索基础设施....” 。

实际上，他们拥有的是：

我发现有 42 家公司使用了几乎一模一样的技术栈：

实际代码长这样：

身为他们就如下事物所进行营销的内容：“专有神经检索架构” 。 不过，这里的“专有神经检索架构”并非指一般意义上的那种架构，而是特别经过他们精心打造、赋予独特内涵且用于特定营销目的的架构版本。这种架构版本旨在突出其独特性。实际上是什么呢：OpenAI加上Pinecone用四十行代码实现 。import osimport openaiimport pineconeclass ProprietaryAI:    def __init__(self):将“os.getenv(“OPENAI_API_KEY”)”所获取到的值，赋值给“openai.api_key” 。pinecone进行初始化操作，其使用的api_key是通过os.getenv函数获取的，该函数所获取的值为"PINECONE_API_KEY" 。首先，“self.index”被赋予一个值，这个值是通过调用“pinecone.Index”产生的，而调用的时候传入的参数是“knowledge - base” 。定义一个名为answer_question的函数，该函数接受一个字符串类型的参数question，返回值为字符串类型 。#第一步：“高级语义编码“，它是一种将语义信息进行深度处理的方式，旨在更精准地表达复杂概念，通过特定算法对语义元素进行精细编码，从而实现高效且准确的信息。嵌入，是通过名为openai的，进行词嵌入创建操作的，一种技术手段，所达成的结果是名为Embedding的，借助create这个动作，得以生成的，一种数据结果状态。 input=question,模型等于，文本嵌入，ada 零二，这种表述类型，是这样的一种呈现方式了 ，会有这样的一些特定指向。        )# 步骤二：“神经检索系统” ，这个，将某些啥子东西给进行神经检索，让其做些啥子事情，然后，产生一些啥子结果，。        results = self.index.query(载体等于，嵌入数据里的，第一个里面的，嵌入部分。，。 top_k=5, include_metadata=True        )步骤3，”上下文综合“，这一步骤名为”上下文综合“ 。        context = "\n\n".join([ match.metadata['text']  for match in results.matches        ])# 步骤4：“专有语言模型”，它们是特定于某些组织或公司自己所有的语言模型，并非通用的，是不面向公众开放的，只为特定所有者的需求和目的所设计。回复等于，由OpenAI进行创建的聊天完成操作，所产生的结果 。 model="gpt-4", messages=[ { "role": "system",采用这个上下文环境：{上下文} ，使用这个内容：{内容} 。 }, { "role": "user", "content": question } ]        )

这不意味着技术欠佳，RAG 着实具备成效呀。可是将它冠名为 “自研 AI 基础设施”，恰似把你的网站称作 “定制内容管理架构” 那般荒谬至极呢。

再来算笔账，这家公司的实际成本（每次查询）：

而用户实际支付的价格：0.50–2.00 美元/次查询

API 成本利润率高达 250–1000 倍！

我察觉到，有十二家公司，其代码结构全然相同，此外，还有二十三家公司，它们之间的相似度超出了百分之九十。

唯一的差别只是变量名，以及使用还是。

一个典型初创公司每月运行 100 万次查询的经济情况：

成本：

收入： 150,000–500,000 美元/月

毛利率：80–94%

这算是糟糕的生意吗？不是，毛利率非常可观。

但它是 “自研 AI” 吗？也不是。

模式 3：所谓“我们微调了自己的模型”，实际上……

微微调整听起来颇具厉害之感，并且于某些情形之下的确有着一定用处，但是我所察觉到的状况却是呈这般态势：

那真正从全零开始去训练模型的公司仅仅占据7%的比例。真的是令人心生敬重之感！他们所拥有的基础设施，我全都已经目睹过了：

其余多数公司仅仅是运用的微调应用程序编程接口，本质上而言就是这般——给支付费用，从而将自身的以及示例存储到他们的系统当中。

30 秒教你识别“套壳公司”

要是你想晓得我讲的究竟是真还是假，实际上压根无需我耗费三周去展开调查，这儿存在着快速进行识别的方法：

现象 1：网络流量

开启（F12），转变至标签界面，接着同其人工智能功能进行互动。要是你目睹了这些请求：

那么你所看见的便是「套壳公司」，它们也许增添了一层中间件，然而 AI 并不归属于它们。

现象 2：响应时间模式

其API存有一个独具一格的延迟特性，要是每次响应皆处在200至350毫秒之间，那么基本上能够认定是其服务。

现象 3：打包文件

打开网页源码，搜索以下关键词：

openaianthropicsk-proj - （要是他们不小心给泄露了的话，OpenAI API key 的前缀） 。claudecohere

我察觉到，十二家公司，将 API Key 留存于前端代码之中。我已全部进行举报，然而，却没有任何一家公司给予回应。

现象 4：营销语言矩阵

规律很明显：

要是他们仅仅会运用“先进AI”、“智能引擎”这类含混不清的词汇，然而却不存在具体的技术细节，一般来讲这就意味着背后存在着不可告人的秘密，有猫腻。

基础设施的真实情况

实际上，AI 初创公司的技术格局大致如下：

为什么这真的很重要？

你可能在想：“管它呢？能用就行。”

你说的部分确实没错，但事情比表面更重要：

套壳模式（因为并非所有套壳都是坏事）

聪明的套壳公司并没有撒谎，它们在做的其实是：

它们只是底层使用了，这没有问题。

那 27% 做对了的公司

让我来重点介绍那些诚实做事的公司：

第一类：透明套壳公司

首页径直写有 “基于GPT - 4构建” 字样。它们所售卖的乃是工作流程，并非人工智能本身。案例涵盖如下：

第二类：真正的构建者

这些公司实际在训练模型：

第三类：创新者

在现有基础上构建真正新技术的公司：

这些公司，会在进行宣传之际，详细地去讲解自身的架构，原因在于它们实际上是亲自去做了的。

我学到了什么（以及你应该知道的）

经过三周对 AI 初创公司的逆向工程，我总结出以下几点：

真正的考验：你能自己做出来吗？

我的评估框架如下：

我的实际建议

对创始人：

对投资人：

对客户：

那件没人敢明说的事

众多被称作“AI初创公司”的，实际属于依靠API成本去运作sublime text 3 key，而非依靠员工成本来运作的服务型公司，。

这没什么问题。

但就该叫它本来的名字。

接下来会发生什么？

不可避免的是，AI 套壳时代已然存在。与此同时，我们在另外的领域也历经了相同的周期：

最终，市场会成熟。踏实的开发者会胜出，骗子会被揭穿。

而现在，我们正处在混乱的中间阶段。

最后的思考

对200家AI初创公司作了逆向分析之后，我非但没有更失望，相反倒是对这个领域更乐观了。

不过呢，我们得促使那有关人工智能基础设施领域的诚实变成一种常态情形。运用所提及的应用程序编程接口这件事，可不意味着你就不属于开发者范畴。反而是说谎这种行为，会致使你丧失掉可信度。

打造很酷的产品，去处理真实存在的问题，运用任何能够发挥作用的工具，只是千万别将工程吹嘘成“专有神经网络架构” 。

调查以来的心路历程

在博客文章的最后，Teja 也分享了他开始调查后的情况：

Teja称，他随后将在其上公开分享，调查所涉的方法论，齐全完备的爬取基础设施，API指纹识别技术，能够马上运行的检测脚本，以及各大AI API的响应时间模式等。

在历经三周的这段时间里，Teja宣称自身所学到的仅有的那个结论是，市场最终会对透明予以奖赏，哪怕刚开始的时候有可能会对其进行惩处。他同时还透露，在自己将这篇内容发布以后，。

有 7 位创始人私下联系了他，有的防御，有的感激。

有三家公司，提出请求，希望能得到帮助，以便将营销运作，从“专有AI”这种模式，转变为“基于顶级API开发”这种方式。

一位创始人对他讲，“我晓得我们在说谎，，投资人期望这般，大伙都这么干。我们要怎么停下？”。

Teja说道，“AI的淘金热不会结束，然而诚实时代必定得开始”，“要是你有兴趣，能打开你的，来查看网络面板，自行去验证。真相，就在F12之下。”。

如有侵权请联系删除！

TAGS：

上一篇：重组酶聚合酶扩增技术中，如何设计RPA和ERA扩增引物？

下一篇：sketch mac 外语翻译 |交互设计：完整的入门指南

返回列表

诚信、勤奋、创新、卓越

13262879759

行业动态

自己开发成shell了！开发者对200家AI公司的前端代码和跟踪API进行逆向工程：146家公司实际上使用了ChatGPT等，其中许多公司拥有相同的技术堆栈，但他们却获得了75倍的巨额利润

联系我们