dnastar 11 星动纪元不只是机器人本体公司，更要做通用智能大脑

发布时间：2026-04-05

浏览次数：0

创始人陈建宇，于「星动纪元」的北京办公室里，对《智能涌现》表明，外界针对我们的认知，跟我们实际的业务状况，的确存有一定差距。

「星动纪元」在2023年8月成立，是由清华大学交叉信息研究院助理教授陈建宇所创办。在2025年7月7日，「星动纪元」宣称完成了将近5亿元的A轮融资，此次融资是由鼎晖CGV资本以及海尔资本联合牵头投资，厚雪资本、华映资本、襄禾资本、丰立智能等跟随投资，之前的股东清流资本、清控基金等持续追加投入。

虽成立仅仅两年，于机器人硬件业务方面，「星动纪元」连续推出了灵巧手产品，推出了轮式产品，推出了全尺寸人形等产品，这般种种动向，致使不少人错误地把「星动纪元」当作成一家机器人本体公司，甚而产生了认为我们是一家灵巧手公司之类的看法。

这不是陈建宇希望公司被贴上的标签。

陈建宇定下的目标是制作一款通用且智能的机器人，这是他在将近十年之前看到相关情况时就确定下来的，这种情况预示着机器人不只是应当具备躯干还更加需要拥有大脑来面对各类不同场景。

陈建宇向《智能涌现》表明，同时从事大脑和本体两项内容，看上去或许会极为困难，然而对于他来讲，鉴于他都能够完成，因而这属于一种自然的选择。

于众多具身智能创始人里头，陈建宇具备着稀缺的交叉领域研究背景，他以往的学术方向，既有“本体”，又有“大脑”。

2011年，陈建宇本科时被保送到清华大学精密仪器系，该系是国内最早从事双足人形机器人研究的单位之一，在美国加州大学伯克利分校就读博士期间，陈建宇着手研究MPC（模型预测控制），在美国加州大学伯克利分校就读博士期间，陈建宇着手研究端到端强化学习，MPC（模型预测控制）和端到端强化学习正是如今具身智能“大脑”的重要技术路线。

真实情况是，相较于硬件层面，陈建宇于机器人算法方面的研究收获更为突出，他曾抛出新一代人形机器人学习算法架构DWL，取得机器人领域中难度极大的顶会RSS最佳论文提名奖项；他所开创的融合生成式世界模型的具身大模型算法VPP，被选作人工智能最为顶级会议ICML的论文。

于与《智能涌现》展开的三个小时采访期间，占据一半时长的时候，陈建宇一直在跟我们探讨算法以及“大脑”。

不过呢，仅仅存在算法，或者仅仅存在本体，这二者都并非是陈建宇所认定的能够达成“通用人形机器人”目标的途径。他所需求的呀，是一整套“体系”，此“体系”之中涵盖了软硬两套通用架构，在这其中：

在软件的范畴之内，名为 “星动纪元” 的相关事物，发布了一款具备融合理解以及生成式特性的VLA模型ERA - 42。此款被称作机器人大脑的模型，融合了世界模型，具备针对世界进行深度理解的能力，并且能够实现实时预测。

在硬件方面，“星动纪元”所开展的工作是致力于开发具备通用化以及模块化特性的机器人产品。其将能实现这样的效果，即让机器人如同乐高那般，依据不一样场景的需求，可灵活进行形态的改变，这些形态涵盖了双足形态、轮式形态、人形形态等等。

另外，鉴于机器人目前的供应链并非完备，「星动纪元」针对其展开了从机器人本体最小单元着手的自主研发工作，例如关节模组，接着是控制单元，然后有电机，最后还有减速器等。

当软层与硬层构建成熟之后，使机器人达成何种功能、呈现怎样的形态，在业务拓展方面会更具敏捷性，这对「星动纪元」在本体上布局迅速作出了解释，这三者具体为：当前其人形机器人业务的面向客户的三款成熟产品分别是：五指灵巧手XHand 1、轮式服务人形机器人Q5、全尺寸人形机器人STAR 1。

星动纪元产品线图源：企业官方

关于商业化策略，陈建宇热衷于提及一个概念，那就是“沿途下蛋”。举例来说，在他本人看来，倘若机器人灵巧手已然制作完成，那么便能够先行售卖，而并非非得煎熬等待整机问世。如此这般做的话，不但有益于一步步降低硬件所产生的成本，并且能够得到一些数据，进而构建起数据飞轮从而反过来助力研发。

按照陈建宇所讲，当下，于全球市值排名在前十位的科技巨头范围里，存在九家是他们的客户。截止到六月，“星动纪元”于二零二五年已经总计交付超过二百台产品，另外还有上百个订单正处于量产交付过程中内。

近日，《智能涌现》同陈建宇开展了一回深度交谈，他讲述有关机器人领域算法、本体产品、商业化的各种思索，其中涉及的陈建宇团队的多篇学术研究，我们也附于文后，以下便是编辑后的访谈实录：

做本体还是做大脑？“这从来不是一个问题”

智能出现并呈现一定现象：依据你往昔于清华、伯克利的学术方向来判断，你身上既拥有把“本体”当作标的的研究经历，又具备针对“大脑”进行探测等相关研究历经，这于具身圈子的那些创始人里头，可以说是相对稀缺极为少见的，那么在创业所选取的方向这个层面上，当初你会不会思考仅仅专注去做关于“本体”方面的事情或者只搞“大脑”相关的业务呢？又或者讲，这样一个关乎选择的情形对于你而言算得上是能够构成一定困扰的一个具有探讨价值的问题吗？

陈建宇：这对我来说从来不是一个问题。主要基于两个判断：

首先，关于需不需要制作本体以及大脑这一情况，其答案事实上从最开始便已然是确定好了的。要是仅仅存在本体却没有大脑，那么机器人就会沦为毫无用处的废铁。倘若仅仅具备大脑而不存在本体，那么这已然不再属于机器人范畴了。我们最终所追求达成的商业化闭环，必定是要将硬件与软件整合为一体交付给客户的。

其二dnastar 11，我们之中每一个人，是不是全都具备做的能力呢？与此同时做大脑以及本体，看上去或许会极为困难，然而对于我来讲，鉴于我全都能够做，因而这属于一种自然的选择。

就我自己这近十年的经历而言，最先做过机器人硬件以及机电系统，到了博士阶段从事软硬件结合还有各种控制，之后又涉足AI领域。自从开始搞机器人AI至如今都快十年啦，从最初的时候起，也就是大概2016、2017年左右，我便在往这个方向研究了。

随着2022年AI大模型的现身，智能涌现出来，这会给你往后的工作方向带去什么样的影响呢？

陈建宇：我们经历了几个阶段——

在第一阶段，要把语言模型跟现有的机器人的相关工作相互结合起来。于其在2023年刚刚问世后，我便试着借助语言提示，让自身假设成为一个机器人，去开展任务规划，像是规划机器人怎样去运用它的传感器，要先识别目标而后再行动等，在那个时候它已然能够做得相对比较出色。基于这样的情况，我们完成了一篇论文，这是在全球范围之内首篇将语言模型与人形机器人相结合的研究。

2023年完成了有关大语言模型和机器人相结合的工作，这是全球首篇，此项工作对上层语言模型规划以及下层强化学习策略之间的对齐问题进行了改进。

第二年阶段之时，受到谷歌所给予的启发感悟，在大约2023年其间的时候，我们着手进而开启了面向端到端的VLA（--）雏形的研究相关工作，并且从而达成成就使其成为在国内最先完成复现RT - 2的团队。随后而后，我们察觉到了在实际操作过程当中所存在的一些问题状况，提出了具备可行性质的改进方法路径，也就是当下现在大家都已经熟知了解的快慢系统VLA的框架体系。

2024年9月，有一个方案被首次提出，这个方案是在VLM基础上增加高频动作处理模块的VLA方案，该架构发表之后，行业内的头部机构，其中包括Pi0（2024年10月），AI的Helix（2025年2月），Groot N1等，均陆续发布了类似架构的VLA模型。

RT - 2从本质上来说，是一个偏向于思考的慢系统，它虽然具备处理语言的能力，然而对于动作的有效处理却有所欠缺。针对这一点，我们增添了一个快系统，借由该系统以更高的频率进行运转，从而能够更为细致地输出更为精细的动作。

第三阶段是，Sora视频生成式模型的出现所带来的启发，在此之前理解物理世界，比如说英伟达的仿真器，需要手动编写物理规律，而这个过程复杂并且难以精准建模，然而Sora能够生成细节非常丰富的视频，像人走路、手抓物体、倒水等等现象，机器人需要这样的通用世界模型。

所以，我们把考虑的方向定为将其引入至机器人的范畴中，紧接着，一连串有关融合生成式模型的VLA算法框架被我们提出来了。

此PAD架构于2024年9月发布，在发布之时首次提出融合世界模型，之后该架构被收录。

2024年12月，公开了VPP架构，最先提出了预测模型，该模型是经过预训练的视频类型，之后，将其与PAD架构加以融合，最终，被ICML收录了。

2024年9月，有一个框架被提出来了，它叫做iRe-VLA框架，这是首次进行的证明结论，即强化学习能够被用于对端到端的具身大模型加以训练，并且还能够提升该模型的性能。

2025年1月，提出了UP-VLA，那是一个用来统一理解与预测的具身模型，它把理解、预测以及策略学习融合起来，一边预测未来画面，一边预测底层动作，最终被ICML收录。

有的模型可预测未来，再有的模型能直接控制机器人动作，这还不算完，甚至能对机器人每个关节做细微调整。

打个比方，当杯子被放置到边缘之处时，机器人就会担忧它出现掉落下去的情况，始终都在对各种状况进行预测，这样做是有着一定帮助的，能够提前去做好相应的准备措施。我们已然对好几代大模型进行了迭代尝试，并且还提出了在全球范围内都属于首创的、融合了生成式世界模型的VLA模型。

据我们目前所了解到的情况，国外有几个处于顶级水平的团队，他们也正在开展这件事情，就在上个月，Meta采用了与之相类似的办法，将其融入到了世界模型之中。

智能呈现出一种突然出现的状态：听起来你们于模型以及算法的层面所做的准备是极为充分的，那么当下还欠缺些何物呢？

陈建宇：首先是数据。

刚着手做语言模型之际，网络上的人类语言数据已然极为繁多，你仅需将数据搜罗下来，接着做些处理便成。然而对于机器人来讲，数据天然就没这么丰富之多了。

谷歌旗下的Waymo公司，近期将它们于旧金山所获取的驾驶数据增添进去，尽管这一体量极为庞大，然而同语言模型当下的数据量加以比较，着实差距甚远。要是依照这般模式去收集数据的话，或许需要历经数万年之久，才能够达成所需的训练数据量。

相较可以自动驾驶的车辆而言，机器人的飞轮效应达成要困难许多，这是由于在路面上行驶的车辆数量众多。

智能出现新情况：当今眼下存在着不少公司是利用真机进行远距离遥控操作从而去生成获取数据，你们大家会不会去思考琢磨采用这种方式呢？

陈建宇称：我们运用了组合形式，首先是依据极为海量的视频数据开展预训练，进而训练出一个相对较为通识的基座，接着运用更为精细的遥操数据去调整你的目标，如此一来对于真机遥操作数据的需求量便会降低，而非直接借助它去进行底层的预训练。

智能出现一种突然的情况：就机器人那个被称作“大脑”的部分而言，到底是哪样的一些数据，才是实实在在对模型有作用的呢？

陈建宇表示：我们所需的数据要有多样性。比如说开车这个事例，要是全部都是那种驾驶表现特别出色的数据，那么模型极有可能没办法应对稍有危险的状况。所以，务必要包含各种各样不一样的场景。

比如说，学习倒水的视频，不能始终拿着同一款杯子，在同一位置弄。不同的姿态，水杯的形状，会对液体高度产生作用，所以我或许需要多一些维度，来提升其多样性。

另外，不是所有情形都是白墙实验场景，还得去尝试不一样的背景。种类繁多，并且每个种类都收集大量数据，如此会更具成效。

智能涌现：机器人像人，这件事情很重要吗？

陈建宇表示，人形具备重要性，借助训练人形，能够获取一个厉害的基础，之后将此基础降维至其他形态上。

尽管机器人将来的形态或许会不一样，然而占据极大比例的组件是共享的，涵盖大模型、关节模组，仅仅是尺寸存在差异。硬件技术属于统一的那一套，软件技术同样是统一的那一套，不管是机器人的手、足式，还是轮式，各异的形体，实际上运用的是我们一以贯之的同一套软硬结合的底座。

这同样是致使我们要做人形机器人的缘由所在，虽说人形并非我们最终的目标指向，然而却是一种至关重要的手段运用了，借助和人类行为数据相互结合这种方式，我们能够更为妥善地去运用这些数据了，这也和我们所采用的方法是相互呼应关联着的，因为我们是从数量众多的人类视频数据内里直接加以学习的。

针对智能涌现这个情况，曾经有那么一位机器人公司的创始人持有这样的观点，他觉得大脑并非关键所在，本体才是重要的，只要拥有本体，便无需在意大脑，对于这样的看法，您是怎么看待的呢？

陈建宇表示，训练AI这件事，其前提条件是得先存在本体，之后呢，要持续不断地去采集数据，接着再开展训练，训练之后还要进行调整，故而，它必然会比本体的发展速度慢。

身为初创公司，我们思索“途中产蛋”，待本体研发完成后便先行售卖。我们此刻灵巧手产品的毛利相当高，在做人形的时候亦会降低边际成本。我们当下陆续针对整机展开规模化销售行动，量产准备已然就绪，往后我们的模型以及解决方案也会依次实现商业化操作。

图源：企业官方

智能涌现：那只做大脑的公司，未来能力有可能比你们强吗？

陈建宇表示什么，他说要是单纯只搞大脑这一块，那会欠缺好多东西，商业化模式会没有存在的状态，也许会缺不少供血途径，不见得就能在发展道路上走得更为长远之地啊。而商业模式能够招致更多的各类资源，进而就能够投入进更多的研发工作当中，产品也能够被打造得更加精细优良。这里面甚至于还涵盖着飞轮效应，凭借商业化这个途径，预先积累起数据，飞轮效应说不定会带来不少的益处呢。

单独运作致力于大脑的公司，其存在着较高的不确定性。要是运用多种本体的话，那么每成功打通一种本体的情况下，都需要再次开展数据打通的工作，如此会消耗掉大量的精力，进而难以实现规模化。

大火的VLA路线，“L”的部分太重了

智能如泉涌般出现：VLA这条道路乃是大模型跟具身智能二者的合并，这引起了机器人行当以及大模型方面学者的瞩目。然而当下在行业之中也存在着一些不一样的看法觉得，VLA这种模式存在着一定的限制之处，就像训练有着分离的状况、数据量没办法和VLM相抗衡等等。您自身怎样看待如今特别火爆的VLA路线呢？

陈建宇指出，当下的VLA模型，其当中的“L”部分也就是语言所占比重过大，该模型起初是一个单纯的语言模型，之后拓展至视觉领域，进而成为视觉语言模型，在此基础上，又将动作连接起来，最终形成视觉语言动作模型。

站在进化论的视角来看，这个进程是逆向而行的，生物先是存在爬虫类的控制动作部分，接着才一步步发展演变至大脑皮层，随后拥有了视觉以及语言，而语言是在最后才进化产生的。实际上，诸多经过训练的猩猩和猴子也能够开展十分灵巧的工作，然而它们并不需要语言。

现在，我们反过来了，先有了语言，再逐步补上其他部分。

我觉着对好多应用来讲，（语言）实际上并非是必需的。对于机器人而言，首要的一步便是得着手开始干活，关键在于它会做出什么样的动作。我觉得这存有一定的问题，因而我们近来在开展研究，于预训练阶段，一并训练语言视觉跟动作，而不是先着重于语言。如此理应能够收获更好的成效。

智能出现，猛地冒出来：针对机器的大脑而言，存在这样一些企业，它们会依据场景，或者按照具体的功能来划分，分成好多好多层的模型去做这个事情，您要是对这个情况持有何种看法呢，是关于这种技术的方式呀？

陈建宇称，大家会基于两个维度给机器人大脑进行分层，其一为纵向维度，像是感知模型、预测模型、控制模型等，以往的无人车或者机器人皆是顺着这个方向逐步演进的，其二是横向维度，依任务类别展开训练，针对一类任务训练一个模型。

一旦进行了层次划分，那它们彼此间就相当难以达成聚合效应。举例来说，要是依照横向任务予以划分，这会致使A任务跟B任务无法凝聚成一股力量，哪怕将其切割成1000个任务且全部达成，乃至数量更多，同样是不可能呈现出新的东西的。而涌现，必然是众多任务综合起来才能够形成的。

并且我们呈现出相对统一之状，其中纵向与横向双双予以合并。当下，我们已然进展至借助统一模型微调来研习一个垂直任务这个阶段，较之于单独训练执行单任务的小模型而言存在状况更好的情况，并有着存在速度更快的情形。

强化学习，是推动大模型推理水准实现提升这一过程里的核心所在，它让智能得以涌现，鉴于此，您觉得强化学习对于机器人而言，究竟有着怎样的意义呢？

陈建宇表示：当下VLA事实上还不存在这样的强化学习机制。从本质上来说，VLA依旧是一个，是一个处于离线状态的学习进程。就如同，你先去留意众多人是怎样做的，随后径直进行学习。

拿打乒乓球来说，VLA就如同那个教练亲自上手，一遍又一遍地对你进行指导，之后你便径直去打球，大概率仍难以打得出色。

说起强化学习，那情况是这样的，一开始你得去观察他人打球是怎样的，随后教练会传授给你更为精细的动作，紧接着你自己还得持续不断地进行调整练习，试着打出优异的球dnastar 11，这同样也是向物理世界进一步靠拢对齐的一个过程。要是缺少了这一环节，好多相对精细、繁杂的工作你大概就无法完成了。

谈产品、场景、和机器人的未来

当下，投资人和行业针对你们有定位，同时存在观察，二者之间好像存有差距，不知您是不是有相同的感觉呢？

陈建宇称，外界对于我们的认知情况，以及我们真实的业务状况，的确是存在着一定程度上的差距。我们构建了一套相对较为全面的体系，该体系具备通用性，或许有人没能探寻到其中的逻辑关系，又或许我们之前未曾进行充分的展示。

智能涌现：你所说的“体系”是什么？

先来看的话，这整个是由陈建宇所主导相关内容的，其被划分成软件以及硬件这两个部分。要是尝试通过仅仅一句话去记述硬件模块，就相当于是如同去搭建乐高那般的方式来搭建机器人。对于硬件部分而言，我们是从硬件的最为基础的最小单位着手展开自主研发工作的，举例来说像是机器人的关节模组、电机、减速器、控制器这类等，并最终达成了从零件再到部件的模块化以及通用化这样的成果。

比如说，我们的手属于一个模块，此模块能够适配于各式各样的机器人，甚至把里面的关节键拆卸下来后，其还能用来重新组织合成另外一款机器人。我们的大脑是端到端的通用大脑，涵盖不同任务，然后能够快速调整到各异的本体上去。

图源：企业官方

智能涌现：有了这套底座后，未来形态可扩展吗？

陈建宇表示，极其具备可扩展性，随便哪一个机器人都行的，仅仅是存在着几条胳膊，几个肘，几条腿这样的情况，并且还包括各自拥有多少自由度之类的情况罢了。

看起来似乎是将机器人进行了模块化处理呢，如此一来能够依据场景的不同随意变换形态，那么究竟该如何去做产品形态的定义呀？

陈建宇称，人形或许是机器人在终局情形下数量最为众多的那种，然而，在具体的场景当中，需求是存在差异的，故而，我们将会需要不同的形态。

比如说，要是你的场景存在上下楼梯的需求，那就得具备双足的形态；要是整个状况完全处于平地，单单轮式便就行了；要是目的是在某个3C工厂里去替代一个固定的工位，兴许仅仅一个上半身也就足够了。

智能涌现：现在终端出货量有多少？

陈建宇表示，数量超过200 台，客户涵盖范围极广并列举出，在全球市值排名前十的科技巨头之中，有九家是他们的客户其中有的一家会购买几十个且都是用于实际使用操作的。

智能涌现：挑选场景的标准大概是什么？

陈建宇：高价值、可复用。

高价值，意味着此“人”薪酬几何，便彰显该场景价值几何，会于能力界限内寻觅尽可能高价值之任务以及场景。当前面向两类高价值场景，其一为工业，其二是服务。

工业领域的产品，被称作人形机器人里的六边形战士，其手部极为灵巧，跑跳运动能力相当强，力量、敏捷以及智力均达满值；另一款服务机器人体形小巧，我们会着重关注它的外观、拟人理论性与交互，这属于服务业特有的属性。

智能涌现：目前你们的机器人产品智能化水平如何？

陈建宇称，我们依据智能化对产品进行划分，划分成两个级别，其中一个级别为产品化级别，另一个级别是demo级别。

图源：企业官方

我们的demo产品，能够借助螺丝枪来打螺钉，能够拿起扫码枪去扫码，能够拿着勺子把水舀，具备很高成功率的。

对于产品化级别的产品而言，可以发现这类产品的智能化程度要求更为严苛，我们当前正在着手开展物流场景这类工作，像是在该场景范畴下寻找标签这项任务，还有进行扫码操作以及分拣等工作，目前已经能够实现达成不错的成功率这一情况，并且也正处于在真实场景里实现落地的这一环节当中。

智能涌现：除了物流，你还看好哪个场景？

陈建宇表示：接下来便是制造领域了，这是由于制造涵盖着更为精细的操作，物流主要是对物品进行移动或者搬运箱子，相对而言更为简单，然而制造却要复杂得多，举个例子来说，需要运用各种各样不同的工具去寻找标签，或者开展更为复杂的手部灵巧操作，像是进行翻面之类的。

制造领域里，星动纪元旗下的机器人STAR 1实训搬运工作

智能出现，对于人形机器人而言，当下的那些零部件当中，大部分究竟是属于通用类型的呢，还是说必须要自行去制造并且要开设模具呢？

陈建宇：我们不会自己去加工具体零部件，不然成本算不过来。

然而，我们在自研设计方面极为深入，深入到抵达电机这一层次，其中电机是我们自行设计的，齿轮是我们亲笔设计的，控制器电路板是我们亲手设计的，驱动器同样是我们亲自设计的，就连图纸也都是我们设计的。

那些在生产制造场景里头，人类还没办法被机器人给取代的工作具有智能涌现的情况，是哪些呢？要是所有的生产制造场景都能够被代替，那又会变成怎么样的情形呢？

陈建宇表示，纯流产线上存在人力密集型工作，从理论层面来讲，这些工作都具备可替代性，然而当前却难以达成这一目标，一旦被替代，也就会引发极大的所反映出社会方面的人员工种改变。当前机器人承担的是先去替代劳累、辛苦、有一定风险的工作，原因在于当下有越来越多的年轻人，他们并不甘愿从事这类工作。

我觉得这有益于把人类从乏味的劳动里解脱出来，促使人们去开展更具价值的工作，这种替换同样会带来更高的生产效率，致使所有物品变得更为便宜。

未来，机器人自身会变成一种终端产品，且有可能是规模最为庞大的，其规模或许处于手机与汽车之间。未来，家庭有可能会拥有一到两个家用机器人或者终端机器人，而这些机器人会提供服务以及情绪价值，这样形态的产品在未来5年便会开始出现。

机器人大战前，先储备粮草

智能涌现：融资目前对你来说的意义是什么？

陈建宇表示，能够去想象往后竞争将会相对激烈，需要预先做好准备，当前是鉴于尚未开启商业化的重大战役。

现今，机器人领域所进行融资的规模，与智能汽车、电动汽车、大模型相比较而言，是少了许多的。然而在未来，机器人的制造规模，或许是要达到电动汽车那般的水平的。并且在未来，机器人的模型规模，可能会到大模型那样的水平的。

智能出现，意外地显露，海尔作为本轮的投资方，它能够给我们的战略方面的协助会是哪些不同的层次，会是哪些具体的层阶，会是哪些特定的层级，会是哪些各异的层面？

陈建宇表示：首先，场景会与我们分享，其次，产品定义在现阶段即可开展，比如说之于零售领域，存在将机器人放置于他们的店铺之中，进而借助我们的机器人产品进行引流、导览、指示以及服务等相关举动。

智能涌现：机器人在家庭场景的应用，能几年之内实现？

陈建宇称，是渐变方式达成呀，要是速度快些，在三到五年期间，能够看到部分最初形态，就像在一些高净值家庭中那样瞧得见。然而对于普通家庭而言，要求更为严格，所需的是兼具普遍适用性且成本低廉的机器人还有没有哪句要重新调整或优化呀。

涌现智能，据我所晓得，要说美的海尔，也及早便讲过有意踏入机器人范畴，那你们跟大公司之间究竟属于何种彼此之间的关联？

从商业的角度而言，其中所蕴含的竞争与合作是同时存在的，需要以辩证的思维去看待竞争与合作在各类商业场景中的表现。对于互联网大厂这类企业，我们能够成为硬件供应商。而换成传统制造类企业，彼时我们或许会成为软件供应商。

现今，汽车企业所拥有的自动驾驶团队规模颇为庞大，朝着智能显现、自始至终的路线不断迈进，对硬件进行了长时间开发，未来整个汽车行业会全部踏入机器人竞赛轨道呢？

陈建宇称，他认为机器人将会是智能汽车的一种延伸，不过并非所有人都会选择这个。大企业制定战略时一般较为严谨，前期或许投入少量资金用于跟进以及研究。

当下，这些大型企业并未真的全力以赴投入到机器人方面，依旧是在进行技术储备工作，其所投入的人数和我们创业型公司大致相同。

智能出现新情况，大模型公司如今已渐渐趋向于达成共识，此领域不会有众多参与者，然而在机器人方面好像更能够允许多个参与者存在，是吗？

是的，原因在于机器人存在不同样式，并且数量又较为繁多，并非像基座大语言模型那般呈现出统一的状态。机器人具备多种各异的形态，同时还涉及到硬件制造这一方面，并且我们要知道硬件迭代的速度要比软件慢得多。

市场当中的机器人，其规模足够庞大，进行细分的话会更细致入微，身处其中的玩家数量也更多。与之不同的情形是语言模型，这一模型一经推出，所有的人都能够在瞬间就加以使用，如此一来便更容易构筑起垄断态势。然而机器人涉足的领域具有更基础、更分散的特性，所以会有数量更多的公司得以立足生存。

陈建宇教授的过往研究成果附录：

2023年，做出了全球第一篇相关工作，该工作涉及大语言模型与机器人的结合，改进了上层语言模型规划方面以及下层强化学习策略的对齐问题，相关论文为: model by and from plan-。

将链接 http://arxiv.org/abs/2307. 当中的内容写出的相关成果，被名为机器人顶会的 IROS 所收录。

二零二〇四年九月，首次把提出了增添高频动作处理模块置于VLM基础之上的VLA方案的情况进行公布，发表过HiRT论文——那是个名为HiRT:and Robot的论文。

这个链接是https://arxiv.org/abs/2410.05273。在括号外，它是一个网址链接。

你提供的内容并不是一个句子呀，请你提供完整的句子以便我按照要求进行改写。

2024年12月，发布了VPP架构，首次提出了预训练的视频预测模型，并和PAD架构融合在了一起，被ICML收录。有关于此的视频叫作，具有什么内容的 Robot with，相关论文是Video，ICML 2025。这。，说明：你提供的原始内容部分表述略显混乱，我尽量按照要求进行了改写，可能与你预期的准确含义有一定偏差之处。

（链接为这个：https://arxiv.org/abs/2412.14803）。

在2024年9月的时候，提出了iRe-VLA框架，首次进行了证明，证明强化学习能够被用来训练端到端的具身大模型，并且还能够提升其性能。相关论文： -- Model with （）

你提供的内容似乎并不是一个完整的句子呀，请你明确一下具体需要改写的句子内容，以便我更准确地按照要求进行改写。

在2025年1月的时候，提出了UP-VLA，它是一个用于统一理解与预测的具身模型，它把理解、预测以及策略学习融合到一起，它能够同时对未来画面与底层动作进行预测，它被ICML收录了。相关论文是：UP-VLA: A and Model for Agent。

这是一个链接，链接的内容是https://arxiv.org/abs/2501.18867）。

如有侵权请联系删除！

TAGS：

上一篇：IntelliJ IDEA 14教程：Java与Kotlin谁更快？实测提速20%

下一篇：sublime text package Node+Express后端避坑指南 2026核心玩法

返回列表

诚信、勤奋、创新、卓越

13262879759

行业动态

dnastar 11 星动纪元不只是机器人本体公司，更要做通用智能大脑

联系我们