发布时间:2025-12-28
浏览次数:0
以下内容基于采访速记整理,经不改变原意的删减。
多模态智能体的新时代
InfoQ:于实现能够真正达成“看懂、想透、做好”这般效果的智能体的进程里,您觉得哪些属于基础的问题常常被忽略掉、然而实际上却是分外关键的呢?
张磊表示,“看懂”意味着对输入的信息予以理解,,“想透”代表着思考的进程,“做好”就是执行相应的行动。这三者事实上涵盖了视觉、语言推理以及机器人的物理执行能力,本质上属于一个典型的多模态过程,其中包括输入、输出以及中间的思考环节。这三个环节都具有极大的挑战性,可以讲人工智能的持续发展正是围绕这三个方面来推进。
在既往的几年当中,语言模型率先达成了重大的突破,与此同时,机器人本体技术呈现出迅猛的发展态势——人形机器人以及四足机器人均收获了显著的成果,视觉技术也有着极大的进步。然而,把这些环节予以有效的整合依旧是关键的问题。比如说在具身智能领域,机器人常常被视作欠缺“大脑”。人类的大脑之中有50%的皮层区域是用于处理视觉信息的,所以要是为机器人打造“大脑”,那么一半的工作应当围绕视觉来开展。视觉并非是被忽视掉了,而是由于它自身极为复杂。
首先,视觉的输入维度是极高的,它呈现为连续的空间信号,像视频流那样;其次,它关乎对三维结构的理解,人类拥有大量跟物体交互有关的通用知识。例如看到某个物体时,我们能够知晓该用何种动作去实施操作,这涵盖判断能不能推动、能不能拿起等,这些能力常常超越纯粹视觉的范围,需要综合知识的支撑。我们所在团队的研究方向始终着重于视觉这个领域,尤其是物体层面的那种理解这方面,在过去的几年当中确实获得到了不少的进展,然而距离我心里把视觉理解跟机器人进行有效连接而设定的目标,还是存在着数额巨大的工作需要去做。
我曾见到一位搞研究人员所持的观点,这位研究人员提及了一个有关“理解跟生成是不是得统一”的问题,这位研究人员觉得生成同样是需要具备理解能力的。在生成模型开展训练进程当中,特别是处于后训练阶段之时,常常会引入强化学习,而其中的model,从本质上来说是在判别生成内容的好坏。而判别生成质量,实际上恰恰就是一种理解。所以说,没有理解这个前提就没办法去评估生成的好坏情况。也就是说,在生成模型训练进程里,必然得依靠理解模型的协助。这也说明理解与生成这两个问题之间并非割裂,而是深度耦合的。
InfoQ :当下大量的研究者已然着手去关注“空间智能” ,于您看来,空间智能最为重要的价值究竟是什么呢 ?
张磊称,空间智能对于机器人来讲是极其关键重要的。想象下机器人所处的那般环境情况下,首先它必须得识别周边的物体,其次要去判断物体之间的距离,而且还得要理解物体的结构形状从而好来规划抓取的方式。每一个步骤都是依靠强大的视觉理解能力的,要是缺乏这种能力的话,将会严重地对操作的精准度跟成功率造成影响。
近期于机器人范畴之内,存在着某些借助端到端模型展开的尝试,像是视觉 - 语言 - 行动模型(VLA),其探究思路乃是期望凭借图像方面的输入,径直对机器人手部得以怎样动作做出判定。可是呢,这些模型广泛地欠缺对于画面里物体的深度理解以及精准定位。正是由这原因所致,当前 VLA 模型在实际操作过程中的成功率难以令人满意,距离实用型标准相差甚远呢。
在这一领域要想取得突破,研究人员得不断迭代,对问题进行分析,还要逐步去提升机器人抓取及操作的成功率,像是从百分之八十提升到百分之九十,再到百分之九十五。然而就算达到百分之九十九,在家庭场景里依旧可能很难为人所接受,想象一下让机器人去抓取杯子,哪怕抓取一百次只掉落一次,这就足够致使用户退货了。
空间理解自身就是个极端复杂的难题,当下于研究范畴里也还没构建起统一的建模方式。相比较而言,语言模型的进展称得上是个奇迹。在语言序列化预测问题跟架构完美适配之后,主要依靠增添数据、参数以及算力的工程化途径就能持续提高。从 GPT 诞生一直到现在,其模型架构本质依旧是 的延续性。而在视觉领域,特别是三维表示方法依旧没有确切结论。举例来说,对于机器人来讲,我们期望它拥有通用的物体理解能力intellij idea 16,而非仅仅识别有限的几类物品。对于达成这般通用理解而言,模型究竟该怎么构建存在着争议,举例来说,模型内部的表征到底是运用类似 token 的序列结构呢,还是应该嵌入三维物体的结构表示呢,像这类问题在研究里依旧有着大量的探讨空间 。
好比斯坦福大学的李飞飞教授坚决主张:注重在世界模型里要运用三维的内部表示形式,唯有如此,模型才能够对问题实施正确建模,并且在理解以及预测方面展现得更为出色。我觉得,当下整个领域遭遇应用发展速度过快,然而社会大众对于应用落地的预期又过度乐观的状况。这种乐观的背后,实际上是需要研究人员一步一个脚印,一次次填补技术差距。
InfoQ:众多制造业企业对于“AI + 机器人”满怀期待intellij idea 16,然而同时也满怀不确定性,您觉得,当下最具备可行性的应用突破口是哪方面呢?您有没有看见一些能够实现规模化落地的技术路径呢?
张磊称,要达成规模化落地这一目标,模型的通用能力得达到高水平,它的精准度也必须处于高水平才行。要是仅有通用性,然而精度却不够,那同样会遭遇巨大障碍。在这个进程里边,尽管部分应用场景相对特定,可它们常常属于传统方法难以胜任的问题范畴。就像当下好多机器人正试着应用在汽车生产线的上下料环节,虽说现阶段它们的效率或许还比不上人类,不过一旦得以进入这些场景,便有机会借助迭代持续优化,进而解决视觉识别、操作控制等关键问题 。
在实际应用里头进行闭环迭代的这般方式,是极为难得的机遇。借由真实场景予以驱动,技术会取得有价值的进展。另外,人类危险操作或者环境向来是机器人应用的理想方向。在这类场景当中,哪怕牺牲一部分灵活性以及因智能,甚至运用遥操作并结合少量智能,只要能够实现落地应用,研究人员便有机会持续改进系统表现。
然而,要是达成真正大规模通用化,比如说进入家庭环境,那会面临更大挑战,家庭属于典型的开放场景,客厅里物品常常杂乱摆放,厨房的灶台上物品也是杂乱堆放,咖啡桌上同样物品杂乱堆放,处理这些对人类来说很轻松,可对机器人来讲,去理解并清理这些物品,那是对视觉、语言推理以及抓取灵活度的严峻考验,我觉得这需要更长时间,或许会超过5年。
当前,诸多场景正自“结构化”朝着“半结构化”转变,像生产线机械臂于 A 点抓取物体并放置至 B 点,这属于上一代技术,依靠高重复性作业,可现代产线需求多样化,期盼机器人能够依据指令灵活开展操作,这般“半开放”环境处于结构化与全开放两者之间,给机器人技术的逐步介入提供了可行途径。
研究和产品的平衡
InfoQ:您以往于微软研究院,当下于IDEA研究院,均承担了诸多基础研究以及产品协同的工作。您怎样看待工业界研究人员在“做研究”跟“促落地”之间的角色定位呢?
张磊称,自己长时间于企业里开展研究,从而拥有更多契机以研究员的身份去思索问题。他还直接对博士生予以指导,引领他们撰写论文,与此同时,他所在的团队也持续在尝试把研究成果运用到商业实践当中。在微软的那段经历同样表明,最为关键的认可便是自身的研究成果切实被产品团队所采用。所以,研究员于选题或者评估工作价值之际,常常会构建起一个坐标系,其中横轴代表着研究价值,纵轴代表着应用价值 。最为理想的那种状态,是处于右上角的情形,它同时具备着研究以及应用方面的价值,而最为应当去避免的,却是处于左下角的状况,它既不存在研究的价值,又没有应用的价值。
从事工业界研究工作的人员要坚决摒弃那种单纯的“论文思维”,其研究目的不能仅仅局限于发表论文。虽说对于博士生来讲,前期撰写论文是必需的训练流程,是提高逻辑思维以及表达能力的关键方式,然而在更长远的发展进程里,研究的目标应该更紧密联系实际问题的解决。研究人员要对所在领域有深刻的理解,与此同时还要逐步培育对问题的预判能力和直感。这种直感能够协助你判定哪些问题值得去做、做到何种程度,以及需要花费多长时间去达成,其最终目标一直都是解决实际问题。
举个例子,我们所在的团队,一直都在从事目标检测方面的研究工作。有不少人觉得,伴随大模型的兴盛发展,检测方面的问题好像已然得到解决了,然而我们心里非常清楚,要达成真正全方位通用的检测以及感知系统构建,依旧是面临着极大挑战的。一旦实现突破,那它就可带来极为广泛的应用价值。我们针对这个具体方向,一直都坚持不懈采取各类举措,持续不断予以推进。这种始终如一的坚持,是源自我们对该问题实质所拥有的深刻认知境界以及解决问题时所抱有的强烈内在动机。存在一些问题,能够借助简单的工程方式去解决,而另外还有一些问题,是并不存在已有的现成方法可以直接使用的,必须要依靠深入研究创新才能够实现突破。 \。这不是为了研究而研究,而是在面对实际难题时自然产生的探索。
我在微软亚洲研究院工作的那十多年时间,对我而言也是极大的锻炼。我们得切实明白产品团队在做啥,知晓他们的痛点在哪儿。当然啦,每个研究人员都期望自身工作具备一定主导性,所以会倾向于挑选那些跟产品目标相契合的研究方向。有时,研究人员也能够反过来对产品团队产生影响,比如说提出一项极具价值的新技术,接着去探究它能不能解决产品里存在的问题。这是个双向互动的过程。事实上,要想运用一种固定模式去引导研究怎样达成“右上角”的益处,是存在很大难度的。这更多属于一种“可遇而难强求”的进程,然而要是目标设定为切实解决具备实际意义的应用性难题,那么就不应该仅仅停留在“为发表论文而展开研究”的层面上。
InfoQ:有一种观点觉得,要是工业界的研究者对产品过度予以关注,那么就极易丧失技术前沿性,从长远角度去看会使创新力遭到削弱。您是不是认可这样的看法呀?在您带领团队之际,是怎样去平衡这两者之间的关系的呢?
张磊表示,产品开发跟研究探索的节奏有着本质区别 ,产品周期一般是以季度作为单位 ,着重于结果交付 ,然而研究范式 ,特别是在不存在现成解决方案的情形下 ,它好似是在 “无人区 ”里进行探索 ,属于一种极具创新性的进程 ,很难设定比如 “两周之内得解决 ”这般的硬性指标 。
有一种,是由研究人员主导的、高度创新型的创新,还有一种,是类似军队那般协调推进的、产品开发型的创新,这两者的运行节奏,有着天壤之别。硬要把这两种人员,混杂在同一个团队里,常常会造成极大的痛苦,特别是对于研究人员而言,更是这般。比如说,每隔一两周就得交付、还必须量化成果的节奏,会对他们的工作产生极大的干扰。从本质上来说,研究需要更为开放的环境,更为关键的是,要激发出研究者内在的驱动力,使他们心甘情愿地去解决问题。要达成理想成效,节奏把控不可过于严苛,得给研究人员留出探索余地。与此同时,还得保证他们所研究的问题不与现实脱节,不陷入“象牙塔”范畴,而是与产品方向存在关联。这就需要管理者深入领会两种模式,以此才能有效平衡二者之间的关系。
举例来说发展,GPT - 1阶段,基本属于自由发散式的研究,团队自身都没办法预先知道哪一条技术路径能够取得成功。然而在认识到GPT技术范式所具备的巨大潜力以后,内部快速达成统一的认知,坚决果断抽调集合资源冲着重点加以攻克,就在这个时候研究范式就转变成为项目制。如今GPT这个系列的研发工作,更像是一种以工程作为导向的模式,依靠着迭代后的算力、系统之中的架构以及数据 。这种范式,虽着重强调工程能力,然而与此同时也必备着极为强大的研究支撑,这是由于其中实验的基础依旧在于科学问题,只不过是借助工程手段持续地进行验证以及推进 。
给年轻人的建议
InfoQ:对于年轻的从事研究工作的人或者工程师而言,您更加看重哪些处于基础层面的能力呢?在您的认知当中,什么样的从事技术相关工作的人能够在未来的人工智能时代持续不断地产生价值呢?
张磊表示,自己于深圳带着一支极为年轻的团队,其平均年龄兴许不到30岁。在和团队里年轻成员交流研究方向之际,他发觉不同年龄段有着不一样的焦虑。年轻人常常会担忧,“我们每日从事这些工作期间,却未接触大模型,会不会面临被淘汰的情况?”而他通常会向他们作出解释,实则并非如此 。
要是以招聘来说,假设是我给大模型团队挑选人员,我决不会首先去看他有没有大模型调参方面的经验,而是会看他是不是拥有扎实的计算机基础能力。这些基础能力涵盖对操作系统、体系结构、分布式系统的理解。比如说,在大模型训练这个过程中,真正的难题并非单纯的模型调参,而是怎样把上千张GPU卡联合起来展开训练,并且要保证系统稳定、不出现卡顿,在这种情况下你对并行计算的掌握就变得相当关键了。
要是你欠缺这一类能力,仅能够于两三台机器之上开展模型训练,那么在实际的项目当中极有可能会被拥有系统能力的人给替代掉。原因在于,在一个快速推进的大型团队当中,最为优先的任务常常是使千卡规模的训练稳定地运行起来,而非仅仅在模型结构方面进行微调。有时我会跟学生或者同事讲述相关的故事。其本质上并没有太过高深的数学背景,只是作者对其中的计算过程,以及 GPU 架构的特性有着相当深入的理解 。他借助 GPU 里 L1 cache 的高速访问本领,将这部分计算效率提升了 2 至 3 倍,这种极为基础的优化,对整个领域的推动反倒更为显著。
因此,我提议,不应驻留在“调参侠”或者“炼丹侠”层面,也就是仅仅去改动参数、开展运行实验,而是要思索这些实验背后潜藏的原理。比如说,并行计算究竟是怎样达成的?为何上千张 GPU 能够协同进行工作?要是训练的速度变缓慢了,那么瓶颈究竟处于哪里?以其工作作为实例,不管是 V3 还是 R1,这些备受广泛关注的成果,实际上背后基本上都是系统级别的突破。举例而言,他们是如何把训练过程优化为 FP8 精度的?如何让流水线并行将 GPU 的每个单元算力都充分挖掘出来发挥到极致的?这都要求研究者对系统架构有非常深入的理解。
我给到年轻人的建议为,不管你当下从事的是哪一种工作,要专心致力于把基础夯实,别过度担忧所谓的35岁危机,也别因没做过大模型就自我贬低,只要你拥有扎实的代码能力以及系统理解,机会肯定会出现,实际上,在我们进行招人时,真正拥有这些能力的人并不多,并非随便有点经验就能胜任的,真能把底层做坚实的人,一直是团队里最稀少、最珍贵的 。
InfoQ:AI 都可以写代码了,还要不要报考计算机专业?
张磊表示,这跟他前面所讲的观点存在关联,那就是所有的工作都应当先把基础给夯实好。对于那些马上就要报考志愿的高中毕业生而言,他给出建议,要优先去选择基础学科方面的专业,就比如说计算机科学这个品类。要防止过早地去选择那些太过侧重于应用的专业,原因在于应用的方向会跟着时间的变化而发生改变。计算机这个领域从五六十年代开始一直发展到现在,它的底层逻辑,像是CPU/GPU架构设计、操作系统原理,经过了好多轮的更新换代之后依旧很稳固。在深入领会了这些基础内容以后,再去学习人工智能就会更具备优势,并且扎实的基础能够让你在发展道路上走得更为长远。
报志愿之际,没必要过度为人工智能所带来的冲击而焦虑,当下AI编程能力往前发展着,冲击的主要是从事基础编码工作的普通程序员,未来对众人的要求是变成更出色的程序员,能力得超越AI,AI应当成为我们的辅助工具,协助我们编程,而非取代我们,要是一个程序员仅仅只能写简单界面,而AI已然能够凭借产品经理的自然语言指令生成这些界面,那他的确会被边缘化 。所以,还是得切实地巩固基础能力,借助和AI协作,提高自身编程的广度以及深度,作出AI 还不能够替代的贡献。
今日好文推荐
在 2016 年就已存在的老程序员,运用代码去开展副业,我仅仅亲自手动敲写了 1000 行代码,剩余 95%之多的代码是依靠自动生成的,。
180 天,极其厉害地赚取了 5.7 亿,8 人组成的团队,全体成员都实现了财富自由,其中最大的功臣是那两人 ,以及那两人 。
借助MCP,仅用一句话就能够致使数据库毫无防护地暴露运行!?并非代码存在漏洞,而是MCP在架构设计方面本就存在缺陷 。
不得了啦!这个源自清华体系的Agent框架一经开源,便快速收获了1.9k颗星,难道还会被“灭掉”不成?
会议推荐
8月22 - 23日,首届AICon全球人工智能开发与应用大会(深圳站)将正式举行,本次大会主题为 “探索AI应用边界”,聚焦Agent、多模态、AI产品设计等热门方向,围绕企业借助大模型降低成本、提升经营效率的实际应用案例,邀请头部企业、大厂及明星创业公司的专家,带去一线的大模型实践经验及前沿洞察,一同探索AI应用更多可能,发掘AI驱动业务增长新路径!
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码