你好,欢迎进入江苏优软数字科技有限公司官网!

诚信、勤奋、创新、卓越

友好定价、专业客服支持、正版软件一站式服务提供

13262879759

工作日:9:00-22:00

intellij idea cxf 多模态智能体新时代:看懂、想透、做好的基础问题探讨?

发布时间:2025-08-08

浏览次数:0

以下内容基于采访速记整理,经不改变原意的删减。

多模态智能体的新时代

在智能体实现全面理解、深入思考和高效执行的能力时,有哪些基础性的问题常被忽略,然而它们实际上却具有举足轻重的地位?

张磊提到,“看懂”意味着对输入信息的理解,“想透”则涉及思考的全过程,“做好”则是指执行具体的行动。这三个环节实际上涉及了视觉识别、语言推理以及机器人执行物理任务的能力,本质上构成了一个典型的多模态处理过程intellij idea cxf,包括信息的输入、处理和输出的各个环节。这三个环节都充满了挑战,可以说人工智能的持续进步正是基于这三个维度的不断推进。

近几年来,语言模型实现了重大突破,同时,机器人本体技术也迎来了飞速发展——无论是人形机器人还是四足机器人,都取得了显著的成就,视觉技术也实现了巨大的进步。然而,将这些技术环节有效地融合在一起,仍然是一个关键挑战。比如,在具身智能领域,人们常常认为机器人缺少“大脑”。人脑中约半数的皮质区域负责处理视觉信息,故而在为机器人设计“大脑”时,视觉处理应占据一半的比重。视觉信息处理并未被忽视,只是其本身的复杂性使得它显得尤为重要。

视觉信息的输入维度相当庞大,它表现为连续的空间信号,如视频流等。此外,它还要求我们对三维结构有所理解。人类在处理物体时,拥有丰富的与物体互动的通用知识。例如,当我们看到某个物体时,我们便能够预判出如何进行操作,这包括判断是否能够推动或拿起等。这些能力通常超出了视觉感知的范畴,需要借助综合知识来支撑。我们的研究团队始终致力于视觉科学领域,尤其专注于对物体层面的认知,尽管在过去的数年中我们已取得了一定的成就,然而,与我所追求的将视觉认知与机器人技术高效结合的理想状态相比,我们仍需付出更多努力。

我观察到一个研究者的见解,他提出了关于“理解与生成是否应当一致”的议题,并指出在生成过程中,理解能力同样不可或缺。在生成模型的培养阶段,尤其是后期训练阶段,强化学习通常会被采纳,其中的模型实际上是在对生成内容的优劣进行评估。而这一评估过程,本质上就是一种理解。所以,若缺乏理解,便无法对生成的质量进行有效评估。换言之,在生成模型的训练阶段,我们离不开理解模型的协助。这一点也反映出,理解与生成这两个问题并非各自独立,而是存在着紧密的相互联系。

InfoQ:目前众多研究者对“空间智能”产生了浓厚兴趣。就您个人观点而言,这种智能最显著的意义或价值体现在哪些方面?

张磊表示,空间智能对于机器人来说极为关键。若机器人置身于某个环境,它首先必须能够辨认出周围的物体,接着要评估这些物体的距离,并且还要能够理解它们的结构和形状,以便制定出合适的抓取策略。在这一过程中,每一环节都离不开强大的视觉理解能力,而缺少这种能力将会极大地降低操作精度和成功率。

近期,在机器人技术的研究中,涌现出一些以端到端模型为基础的探索,例如视觉-语言-行动模型(VLA)。这些研究致力于通过图像输入直接指导机器人手的动作。不过,此类模型普遍存在对图像中物体缺乏深入理解和精确识别的问题。因此,目前VLA模型在实际操作中的成功率并不理想,距离实际应用还有相当的距离。

要在该领域实现重大进展,研究者必须持续优化和剖析问题,同时逐步增强机器人抓取和操作的有效性,目标是从80%的成功率提升至90%,进而达到95%。即便成功率高达99%,在家庭环境中也可能难以被用户接受——设想一下,即便机器人抓取杯子时只有1%的失误率,每次抓取100次就掉落一次,这也可能导致用户选择退回产品。

空间感知本身是一项极其繁复的课题,在研究界尚未建立起一套公认的建模体系。与此形成鲜明对比的是,语言模型的发展堪称奇迹。当语言序列化预测问题与特定架构完美结合后,通过持续增加数据、参数和计算能力等工程化手段,便能实现不断的性能提升。从GPT问世至今,其模型架构的根本特性依旧延续着。在视觉领域,特别是三维表示方法,尚未形成共识。以机器人为例,我们期望它们能拥有广泛的物体认知能力,而非仅限于识别少数几种物品。为了达成这一通用认知目标,模型的构建方式存在分歧。例如,模型内部的特征表示是采用类似于token的序列结构,还是应当采用三维物体的结构表示?这些问题在研究层面仍有广泛的讨论空间。

斯坦福大学的李飞飞教授明确指出,在世界模型构建中intellij idea cxf,三维的内部表示方式至关重要,唯有如此,模型才能准确地进行问题建模,并在理解和预测方面展现出更佳性能。然而,我认为,当前整个领域正面临着应用发展迅速的问题,而社会大众对于应用落地的期望又过于乐观。在这种乐观情绪之下,实际上研究人员需要脚踏实地,不断努力,逐一克服技术难关。

InfoQ:众多制造企业对于“人工智能与机器人”的结合抱有热切期望,同时也感到一定的迷茫。在您看来,目前最有可能实现的应用切入点是什么?您是否察觉到一些能够实现大规模应用的技术发展道路?

张磊指出,若要实现规模的广泛应用,模型需具备高水平的通用性和精确度。若仅有广泛适用性而缺乏精确性,同样会遇到极大的挑战。尽管某些应用场景较为特定,但它们往往是传统方法难以有效处理的问题。当前,众多机器人正致力于在汽车生产线的物料搬运环节中发挥作用。尽管目前它们的作业效率尚无法与人类相比,然而,一旦它们成功融入这些工作环境,便有望通过不断的迭代升级,逐步克服视觉识别、操作控制等核心难题。

在实际应用场景中,进行闭环迭代是一种极为珍贵的机会。借助真实环境的驱动,技术得以实现有意义的进步。而且,人类潜在的危险操作或恶劣环境,恰好是机器人应用的最佳领域。在这些场景中,即便需要牺牲一些灵活性和智能,甚至依赖远程操作与有限的智能结合,只要能够实现实际应用,研究人员便有机会不断优化系统的性能。

然而,若要实现真正的大规模通用化,比如进入家庭环境,那将遭遇更加艰巨的挑战。家庭环境尤为复杂,典型的开放空间如客厅、厨房的灶台或咖啡桌上,物品常常是杂乱无章地堆放。对于人类来说,这或许轻而易举,但对于机器人来说,想要理解并清理这些物品,无疑是对其视觉感知、语言推理能力和抓取灵活性的极大考验。我认为,这或许需要更长的时间来完成,可能甚至需要超过5年的时间。

当前,众多领域正经历着从“结构化”向“半结构化”的转变。举例来说,生产线上的机械臂从 A 点抓取物体至 B 点,这属于旧一代的技术,它依赖于高频率的重复性工作。然而,现代生产线对机器人的需求日益复杂多变,期待机器人能够根据指令进行灵活的操作。这种介于结构化与全开放之间的“半开放”环境,为机器人技术的逐步融入提供了切实可行的途径。

研究和产品的平衡

InfoQ:在微软研究院的过往经历以及目前于IDEA研究院的工作中,您都参与了众多基础研究及产品研发的协同工作。您对工业界的研究人员在“进行研究”与“推动应用”这两个角色之间的定位有何见解?

张磊表示,他长期在企业领域从事研究工作,这让他作为研究员身份时有更多机会深入思考问题。此外,他还亲自指导博士生,协助他们撰写论文。与此同时,他的团队也在持续努力,将研究成果转化为商业实践。在他看来,最大的认可莫过于看到自己的研究成果被微软的产品团队所采纳。所以,在研究员确定研究课题或对其价值进行评定时,通常会设立一个坐标框架:其中,横坐标象征研究的意义,纵坐标则指代其实际应用的价值。在这种框架下,最理想的位置当属右上角,意味着研究与应用的双重价值;而最应予以规避的则是左下角,该区域意味着研究既无学术价值亦无实用意义。

工业界的研究人员必须摒弃那种单纯的“论文思维”,他们的研究目标不应仅仅局限于发表论文。虽然对于博士生来说,在前期进行论文写作是一种必要的训练,它有助于提高逻辑思维和表达能力,但在更长远的发展过程中,研究的焦点应当更加侧重于解决实际问题。研究人员不仅需要对研究领域有深刻的理解,还应当逐步提升对问题的预见性和直觉判断能力。这种感知能力可助你辨识哪些问题值得投入精力、你能够达到何种效果,以及完成这些目标所需的时间,而最终目的始终是解决实际问题。

我们团队致力于目标检测领域的研究。众多人觉得,随着大型模型的崛起,检测难题似乎已被攻克,然而我们明白,若要打造真正通用的检测与感知系统,仍需克服重重难关。若能实现这一突破,将带来巨大的应用价值。我们对此方向持续保持坚定,不断推进研究。这种执着源于我们对问题核心的深入洞察以及解决难题的强烈愿望。某些难题可通过简易的工程技术手段得以解决,然而,对于部分问题,却缺乏现成的解决方案,唯有通过深入研究和创新思维才能找到突破口。这种研究并非无目的的探索,而是面对具体挑战时自然而然产生的需求。

多模态智能体视觉理解技术 _intellij idea cxf_ 机器人空间智能应用

在微软亚洲研究院度过的十数载光阴,对我而言,是一次深刻的磨砺。我们必须深入领会产品团队的工作内容,洞察他们所面临的难题。当然,每一位研究人员都渴望自己的研究能有所建树,因此,他们更倾向于投身于与产品目标相契合的研究领域。研究人员有时亦能对产品团队产生反作用,例如,他们可能提出一项极具潜力的新技术,进而研究其是否能够解决产品所面临的难题。这构成了一种互动交流。实际上,很难确立一个固定的模式来指导研究如何达到“右上角”的价值目标。这更是一种“可遇而不可求”的经历,然而,若目的是切实解决具有实际价值的应用难题,那么便不应仅仅满足于“为了发表论文而进行研究”。

工业界的研究者若过分聚焦于产品,确实可能忽视技术的前沿发展,从长远角度考量,这可能会对其创新能力的提升产生不利影响。对此,我是否赞同这一观点?在我领导团队的过程中,我又是如何在这两方面取得平衡的呢?

张磊提到,产品开发与研究的步伐有着根本的不同。产品的开发周期一般是以季度为时间单位,重点在于成果的交付。相较之下,研究模式,特别是在没有现成答案的情况下,更像是深入“未知领域”的探险,这本质上是一个充满创新的过程,很难为它设定类似于“两周内必须解决”这样的严格期限。

创新可分为两种类型,一种是主要由研究人员引领的极具创新性的研究,另一种则是类似于军队般协同推进的产品开发。这两种创新模式的工作节奏有着显著差异。若将这两种不同背景的人员强行组合成一个团队,常常会引发诸多困扰,尤其是对于研究人员而言,这种压力尤为明显。例如,他们需要每隔几周就提交成果,且这些成果还需进行量化评估,这样的工作节奏严重打乱了他们的研究进程。研究在本质上呼唤一个更为宽松的环境,尤其关键的是,要激发研究者的内在动力,使他们由衷地投身于问题的解决。为了实现这一目标,对研究节奏的控制不宜过于严格,应当为研究人员提供足够的探索空间。同时,还需保证他们的研究问题与现实紧密相连,避免陷入脱离实际的“象牙塔”思维,与产品的发展方向保持一致。这需要管理者对两种模式有深刻的理解,方能有效地协调二者之间的关系。

以发展为例,在GPT-1和GPT-2阶段,研究主要采取自由发散的形式,团队自身也无法预知哪条技术路径能够取得成功。然而,当团队意识到GPT技术范式所蕴含的巨大潜力后,他们迅速达成共识,果断调配资源,集中力量攻克难关。此时,研究模式也随之转变为项目制。如今,GPT系列产品的研发更倾向于一种工程导向的模式,它依赖于不断迭代的算力、系统架构以及数据。这种模式虽然侧重于工程技术,然而它同样迫切需求坚实的学术研究作为后盾,因为实验的根本仍在于科学问题的探究,而工程方法只是持续地对其加以验证和深化。

给年轻人的建议

InfoQ:在您眼中,年轻的研究者或工程师应当具备哪些核心的“基础能力”?您认为,在人工智能时代,哪类技术人员能够持续创造出价值?

张磊:我在深圳指导一支主要由年轻人组成的团队,他们的平均年龄可能不足三十岁。在与团队成员探讨研究方向的过程中,我发现不同年龄层的人都有各自的忧虑。年轻的同事们常常会担心:“我们每天都在从事这些工作,却未曾接触过大型模型,这样下去,我们会不会被时代淘汰?”我通常会向他们说明,实际情况并非如此。

以招聘为例,若我负责为大型模型团队选拔人才,我绝不会首先考虑其是否拥有丰富的模型调参经验,更看重的是其是否拥有坚实的计算机基础知识。这些基础能力涵盖了操作系统、计算机体系结构以及分布式系统等方面的理解。在大规模模型训练过程中,我们面临的真正难题并非仅仅是调整模型参数那么简单,关键在于如何有效地将成百上千张GPU卡协同工作,进行训练任务,同时还要保证整个系统的稳定运行,不会出现卡顿现象。在这种情境下,对并行计算技术的熟练掌握显得尤为关键。

若你未能掌握此类技能,仅能在少数几台设备上对模型进行训练,那么在具体的项目中,你很可能被那些拥有系统级能力的人所替代。在这样的快速发展的团队中,首要任务是确保千卡级别训练的稳定进行,而不仅仅是进行模型结构的细微调整。我有时会向学生或同事讲述这样的故事。其本质上并不涉及复杂的数学知识,但作者对其中涉及的运算步骤有着深刻的理解,并对 GPU 架构的特点了如指掌。他巧妙地运用了 GPU 中 L1 缓存的快速访问特性,成功地将计算效率提升了 2 至 3 倍。这种看似简单的优化,却对整个领域的发展产生了显著的促进作用。

因此,我提议我们不应局限于“调参侠”或“炼丹侠”的角色——仅仅调整参数、执行实验,而应深入探究这些实验所蕴含的深层原理。例如,并行计算是如何实现的?为何成百上千的GPU能够协同运作?若训练速度减缓,瓶颈究竟在何处?以某项研究为例,无论是V3还是R1,这些备受瞩目的成就,其背后几乎都蕴藏着系统性的创新突破。他们如何将训练流程提升至FP8精度水平?又该如何确保流水线并行操作能够充分利用GPU每个单元的计算能力?这一切都迫切需要研究者对系统架构拥有极高的认知深度。

我的建议是,无论你从事何种职业,务必夯实基础。不必过分担忧所谓的35岁瓶颈,更不要因未曾参与过大型项目而自我贬低。只要你的编程技能和系统知识扎实,机遇自会降临。事实上,在招聘过程中,真正具备这些素质的人才寥寥无几,并非仅仅拥有一些经验就能应对挑战。真正能把底层做扎实的人,始终是团队中最稀缺、最宝贵的。

InfoQ:AI 都可以写代码了,还要不要报考计算机专业?

张磊提到,这与我之前提出的看法相吻合,即所有的工作都应当从扎实的基础开始。对于即将面临选择大学专业的应届高中毕业生,我建议他们优先考虑那些基础学科的专业,比如计算机科学。同时,我建议避免过早地选择那些过分侧重于应用领域的专业,因为随着时间的推移,应用方向可能会发生变化。自五六十年代起,计算机科学领域经历了长足的发展,其核心逻辑,诸如CPU和GPU的架构设计、操作系统的基本原理,经过多轮的演变与优化,至今依然保持稳定。对这一系列基础知识进行深入探究,将为学习人工智能提供有力的支撑,并确保你在未来的道路上能够走得更远。

在填报志愿时,我们无需过分担忧人工智能可能带来的影响。目前,人工智能在编程领域的进步,主要对那些从事基础编码工作的程序员构成挑战。展望未来,我们应当努力成为更加卓越的程序员,提升自己的能力以超越人工智能。人工智能理应成为我们的得力助手,协助我们进行编程,而非取代我们的位置。若程序员仅限于制作基础界面,而人工智能已能根据产品经理的口语指示自动生成这些界面,那么他确实可能面临被淘汰的风险。所以,我们必须扎实提升自己的基础技能,通过与人工智能的协作,拓宽和加深编程技能,从而创造出人工智能尚无法取代的独特价值。

今日好文推荐

一位拥有16年编程经验的开发者,通过编写Code开展副业,他亲手编写了1000行代码,而其余95%的代码则是通过自动化工具生成的。

历经180天辛勤耕耘,他们成功赚取了5.7亿巨额财富,整个8人团队均实现了财富自由,其中最大的功臣无疑是他们。

构建MCP,只需一句话就能让数据库毫无遮拦地暴露在外!这并非代码中的漏洞,而是MCP在架构设计上本身就存在固有的缺陷。

卷势汹涌!该清华系框架一经开源,便迅速获得了1.9k的星标支持,岂能就此罢休?

会议推荐

首届AICon全球人工智能开发与应用大会(深圳站)即将在8月22日至23日隆重开幕!本次盛会以“挖掘人工智能应用极限”为核心议题,集中探讨Agent、多模态、AI产品设计等热点领域,针对企业如何运用大型模型来削减开支、增强运营效能的实际应用案例进行深入分析,特别邀请了来自行业领军企业、知名大公司和知名创业公司的专家学者,分享他们在一线的大模型应用经验和最新见解。携手深入挖掘人工智能的广泛应用潜力,共同开拓以AI为动力的商业增值新途径!

如有侵权请联系删除!

13262879759

微信二维码