你好,欢迎进入江苏优软数字科技有限公司官网!

诚信、勤奋、创新、卓越

友好定价、专业客服支持、正版软件一站式服务提供

13262879759

工作日:9:00-22:00

intellij idea logo 从物体检测到一般视觉感知:构建空间智能的基础

发布时间:2026-02-20

浏览次数:0

由于以某类为代表的生成式人工智能取得迅速且显著的进步,人工智能也就是AI,正从对文本、二维图像以及视频的处理,朝着空间智能领域迈进。空间智能所指的是,机器在三维空间里具备的感知、理解以及交互相关能力。它并非仅仅是让机器能够“看见”这个世界,并且是叫机器能够做到如同人类一样,在繁杂的三维环境当中展开导航、实施操作以及做出决策,进而促使人工智能得以在自动驾驶、无人机导航、具身智能等诸多领域获得发展。

将物体的位置以及语义,处在三维环境里,并把它们准确检测出来,这是机器在空间智能中,进行对自身所处环境理解的首要依赖,而该理解是物体检测所具备的能识别与定位图像或者视频之中物体的能力。人工智能系统唯有借助有效的物体检测,才会获取有关空间布局以及物体关系的信息,进而开展更为复杂的推理以及作决策。所以,物体检测能力乃是空间智能发展的基石。

本文经由回顾近20年之中物体检测这一领域的发展情况,联结粤港澳大湾区数字经济研究院(也就是所谓下文中记述的“IDEA研究院”)最新款DINO-X模型的介绍内容,针对怎样借由通用视觉感知模型去构建空间智能基础展开系统性的分析以及探讨,其目的致力于开拓并且促进相关领域的研究工作,进而加速空间智能技术切实落实这项工作。

物体检测领域的3个里程碑

机器感知环境的那种能力,被称作计算机视觉(CV),它的源头能够回溯到20世纪50年代,在那之后的几十年间渐渐地成为了一个单独且关键的研究范畴。

20世纪50年代,计算机视觉的初步探索起始,研究者们着手尝试运用计算机去处理以及分析图像数据,早期应用涵盖光学字符识别还有简单的图像测量。

20世纪60年代,计算机技术不断地发展着,拉里·罗伯茨(Larry)在所撰写的博士论文里,提出了关于从二维图像提取三维几何信息的研究,这一研究标志着计算机视觉作为独立学科开始了。

20世纪70年代,大卫·马尔提出了视觉系统的理论框架,该理论框架强调了将二维图像转换为三维结构表示的重要性,此又为后续的研究给提供了理论支持。

计算机视觉里,物体检测属于核心任务之一,其目的在于去识别以及定位图像之中或者视频里头的目标物体,这一能力给机器对视觉信息予以理解和分析提供了基础条件intellij idea logo,致使计算机能够达成“看见”以及“理解”周边环境的状况,运用物体检测这种方式,计算机不但能够识别物体的存在情形,还能够明确其位置、大小还有形状,进而为后续的决策以及行动供给依据。

物体检测于近20年发展进程里,历经了明显的变革,此变革能够借由以下3个里程碑予以描述。

(1)在深入之前,维奥拉 — 琼斯人脸检测器出现于2001年。

2001年时,保罗·维奥拉(Paul Viola)以及迈克尔·琼斯(Jones)提出了Viola-Jones人脸检测器,这可是物体检测领域里的一个重要里程碑,该算法借助使用Haar特征、算法以及级联分类器达成了快速且高效的人脸检测,主要涵盖以下特点。

Haar特征:使用简单的矩形特征来表示人脸的不同部分。

对于算法而言,要去挑选出那最具备区分能力的特征所在,紧接着组合一些多个的弱分类器,最终以此来形成一个强分类器。

级联结构:通过快速排除明显不是人脸的区域,提高检测速度。

Viola-Jones算法,在学术界所获得的认可极为广泛,其同样被广泛应用在商业产品方面,最终成为了早期物体检测范畴内的标准框架。

(2)CNN: R-CNN (2015)

在2015年的时候,R-CNN的被提出这件事标志着深度学习时代当中物体检测技术出现了飞跃,R-CNN把区域提议网络也就是RPN与Fast R-CNN模型进行了结合,达成了更快的物体检测速度以及更高的准确性,它的核心创新是下面这些。

一种名为区域提议网络的事物,是借助共享卷积特征来实时生成候选区域的,它使得检测速度得到了大幅提升。

第一个阶段实施检测,此阶段要先去生成候选区域。接着进入第二个阶段,对所生成的这些区域展开分类,同时还要进行边界框回归。

处于自动驾驶、安防监控等好些领域之中,R-CNN呈现出了超凡的性能,进而变成了众多后续展开研究与一系列应用的根基。

(3):DETR,于2020年形成,还有DINO,在2022年出现。

以架构为依托的DETR()以及DINO(IDEA研究院在DETR基础上经由系列研究工作所提出的改进模型),先后于 2020 年和 2022 年出现。这些模型展现出物体检测的新方向,主要特点如下。

引入编码器以及解码器结构,将物体检测任务转化成端到端的优化问题,利用自注意力机制处理图像里的物体关系,大大简化传统检测流程,这就是DETR装置。

DINO,起始于DAB - DETR ,该方式是通过把Box引入到DETR ,从而使DETR Query具备更好的可解释性,再往后发展到DN - DETR。

先是引入去噪任务然后加速DETR训练,接着到DINO,也就是进一步改进DAB - DETR和DN - DETR,DINO系列工作有效地把DETR训练收敛慢以及检测性能比不上传统基于CNN的检测算法的问题给解决了,在2022年3月的时候位列视觉领域最基础的COCO物体检测榜单第一名,而且保持长达5个月的时长,变成物体检测领域的代表性方法,被很多后续研究工作所运用。

第一次,DINO模型让DETR这类算法成为了物体检测领域里边儿最佳的算法,这两者中的两种模型展示出了在视觉任务里存在的潜力,为未来的通用视觉感知奠定下了基础。

从闭集检测到开集检测

虽DINO模型在COCO榜单上达成了“当前最优水平”(也就是SOTA),然而它依旧是个从事闭集检测的模型。闭集检测模型存在这样的假设,那就是训练以及测试阶段里物体不同类别是全然同一关系的。在这样的一种模型里面,所有具备可能性的物体不同类别在训练的时候都是已知了的,并且此模型仅仅需要去识别这些已然知晓的不同类别。它所拥有的特点是如下这般。

一种固定的类别情况是,模型仅仅能够识别在训练的时候所见到过的类别,而没有办法去处理那些未曾见过的类别。

高准确率,是由于模型专注于特定物体,所以在已知类别上,通常会表现出较高的准确性。

对新冒出来的类别,对环境表现当中的变化,有限适应性存在着,闭集模型没有办法实施有效的识别。

旨在解决现实世界里习以为常的未知物体类别问题的开集检测模型,它不但能够识别已知类别,而且还可以发现以及处理未知类别,其具有如下特点。

能够在不预先界定全部可能类别的情形下,识别未知物体,还能区分未知物体,这便是动态适应性。

较强的泛化本领,相比于呈现封闭状态的模型,开展的开集检测具备更为出色的泛化能力,能够去顺应持续发生变化的环境。

贴近人类认知,模仿人类面对新事物时的那种,识别能力,此能力能让系统在实际应用里,变得更为实用。

进行开集物体检测时,关键之处在于引入语言理解,以此来扩展对于未见过的类别的检测泛化能力。当前,多数开集检测模型是通过扩展闭集检测框架,并且结合语言信息,从而适配开集场景。比如说,IDEA研究院所提出的DINO模型,它经过在特征增强器阶段、语言引导的查询选择模块阶段以及跨模态解码器阶段等多个阶段达成视觉与语言模态的融合,进而对闭集检测器DINO做了进一步优化。这样一种深度融合的策略明显提升了开集物体检测的性能。

通用视觉感知模型

于开放环境当中,物体检测直面诸多挑战,除物体类型具多样性之外,同一类物体且涵盖不同场景,与之不同的光照条件等,这些因素皆有可能致使检测性能下降。与此同时,开放环境亦带来全新机遇,像更丰富的应用场景以及更广泛的应用需求。

近些年来,通用视觉感知模型渐渐兴起,其借助大规模预训练以及多任务学习,能够学到更为通用且鲁棒的特征表示,因此在多种任务以及场景里取得出色的性能,跟传统模型相较,通用视觉感知模型具备更强的泛化能力以及适应性。

此时,占据主导地位的通用视觉感知模型涵盖CLIP、DINO-X等,当中的DINO-X模型是由IDEA研究院所研发的一种通用视觉模型,是DINO的改良版本,是升级成果。

DINO-X模型具有以下特点。

(1)全面提升的检测性能

DINO-X于开集物体检测范畴当中,提出了一种前所未有的零提示检测模式,此模式压根无需任何提示,就能够甄别几乎是所有的物体,并且还能给出那些物体所属的类别,这里面涵盖了罕见的长尾物体,也就是那种出现频率低然而种类却繁多的物体。

零样本评估设置里,DINO-X Pro于业界公认的LVIS-数据集那儿,取得了59.8%的AP,大大超过了其他现有的算法。在LVIS-val数据集上,DINO-X Pro同样展现得很突出,取得了52.4%的APintellij idea logo,见表1。

将其具体到,LVIS - 数据集里的各个长尾类别评估层面,DINO - X Pro于稀有类别之中,取得了63.3%的AP,于常见类别之中,取得了61.7%的AP,于频繁类别之中,取得了57.5%的AP。DINO - X属于当下视觉领域检测性能最为出色的通用视觉模型。

(2)泛化和通用性

起因是有着超过1亿的大规模训练数据,这些数据质量高且具备物体级别标注信息,所以DINO-X对于未知场景以及新物体有着更强的适应性。这表明了在碰到未见过的物体或者环境之际,模型依旧能够维持高水平的检测性能。正是这种超强的泛化能力,致使其在实际应用当中更为灵活。

(3)多任务感知与理解

DINO - X整合了多个感知头,它支持多种区域级别任务,其中涵盖分割、姿态估计、区域描述以及基于区域的问答,使得感知到理解逐渐变成了现实,(见图1)。

(4)长尾物体检测优化

为了对长尾物体的检测任务予以支持,DINO - X不但支持文本提示以及视觉提示,而且它还支持经由视觉提示加以优化的自定义提示,这致使模型能够更为便利地去适配全新的场景以及检测问题。

因而,涵盖DINO-X所属的全部通用视觉感知模型,凭借历经诸多万物识别等能力,促使其具备了针对开放世界(Open World)的视觉感知,得以从容应对现实世界里的大量纷繁不确定性以及开放环境,为具身智能、大规模多模态数据的自动标注、视障人士服务等难度颇高的场景赋予能量与实力。

通用视觉感知与空间智能

李飞飞教授于二零二四年在TED大会阐述“空间智能”的概念,又于二零二四年在英伟达GTC开发者大会的炉边谈话里,再次谈论了“空间智能”的概念。她觉得空间智能是更具基础性的人工智能技术,该技术能让机器如同人类一般开展更为复杂的视觉推理以及行动规划,而且关键之处在于在真实世界里,机器人在没有经过预先训练的情形下,就能直接执行任务。它的核心所指的是,空间智能算法能够合乎情理地推断出,图像以及文字在三维环境里呈现出来的模样,并且依据这些预测来采取相应的行动。

空间智能这一概念,最早是由美国那个号称心理学家的霍华德·加德纳,在他于1983年出版的那本名为《智能的结构》(英文名为of Mind: The of)的书里给提出来的。进一步说得更精准些,这个概念呢,是与视觉能力有着紧密关联的。书中给出的视觉 - 空间智能 ( - ) ,是一种具备理解以及操作视觉空间信息的能力,这里面涉及到对于物体形状、大小、方向、相对位置,还有三维空间的感知与操作。它不但涵盖了对物体和图像的识别,还包含在头脑当中以三维方式去想象与操作这些对象的能力。

在英国,有个叫帝国理工学院戴森机器人实验室的地方,那里有位安德鲁·戴维森教授,在2018年有一篇名为“: The of AI ”的论文,他在这篇论文里提及了“ AI”也就是空间人工智能。他持有这样的观点,认为 “ AI”是从视觉SLAM ( and)这个东西演变产生的 ,而且他觉得在未来它会变成下一代智能机器人以及移动设备等产品的基础技术。AI系统所瞄准的并非是那种抽象的场景理解 ,而是要持续地去捕获准确且无误的信息 ,并且构建出正确无误的表示 ,藉此达成时刻处于实时状态的解释以及行动。

安德鲁·戴维森的看法是,AI的核心问题,是增量估计。增量估计问题所指的,就是在实时环境当中,要怎样持续地去存储以及更新一个有着静态和动态元素的场景模型。增量估计是关键挑战,原因在于需要系统能够处理来自多种传感器还有数据源的连续数据流,并且把这些数据流融合到一个一致的场景表示里。

安德鲁·戴维森提出了两个有关设计AI系统的关键假设,其一,当设备需要长时间运行,去执行各类任务,还要与包括人类在内的其他实体展开通信时,AI系统应当构建一种通用且持久的场景表示,这种表示,至少在局部上要接近于度量3D几何,而且是人类能够理解的;其二,AI系统对于广泛任务的有用性,能够借助相对较少的性能度量被很好地表示出来。

INDEA研究院,就着结合DINO - X通用视觉感知模型展开的研究,提出了自身对于空间智能的理解,(你可以看附图2)。DINO - X属于那种基于物体检测的模型,具备强大的二维图像理解能力,尤其是在物体检测以及特征表达这方面。

凭借从二维检测朝着三维物体感知以及三维环境感知的升级,DINO - X模型意在达成更周全的环境理解,为复杂场景的智能感知与交互提供支撑。此过程不但需要算法与模型的创新,还需要硬件加速和高效数据处理流程予以支持。

3D物体感知,是要在2D物体检测的基础之上,去对物体的3D姿态,还有关键点,以及几何结构进行更细粒度的估计,从而为3D环境理解提供最基础的物体级别的能力。它还能够集成来自不同来源的数据,像2D图像,深度图(LiDAR、雷达或立体视觉)咧,以及点云数据,通过设计高效的多模态融合策略,来提升对物体3D结构的感知能力,进而在复杂环境中实现更高的鲁棒性。

3D环境感知关联着场景语义解析、动态建模等诸多方面的问题,场景理解借助3D重建与定位技术,联同2D物体检测与语义理解,搭建全局的3D场景语义地图,这种语义地图能完整覆盖物体类别、空间位置及其关系,为场景的全面感知予以支持,在动态场景建模里,要着重剖析和建模动态变化场景中的物体行为,比如行人的移动轨迹以及光影的动态变化,为理解和预测动态环境给出更精准的支持。针对这些问题展开探究,这会进一步促使3D场景理解技术朝着发展方向迈进,进而推动其应用进程。

除此之外,在开展3D物体感知以及环境感知的研究方面,要去构建大规模的、多模态的那种空间感知数据集,这对于推进可以理解多样化且复杂场景的算法研究而言,是极为基础的一项工作。

面临挑战

当DINO - X通用视觉感知模型朝着空间智能迈进时,这里会遭遇诸多关键挑战。这里会历经好多关键挑战。

3D结构存在着诸多各异的表示方式,像3D边界框、3D关键点、3D点云、3D网格等,后续研究得思索怎样于算法层面寻得统一的表示,达成较高的可扩展性,还能够适配不同场景,这便是3D结构的统一表示:

对3D环境进行语义理解时,环境的3D重建主要依靠基于几何的多视角视觉方法,像SLAM以及SfM等这类方法,此种方法要把2D和3D物体感知结合起来,从而对场景施行细粒度的语义理解,后续的研究得思考怎样更高效地将基于几何与基于物体理解的两种算法相融合,进而给到更具语义性的3D环境理解。

考量一下计算复杂度,3D数据的处理,它明显地增添了计算复杂度这一情况,在模型设计当中要求去平衡精度与效率。

涵盖范围包含,针对系统化3D感知数据集构建方面所需具备的能力,此能力要达成将模型确保于能在真实场景当中实现泛化的目的,特别聚焦于针对跨域数据还有不完备数据的处理能力。

未来展望

最早开始推崇世界模型的研究者之一,是图灵奖得主杨立昆(Yann LeCun),他带领Meta FAIR团队,在过去几年开展了一系列世界模型方面的研究。除Meta外,李飞飞的创业公司World Labs计划开发大世界模型(LWM),借助空间智能最终赋予人工智能理解、推理以及生成3D世界的能力。World Labs近期公布了公司成立后的首个项目,该项目能依据单张图片和一句话生成3D世界。将人工智能领域头部公司包含的、与Meta处于同一水平地位的那个谷歌,在2024那一年公布了团队于世界模型领域所取得的那种突破,这种突破是关于3月5日发布的第二代与年初不同的Genie的,年初那时候推出的世界模型Genie能够生成多样的2D世界,而在12月5日发布的第二代Genie 2呢那就更是实现了具有本质性跨越性质的那种飞跃,这种飞跃体现在它能够凭借单独的一张图片进而生成可以进行交互操作的3D世界。

凭借DINO - X模型的优势,IDEA研究院往后会在从2D物体检测起往后,到3D多物体及环境感知等诸多领域开展更为深入的探究,达成一个涵盖从真实至模拟(具体内容缺失处)的管道,并且偕同人类常识、物理规律、空间推理以及世界知识等经验能力去构建世界模型。

如有侵权请联系删除!

13262879759

微信二维码