发布时间:2026-02-28
浏览次数:0
1、百度:全栈技术积累颇丰,AI应用场景全覆盖
模型以及技术方面的积累极为丰厚,传统业务为此奠定了先发的优势地位。若从模型的角度来看,百度手中持有文心系列模型(.0,.0,.0,.0-Titan),还有PLATO系列模型(,,PLATO-XL),这些模型都是历经多年积累而成的,并且与百度自身的核心业务均有着紧密的关联。除此之外,百度存在着一个从软件直至AI芯片全栈实现打通的训练框架生态,该生态的对标对象是和,在国内也是独一无二的。在核心业务那儿,百度于国内稳稳地掌控着搜索端入口,跟谷歌作比较而言要更显从容些,并不用去应对同行迅速发起的挑战,能够依照自身的节奏过渡至“大模型 + 搜索”这般的问答搜索业务全新模式。于此同时,凭借海量中文数据集沉淀下来的成果,百度同样会获取海量中文问答式搜索反馈数据,这般稀缺的数据足够让百度巩固并且持续扩大在这一领域方面的优势,进而形成“数据飞轮”效应。
文心大模型处在百度整体全栈布局里的模型层级,百度历经11年积攒了全栈人工智能的技术,是涵盖芯片层、框架层、模型层以及应用层这四层,这四层之间构成了有着层到层存在反馈还包含端到端施行优化的情况,特别是处于模型层的文心大模型与处于框架层的飞桨(也就是产业级开源开放平台) ,在开展文心一言相关的开发进程中,二者之间的协同实施优化起到了相当关键的作用。模型层含文心大模型,比如NLP大模型,还有CV大模型,以及跨模态大模型,基于这些又开发了大模型的开发之工具,还有轻量化工具,另外有大规模部署工具,并且它支持零门槛这项的AI的开发平台,还有全功能的AI开发平台。
在2019年时,首个文心大模型,和当下的文心一言相同之点在于,它属于NLP模型,并且具备三条呈现出不断向前进展态势的主线。文心NLP大模型发展进程存有三条主线,第一条主线是文心ERNIE,文心ERNIE 3.0以及文心ERNIE 3.0 Titan模型那时对比GLUE均胜过人类排名第一的水准;第二条主线是文心ERNIE于跨模态、跨语言还有长文档、图模型等范畴取得了显著进展,在各类榜单特别是视觉语言相关榜单得居首位;第三条均线是对话生成大模型文心PLATO,它在对话的流畅度方面有了大幅提高。
知识增强型的大模型ERNIE有着持续学习的框架。在这样的框架里,能够不停地从诸多不同的数据以及各种专业知识方面进行学习与汲取,并且持续不断地构建各式全新的新任务,像是文本分类这一任务类型、问答任务这种样式类别、完形填空任务这样种类范畴等。大模型于不同的任务当中持续开展学习,促使自身能力获得持续不断的推进提升进而得以拥有更加丰富饱满更多类型的知识。基于此情形,百度研发了知识增强的预训练模型,这个模型可以从规模极为庞大的知识图谱,以及海量没有固定结构的数据当中去进行学习,进而突破异构数据统一表达方面存在的瓶颈问题;此模型同样能够融合自编码与自回归结构,它既能够用于语言理解,也能够用来做语言生成;除此之外,借助飞桨4D混合并行技术(此处的4D混合并行指代的是在训练时同时存在4种不一样的并行方式),能够节省50%的时间,进而达成更高效地对超大规模模型的预训练予以支持。基于以上三个别具一格的特色,百度推出了彼时全球首个具备知识增强特性的千亿大模型.0codejock xtreme toolkit,它拥有2600亿参数,在60多项NLP任务当中 处于世界领先地位。与此同时,在针对这个模型的实际运用过程里,能够将参数压缩速率达到99%,从而使得该模型的效能获致大幅提升。
于Fine - 任务方面,文心ERNIE能够被运用在各异的任务当中,借助任务数据来实施微调,文心ERNIE在21类54个Fine - 任务里获取领先地位,这些任务分布范围非常广泛,涵盖了语言理解、语言生成、知识推理等等方面,与此同时,文心ERNIE在零样本以及小样本学习的能力也是极为突出的,特别是在文本分类、阅读理解、知识推理、指代消解等任务里取得全面领先。对于Bert而言,ERNIE在理念方面引入了诸如知识图谱等之类的外部知识信息,其中包括语料里的人名、地名、机构名,句子间的结构关系以及逻辑关系等等。在这些特征给予的赋能状况下,相较于GPT-3时,文心ERNIE在复杂知识推理能力上存在着8个百分点的绝对提升。
ERNIE-M,这样一个跨语言大模型,解决了小语种语料资源不足的状况。在跨语言学习这个过程之中,中文和英文语种的语料资源是比较丰富的,然而,好多小语种语料资源却是缺乏的。所以,百度采用了一种方式,那就是用少量平行语料以及大量非平行语料,借助回译的机制来进行学习,从而解决这个问题。该过程运用统一模型对96种语言进行了建模,在5类语言任务方面刷新了世界最佳结果,像是于自然语言推断当中收获极大提升,在语义相似度领域同样取得显著进步,在阅读理解范畴也实现了极大跨越,在命名实体识别方面更是提高明显,于跨语言检索等任务之上都有着极大改善,并且在权威跨语言理解榜单上荣获第一。
有一个名为跨模态大模型ERNIE-ViL的,首次把场景知识给引入进去,以此助力有效执行跨模态任务。 引入场景知识的目的是啥呢,是为了去理解图像当中细粒度的语义,像房子、车子和人相互之间的关系,以及车具体是什么颜色等。 通过构建场景图这样的方式,该模型能够对图像开展细粒度的语义理解,进而在有像视觉问答、视觉常识推理、图像检索等这样的跨模态任务上取得最好的效果。 ERNIE-ViL在权威视觉常识推理任务VCR榜单之上也是排名第一的。
凭借跨越不同模态的语义对齐算法,图文之间的转化成效处于世界领先地位。文心ERNIR-ViLG身为全球规模最为庞大的中文跨模态生成大模型,它的特性在于在一个模型当中,能够在同一时间兼顾从文本到图像的生成情形,以及从图像到文本的生成状况,借助跨模态的语义对齐算法,达成双向生成。当下模型参数规模已然达到了百亿级别,而且在效果方面领先于DALL·E。
ERNIE - Sage图模型借助知识图谱来强化搜索里的关联信息,鉴于应用众多场景拥有关联知识,意在对关联知识建模,百度呈示出了文心ERNIE - Sage的图模型,基于此模型,能够于搜索中凭借文档的Title与Query,去创建Query与Title、Query和Query之间的关系,并且也能够借助知识图谱的知识来强化这种关联。为处理于应用里长尾数据稀疏这一问题,百度增添了知识图谱信息以及其他领域知识信息,以此得以更优地强化图模型知识间的关联,并且借助图学习、预训练方法的助力,来提高文本图语义的理解,这般的模型被百度大量运用于搜索、地图等应用之中。在地图方面,能够构建POI之间的关系,凭借图的模式可让用户的搜索效率得以提升,很好地纠正地图语义的理解。
PLATO借助隐变量与角色建模达成多样化回复,在对话生成之举里,特别是于开放域的对话生成范畴内,得要针对用户的任意话语给出连贯且具意义的回复,任意上文序列皆理应有相称的回应且存有多个相称的回应。鉴于此现象,百度推展出隐变量的大规模对话生成模型,凭借隐变量与角色建模,能够优良地达成建模,以及针对上文生成多样化回复。文心PLATO-XL基于该框架发布,它具备规模大的特点,具备效果好的特点,具备能耗低的特点,它有110亿个参数,它模仿人类自然语气的能力是很强的,并且它拿下了“全球对话技术顶级赛事DSTC”等多个冠军。
2、腾讯:优化大模型训练,加速大模型应用落地
国内首个名为混元AI大模型的低成本、可落地的NLP万亿大模型,是腾讯在2022年底发布的。汇聚腾讯预训练研发力量一同努力,目的在于打造处于业界领先地位的AI预训练大模型和解决方案,利用同一个平台,完成技术复用以及业务降本,进而支持更多场景与应用。当前,完整覆盖了NLP大模型,以及CV大模型,还有多模态大模型,和文生图大模型,以及众多行业领域任务模型,自2022年4月起,先后在MSR-VTT、MSVD等五大权威数据集榜单中登顶,达成了跨模态领域的大满贯,2022年5月,在CLUE即中文语言理解评测集合的三个榜单同时登顶,一下子打破三项纪录。凭借腾讯具备的强大底层算力,以及低成本高速的网络基础设施,依靠腾讯处于领先地位的太极机器学习平台,推出来了-NLP 1T大模型,此大模型于国内权威的自然语言理解任务榜单CLUE之中登顶。
对大模型应用机制展开探索,着手实现于工业界的迅速落地。该模型在热启动以及课程学习、MoE路由算法、模型结构、训练加速等各个方面依次进行学习优化,极大程度地削减了万亿大模型的训练成本。借助千亿模型进行热启动操作,速度最迅捷之时仅凭借256卡便能够在一天之内完成万亿参数大模型 - NLP 1T的训练工作,整体的训练成本仅仅是直接采用冷启动方式训练万亿模型的八分之一。此外,业界针对万亿大模型的应用探索极为稀少,鉴于此腾讯研发了业界首个支持万亿级MoE预训练模型应用的分布式推理以及模型压缩套件“太极-HCF ”,达成了无须事先把大模型蒸馏成中小模型再去推理,能够运用低成本的分布式推理组件/服务直接实施原始大模型推理部署,充分施展了超大预训练模型所带来的模型理解以及生成能力的提升codejock xtreme toolkit,并且成为业界首个能够在工业界海量业务场景直接实现落地应用的万亿NLP大模型。
打造具备高效率的开发工具,以此降低模型训练所需成本。出于让大模型在可接受的推理成本状况下将业务效果最大化的目的。腾讯设计了一套“先蒸馏而后加速”的压缩方案来达成大模型的业务落地,紧接着还推出了太极-HCF。它涵盖了从模型蒸馏、压缩量化一直到模型加速的完整能力。为AI工程师打造出从数据预处理、模型训练、模型评估直至模型服务的全流程高效开发工具。当中,太极 - HCF 此大模型分布式推理组件,融合了分布式能力以及单卡推理优化,兼顾着分布式高效推理能力的构建还有易用性建设,太极 - SNIP 这大模型压缩组件,结合量化、稀疏化跟结构化剪枝等多样加速手段,进一步加快了模型的推理速度,总而言之,腾讯于技术上经由蒸馏框架和压缩加速算法这两方面,达成了迭代速率更快,成效更为优良,成本又更低的大模型压缩组件。
减轻显存方面的压力,冲破模型参数扩充制约。因预训练模型中参数量不断上升增多,致使模型训练所需的存储容量明显提升增大,像万亿规模模型仅模型状态方面就得要多达17000多G显存,单单凭借显存极其严重地限制约束着模型参数的拓展增大。故而,依据Zero-相应的理念观念,腾讯独立自主研发了太极,把多流异步特性做到最为完善的程度,在充分运用CPU以及GPU来实施计算运算的同时以最大程度利用带宽开展数据传输以及NCCL通信交流作业,运用异构流水线来平衡均等设备之间的负载负担,以最大程度提高整个系统的吞吐数据方面的能力。
商业化拓展速度飞快,大模型效益得以验证。它曾经支持了一系列的产品与业务,像微信、QQ、游戏、腾讯广告、腾讯云等等,借助NLP、CV、跨模态等AI大模型,既为业务创造了额外价值还降低了使用成本。尤其在广告内容理解、行业特征挖掘、文案创意生成等方面的应用相当突出,在给腾讯广告带来显著GMV提升的同时,也初步证实了大模型的商业化潜力。
3、阿里:聚焦通用底层技术,开源释放大模型应用潜力
阿里达摩院一直以来深耕多模态预训练,率先探索通用统一大模型,快速提升参数量级。2021年,阿里达摩院先后发布多个版本的多模态及语言大模型,在超大模型、低碳训练技术、平台化服务、落地应用等方面实现突破。其中使用512卡V100 GPU实现全球最大规模10万亿参数多模态大模型M6,同等参数规模能耗仅为此前业界标杆的1%,极大降低大模型训练门槛。M6拥有很强的多模态表征能力,它把不同模态的信息予以统一加工处理,使之沉淀成为知识表征,进而能够为各个行业场景给予语言理解、图像处理、知识表征等智能服务。如同其他大模型那样,M6同样是以预训练模型的形式输出泛化能力,下游只要提供场景化数据来进行优化微调,便可以快速产出契合行业特点的精准模型。2022年4月,清华大学、阿里达摩院等机构联合提出了“八卦炉”()模型,这是第一项在新一代神威超级计算机上训练脑尺度模型的工作,它通过结合特定于硬件的节点内优化以及混合并行策略,在前所未有的大型模型上达成了良好的性能和可扩展性,能够使用混合精度训练14.5万亿参数模型,其性能超过1 ,并且有能力训练与人脑中突触数量相当的174万亿参数模型。
大模型通用性以及易用性被持续聚焦,国内首个AI统一底座被打造。2022年9月,达摩院发布阿里巴巴最新通义大模型系列,该系列打造了国内首个AI统一底座 ,通用与专业模型协同的层次化人工智能体系被构建,这个体系将为AI从感知智能迈向知识驱动的认知智能提供先进基础设施。通义大模型整体架构里,最底层是统一模型底座,在通义统一底座中,人脑模块化设计被借鉴,功能模块以场景为导向灵活拆拔,高效率和高性能得以实现。位于中间的、以底座为依托的通用模型层,涵盖了通义 - M6、通义 - 以及通义 - 视觉,而专业模型层则深度渗透到电商、医疗、娱乐、设计、金融等诸多行业。
M6 - OFA对多模态任务予以覆盖,于一系列视觉语言任务里达成了SOTA性能。基于统一学习范式,通义统一底座之中的单一M6 - OFA模型,把涉及多模态以及单模态(也就是NLP和CV)的所有任务均统一建模为序列到序列()任务,能够在不引入任何新增结构的情形下同时处理图像描述、视觉定位、文生图、视觉蕴含、文档摘要等10余项单模态和跨模态任务,且达到国际领先水平,这一突破最大程度地打通了AI的感官。M6 - OFA这个统一多模态模型,于一系列视觉语言任务里,达成了SOTA性能,在Image任务中收获最优表现,且长期于榜单之上排名处在第一的位置。
开源的深度语言模型,其模块化统一的态势十分显著有着表现得很突出这种意思不好了的意思而这样说在很多人听起来是很不习惯的。通义,是阿里达摩院所开源创制了的深度语言模型构成的一个体系,当中涵盖了通用语言模型,生成式PALM,结构化的东西,超大中文PLUG,多模态的方式,多语言VECO,对话.0/2.0/3.0以及表格STAR1.0/2.0,在这个流程里面形成了从文本PLUG朝着多模态mPLUG进而再到模块化统一模型的演变走向趋势。在2022年的时候,基于该相关模型所产出的结果在中文语言了解评测基础CLUE上斩获到了三榜第一的成绩。此外,270亿参数版本之PLUG,它在当时还是规模最为庞大的开源语言大模型呢。
在电商、交通等领域,视觉大模型具备着极为巨大的应用空间。通义视觉大模型,自下而上进行划分,底层是统一算法架构,中层为通用算法,上层乃是属于产业应用。依据阿里云社区给出的资料,通用的视觉大模型,于电商行业能够在图像搜索与万物识别等场景开展应用,并且在文生图以及交通和自动驾驶领域发挥相应作用!
4、华为:昇腾AI打造全栈使能体系,定位行业级CV应用
在业界打造首例,盘古NLP和CV大模型急起直追,速度超逸。2021年之时,华为云推出盘古系列超规模巨大的预训练模型,其中有含30亿参数的视觉也就是CV预训练模型,还有跟循环智能,鹏城实验室一同协作开发的拥有千亿参数,具备40TB训练数据的中文语言即NLP预训练模型。盘古NLP大模型,是业界首个千亿参数的中文大模型,它具备领先的语言理解能力,还具备领先的模型生成能力。在2021年,于权威的中文语言理解评测基准CLUE榜单中,盘古NLP大模型,在总排行榜中排名第一,而且在分类单项排名第一,另外在阅读理解单项也排名第一,刷新了三项榜单的世界历史纪录。盘古NLP大模型于预训练阶段,学习了超40TB文本数据,且借助行业数据的小样本调优,来提升模型在场景里的应用性能;盘古CV大模型在发布之际,乃是业界最大的CV大模型,其目的在于解决AI工程难以实现泛化以及复制的问题。盘古CV大模型的出现,使得AI开发步入工业化模式,也就是一套流水线能够被复制到不同的场景当中,进而大大节省研发人力与算力。
CV领域成为聚焦点,开启适配工业化AI行业之举。因高价值数字化场景视觉属性突出,所以华为近年着重于CV模型行业适配。盘古CV大模型首次将图像判别与生成能力两者兼备,可同时达成底层图像恢复需求以及高层语义理解需求,还能轻松且高效地融合行业知识,快速适配各类下游任务。盘古CV大模型已在百余项实际任务里获得验证,显著提高了业务测试精度,还能够节省超过90%的研发成本。比如说在电力这个领域,运用盘古CV大模型采用利用海量没标注电力数据开展预训练然后进行筛选的操作,并借助少量标注样本进行微调的较为高效的开发模式,独具创见地提出了面向电力行业的预训练模型;于医药研发范围,华为开发了盘古药物分子大模型,达成了针对化合物表征学习的崭新的深度学习网络架构,开展了超大规模化合物表征模型的训练工作,在20多项药物发现任务方面达成性能最佳(SOTA)的成果。总之,盘古CV模型在适配行业应用时,具有降低开发成本的优势,在此优势下,实现了样本筛选效率的显著提升,实现 了筛选质量的显著提升,实现了平均精度的显著提升。
昇腾提供AI能力,形成大模型全流程使能体系,造就盘古大模型演变基础,若企业用户开发大模型,得思索基础开发、行业适配、实际部署相关问题,华为所打造出的大模型开发使能平台,覆盖数据准备、基础模型开发、行业应用适配直至推理部署的全开发流程,推出大模型开发套件、大模型微调套件以及大模型部署套件,于大模型开发套件里,昇思与之结合,不但供给算法开发基础能力,且具备并行计算、存储优化、断点续训这样的特殊能力。于算法开发领域,昇思给出了易使用的编程API,这既能应对多种需求,并且算法借助百行代码就能达成千亿参数的模型开发;昇腾MindX所提供的大模型微调套件,其具备的功能含有两大块:一键式微调、低参数调优,也就是借助预置典型行业任务微调模板、小样本学习此类方法,直接冻结局部参数,以自动提示或者直接激活特定的一些参数;在推理布置这一方面,昇腾AI在当中给出了分布式推理服务化、模型轻量化、动态加密部署这三方面的能力,经由多机多卡分布式推理,能够大幅度提升计算吞吐量。
对着各个模态应用范畴,专门塑造异构计算体系CANN。昇腾AI整个堆栈包含了计算硬件层级、异构计算架构层次、AI框架方面以及应用使能方面。计算硬件是AI计算的根基根基,具备了强大有力的芯片以及硬件装置,上层的加速才拥有施行的基石。在计算机视觉领域,华为打造了基于“达芬奇()架构”的昇腾AI处理器,提升用户开发效率并释放澎湃算力与自然。有基于”此架构的昇腾AI处理器 ,推出针对AI场景的异构计算架构CANN,CANN通过提供多层次编程于接口,以全场景、低门槛、高性能优势,支持用户快速构建基于平台的AI应用和业务,在,类机器人等领域也是如此。
如有侵权请联系删除!
Copyright © 2023 江苏优软数字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服务提供商
13262879759
微信二维码