你好,欢迎进入江苏优软数字科技有限公司官网!

诚信、勤奋、创新、卓越

友好定价、专业客服支持、正版软件一站式服务提供

13262879759

工作日:9:00-22:00

sublime text 3 c 人工智能领域CLIP面临挑战,MetaCLIP 2应运而生,刘壮谢赛宁参与

发布时间:2025-10-11

浏览次数:0

人工智能范畴内,语言 - 图像预训练模型(CLIP)属于一种应用广泛的基础架构,该模型系由相关研究者所创,能够执行零样本分类及信息检索等后续应用,同时亦可充当多模态大型语言系统(MLLM)的图像解析单元。

虽然 CLIP 在处理数以十亿计的英文图像文字配对时已取得显著成果,不过将其应用范围拓展至全球数据时,仍存在两个主要难题,具体表现为:

应对这些难题,由 Meta、MIT、普林斯顿大学、纽约大学的研究者研发出一种新方案,该方案是首次在原始全球图像文本对上从头训练 CLIP,完全不借助任何辅助材料,涵盖私有资料、机器翻译或知识迁移等。参与该项目的成员中,有刘壮和谢赛宁两位在人工智能领域享有声誉的专家。

科学研究表明,CLIP系统里所谓的「多语言困境」根本上是训练数据量不够所致,这种数据量不足的问题主要因为缺少对全球信息的有效整合以及合理的模型训练规划。调查人员发现,如果元数据管理、数据选择过程、模型大小和训练技巧能够被同步优化和扩展,那么英语与其他语言之间的性能差距就会消失,并且各种语言性能能够互相增益。

这种训练模式在范围广阔的层面上意义非凡,特别是在英语网络信息资源面临枯竭的境况下。

详细说明,这个方法以英文版本为根基,并且有意维持与CLIP原始架构的高度相似性这种结构上的相似性,让本项研究的成果能够推广到 CLIP 及其衍生模型,而不仅限于那些力求顶尖水平的综合性研究sublime text 3 c,因为后者通常需要多种技术手段的配合,包含多种变量或借助额外工具进行评估,而非单纯聚焦于 CLIP本身。

要达成实质性的世界范围发展目标,提出了三个关键举措:首先是元数据延伸,把英文所用的元数据拓展到超过三百种语言,包罗维基百科及其他多种语言。其次是数据筛选方法,研发了区分语言的子串匹配与均衡技术,让非英语数据的概念分布尽可能贴近英文数据。最后是训练体系,首次构思了全球性 CLIP 训练计划,该计划在训练环节,伴随非英语资料数量的扩充,等比例加大图像与文本配对的运用频次,同时探讨了在整体数据量条件下,所需的最小有效模型体量。

参照图 1 内容,尽管 ViT-L/14(当前最大模型)依然遭受「多语言困境」困扰,不过尺寸更宏大的 ViT-H/14 模型已经突破了这种瓶颈。英语检测的精确度由 80.5% 提高到 81.3%,同时,在多语言图像文字查询挑战上,也获得了最优表现(各项指标分别为 64.3%、Babel- 50.2%、CVQA 57.4%),这些成就的取得,基本没有对 CLIP 的基础结构造成变动。

综合来看, 2 实现了多项令人期待的成果。

英语资料与非英语资料形成了互惠关系,非英语资料有助于提升英语模型的表现,英语资料同样也能促进非英语模型的发展,这种双向优势在英语网络信息逐渐减少的今天显得尤为重要。

二,完全支持多种语言,始终不因语言差异而舍弃图文结合,模型整体表现全面超过当前所有多语言系统,包括 和 。

模型直接学习母语使用者所写的图像描述,不依赖机器翻译生成的合成文本,而是直接从母语使用者的文本中获取知识。

四,文化多样性方面:第二项内容完整呈现了全球图像的分布情况,涉及多种文化和社会经济条件,能够增强对地理方位及区域特征的辨识水平。

没有过滤原则:借助面向世界范围的设计数据挑选方法,去掉了整个学习过程中最终的语言筛选(就是看是不是英文说明),增加了丰富性并降低了非自然产生的错误倾向。

该研究构建了一个全球范围的图文数据基础集,其作用不仅限于 CLIP 模型本身,同时也为其他基于 CLIP 数据的应用提供了助力,比如多模态大型模型、自监督学习技术以及图像生成方法等。

论文的第一作者 Yung-Sung 在社交平台 X 上透露,应该停止使用语言审查工具了。

2 架构算法

将 CLIP 应用于全球原始数据涉及三个环节,首先建立世界范围的元数据体系,其次运用全球适用的数据过滤机制,最后构建面向世界模型的训练体系。为了保证技术方案和研究成果具备普适性,在实施第二环节时,设计上尽量贴合 CLIP 的原有模式,仅在关键位置进行修正,目的是更有效地从全球数据中提取信息。

世界范围内的元数据

这项研究致力于弥补非英语地区元数据方面的空白,以此应对全球化推进过程中的核心难题。研究者为每种语言分别建立独立的元数据库,这种安排既符合语言特性,比如 mit 这个词在英语和德语里的意思有所区别,又能增强系统运作效率,并且为后续拓展其他语言版本提供了便利条件。

元数据跟 CLIP 和 同源,这三个都取自四大数据源,不过,它们包含的语种不止英语这一种。主要改进之处在于:

数据筛选方法的模拟流程见流程图,原始图文信息集合 D、元信息集合 M 等构成初始条件,历经三个步骤,生成一个均衡且丰富的学习数据集合 D∗。

训练框架

sublime text 3 c_CLIP模型 全球数据训练 MetaCLIP2

本文又规划了全球数据层面的 CLIP 训练体系。为了使该体系及研究结论能应用在 CLIP 及相关模型上,本文沿用了 / 的训练方案和模型构造,并且又加了三项重要部分:(1)多语种文本输入,(2)已见训练对的规模加大(seen pairs),以及(3)最小可用模型容量探索。

能够看出训练有助于扩大范围,当数据分布从仅含英语扩展到包含多种语言时,图文配对的总量会持续增加,如果在全球版 CLIP 训练中继续使用与英语 CLIP 相同的配对数量比例sublime text 3 c,那么英语配对就会被减少,这会削弱模型在英语相关任务上的表现。因此,这篇文章随着非英语数据规模的增长比例相应增加训练的总体规模,保证英语训练的数量在全球训练期间维持稳定。

具体做法是,本文在保持其他超参数恒定的情况下,增加了全局训练批次的数量,以此达成目标,这样做既能够保证英语数据在整体中的占比,也有助于提升不同语言间的学习效果。考虑到英语数据在训练集中大约占有一半的份额,本文决定将全局批次的大小提升到原来的2.3倍。

实验结果

在数据集及训练环节,研究人员依照既定方案,于网络平台搜集可公开获取的图像与文字配对资料,通过语言判定环节发现,其中约百分之四十四的视觉描述文本(alt-text)为英文,该数值与当前中英文数据分布状况相吻合

为了使本文的训练方式与实验发现能够广泛适用,研究人员重点依托 CLIP-ViT-L/14 模型以及 -ViT-H/14 模型开展训练工作。具体的训练流程和参数配置,请参考表格 6 的详细说明。

研究人员先在多个英多语言零样本迁移测试集上,呈现了 2 的关键消融实验数据,又将其与其它多语言版 CLIP 模型进行了对照分析。

表格1呈现了相关数据,当采用 ViT-H/14 模型并运用全球数据时,若增加训练中接触的图像与文本样本规模,那么该模型在英文及多语言任务方面的表现,持续地超越了仅依赖英文(倍数为1.0)或非英文(倍数为1.3)数据作为对照的情况,从而成功克服了多语言领域普遍存在的挑战。即便图文配比没有提升(比如维持在 1.0 倍的比例),或者选用规模较小的 ViT-L/14 模型(即便动用了 2.3 倍的全球数据量),这种现象依旧会出现。

2的目标并非力求顶尖表现,但它的完整训练方式在运用更少图像文字组合(仅是系列数量的72%)和更低像素尺寸(224像素,对比256像素)的情况下,依然取得了出色的成果。

从好几个参照标准来看,第二项成果好于(诸如 IN、SLIP 26、DC 37)这些项目,也强于最近完成的两个任务。此外,该模型在多项跨语言测试中取得了顶尖成绩,具体表现为在 Babel- 评测中表现提高3.8个百分点,在 测试中成绩分别进步1.1%和1.5个百分点,在 CVQA 验证中获得提升3%和7.6%的优异结果,在 -30k-200 任务上表现改善7.7%和7个百分点,同时在 XTD-200 评估中成绩分别提升6.4%和5.8个百分点。

相比之下, 2 更强调英文能力的培养,其训练资料中九成是英文文本,因此在处理多种语言的任务时效果不佳,在许多针对英文的测试中成绩也落后于 ,仅有的一个例外情况是 。

研究人员又做了些补充测试,想弄清楚从只用英文的资料和挑选方法,改成支持多种语言的方案,对模型效果有什么改变。为了节省时间,他们用 ViT-B/32 这个模型来训练,在 IN 上检查英文没见过样本的迁移能力,在 Babel- 和 CVQA 上看多语言的处理效果。

根据表格二,实验以英文版 CLIP 为基础展开。起初,移除了图像说明的英文过滤装置,让所有说明都通过英文元数据来筛选。这种做法造成性能降低了0.6个百分点,表明在比对文本或元数据之前,先按语言区分出英文内容非常关键。

接下来,研究人员把仅限英语的元数据更换为跨越多种语言的混合元数据,发现英语方面的表现更加不佳,不过系统逐渐展现出处理多语言信息的能力。紧接着,他们尝试了按单独语言分析的方法,在所有语言里都选用十项相同的匹配关键词进行筛选。这种处理方式造成英文表现再次变差,由于「ten」这个数值对于非英语内容来说偏大,造成资料筛选更偏向使用频率高的语言,进而干扰整体分布的均匀性。

最终,研究者设计了一种特定名称的修正方法,旨在确保各语言内部常见与不常见概念的相对平衡,这一方法在增强英语及其他语言性能的同时,也促进了不同语言间的均匀性,但即便如此,在 ViT-B/32 模型条件下,语言多样性难题仍未完全消除,直到通过主消融实验采用更高级的模型和更大规模的训练数据后才获得显著进展。

为了尽可能降低对模型结构的改动,研究者仅将英文替换为多语言版本,在无监督测试中,他们评估了四种主要方法,根据表 3 数据,XLM-V 的词汇表在英文和非英文场景下都展现出最佳表现。

图 3 和表 4 显示,只要将训练资料中的英语图文组合替换为全球图文组合,即使数量同为 130 亿对,结果也会有明显改善;当进一步将资料扩展到 290 亿对全球图文组合时,效果依然进步,只有 GeoDE 没有变化,或许已经达到极限。图 3 里的小样本位置判断测试也反映了相同的现象。

研究团队又考察了各个 CLIP 版本在向量表示精准度上的差异。根据图 4 的数据,版本 2 在一致性程度与分布均衡性这两个标准上均取得更优结果(数值更小),但版本 1 与版本 2 之间仍能察觉到明显差距。

如有侵权请联系删除!

13262879759

微信二维码