探索LaVi-Bridge：融合语言与视觉模型的文本到图像生成新进展

发布时间：2026-05-13

浏览次数：0

AIGC

2024.03.12｜HKU, CUHK, HKUST｜️

https://.com//LaVi-

针对文本到图像生成范畴里的一项新进展，也就是 LaVi- 展开探讨，此研究意在处理怎样把不同语言模型以及生成视觉模型融合进文本到图像扩散模型里，的问题，鉴于语言与视觉模型于其各自领域迅猛发展，探寻怎样把更优异组件替换至现有的文本到图像扩散模型中有着极大潜力，LaVi- 给出了一种灵活框架，它准许将各类预训练语言模型和生成视觉模型整合到文本到图像生成里，且无需对原始模型权重进行改动。

LaVi-借助运用LoRA（低秩适应）以及适配器这种方式，达成了针对不同结构的语言模型与生成视觉模型的整合。其方法并非要对原始模型进行权重方面的改动，而是依靠注入可训练参数来达成模块之间的连接。LaVi-能够兼容多种模型结构，涵盖基于U-Net的结构及基于的生成视觉模型结构，还有编码器-解码器结构、编码器-仅解码器结构以及解码器-仅语言模型结构。除此之外，LaVi-只要相对较小的数据集便可实现不同模型的集成。

经由大量实验证实了LaVi-具有效性。实验结果明示，运用更先进的语言模型或者生成视觉模型能够极为显著地提升文本对齐或者图像质量。举例来说，采用Llama-2语言模型的扩散模型展现出超凡的语义理解能力，然而使用中的的模型却生成了美学质量更为高一些的图像。LaVi-的设计致使其能够灵动地借助最新的自然语言处理以及计算机视觉技术，用以强化文本到图像生成的性能。研究者觉得，这一领域具备重点的研究价值，并且需要进一步去探索。

for and in Text-To-Image

2024.03.12｜｜

本文介绍了一种方法，此方法新颖，旨在借由对负面提示予以优化来提升文本转化为图像的生成质量，负面提示用于描绘不期望出现有图像特征内容，其能切实提高所生成图像的美学及真实表现程度。研究者呈现了一种将监督微调与强化学习相结合的办法，通过该办法，所生成的负面提示可明显提升图像质量，相较于另外的方法，Score提高了大约25%，并且于测试集范围内超越了真实的负面提示。

方法拥有两个进程阶段，其一为监督微调，也就是将去生成负面提示的任务当作序列到序列的语言建模问题，其二是强化学习，借助使基于生成图像质量的奖励信号最大化这种方式来对模型加以优化，另外再加上，研究者构建了DB数据集，它属于首个特意收集负面提示的数据集，其中涵盖了从AI那里收集到的公开提示样本。

有实验结果进行表明，那就是在对图像生成的美学以及真实度予以提升这个方面呈现得十分出色，特别是在Score上面有着显著的提升，在Score上也如此。凭借着SFT还有RL两者相结合的方式，在美学这个方面所展现出来的表现水准比那些只是单纯使用SFT或者光用RL的方法来得高。除此之外，该项研究也针对SFT可以为图像质量提供稳固基础这一点展开了讨论，而RL则可以致使在更为相关的指标之上开展更具针对性的改进。

逐块局部自适应归一化层：用于文本到图像中，且针对特定操作、情境而进行精细调整的局部自适应归一化层。

2024.03月12日，云有限公司，美国人工智能协会2024年会议标识 ️。

你提供的内容并非一个句子呀，请提供真实的句子以便我按照要求进行改写。

文本到图像（T2I）生成里的个性化以及风格化的重要性被本文探讨了，目的是用以指导预训练的扩散模型去分析用户所引入的新的概念，并且把这个新的概念融入到期望的风格当中。虽然参数高效的微调（PEFT）在这个领域取得了明显的进展，然而现有的微调方式仍然很难在T2I生成时达成有效地个性化与风格化。为此，作者提出了一种称为分块的低秩适应的方法，此方法是Block-wise LoRA，它借助对某模型不同块开展细粒度的微调，以此来生成忠实于输入提示的图像，并且生成能够符合目标身份以及期望风格的图像。

块状LoRA借助于在LoRA基础之上予以改进，面向不同种类的T2I生成任务，于微调情形下略过SD的特定块。如此做法不但将训练速率予以降低，还把不同LoRA模型之间的冲突予以减少，致使角色ID与风格的结合更为和谐。作者还探究了运用不同U-net块对生成历程的作用，并经过分块架构更为深入地领会了生成历程。

作者借助大量实验，证实了Block - wise LoRA方法具备有效性，相较于传统的LoRA / LoCon，Block - wise LoRA / LoCon模型于个性化以及风格化层面展现得更为出色，除此之外，作者还开展了消融研究，对不同类型角色LoCon与风格LoCon的组合性能予以评估，并且探讨了ID LoCon + block - wise LoCon组合里哪些块应当保留。研究结果显示，当激活顶部输入块之际，以及激活顶部输出块之时，所输出的图像能够极为完美地维持角色的细节与风格。本篇文章所提出来的Block - wise LoRA微调方法，为在多个LoRA模型协同工作的时候生成图像提供了一种具备有效性的方法，强化了个性化以及风格化的性能。未来的实验将会聚焦于结合Block - wise LoRA和，从而达成对视觉地图引导的T2I生成的细粒度把控。

2024.零三点一二，上海交通大学公司，北京大学，中国科学院，新加坡国立大学 ️。

https://-z..io/-..io/

有这样一种创新方法，它被叫做 - ，本文对其予以介绍，此方法是基于扩散模型的，它能够把真实世界里的化妆风格稳定地转移到用户所提供的面部图像之上。 - 借助预训练的扩散模型以及细节保持（ - ，D - P）化妆编码器去编码化妆细节，并且通过内容和结构控制模块来留存源图像的内容与结构信息。另外，凭借在U - Net中增添化妆交叉注意层，该方法能够精准地把详细化妆转移至源图像的对应位置。对其进行内容 - 结构解耦训练，它可以保持源图像的内容以及面部结构，呈现强大的鲁棒性质与泛化能力，适用于跨域化妆转移以及化妆引导的文本到图像生成等多项任务。

-的核心设计涵盖D-P化妆编码器、化妆交叉注意层以及内容与结构控制模块，D-P化妆编码器借由多层策略对化妆参考图像予以编码，进而生成具备多尺度并空间感知的细节化妆嵌入，内容控制模块意在达成与源图像维持像素级内容一致性的目标，结构控制模块用以引入面部结构，提升生成图像与源图像面部结构方面的一致性，借助内容和结构解耦训练策略，进一步维持源图像的内容和结构。实验有所表明，于现有的化妆转移方法当中，提供了最为先进的结果，并且在多样化的化妆风格之上，展现出了广泛的应用潜力。

它身为首个以扩散为根基的化妆转移办法，冲破了现存技术的限制，达成了前所未有的化妆转移成效。此方法借助自动数据构建管道以及内容 - 结构解耦训练，不但于技术方面收获了显著进步，还为化妆转移领域的研究与应用开拓了新的可能性。另外，它的提出对化妆品行业、娱乐以及时尚等诸多领域的实际运用具备重要意义。

这样的内容似乎不太完整且不太清晰，不太能准确理解要表达的意思，难以按照要求进行改写。请提供更明确的内容。

2024.03月12日，关于，联合的，在，科利，计算机视觉与模式识别会议2024 ️️。

https://.com//

这里探讨了怎样借由扩散模型，来达成对素描的径直控制，进而生成精准的图像，扩散模型于文本到图像的生成里赢得了显著成果，然而现有的诸如和T2I - 等方法主要依存于精心谋划的边缘图，针对自由手绘的抽象素描却呈表现差劲，文章的主要目的是使素描控制大众化，也就是让业余爱好者的素描也能够生成与素描相契合的精准图像，实现 “你所素描即你所得到的” 这一承诺。

作者提出了一个抽象意识框架，目的是克服现有模型的局限性，这个框架包含一个素描适配器，还有自适应时间步采样，以及来自预训练的细粒度素描基础图像检索模型的判别性指导，这些组件共同发挥作用，以此加强细粒度的素描与照片之间的关联，该方法在进行推理时用不着文本提示，它能够处理那种简单且粗糙的素描sketch abstraction，和普通人绘制的类似。文章有着诸多贡献，其中涵盖民主化素描控制，还包括引入抽象意识框架，并且包含通过预训练的FG - SBIR模型利用判别性指导，这些贡献借助广泛的实验得以验证。

基于实验得出的结果显示，此方法于生成质量以及素描保真度这两方面，均比现存技术更具优势，特别是在无需文本提示的情形之下。额外说来，该方法于跨越不同数据集以及笔触风格之时体现出的泛化潜在能力方面表现优异有加。尽管于某些状况之中，像是类别存有模糊、或者是部分已完稿之素描，该方法有可能难以准确识别输入类别，不过总的看来此番研究为扩散模型里的素描控制迈出了关键一步，给社区提供了一种在不借助文本提示的状况下便可生成高质量图像的办法。

2024.03月12日，联合的，关于，对Koley而言，在CVPR 2024会议上。

https://..io//

首次对文本到图像扩散模型（Text-to-Image）于零样本草图基础图像检索（Zero-Shot -based Image , ZS-SBIR）里的应用展开探索的文章出自此处。作者察觉到，这样一类模型可将草图与照片进行毫无缝隙的衔接，而这能力乃是因其具备强大的跨模态能力以及形状偏好才达成的。文章提出了一种策略，该策略简单且强大，旨在有效利用预训练的扩散模型，此策略专注于两个关键方面，一方面是选择最优特征层，另一方面是利用视觉与文本提示，通过这种策略来生成更具辨别性以及上下文相关的跨模态表示。

研究者们介绍了一种方法，一种基于模型的特征提取方法，该方法借助选择信息丰富的中间层，还凭使用视觉与文本提示，以此来引导模型的特征提取过程。经大量实验验证，验证了在多个基准数据集上有显著性能提升。文章还展开了详尽的分析，分析是为确定最佳的层与时间步长，及其如何利用预训练的模型开展特征提取。

预训练扩散模型的潜力，在文章里被展示成ZS - SBIR骨干特征提取器，且因实验证据与全面分析，得以证实。另外方面，作者介绍了创新设计策略，其中涵盖软提示学习以及视觉提示，目的是去解决各种零样本SBIR任务的挑战。最终，文章把方法进行扩展，是将文本提示同草图相结合，用于基于草图和文本的图像检索，提升了在不同场景下的检索性能。

How to - in -Based Image ?

2024.03月11日，关于某某 joint on，涉及Koley，在CVPR 2024会议当中🟢。

https://..io/

一种新颖的抽象感知草图基础图像检索框架被本文提出，该框架旨在处理各具不同抽象级别的草图，与以往主要聚焦草图风格、顺序等子因素的一众研究相异，本框架尝试把抽象当作一个整体去建模，还提出特征级以及检索粒度级别的有关设置，致使系统能够灵活契合各种具备不同抽象级别的草图，凭借借助预训练模型内拥有的极为丰富语义嵌入，再结合新颖独创的抽象级别映射器，此框架能够动态挑选特征矩阵嵌入之中恰当的维度，以此去适配那些具备各异抽象级别的草图。

研究者们设计了一个系统，这个系统由编码器、嵌入器以及检索器构成，其中编码器运用预训练的方式去提取特征，系统的核心是一个抽象识别头，它依据查询草图的抽象/完整性动态决定矩阵嵌入的行维度。另外，为了在不同抽象级别下达成粒度级别的理解，研究者们引入了一个可微的代理损失函数Acc.@q，该损失函数让草图依照其抽象程度调整检索的严格性。

研究者借助大量实验发现，在标准草图基础图像检索任务里，该方法超越了现有的最先进技术，这些现有的最先进技术涵盖早期检索、法医草图 - 照片匹配以及风格不变检索等具有挑战性的场景。另外，研究者们开展了一项人类研究，让参与者对每个竞争框架检索到的顶级照片予以评分，结果显示该方法在数据集方面获得了显著更高的平均意见得分，也就是 MOS。这些结果证实了所提出方法在应对高度抽象草图时检索准确图像的有效性。

你永远不会独行：一幅精美图像与文字的二重奏，用于，为了，给，针对，关于，涉及，有关一幅精美图像。

2024.3月12日，有关，联同，在，科利，计算机视觉与模式识别会议2023 ️。

https://..io/SBCIR/

1. 本文围绕细粒度图象检索里蕴含的结合草图以及文本输入这般的潜力展开了深入探讨。2. 传统的图象检索情况呢，主要是以文本或者草图当作输入模态的。其中，文本被用来进行跨类别检索。3. 而草图因为能够捕捉那些复杂视觉细节，所以成为了细粒度检索的首选方式。4. 那位作者提出了一种很新颖的组合性框架。5. 此框架借助预训练的CLIP模型，把草图和文本高效率地合二为一了。6. 并且是在都不需要大量细粒度文本描述的状况下做到的。7. 该系统还朝着复合图象检索、领域属性转移以及细粒度生成等全新应用领域进行了扩展。8. 最终目的是为现实世界场景提供对应的解决方案。

作者介绍了一个框架，这个框架是以草图为基础的组合图像检索框架。它能够利用预训练的CLIP模型那种视与语同时存在嵌入方式所用的数据，这个模式仅仅运用草图数据集中已有的草图以及照片配对这种情况。通过某种方法将会把草图嵌入至伪词的令牌当中，之后再与文本的描述进行结合，进而形成查询嵌入，凭借这一过程能够在文本领域之内达成草图以及文本特征的协同共作。框架的关键设计涵盖这些方面，其一，是借助草图与照片差异信号施加的组合性约束，以此来模仿缺失的文本描述，其二，为连续提示学习，目的在于适应手工制作的文本提示，其三，是通过区域感知三元组损失以及辅助生成损失达成细粒度匹配。

所进行的实验得出的结果显示，此方法于全部的数据集范围之内，明显地比基线以及现有的技术强，证实了它在把细粒度草图与文本描述相互结合这方面具备高效性。除此之外，该方法还能够适用于草图加上文本组合而成的细粒度图像生成、依据对象草图来做场景图像检索以及领域属性转移等后续的任务，展现出它在多个领域当中所拥有的应用潜力。

你的内容似乎不太完整且表述混乱，不太能明确准确的改写需求，请补充完整清晰的句子以便我能按照要求进行改写。

2024.03.12｜ECNU｜AAAI 2024

你提供的内容并不是一个句子哦，请提供可改写的句子。

本研究给出了一种借助自监督学习的，针对儿童绘画美学的评估办法（AACP）sketch abstraction，其目的在于处理儿童绘画美学评估里特有的难题，像是数据可用性有限以及对多角度评估指标的需要。传统的评估方式依靠艺术或设计领域专家的主观评判，此种方式也许会被个人偏见所左右，而且评估指标较为单一。AACP要克服这些挑战，通过构建新颖数据集，该数据集包含超过20,000张未标记儿童绘画图像，还要构建基于自监督学习的模型，以此准确捕捉美学特征，进而实现最先进的性能。

一个管道被研究者设计出来，它包含特征提取模块，还有感知模块以及解耦评估模块。模型凭借自监督学习策略，借助生成的儿童绘画图像加以训练，在真实儿童绘画上进行微调，以此提升模型于真实儿童绘画上的准确性。除此之外，研究者开展了定性和定量实验，把模型性能与其他五种方法做比较，结果呈现出该方法在AACP数据集上取得优良成果。

总结：研究者构建了一个数据集，其中有20,000张未标记生成的儿童绘画，还有1,200张手动标记的真实儿童绘画，并且设计了一个模型，模型包含自监督学习模块、空间感知模块、通道感知模块以及解耦评估模块。通过定量实验以及用户研究，证明该方法在儿童绘画美学评估上达到了最先进的性能。未来，研究者计划更全面地探索儿童绘画的美学属性，并从相异维度理解儿童的美学标准以及创造性表达。当下，他们另外打算钻研环境元素针对AACP的作用，借以剖析各异环境元素怎样去影响少儿美学感知力的发展以及表达，给培育幼儿创造力予以珍贵看法。

2024.03.12｜KAIST, VinAI

本文给出了一种具备高效特性的虚拟试穿技术，是为求解电子商务以及元宇宙里虚拟试穿的关键问题着点展开的，尤其是针对保留服装存有复杂纹理细节以及个体特征（像纹身哟或者配饰）所面临的那种挑战。研究着重突出了合成图像的真实性以及合成流程的效率，探讨了既有的诸般现有方法受到的瓶颈呢像身份信息发生遗漏、难以操控的伪影被生成以及合成速度处于低洼状况那般。为此，提出了一种解决方案，该方案基于扩散模型，新颖独特，它在保持服装纹理的同时，还能保持用户身份，并且实现了显著的推理速度提升，还要比现有技术快近20倍，在定性评估里展现出卓越的真实性。

从事研究之际所提出来的网络涵盖着两个主要的模块，其一为变形模块，其二是试穿模块，这二者结合了掩码感知的后处理技术，以此来确保个人身份的完整性。变形模块的职能是把服装跟个人特征进行对齐处理，其过程要考量服装细节以及人物相关信息。试穿模块则是对变形之后的服装予以细化，并且生成缺失的部分。借助条件后处理技术，例如掩码感知技术，进一步提升了生成图像的整体真实性。该方法凭借结合这般两项技术，有效地处理了虚拟试穿当中的纹理保留以及身份特征保留问题。

实验运用了相关数据集，结果呈现出该方法在诸多评估指标上跟现有的最先进技术不相上下，甚至于在推理速度方面超过了当下的最先进技术。借由定量以及定性评估，证实了该方法在维持服装纹理以及个人身份信息方面具备有效性。虽说该方法在维持个人身份与服装纹理方面取得了明显进展，然而研究亦指出了其存在的局限性，也就是需要复杂的后处理流程。未来的工作或许会致力于使这一阶段得以简化，从而进一步提升系统的效率以及在多样化场景里的适用性。

如有侵权请联系删除！

TAGS：

上一篇：sketch up logo 将真实的战场铺展在画面中

下一篇：intellij idea卸载 Java开发工具投票结果揭晓，IntelliJ IDEA等格局变化引关注

返回列表

诚信、勤奋、创新、卓越

13262879759

行业动态

探索LaVi-Bridge：融合语言与视觉模型的文本到图像生成新进展

联系我们