你好,欢迎进入江苏优软数字科技有限公司官网!

诚信、勤奋、创新、卓越

友好定价、专业客服支持、正版软件一站式服务提供

13262879759

工作日:9:00-22:00

Sketch Agent来了!用AI配合Sketch Up建模画草图

发布时间:2026-04-22

浏览次数:0

当你尝试去进行交流,或者想要理解某些想法之际,语言常常显得力不从心。有时更为高效的办法是绘制简单的概念草图,举例来说,就是通过电路图去剖析系统的运作原理。

但若人工智能能协助我们探索这种可视化表达呢?

当今,大多数AI系统尽管在行创作逼真写实的油画或者卡通风格的插画方面表现出色,然而却没办法精准地领会素描的核心要义,即那种一笔一笔精心描绘、不断反复进行修改完善的整个过程,而这个过程恰恰是人类依靠它来展开头脑风暴以及对创意表现进行修正的最为关键的所在。

最近,由麻省理工学院计算机科学与人工智能实验室也就是 CSAIL 和斯坦福大学一起联合研发的新型绘图系统,改变了这样的一种状况。这个系统运用多模态语言模型,能够在短短数秒之内把自然语言指令转变为草图。不管是单独进行创作,还是人机之间展开协作,它都能够达成绘制,它能既配合人类一同作画,还能依照分段文字描述一步步构建草图。

CSAIL博士后研究员Yael,作为该论文第一作者指出,这一系统开创了其人机交互的更自然方式,人们往往并未意识到自己在日常绘制了多少草图,人类会运用速写去梳理思路或者研讨创意,而我们的工具旨在模仿这一过程,从而让多模态语言模型能够更有效地辅助人类去实现视觉化表达。

尽管像 DALL-E 3 这般的文本转图像模型能够创作出引人入胜的画作,然而它们欠缺素描的一个关键要素,那个要素是自发的、富有创意的过程,在该过程里,每一笔都有可能对整体设计产生影响。而的那些绘图被建模成一系列笔触,看上去更为自然流畅sketch up 建模,恰似人类所作的素描那般。

早期的研究借助人类绘制的数据集来开展模型训练,其规模以及多样性老是受到限制。于是另寻途径,直接启用预训练语言模型,这些模型尽管掌握着海量的概念,然而却不晓得怎样进行素描。在研究者教会语言模型这种笔触序列创作方法后 ,便着手绘制它从来没有明确训练过的各类概念。

运用独特创建的“素描语言”,教会AI模型一笔一笔地作画,这种作画方式不依靠训练数据,而是把草图转变为网格上面带有编号的笔触序列。研究人员以房屋作为例子来演示绘制的过程,每一道笔触都标记了对应的元素,借此让模型能够依据此例理解新的概念。

作为一种多模态大语言模型,它会冻结参数 ,而且接收三类输入 ,这三个输入又各具特点 ,其中一个是包含素描语言规范的系统提示 ;另一个是带有具体任务指令的用户提示 ,比如“画一条鲨鱼” ;还有一个是空白绘图画布。依据任务提出的要求 ,该系能够生成代表各种动作的系列画作 ,这些画作是根据文本响应绘制的。这些笔触数据经过一系列处理 ,最终转化为矢量图形 ,并呈现在画布之上。画布在绘图过程中可被循环利用 ,而且能被应用于两种场景 ,一种场景是配合更新后的提示 ,重新输入模型之中 ,以此执行新增任务或者修改当前草图 ;而另一种场景是供人类用户调取 ,从而实现协作绘图。

团队也做了验证,验证的内容是究竟是和人类一块协同创作,还是处于独立创作的状态。他们在协作模式之下针对该系统展开了测试,在这种测试里人类与AI需要共同努力去完成特定概念相关的绘制。之后把AI所贡献的笔触给移除掉,团队发现这些笔触对于最终形成的图是非常关键重要的。比如说将代表桅杆的人工笔触删除之后,整个一幅帆船草图就变得很难辨认出来了。

也就意味着,经由研究人员所设计的、基于Web的协作式草图绘制环境下,用户能够与轮流于共享画布之上作绘制,依据给定的文本概念去创作出可被识别的草图。参与者凭借两种模式来绘制概念,单人模式sketch up 建模,即各自独立地绘制,协作模式乃用户与协作一起作绘制,每次增添一笔,直至双方都于最终效果方面感到满意为止。绿色代表着用户所绘制的笔触,粉色代表着绘制的笔触。

用户能够借助聊天对话对自己的草图进行反复编辑。研究团队展示了该系统所创作的各类概念草图,有机器人、蝴蝶、DNA双螺旋、流程图,还有悉尼歌剧院等抽象图案。在未来,此项工具或许能够发展成互动艺术游戏,它不但能够辅助教师以及研究者对复杂概念进行图解,并且还能够为用户给予快速绘画教学。

此外,用户还可以使用 将草图变为动图。

在另外一个实验里头,研究者针对接入不一样多模态语言模型展开测评,结果发觉,3.5所生成的矢量图形,也就是那种能够转换为高清图像的文本文件,具备最为突出的人类特质,其表现要胜过GPT - 4o以及3 Opus等模型。“这样的一个结果意味着该模型处理视觉信息的方式存在着与众不同之处。”合著者Tamar Rott表明。

她补充说,有可能会成为那种超越文本交互的新型人机协作界面,“随着模型理解草图等多元模态的能力得到提升,用户将会获得更加 、类似人的表达方式,这能够显著地丰富交互体验,提升AI的易用性以及适应性。”。

虽说它展现出了极为巨大的潜力,然而当下依旧没办法完成专业的素描,它能够借助简笔画去呈现基础的概念,可是对于徽标、句子、独角兽等复杂生物以及特定人物形象的绘制却依然是力不从心,在协作的过程当中,模型偶尔会显现出理解上的偏差,比如说画出双头兔,对此进行解释,这有可能是源自于其“思维链”的推理机制,当模型把绘图任务分解成多个步骤的时候,可能就会误解人类对于哪一部分草图所做出的贡献,研究者思索着借助扩散模型合成数据来对这些绘图中的技能加以优化。

而且,这个系统常常需要经过好多轮的提示才可生成拟人化的涂鸦。往后,团队打算对交互界面进行优化,把和多模态语言模型协作绘图的流程予以简化。然而,这个工具已经证实了:借助人机一步步地协作,人工智能有希望依照人类思维方式绘制多种多样的概念,末了达成更符合设计意图的结果。

原文链接:

1.https://yael-..io/-agent/

2.https://news.mit.edu/2025/-ai--to--more-like--0602

如有侵权请联系删除!

13262879759

微信二维码