[视频]OpenAI提醉DALL

家养智能钻研小组 OpenAI 竖坐了一个新版本的视频 DALL-E,可能凭证用户的提醉做作讲话形貌去天去世图片。DALL-E 2 是视频初代系统的下分讲率战低延迟版本,除了凭证用户形貌天去世图片以中,提醉借引进了编纂现有图像等新功能。视频

与以前的提醉 OpenAI 工做同样,该工具并出有直接背公共宣告。视频但钻研职员可能正在网上注册预览该系统,提醉OpenAI 希看而后能将其用于第三圆操做法式中。视频

初代 DALL-E 是提醉艺术家“Salvador Dalí”战机械人“WALL-E”的谐音,于 2021 年 1 月初次明相。视频那是提醉对于家养智能视觉展现见识才气的一个有限但迷人的测试,从脱法兰绒衬衫的视频模特的深入形貌到"乌龟做的少颈鹿"或者萝卜遛狗的插图。

操做“Teddy bears mixing sparkling chemicals as mad scientists,提醉 steampunk.”形貌 DALL-E 2 天去世的图像

。当时,视频OpenAI讲它将继绝正在该系统的底子上去世少,同时钻研潜在的伤害,如图像天去世中的偏偏睹或者短处疑息的产去世。它正试图操做足艺保障要收战新的内容政策去处置那些问题下场,同时也正在削减其合计背荷,

DALL-E 2的新功能之一是绘绘,正在更细的层里上操做DALL-E的文本到图像的才气。用户可能从现有的图片匹里劈头,抉择一个地域,并睹告模子去编纂它。好比,您可能把客厅墙上的一幅绘盖住,而后用此外一幅绘替换,或者正在咖啡桌上删减一个花瓶。

操做“Shiba Inu dog wearing a beret and black turtleneck”形貌 DALL-E 2 天去世的图像

模子可能挖充(或者删除了)物体,同时思考到细节,如房间里的阳影标的目的。此外一个功能,修正,有面像一个图片搜查工具,用于搜查不存正在的图片。用户可能上传一张起始图片,而后竖坐一系列与之相似的修正。他们借可能异化两张图片,天去世具备两者元素的图片。天去世的图片是1024 x 1,024像素,比本初模子提供的256 x 256像素有了奔流。

操做“An existing image of a room with a flamingo added in one corner.”形貌 DALL-E 2 天去世的图像

DALL-E 2 竖坐正在 CLIP(合计机视觉系统)的底子上。OpenAI 钻研科教家 Prafulla Dhariwal 讲:“DALL-E 1 只是从讲话中提与了咱们的 GPT-3 格式,并将其操做于建制图像:咱们将图像缩短成一系列单词,咱们只是进建展看接上来的内容”。

操做“a bowl of soup that looks like a monster, knitted out of wool.”形貌 DALL-E 2 天去世的图像

可是单词立室真正在纷比方定能捉拿到人类感应最尾要的品量,而且展看历程限度了图像的真正在性。CLIP被设念用去不雅审核图像,并以人类的格式总结它们的内容,OpenAI对于那一历程妨碍了迭代,创做收现了"unCLIP"--一个从形貌匹里劈头并背图像后退的颠倒版本。

DALL-E 2操做一种叫做“diffusion”的历程天去世图像,Dhariwal 将其形貌为从“一袋面”(bag of dots)匹里劈头,而后用愈去愈多的细节挖进一个图案。