女神背心变内衣,只需草图画几笔 | 中山+字节跳动等新研究
晓查 安妮 发自 凹非寺
量子位 出品 | 公众号 QbitAI
寥寥勾画几笔,就能让女神的衣服变个样。
随手画个内衣的轮廓,穿粉色运动背心的妹子,一下子就换上了内衣。就像下面这样:
生成效果毫不违和,没有任何P过的痕迹,更想象不出它竟然是根据草图合成的。
前一眼还是金色长发的歪果仁姑娘,在这张图上随意勾勒个帽子形状,下一秒就变成了真实效果,还看不出人为增补痕迹。
这是什么变装神器啊?!
最近,中山大学等的研究人员搞出了这样一个变装模型,代号FE-GAN,它能通过任意草稿涂鸦,改变人物造型。
可以实现的效果可谓多种多样,一起接着看:
万能改图王
此前,也有InstaGAN等AI模型,可以实现照片中裙装换裤装等操作,而今天的主角FE-GAN有多种附加功能。
轻轻一画,就可以改变人物衣服类型,开头背心变内衣的妹子就是这个效果。
类似的,用线条随意标记下妹子的白色破洞长裤,长裤消失不见,白色短裤现身。
除了能改变衣服造型,FE-GAN还能改变服装布料的花色。
而你只需要向刚刚一样,用不同颜色画笔勾勒草图和轮廓即可。来看效果图:
这个花色竟然是……自己刚刚画出来的?看起来比纯黑裙显年轻了不少。
除了在原有基础上进行改造,无中生有生成佩饰也不在话下。
穿牛仔衣短裙的姑娘,想给她配上顶遮阳黑帽?不用重新拍摄,画上就行了。
无破绽,不生硬,从0到有,FE-GAN也是可以的。
你以为这就是FE-GAN的全部了?
NoNoNo,它还能用于修饰脸型……
即使是更要求细节的面部五官生成,它的效果也可以说得过去。
一个笑颜圆下巴胡茬小哥,“术后”也变成了锥子脸,甚至还能帮他修胡子。
丸子头小姐姐,画上几根头发,就真的变成了长发:
这个名为FE-GAN的模型,简直就是个万能改图神器啊。
这是怎么实现的?
两步换装
为了获得更好的恢复效果,FE-GAN把生成图片分为两步进行,先从被遮挡图片恢复轮廓,再根据手绘草图给人物加上衣服、发型等细节。
这两步分别由两个不同的网络负责,包括一个自由形式解析网络和一个具有多尺度注意规范化层的解析感知修复网络。
1、自由形式解析网络
这一部分负责接收带有草灰笔画、噪声、颜色和遮挡的不完整图片,并生成一张合成解析图片。解析图片就是带有轮廓的剪影。
与直接恢复不完整图像相比,解析图片从不完整到完整的过程更加容易与可行,因为解析图中的细节较少。不完整的解析图片可以用边缘检测算法获得。
此外,恢复后的解析图片中的语义信息,还能精确地指导下一步渲染图每个部分的细节纹理。
为此,研究人员提出了一个自由形式的解析网络,在给出被色块遮挡的图片时能合成出完整的解析图片。
自由形式解析网络基于编码器-解码器架构。编码器接收五个输入:不完整的解析图片,被擦除区域的草图,从高斯分布采样的噪声,稀疏颜色和掩模。
值得注意的是,给定相同的不完整解析图和各种草图和颜色笔划,自由形式解析网络可以合成不同的解析图,这表明解析生成模型是可控的。
2、解析感知修复网络
将上一步生成的合成解析图片与原来不完整的图像输入这一部分,通过草图和颜色来操纵图像。
研究人员引入了一个部分卷积编码器,从不完整图像中的有效区域中提取特征。在部分卷积编码器中不是直接使用掩码,而是利用组合掩码使网络仅关注前景区域。
除了部分卷积编码器,研究人员还引入了一个标准卷积编码器,从合成的解析图中提取语义特征。解析图负责指导修复的语义和位置信息,因为具有相同语义的区域中的内容应该是相似的。
给定语义特征,网络可以更精确地在特定区域上渲染纹理。
由于不完整图像的复杂纹理以及草图和颜色笔划的多样性,自由形式解析网络和解析感知修复网络的训练是一项具有挑战性的任务。
为了解决这些问题,研究人员提出了6项损失——对抗性损失、感知损失、风格损失、解析损失、多尺度特征损失、总差异损失——来规范训练,使得在不同方面的训练更容易、更稳定。
完胜其他换装模型
研究人员用FE-GAN在DeepFashion、MPV和自建的FashionE数据集上进行了测试,与Deepfill v1、Partial Conv、Edge-connect三种方法进行对比。
在客观指标上有PSNR(峰值信号噪声比),SSIM(结构相似性指数)和FID(Fréchet初始距离)三个参数评估定量结果。此外还使用了亚马逊AMT人工审核平台来评估定性结果。
结果表明FE-GAN在各项指标上都取得了最优的结果。
在亚马逊的AMT平台上,FE-GAN也具有压倒性的优势,在与Deepfill v1、Partial Conv对比时超过8成的人觉得FE-GAN效果更逼真。
华人团队
变装神器出自何许人也?
整个作者团队共有9人,包括中山大学的Haoye Dong、Xiaodan Liang、Xujie Zhang、Zhenyu Xie、Bowen Wu、Ziqi Zhang、Jian Yin,来自CMU邢波教授创立的AI公司Petuum的Yixuan Zhang和字节跳动的Xiaohui Shen。
一作Haoye Dong(董浩业)是中山大学数据科学与计算机学院的博士生,师从中山大学副教授Xiaodan Liang和博士生导师印鉴。
二作Xiaodan Liang,此前是CMU机器学习系的项目科学家,与邢波一起合作过。
在2014年至2016年期间,Xiaodan Liang在新加坡国立大学担任访问学者,与颜水成也合作过。
Xiaodan Liang的顶会战绩也很耀眼。其主页显示,其两篇论文被NIPS 2018接收,2篇被AAAI 2019接收,8篇论文被ECCV 2018接收,其中还有两篇为口头报告。
传送门
最后,附上论文Fashion Editing with Multi-scale Attention Normalization地址:
https://arxiv.org/abs/1906.00884
— 完 —
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
评论