2019年11月26日

分类: 美食

SIGIR 2019 | 为什么你的毛衣显胖又显黑？这个算法给你答案

引言

服装搭配是人们日常生活中不可缺少的重要部分，但并不是所有人都擅长服装搭配。如下图所示，一些缺少审美感知的人经常会困扰于以下三个问题：1）互补服装（上衣、下衣）之间兼容与否；2）导致互补服装不兼容的因素是什么；3）可供选择的替换服装有哪些。

事实上，近年来有许多研究工作已经围绕服装搭配和服装推荐展开。现有的研究工作主要是应用深度神经网络对服装图像或文本描述进行特征提取，进而对互补服装的兼容性进行建模。然而由于深度神经网络的可解释性较差，现有的技术大多只能判断互补服装之间的搭配与否，并不能综合解决服装搭配相关的三个关键问题。

为此，本文提出了一种基于属性模板引导的可解释服装搭配方法，通过将神经网络和矩阵分解相结合，全面解决互补服装的搭配与否，不和谐因素识别和替换服装的检索问题。

模型

为解决问题 2 和 3，作者希望通过学习一些潜在的基于属性的兼容搭配模板，来作为搭配参考，以解释不兼容搭配套装中的不和谐因素，即不和谐属性。为此，作者提出了一个基于属性模板引导的可解释服装搭配模型（PAICM）。模型的整体框架如下：

作者首先通过预训练的服装属性分类网络，得到服装的语义属性表示。基于获取的语义属性表示，作者通过多层感知机（MLP）建模互补服装的兼容性，以判断互补服装的兼容与否。同时作者使用非负矩阵分解（NMF），分别从搭配正例和负例套装中学习得到基于服装属性的兼容和不兼容搭配模板。

其中，兼容搭配模板可以作为参考来解释不兼容互补服装中的不和谐因素，并对该不和谐属性进行修改，进而检索可供替换的互补服装。为了促进服装兼容性建模和兼容搭配模板学习的效果，作者巧妙地利用贝叶斯个性化排序算法（BPR）将两者有机地联合起来。

接下来是对模型的具体介绍。

语义属性表示

由于现有公开的服装搭配数据集缺少对服装属性的标记，所以作者使用 DeepFashion 数据集中带有属性标记的 Consumer-to-shop Clothes Retrieval Benchmark 作为辅助数据集，并对每种服装属性都预训练了一个分类器。之后，作者将服装搭配数据集中的服装输入预训练好的属性分类器中，并对得到的各属性分类结果进行拼接，从而得到长度为 M 的向量作为服装的语义属性表示。

互补服装兼容性建模

为了判断互补服装兼容与否，作者将上衣和下衣的语义属性表示（

和

）输入到用于寻找服装兼容性计算空间的 MLP，得到服装的隐含表示

和

，其中 t 和 b 分别表示上衣和下衣。基于这些隐含表示，模型定义上衣 i 和下衣 j 的兼容性得分如下：

作者期望正例套装中上衣 i 和下衣 j 的兼容性得分要高于负例套装中上衣 i 和下衣 k 的兼容性得分。因此，可得到套装之间的 BPR 损失函数如下：

搭配模板学习

物以类聚，人以群分。作者假设搭配的套装之间会共享一些兼容的属性模式（例如：{田园风、碎花、亚麻}），不搭配的套装之间也会具有一些潜在的不兼容的属性模式（例如：{男友风、OL、粉色}）。因此，作者将搭配正例套装的语义属性拼接并组成搭配正例矩阵

，并利用 NMF 来挖掘潜在的兼容搭配模板如下：

其中，P 是兼容搭配模板矩阵，它的每一列

都是一个长度为 2M 兼容搭配模板，表示如下：

其中

是兼容搭配模板的数量。

同样地，作者从搭配负例套装中分解出不兼容搭配模板矩阵 U。最终可以获得 NMF 损失函数如下：

对于分解得到的搭配模板

，作者将其表示为上衣属性模板

和下衣属性模板

的级联，即

，并通过可以映射到服装兼容性计算空间的 MLP 得到上衣属性模板和下衣属性模板的隐含表示

和

。在此，我们定义搭配模板自身的兼容性

如下：

为了使互补服装的兼容性建模和搭配模板的学习相互促进，作者首先利用欧氏距离从搭配模板集合中分别找到与正例套装和负例套装最接近的兼容搭配模板

和不兼容搭配模板

。作者期望该兼容搭配模板的兼容性得分

要高于该不兼容搭配模板的兼容性得分

，因此，可以得到潜在搭配模板之间的 BPR 损失函数如下：

综合上述的三个损失函数，可以得到模型的目标方程如下：

解释和建议

为了解释不兼容套装中不和谐属性，作者借助由上述模型学习得到的兼容搭配模板作为参考，找到不和谐属性，根据不和谐属性对不兼容套装的语义表示进行属性修改，并根据修改后的语义表示检索新的服装。如下图所示，首先，作者通过计算欧式距离，找到与不兼容套装

最接近的兼容搭配模板

，并计算

和

每个属性表示的距离

，从而判断不兼容互补服装中的不和谐属性

，表示如下：

其中

表示第 z 个属性的可能取值的个数。对于不兼容套装中的不和谐属性，作者根据兼容搭配模板的属性表示对其进行相应替换，从而得到新的套装的语义属性表示。基于此，利用欧氏距离，即可检索可用于替换的服装，从而全面完成服装搭配任务。

实验

互补服装兼容性建模性能实验

作者在 FashionVC 服装搭配数据集上测试了模型针对互补服装兼容性建模的效果。具体来说，作者采用多种互补服装兼容性判断模型作为基准方法，以 AUC 作为评价指标，具体结果如下：

实验结果证明了 PAICM 模型将服装的语义属性表示作为服装的表征，并结合潜在兼容/不兼容搭配模板的学习，可以在互补服装兼容性建模任务中取得相比现有方法更好的性能。

此外，由于潜在搭配模板的学习是模型的重要组成部分，作者探究了分解搭配模板的数量对互补服装兼容性建模性能的影响，其实验结果如下：

从图中可以看出，当分解搭配模板的数量为 40-90 时，互补服装兼容性建模性能相对较为稳定，同时也侧面反映出模型对分解搭配模板的数量并不十分敏感。

为了更直观地展示搭配模板，作者检索了与兼容/不兼容搭配模板最接近的兼容/不兼容套装，并根据每个搭配模板的语义语义表示，列举了潜在搭配模板中较为显著的属性特征如下：

从图中的套装可以看出，兼容/不兼容搭配模板内部分别包含了一些兼容/不兼容的属性模式。此外，作者发现每个兼容搭配模板包含的兼容属性特征确实可以作为一种参考，来解释不兼容套装中的不和谐属性。

兼容搭配模板属性修改性能实验

为了测试 NMF 在分解兼容/不兼容搭配模板方面的效果，作者将 NMF 与 K-means 算法进行了对比。其中，作者将 K-means 算法得到的聚类中心作为其“潜在搭配模板”。然后，作者利用这些搭配模板对不兼容搭配套装的不和谐属性进行修改替换，并计算属性修改后的不兼容搭配套装的兼容性得分。作者采用测试集中不兼容搭配套装经属性修改后兼容性得到提高的样本比例作为评价指标，两种算法的对比结果如下：

从图中可以看出，在分解出相同数量搭配模板的情况下，基于 NMF 的属性修改在提高不兼容套装兼容性方面优于 K-means 算法。

为了直观地展示 NMF 分解得到的兼容搭配模板的属性修改能力，作者也列举了部分属性修改的实例如下：

对比上图中原始的不兼容套装和修改属性后的套装，我们确实可以看到修改属性后的套装兼容性得到提高，而且修改后的套装与原始套装的总体风格基本保持一致。因此这种属性的修改相对容易被人们所接受。

综合上述的实验结果，我们可以看出本文所提模型不仅在互补服装兼容性建模上有较好的性能，而且能够综合地完成互补服装之间兼容与否、导致不兼容的属性是什么、有哪些可供选择的服装等三个服装搭配领域中的关键问题。

总结

作者提出了一种基于属性模板引导的可解释服装搭配方法。该方法不仅能够建模互补服装的兼容性，而且能够解释不兼容搭配套装中的不兼容属性并给出可供选择的服装建议，全面地解决服装搭配问题。其中，作者利用 NMF 挖掘潜在的搭配模板，并以此作为参考对不兼容搭配套装中的不和谐属性进行解释和修改。

实验结果证明该模型有较好的互补服装兼容性建模性能，同时也证明 NMF 在潜在搭配模板分解中有较好的效果。这篇文章为可解释的服装搭配提供了一种新的思路，是一篇值得分享的文章。

参考文献

[1] Xuemeng Song, Fuli Feng, Jinhuan Liu, Zekun Li, Liqiang Nie, and Jun Ma. 2017. NeuroStylist: neural compatibility modeling for clothing matching. In Proceedings of the ACM International Conference on Multimedia. ACM, 753–761.

[2] Xuemeng Song, Fuli Feng, Xianjing Han, Xin Yang, Wei Liu, and Liqiang Nie. 2018. Neural compatibility modeling with attentive knowledge distillation. In Proceedings of the International ACM SIGIR Conference on Research and Development in Information Retrieval. 5–14.

[3] Al-Halah Ziad, Stiefelhagen Rainer, and Grauman Kristen. 2017. Fashion forward: forecasting visual style in fashion. In Proceedings of the IEEE International Conference on Computer Vision. IEEE, 388–397.

[4] Ziwei Liu, Ping Luo, Shi Qiu, Xiaogang Wang, and Xiaoou Tang. 2016. DeepFashion: powering robust clothes recognition and retrieval with rich annotations. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 1096–1104.

[5] Xiangnan He, Hanwang Zhang, Min Yen Kan, and Tat Seng Chua. 2016. Fast matrix factorization for online recommendation with implicit feedback. In Proceedings of the International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 549–558.

[6] Xiang Wang, Xiangnan He, Meng Wang, Fuli Feng, and Tat-Seng Chua. 2019. Neural graph collaborative filtering. In ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 165-174.

[7] Wei Xu, Xin Liu, and Yihong Gong. 2003. Document clustering based on nonnegative matrix factorization. In Proceedings of the international ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 267–273.

关于作者

韩贤静，山东大学计算机科学与技术学院博士研究生。2017年9月于东北大学取得工学学士学位。研究方向主要集中在信息检索和多媒体计算等领域。在国际权威期刊和国际顶级学术会议，包括IEEE Transactions on Image Processing、ACM SIGIR、ACM MM等发表相关论文。

宋雪萌，山东大学计算机科学与技术学院助理教授。2016年10月取得新加坡国立大学计算机科学系博士学位。此前，于2012年7月取得中国科学技术大学，电子工程与信息科学系学士学位。研究方向主要集中在信息检索和社会网络分析等领域。在国际权威期刊和国际顶级学术会议，包括ACM SIGIR, IJCAI, AAAI, ACM MM, ACM Transactions on Information Systems 等发表相关论文。此外，参与编写由Morgan& Claypool出版的著作《Learning from Multiple Social Networks》。担任ACM TOIS, IEEE TMM, IEEE TIP, ICMR 和 SIGIR 等国际期刊和会议的审稿人。

尹建华，山东大学计算机科学与技术学院助理教授。2017年6月取得清华大学博士学位，博士期间赴伊利诺伊大学香槟分校Prof. Jiawei Han实验室交流访问。2017年7月加入山东大学计算机科学与技术学院，主要从事数据挖掘和机器学习方面的研究工作。在国际顶级学术会议发表多篇一作论文，包括ACM SIGKDD, IEEE ICDE等，单篇最高引用超过100次。担任ACM SIGKDD，IEEE TKDE，ACM TKDD等国际期刊会议的审稿人。

王英龙，齐鲁工业大学（山东省科学院）党委书记。兼任山东省科协副主席，山东省物联网协会会长，山东省电子政务和大数据发展专家咨询委员会专家。2002年起享受国务院政府特贴，2003年被评为山东省有突出贡献的中青年专家。主要研究方向为物联网技术、信息安全、医学人工智能。承担完成国家863、国家科技支撑计划等重大项目20余项；以第一完成人获得山东省科技进步一等奖2项、二等奖4项、三等奖2项；主持参与制修订国家标准9部，出版专著1部，发表高水平学术论文40余篇，其中SCI论文15篇，申请授权专利30余项。

聂礼强，山东大学计算机科学与技术学院教授，博士生导师。担任山东大学泰山学堂/精英班教授小组组长、山大-智洋人工智能联合实验室主任、山东省人工智能研究院院长。其于2009年和2013年分别从西安交通大学和新加坡国立大学获得学士和博士学位。博士毕业后，在新加坡国立大学计算机学院以研究员身份从事科研工作三年半。2016年入选“齐鲁青年学者”计划和第十三批国家“青年千人”计划，2018年获得山东省杰出青年基金。主要研究兴趣为多媒体计算和信息检索。近五年在国际CCF A类会议或ACM/IEEE汇刊发表论文百余篇，如ACM MM、TIP、SIGIR、TOIS，专著一部；截止2019年9月，Google Scholar引用5200余次。聂礼强博士曾担任多个国际著名期刊的客座编委，如IEEE Trans. On Big Data, ACM Transactions on Multimedia (ToMM)等；担任国际会议ICIMCS 2017 程序委员会主席和Information Science 编委；担任CCF A类会议ACM MM 2018/2019领域主席；担任PCM 2018 special session主席。

点击以下标题查看更多往期内容：

巧用文本语境信息：基于上下文感知的向量优化
雇水军刷分有效吗？虚假评论的影响研究分析
基于深度强化学习的谣言早期检测模型
KDD 2019 | 使用神经网络为A*搜索算法赋能
让陌生人说出你的兴趣：基于深度学习的推荐模型
基于双层注意力机制的异质图深度神经网络
坚守还是离开？初期城市移民流失预测问题分析

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

台湾生技：生物药“台积电”兴起，创新药研发起步 | JPM 2022

印纪传媒400亿覆灭内幕：肖文革赌输80亿？

长电科技——半导体芯片封装和设计龙头企业
长电科技是全球领先的集成电路制造和技术服务提供商，提供全方位的芯片成品制造一站式服务，包括集成电路的系统集成、设计仿真、技术开发、产品认证、晶圆中测、晶圆级中道封装测试、系统级封装测试、芯片成品测试并可向世界各地的半导体客户提供直运服务。通过高集成度的晶圆级（WLP）、2.5D/3D、系统级（SiP）封装技...
【行业前沿】人工智能十年发展总结，中国进步神速，专利占全球七成
编者语：人工智能在过去十年中从实验室走向产业化生产，重塑传统行业模式、引领未来的价值已经凸显，并为全球经济和社会活动做出了不容忽视的贡献。当前，人工智能已经迎来其发展史上的第三次浪潮。人工智能理论和技术取得了飞速发展，在语音识别、文本识别、视频识别等感知领域取得了突破，达到或超过人类水准，成为引...
普华永道驾驭不确定的全球形势：第23期全球CEO调研
获取报告请登陆未来智库www.vzkoo.com。执行摘要过去12个月以来，受贸易和制造业增速放缓、地缘政治不确定性、新型冠状病毒疫情和外国直接投资下降等诸多因素影响，全球宏观经济放缓。因此，国际货币基金组织将2019年全球经济增速下调至2.9%，为全球金融危机以来的最低水平，预计2020年该比例将上调至3.3%。中国以及全球...
实现论文零突破！清华研发新型芯片登上Nature封面
来源|中国日报、清华大学官微、募格学术编辑|学术君摘要8月1日，清华大学研制出的一款自行车登上了最新一期全球顶尖期刊《自然》杂志（Nature）的封面！先来看看，自行车“成精”后的样子。自我平衡↓↓ 绕开障碍物↓↓ S型路线↓↓ 向左转↓↓这辆无人自行车可实时感知周围环境。它可以在跟随前方试验人员的同时自动进...
2018年视频人物识别挑战赛冠军是如何养成的？
2018年，爱奇艺与中国模式识别与计算机视觉大会（PRCV2018）共同发起“多模态视频人物识别挑战赛”，在来自包括纽约大学、瑞典隆德大学、新加坡国立大学、百度、小米、微软等全球顶尖高校以及行业领先公司在内的397支参赛队伍中,WitcheR团队脱颖而出，荣获冠军。下面是该团队的经验分享，希望可以为对多模态领域研究感兴趣的...