首页

斩获全球计算机视觉顶会竞赛头名 京东探索研究院助力数智化产业发展

日前,全球人工智能计算机视觉领域顶级国际会议CVPR 2021(Computer Vision and Pattern Recognition,即国际计算机视觉与模式识别)以线上形式召开,众多赛事奖项也最终尘埃落定。京东探索研究院首次亮相,在本次CVPR赛事中共计获得2个冠军、1个季军的优异成绩。CVPR是全球计算机视觉方向三大顶级国际会议之一,广泛受到学界、业界的重视和关注,而CVPR会议的重要赛事也吸引了众多国内外队伍参赛。

在“厨房场景下-自我中心感知、交互与计算”(EPIC-KITCHENS)大赛中,京东探索研究院联合华南理工大学,荣获“动作识别”任务第一名。参加该竞赛的队伍包括:英国伦敦玛丽女王大学、西班牙巴塞罗那大学、新加坡国立大学等知名高校以及意大利布鲁诺凯斯勒基金会、三星人工智能中心等知名组织和企业研究机构。“厨房场景下-自我中心感知、交互与计算”大赛要求识别动作和名词构成的行为对,其任务需要识别的动作类别众多,且数据集具有长尾数据分布、小样本、零样本等问题,给选手带了巨大的挑战。

图一:“厨房场景下-自我中心感知、交互与计算”的“动作识别”任务第一名证书

京东探索研究院和华南理工大学科研团队创造性地提出一种多结构、多片段、多任务融合的网络结构(如图一所示),通过1)获取多种不同的网络结构在多种不同的任务(动词识别、名词识别、动作识别、以及动词-名词成对识别)训练下提取特征,2)通过Transformer的编码特性融合不同网络结构的特征,获取最终的动作识别结果。

图二:多结构、多片段、多任务融合的网络结构

在“从有限和不完备数据学习”大赛中,京东探索研究院联合南京理工大学荣获“弱监督目标定位”任务第一名以及“弱监督语义分割任务”第三名。参赛队伍包括韩国延世大学、天津大学、西安电子科技大学等知名国内外高校。“从有限和不完备数据学习”大赛中弱监督语义分割和目标定位分别指仅利用图像级别标注,实现逐像素级别的语义分割和目标框定位的任务。由于训练数据集只提供图像级别的标注,且具有物体遮挡、物体类别标注不均衡等复杂问题,因此给参赛选手带来了巨大的挑战。

图三:“从有限和不完备数据学习”的“弱监督目标定位”任务第一名证书

京东探索研究院和南京理工大学科研团队创造性地提出一种多尺度类激活图生成和注意力融合的网络结构(如图一所示),通过1)训练图像分类网络,获取不同尺度下的单尺度类激活映射图,2)视觉注意力的方式,融合多个单尺度类激活映射获取多尺度的激活映射图,3)利用图像分类损失和多尺度激活映射图一致性损失,训练网络。最后,利用多尺度的激活映射图作为伪标注,获得更好的分割和定位结果。

图四:多尺度类激活图生成和注意力融合的网络结构

据悉,京东集团在2020年11月25号正式宣布成立京东探索研究院,京东探索研究院秉承京东集团“技术为本,致力于更高效和可持续的世界”的使命,是专注前沿科技探索的研发部门,聚焦于“可信人工智能”、“超级深度学习”、“量子机器学习”这三大人工智能领域,致力于实现理论研究和协同创新的生态平台,并以原创性科技赋能京东的零售、物流、健康、科技等全产业链场景,打造源头性科技高地,助力数智化产业发展。

目前,京东探索研究院已汇聚了两百多名研究员,均是人工智能等领域理论研究的尖端人才。他们来自于北京大学、清华大学、中国科学院大学、浙江大学、上海交通大学、悉尼大学、新加坡国立大学等30个国内外知名高校,已组建起强大的研究团队。本次提出的弱监督语义分割、弱监督目标定位、以及动作识别方法,将为视频跟踪、场景理解等实际应用提供基础算法,具有非常重要的实践意义和应用价值。

京东探索研究院诚招勤于实践、勇于梦想的志同道合之士,包括正式员工或者实习生,方向包括但不限于:算法理论、深度学习、自动机器学习、自然语言处理、计算机视觉、多模态处理、量子机器学习等。如有意向,请联系王玉彬老师,联系邮箱为:wangyubin9@jd.com。