Mapillary四项世界第一,旷视COCO获奖团队亲述

威尼斯官方网站 6

原标题:旷视COCO获奖团队亲述:我们是如何两年拿下7个冠军的

原标题:ECCV 2018 |
旷视科技包揽COCO+Mapillary四项世界第一,中国公司成最大赢家

郭一璞 假装发自 慕尼黑

威尼斯官方网站 1

即将年满7岁的旷视,最近给自己送了一个生日礼物,计算机视觉顶级赛事MS
COCO
的Detection(并列)、Panoptic、Keypoints和Mapillary
Panoptic四个项目的冠军,继去年三冠一亚之后,连续两年成为该赛事上全球表现最佳的公司。

2018 COCO+Mapillary 联合挑战赛颁奖现场

威尼斯官方网站 2

当地时间 9 月 8
日,两年一度、为期一周的欧洲计算机视觉顶级学术会议 ECCV 2018
在德国慕尼黑拉开帷幕。据官方信息显示,ECCV 2018 共有 43 场 Workshops
和 11 场 Tutorials;大会投稿论文 2439 篇,其中接收论文 776
篇(31.8%);注册参会人数近 3200 人,规模空前,超过 ECCV
2016(阿姆斯特丹)2
倍。旷视科技研究院在院长孙剑博士的带领下远赴盛会,用心用力,推动全球范围计算机视觉的技术交流与产品落地。

量子位在出结果后采访到了旷视科技参加COCO比赛的团队。

9 月 9 日,43 场 Workshops
中最为引人注目的 Joint COCO and Mapilary Recognition Challenge
Workshop(COCO+Mapillary
物体识别联合挑战赛研讨会)在慕尼黑技术大学(Technische University
Munich)如期召开,公布各个赛项最终成绩,开展研讨会交流。值得一提的是,这次联合挑战赛的夺冠队伍全部来自中国。

今年COCO很艰难

这次联合挑战赛中, COCO 4
项比赛,Mapillary 2 项比赛,共计 6 个赛项。旷视科技参战其中的 3 项
COCO 比赛和 1 项 Mapillary 比赛,共计 4 个赛项,分别荣获 3 项 COCO
第一( 含 1 项并列第一)和 1 项 Mapillary
第一,四战皆胜,可谓揽下了本次挑战赛的“半壁江山”,成为当之无愧的最大赢家。

ICCV COCO+Places 2017 拿下 3
项第一,打破谷歌、微软“霸权”,成为第一个问鼎 COCO
冠军的中国公司之后,本次 ECCV COCO+Mapillary 2018
旷视科技参战四项,拿下四冠,全战皆胜突破自我再创新高,彰显了在物体识别与检测领域的绝对实力。

今年带队的除了旷视科技首席科学家、研究院院长孙剑之外,还有去年的冠军领队、旷视科技研究院Detection组负责人俞刚博士,另外还有十余位同学,大部分是实习生。

威尼斯官方网站 3

从5月中旬启动比赛,到8月结束,旷视COCO小分队从确定团队分工、定方向到逐步优化,历时三个月,蝉联冠军王。

2018 COCO+Mapillary
官方结果:旷视科技(Megvii)荣获四冠,分别是 COCO
detection(并列第一)、COCO keypoints、COCO panoptic 和 Mapillary
panoptic。

不过,聊到这四个冠军的成就,俞刚博士似乎并没有特别激动,他对今年的比赛有两个字的评价:艰难

COCO 2018
联合挑战赛的本意是在场景理解的前提之下研究物体识别,这次 COCO 挑战赛项有
1)Instance Segmentation(实例分割),2)Panotic
Segmentation(全景分割),3)Keypoints(人体关键点检测)和
4)DensePose(人体密集姿态估计);Mapillary 挑战赛项有 1)Instance
Segmentation(实例分割)和 2)Panoptic Segmentation(全景分割)。尽管
COCO 和 Mapillary
共同聚焦在视觉识别的一般问题之上,但是具体的每项任务在相应数据集的加持下还是对问题的不同维度做了新探索。COCO(&
Mapillary)是当前物体识别领域最为权威、最具标杆作用的数据集之一,也是继
ImageNet 之后最有影响力的竞赛平台之一。

团队成员华中科技大学博士在读的余昌黔说,艰难到个别时候晚上十点睡下,两三点又要从床上爬起来,再做一波实验。

COCO 是英文 Commen Objects in Context
的缩写,并有同名论文发布。COCO
数据集针对全场景理解而设计,意在促进物体检测研究发展。 Mapillary Vistas
是新近推出的街景集图像数据集,专注于图像的高阶语义理解,推动自动驾驶和机器人导航等领域的技术落地。在数据集和应用任务方面,两者有很多不同,而后者对前者起补足作用。通常来讲,COCO
是自然场景下的物体识别,Mapillary
则聚焦于街景场景识别,因此联合挑战赛的形式有利于计算机视觉技术更贴近现实场景,更具应用价值。

不仅艰难,旷视的一个遗憾是算法没有达到内部定下的量化目标。

自 2015 年首届挑战赛以来,COCO
赛项数量不断更新,评估标准也更加复杂;COCO 2018
相较往年又有改变。在检测方面,实例分割近年在 COCO 上大为流行,今年,COCO
和 Mapillary 都有此赛项;随着检测技术走向饱和,COCO
去掉了边界框检测这一赛项,但成绩依然出现在榜单上。另外一个变动是新增了
DensePose 和 Panoptic Segmentation 两个赛项。Panoptic Segmentation
同时解决一张图像上前景物体与背景物体的分类问题,把互为分裂的语义分割和实例分割整合为一,推动分割技术步入新境界,不断逼近现实应用。COCO
和 Mapillary 也都有此赛项。

这场景很熟悉,让人想起学霸同学声称自己考砸了,结果分数出来是年级第一的故事。

这次挑战赛在 COCO 和 Mapillary
两个重量级数据集的加持之下,为重新定义和升级机器视觉算法提供了一次宝贵的机会。激发新洞见,这可以说是
COCO & Mapillary 2018 的最大价值所在。三项冠军的比赛结果不仅再次向世界证实了旷视科技计算机视觉原创技术的非凡实力,也体现了公司内部自成一格孕育冠军的“大环境”的科学性和创新性。技术是一切的前提,一次次的冠军就是技术。以非凡科技,持续为客户和社会创造最大价值,旷视科技正在把口号化为现实。

去年夺冠后,旷视把目标定得过高了,在实际比赛中并没有预料中那么好。旷视COCO团队实习生、北航研二在读的殷斌一同学对量子位说,在他参加的项目里,团队自己拆分出验证集测试,得分超过80,但实际挑战集却只有76分,让大家不得不费尽功夫,0.1分0.1分的向上提。

正如旷视研究院检测组负责人俞刚博士所讲:“上年
COCO
比赛让我更多看到的是,我们扎实的细节积累和公司平台的优势。但是今年,团队乐观的信念和对胜利的坚持深深感动了我。每次当我们满怀希望的
idea
出结果时,往往都是以失望而告终。但是我们从未因为挫折而沮丧,每次都能快速站起来,反思问题,继续下一个
idea,这正是我们这次拿下四冠的“丹法”所在。做 Research
没有捷径,唯有不断创新和坚持。”

至于如此艰难的原因,一方面是COCO“走不动了”,达到了一个饱和状态;二是算法上面还有比较长的路要走,需要更多极致的创新来突破现有的技术水平。

旷视科技首席科学家、旷视研究院院长孙剑博士也表示:“COCO
竞赛有点像华山论剑,大家来比比过去一年功夫练的怎么样。其实除了成绩,我更看重的是这个参赛过程对队伍锤炼,包括心力和坚毅。真正的华山论剑是科技产品在市场上的竞争,旷视科技永远争第一。”返回搜狐,查看更多

威尼斯官方网站 4

责任编辑:

好在虽然艰难,但这并不妨碍他们拿到四个项目的冠军。

自己的数据集

COCO数据集因为数据难度以及标注误差,导致算法越来越饱和了。旷视自己内部开始研究检测任务的后续方向,建立了两个内部数据集。

俞刚博士介绍了旷视的两个和COCO有关的数据集:

第一个是CrowdHuman,包含大量多人重叠照片,专门针对COCO比赛中人人人人人人人人山人海的检测。

威尼斯官方网站 5

这个数据集已经开源,需要的朋友可以取链接:

第二个数据集目前还在搜集中,旷视内部的名字叫做COCO++,缘起于COCO的“指鹿为马”现象,因为COCO只有80个标签,难以覆盖世间万物,所以比如当它见到一头鹿的时候,因为没有鹿这个标签,只好标注成马。因此,旷视准备做COCO++这样一个数据集,希望能够覆盖世界上99%的物体,减少出现这类差错的机会。

COCO:中国队对战中国队?

关于COCO的另外一个话题就是:包括旷视、商汤、北邮、滴滴等在内,拿冠军的都是中国队,全无谷歌、Facebook等美国大公司的身影。

这一点俞刚博士觉得与国内的AI发展氛围和创业公司特点分不开。

一方面国内AI热潮正处风口浪尖,发展氛围更好,投入的资源人力足够多,政策也支持,国内研究AI的热情空前高涨,“从人才潜力这个角度讲,中国不会比欧美差,我们需要更好的环境、更好的团队氛围来释放人才潜力,这也是旷视科技研究院一直在做的事。”

另一方面则得益于国内创业公司的资源倾斜。大公司业务广,牵扯多,在COCO比赛这类项目上,单点投入不够集中;而创业公司单点投入更集中,一旦决定参加COCO,团队力往一处使,比赛过程更高效,成绩自然会比大公司要好。

得胜武器:人才培养

COCO这类比赛,最离不开的是人才。

俞刚博士也这么认为,他把旷视今年拿下四个冠军归因于对人才的培养。

威尼斯官方网站,一方面,旷视内部一直在培养新人,人才不断档,才能支撑比赛阵容;

另一方面,旷视也一直有足够的技术积累,每天刷arXiv分享优质论文是技术团队内部的必修课,并且需要分析提炼论文中值得学习的内容,而非简单的复制别人开源的成果,让团队整体也有提升。

或者说,COCO比赛对旷视的价值就在于带新人练级

虽然去年的夺冠神器Brain++已经内部应用,但COCO成绩离商业落地还没有那么近。因此,参与COCO的团队也是实习生为主,就像腾讯互娱的校招新人会自己做小游戏一样,比赛对旷视更重要的是人才培养,是旷视人才战略的一部分。

所以,COCO比赛中,他们采取了以老带新的方式来培养团队。经验丰富的研究员指导年轻研究员,传授经验;年轻人也可以在比赛的过程中获得自己的经验体会,提升认识和理解,还可以有新的成果出现。

殷斌一同学对此有深刻的感悟。

在学校的时候,殷斌一苦于学校的计算、数据集等资源限制,渴望更好的平台。

COCO开始前两个月,还是北航研一学生的殷斌一刚刚来到旷视实习,彼时的他,刚刚开始自己在深度学习、计算机视觉领域的学术研究生涯,虽然擅长代码,本科时还拿过ACM区域赛银牌,但对算法一窍不通。

在旷视团队参与COCO的过程中,殷斌一逐渐搞清楚了数据、模型、测试等过程,明白了从头到尾的整体方法逻辑。现在,他已经能够自己独立跑程序、训练模型,完成整一套过程了。

而另一位团队成员余昌黔已经在旷视实习一年多了,开学季这几天,他刚刚在华中科技大学开始自己的博士生涯。

在COCO的workshop中,他不仅见到了敬仰已久的大神Ross
Girshick和何恺明,还上台演讲,被主办方称赞比人标的ground-truth结果都好,收获了在场全世界各国参赛者的一片欢呼。

威尼斯官方网站 6

Ross Girshick 为旷视团队颁奖 研究&落地 双管齐下

在旷视内部,研究和落地同步进行着。

落地做实用,比如在手机端运行AI程序,限制在手机的硬件水平之上,模型更小,对用户体验追求更高;

而研究则是探求物理极限,可以尽量用大模型,用大量硬件。

参加比赛是以老带新,用最快速度培养出更多新秀去做产品;

而专做产品的人也要参与研究,把眼界放长远,提升自己的判断能力,培养自己对于技术方向的想法,而不仅仅局限于眼前,才能为自己谋取更高的成长天花板。

这是俞刚博士分享的旷视人才观。

这一点也反映在了COCO团队的组建上。

旷视在组建COCO参赛团队时,先根据新人的兴趣点、爱好特长来分组,如果缺人,再去协调其他团队。之后COCO的成果也会反映在商业落地上,去年的夺冠秘籍Brain++就已经在内部应用了。

能用大量商业资源推动研究,同时研究成果能迅速反哺实际应用,这真是计算机科学家们最好的时代。

实习生:博士,硕士,甚至高中生

旷视的COCO队员余昌黔和殷斌一都是实习生。

殷斌一此前也有在其他科技公司实习的经历,不过并非在研究部门,而是实际商业落地部门,主要工作是写业务代码,没有做研究的机会,“搬砖”的意味更强一些。

而在旷视,能享受充足的研究资源,随时随地请教大牛,在前辈们的push下迅速成长,是他在别处无法获得的巨大收获。

时至今日,已经成为COCO冠军团队成员的他在学校依然行事低调,还没有把这个在校外获得的成就告诉导师和同学。

余昌黔则已经硕士毕业,对科研有着更深一层的认识。他说,旷视科技研究院满足了他对理想研究院的所有期望:团队氛围非常好,周围大牛云集,工作也很自由。

并且旷视研究院这类企业研究院的方向也与读硕士、博士也不冲突:都是为了得到优秀的研究成果、能公开发表,企业研究院还有更好的硬件与数据资源。

前面两位是硕士和博士,但丝毫不过夸张的是,旷视还有过不下十位正在读高中的实习生。

第一位高中实习生的名字叫做范浩强,当时他在人大附中读高三,因为信息学奥赛的优异成绩已经被保送到了清华,而当时他的信息学教练正是旷视科技CTO唐文斌。

欣赏范浩强才华的唐文斌对他发出了邀约:

“我要去开一家公司,叫旷视科技,你要不要来?”

就这样,高中生范浩强成为了旷视的前10号员工之一。清华本科毕业之后,他终于“转正”成了正式员工。

有了一个范浩强,就会有更多高中生,他们以学长带学弟的方式,纷纷来到旷视实习(很遗憾,暂未听说有学妹)。

俞刚博士介绍,来旷视实习的高中生各地都有,他们都不需要高考,或是已经参加竞赛保送了,与其高三无所事事,不如来学点东西;或是准备申请国外的本科,实习中如果有研究成果,也更容易的拿到国外高校的offer。

在旷视呆过的实习生们,转正率非常高。如果继续升学深造,大多数也能去不错的学校,迄今为止已经有三位实习生去了斯坦福。

不过,虽然前面提到的几位实习生都是名校背景,但旷视也并不是只要名校生。

俞刚博士说,主要还是看求职者的闪光点,比如是否擅长代码,学习新知识的能力是否优秀等。有这些亮点,便值得加以培养。

One More Thing

俞刚博士还透露,今年旷视的冠军模型会在迁移到TensorFlow之后开源,预计会是今年年底前后。

—返回搜狐,查看更多

责任编辑:

发表评论

电子邮件地址不会被公开。 必填项已用*标注