作为微软美国总部以外最大的研究机构,微软亚洲研究院一直致力于推动计算机科学前沿技术的发展,专注于下一代革命性技术的研究。
最近他们在计算机视觉技术领域取得了长足的进展。
美国东部时间2020年12月10日,微软亚洲研究院视觉计算组在ImageNet计算机识别挑战赛中凭借深度神经网络技术的最新突破,以绝对优势夺得图像分类、图像定位和图像检测三大项全部冠军。
冠军计划。
同时,他们还在另一个图像识别挑战赛MS COCO(Microsoft Common Objects in Context Challenges,常见物体图像识别)中成功登顶,在图像检测和图像分割项目中击败了来自学术界、企业和研究机构的人士。
众多参赛者中。
在本次挑战中,微软亚洲研究院的研究团队使用了前所未有的深度高达一百层的神经网络,比之前成功使用的任何神经网络层数都要多5倍以上,来检测照片和视频中的物体。
识别等技术取得重大突破。
去年赢得ImageNet挑战赛的系统错误率为6.6%,而今年微软亚洲研究院视觉计算组的系统错误率已低至3.57%。
事实上,研究团队早在今年1月份就首次在人类视觉能力方面取得了突破。
当时,在一篇题为“Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification”的论文中,他们的系统的错误率已经降低到了 4.94%。
在之前的同一实验中,人眼识别的错误率约为5.1%。
微软全球高级副总裁、微软亚太研发集团主席、微软亚洲研究院院长洪小文博士表示:微软亚洲研究院视觉计算组在本次ImageNet挑战赛中取得的优异成绩,不仅仅是微软在深度神经网络。
这项研究和应用取得的科学突破,也代表着计算机视觉技术目标识别领域的又一次飞跃。
我对课题组多年来的技术积累、探索和成果感到非常自豪。
同时,我对这一突破在其他研究领域的推广以及相关产品的转化也充满期待。
微软亚洲研究院视觉计算组首席研究员孙健博士领导的团队更新了深度神经网络上的算法,并将其称为“深度残差网络”。
目前常用的神经网络层数可以达到20到30层。
在本次挑战中,团队应用的神经网络系统达到了20到30层。
研究团队还使用了一种新的“残差学习”原理来指导神经网络结构的设计。
“残差学习”最重要的突破是重构深度神经网络中的学习过程并重定向信息流。
它很好地解决了之前深度神经网络的水平和精度之间的矛盾。
孙健表示:“从我们极深的深度神经网络中可以看出,‘深度残差网络’功能强大,用途极其广泛。
可以预见的是,它还可以极大地改善其他计算机视觉问题。
” (微软亚洲研究院院长、研究员孙健)微软亚洲研究院多年来在计算机视觉领域的研究成果已经转化为众多微软智能产品和服务,包括微软牛津项目中的人脸识别和图像识别API,以及Windows 10中的Windows Hello。
“刷脸”启动功能、Bing的图像搜索、微软小冰的多种图像“技能”、OneDrive中的图像分类功能、以及广受好评的袖珍扫描仪Office Lens等。
ImageNet是一个计算机视觉系统识别项目目前全球最大的图像识别数据库。
ImageNet 挑战赛每年举办一次,由来自世界各地顶尖大学、公司和研究机构的研究人员组织。
近年来,它已成为计算机视觉领域的标杆。
MS COCO数据库由微软资助,其挑战赛目前由几所学术大学联合组织并独立运行。