人工智能测试领域第一起作弊丑闻刚刚被曝光。
上个月,中国搜索引擎公司百度宣布,其图像识别软件在标准化准确度测试中领先于谷歌。
但周二,该公司承诺通过打破测试规则来实现这一结果。
负责维护测试的学术专家表示,这使得百度之前的声明变得毫无意义。
领导该项目的百度研究员吴韧已公开道歉,并表示公司正在评估结果。
百度还修改了该软件的技术论文。
目前尚不清楚此举是个人行为还是整个团队的工作,但为什么一家拥有数十亿收入的科技公司会在这样的测试中作弊呢?百度、谷歌、Facebook等大型科技公司近年来投入巨资组建专门从事深度学习技术的研发团队。
他们开发的机器学习软件在语音和图像识别领域取得了重大进展。
这些公司不遗余力地聘请这个小领域的顶尖专家,而且经常互相挖角。
虽然目前学术界对于人工智能的标准测试还很少,但它们可以帮助这些研究团队将他们的成果与其他团队进行比较,并向公众推广。
百度通过作弊获得了不公平的优势。
要进行 ImageNet Challenge 测试,您首先需要在 10,000 个标准图像上对其进行训练,然后将代码提交到 ImageNet Challenge 服务器,以针对该软件以前未见过的 100,000 个“验证”图像进行测试。
通常,代码每周只能测试两次,因为最终结果包含概率元素。
百度承认,在短短六个月的测试期内,它使用多个电子邮件帐户对其代码进行了大约 600 次测试,是所需测试次数的四倍多。
艾伦人工智能研究院CEO表示,百度此举相当于买了多张彩票。
“如果你每周买两张彩票,你中奖的概率就差不多了。
但如果你每周买一张彩票,中奖的概率就会增加。
”他说。
这允许使用略有不同的代码进行多次测试,以帮助研究团队针对一组独特的验证图像进行优化。
在这种测试中,一个小小的优势就能产生巨大的差异。
百度表示,该公司的错误率仅为 4.58%,超过了谷歌 3 月份的 4.82%。
但一些专家指出,如此小的领先优势在这次测试中变得越来越没有意义。
但百度和其他公司仍在试图宣传他们的成果,甚至不惜违反规则,以证明在机器学习领域取得领先地位对他们来说有多么重要。