本文经AI新媒体量子比特(公众号ID:QbitAI)授权转载,转载请联系出处。AI论文,是否应该强制开源代码?NeurIPS2020近日正式发布了一份开源指南。从2019年开始,NeurIPS“强烈建议”提交纸质代码,但仍然不是强制性的。但无论如何,官方已经传递了一个信号:AI学术峰会的开源代码已经成为一种行业趋势。NeurIPS的举动也引发了一场“年度”讨论:如果以后学术会议要求开源,贡献者应该拒绝吗?出乎意料的是,很多网友认为:我不开源是天经地义的。异议一:代码没那么重要首先,开源代码的目的是什么?允许其他研究人员重现结果。如果一篇论文包含足够的细节,那么其他人可以根据其中的公式编写自己的代码。对于此类论文,代码不能公开。但前提必须是提供足够的细节。比如谷歌的AlphaGo没有开源代码,但是没有人怀疑它的正确性。事实上,很多人已经根据谷歌论文复现了AlphaGo。而且,作者自己的代码也可能有错误。不开源的好处之一就是可以让其他研究人员独立复现。万一作者在代码中挖了一个不明显的“坑”,其他人也可以避而远之,防止被带入坑中。另外,不要高估代码的价值。经典论文可以持续几十年,但代码很可能十年后就难以运行了。当然,还有一种观点认为,对于AI来说,数据集更重要。没有数据的代码是没有价值的,很多数据集是打不开的,也就是说即使拿到了代码,也无法重现SOTA的结果。异议二:既要考虑不开源给作者,又要照顾作者的各种特殊情况。例如,一些研究人员从事纯理论研究。一位网友说,他连Docker容器怎么搭建都不会。虽然他发表了很多论文,并在GitHub上开源了代码,但从来没有维护过。因此,一篇论文是否开源,应该根据代码对文章的重要性来判断,不能一刀切。也有一些商业公司的研究人员在写论文时使用公司内部的专有软件库。如果强行开源,就得从头开始重写代码,既费时又费力,对这些人也不公平。也有一些作者不想自己开源,而是希望将成果保护一段时间,论文发表几个月后再开源代码。这对于医学和法律领域的学者来说非常重要。综上所述,对面网友认为强制开源过于极端,应该鼓励对开源论文的态度而不是强制。支持开源:不开源怎么让人信服?首先,一位石油行业的网友表示,他们行业的数据属于商业机密,所以他们不会公开任何数据和代码,甚至会在文章中扔掉一些公式来隐藏结果,也声称是98%正确的。结果如何才能令人信服。他认为,不公开数据和代码,就像删除论文中的所有关键元素,这样的研究即使发表也毫无价值。还有一些人认为,强制开源将改变其他行业对机器学习的偏见。许多其他学科的人将机器学习视为伪科学。为什么?因为AI领域的论文发表流程非常不成熟。科学方法的关键是一致性和可重复性。在每个人都痴迷于SOTA的情况下追逐单一指标是一个巨大的问题。而开源是解决这个问题的一种方式。去年,知名AI女学者AnimaAnandkumar在个人博客上发表公开声明,强烈反对发表论文不给出代码的行为,并呼吁学术会议强制规定投稿必须同时公开时间。她认为,不开源代码不利于审稿,不利于追究造假论文的责任,也不利于行业的公开竞争。你认为开放学术论文也应该开放代码吗?
