当前位置: 首页 > 科技观察

治愈“图片滥用”!Elsevier、Nature等顶级期刊用AI找作弊科学家

时间:2023-03-16 22:23:28 科技观察

前不久,我们刚开始一个诺奖得主,发表了多篇PS大法的论文。现在越来越多的学术出版商正在使用人工智能软件来发现伪造的数据,幸运的科学家可能要三思而后行。滥用图片?在当今学术界,对同一细胞群的图片进行复制、翻转、旋转、移动、裁剪、重复使用等现象相当普遍。使用这些经过篡改的图像,研究人员假装他们拥有大量数据并进行了大量实验,但事实并非如此。据美国癌??症研究协会(AACR)运营总监丹尼尔·埃万科(DanielEvanko)称,图像重复是AACR在2016年至2020年间撤回论文的主要原因。撤回不仅损害了作者的声誉,也损害了作者的声誉出版商。为了避免双方的尴尬,AACR等学术刊物开始在发表论文前使用AI软件检测图像重复。该软件名为Proofig,是一家以色列初创公司开发的图像检查程序。Evanko于9月初在芝加哥举行的同行评审和科学出版国际会议上介绍了试点研究的结果,描述了Proofig如何影响AACR。AACR每年出版十种研究期刊并审查超过13,000份提交的论文。2021年1月至2022年5月,官方通过Proofig筛选了1367篇暂录用论文,检查了208篇图像重复的论文,并联系了论文作者。据外媒报道:在很多情况下,论文中的图像重复是由于“图像滥用”造成的,只需提交新的数据即可解决这个问题。小编说:就这么简单吗?在其他情况下,Proofig显示出非常明显的欺诈迹象。在这208篇论文中,4篇被撤回,1篇被拒。长期以来,学术造假并不少见,而且在声名狼藉的机构中时有发生。然而现在,在名牌大学的顶级实验室,却频频发现学术造假事件。根据《科学》杂志最近的一项调查,几十年来阿尔茨海默氏症的研究都未能通过新的治疗方法,临床试验也因一篇被高度引用的论文和重复的图像而失败。Proofig发现的伪造证据之一是使用Westernblots产生的一系列模糊线,这些线被复制、编辑并粘贴到鼠标数据中。未经训练的眼睛很难发现这种伪造。Proofig首席执行官DrorKolodkin-Gal说,寻找这种细微的变化对大多数人来说是一项相当乏味的任务,但它非常适合计算机。2019年诺贝尔奖获得者GreggL.Semenza的“图像滥用”Proofig首先检查特定图像是否与论文中的其他子图像匹配。子图像可能已被移动、翻转或旋转,或被裁剪、复制,有很多可能性。Proofig结合了计算机视觉和人工智能算法来提取和分类图像。这种计算非常复杂,好在机器学习进步很快。“在人工智能出现之前,光是从论文中提取子图像就需要十倍的研发投入,而且天知道如何进行计算。无论是算法的技术进步,还是在云端运行GPU的能力,都带来了巨大的变化,”Kolodkin-加尔说。仍然需要人的参与当然,像Proofig这样的AI软件不能自己找到作弊者。图像取证专家、独立科学顾问伊丽莎白·比克说:“要解读软件的结果,我们仍然需要有相关知识和经验的人。毕竟,人眼在某些情况下可以胜过计算机。”你不能让软件自己运行,因为它可能会标记出很多不是问题的东西。”Bik在工作中使用了另一个AI软件——ImageTwin。有时,它并不能很清楚地分析蛋白质印迹。“westernblot是基本上是纯色背景上的黑色条纹。我可以用肉眼看到形状的一些细微之处,但软件就是看不到。”“这可能是因为我们的眼睛和大脑的工作方式非常复杂。我想也许是因为该软件只查找相对距离,黑色条纹看起来就像黑色条纹。它也不太擅长寻找小边缘或与其他形状相似的形状。比克说。2019年诺贝尔奖获得者GreggL.Semenza的“图像滥用”Kolodkin-Gal同意检查蛋白质印记对机器来说非常具有挑战性。“我们花了很多投资才最终找到一个好的算法来找到这些波段。这对人工智能来说太具有挑战性了,因为波段太小了。”在出版过程的不同阶段,学术出版Everything使用了像Proofig这样的图像检查工具。AACR扫描所有初步接受的手稿,而Taylor&Francis只用它来检查被编辑或同行评审员质疑的论文。“如果该软件检测到潜在的图像复制或其他操纵,并且我们的专家团队支持这一判断,我们将按照出版道德委员会为此类事件制定的既定程序和指南进行调查。”公司声明人们这么说。在发布过程中何时使用这些工具取决于成本。图像处理是计算密集型的,因此出版物必须为像Proofig这样的公司支付云计算费用。如2019年诺贝尔奖获得者GreggL.Semenza的“ImageMisuse”在投稿阶段筛选每篇论文,成本太高。例如,使用Proofig分析120个子图像需要99美元。为了彻底检查一篇论文,Proofig需要处理一篇论文中所有可能的组合,这可以说是一个“巨量”。目前,AACR和Taylor&Francis等组织正在协商以更便宜的价格创建适合其业务的套餐。SAGE主任HelenKing表示:“由于人工监督和使用软件的成本,我们目前仅在论文进入更高级的审查阶段时才使用Proofig。迄今为止,已在近三分之一的论文中检测到它.问题被标记出来,然后,需要相关专业知识来解释它们。AI无法检测不同论文中的重复图像现在,越来越多的组织正在使用AI软件。美国临床研究协会也采用了Proofig,而Frontiers等出版商也开发了自己的工具。Wiley也在使用某种软件,而PLOS、Elsevier和Nature要么对该项目持开放态度,要么积极测试该项目。虽然AI软件在发现可疑数据方面做得越来越好,但它并没有发现科学家的所有形式的作弊行为。Proofig可以检查图像中的重复项同一篇论文,却抓不到在不同论文中被复制或篡改过的图像。显然,为了应对这种情况,Proofig需要构建一个从已发表论文中抓取的图像缓存数据库,以便进行全面比较。2019诺贝尔获奖者GreggL.Semenza的“ImageMisuse”“我们面临的最大挑战是大数据。”Kolodkin-Gal说。“如果出版商不联手建立图像数据库,我年龄抄袭仍将是一个大问题。发展人工智能,必须要有大数据。”虽然还有各种瑕疵,但Proofig软件的出现,仍然是打击作弊和提升学术诚信的一个良好开端。开始使用软件,因为它为出版过程提供了一些质量控制,起到了威慑作用。这种类型的软件让作者知道:我们将审查您的论文是否存在这些类型的重复。在我看来,它不会阻止假冒,但会让它变得更难一些。比克说。如果人工智能真的能够对学术造假产生足够的威慑力,那将是一件好事。