年度指数报告发现人工智能正在“工业化”,但需要更好的指标和测试越来越少,国会比以往任何时候都更多地谈论人工智能。这是斯坦福大学上周发布的年度报告《2021年人工智能指数报告》中强调的三个趋势。该报告旨在记录人工智能的进步以及该技术对教育、初创企业和政府政策的影响。该报告详细介绍了人工智能主要子领域的性能进展,例如深度学习、图像识别和目标检测,以及蛋白质折叠等领域。《人工智能指数报告》由斯坦福大学以人为本的人工智能研究所和一个由11名成员组成的指导委员会编制,贡献者来自哈佛大学、经合组织、AI伙伴关系和SRI国际。该报告利用了一系列来源的数据集,例如arXiv的AI研究数据、Crunchbase的资助数据,以及对BlackinAI和QueerinAI等群体的调查。研究算法影响评估的OECD小组负责人、OpenAI前政策主管JackClark表示,报告中还指出的一个主要趋势是人工智能的产业化。“我认为对我来说,故事是人工智能正在工业化,我们不太知道如何对其进行全面评估,因为我们有点缺乏你所期望的大量数据。我认为这是因为人工智能是从“不工作”到“为商业部署做好准备”比你想象的要快。这意味着......每个人都在竞相,包括研究界,以跟上商业部署的步伐,“他说。报告的其他重要启示:根据领英提供的数据,巴西、印度、加拿大、新加坡和南非在2016年至2020年的AI招聘水平最高。2020年,全球投资总额,如私人投资和并购,增加了40%。但连续第三年,人工智能初创公司的资金流向了更少的初创公司。在北美,2019年约有三分之二的人工智能博士毕业生进入工业界,高于2010年的44%。大多数人工智能博士毕业生来自美国以外,五分之四的毕业生毕业后留在美国.对500,000篇博客和60,000篇英文新闻文章的新闻分析发现,AI伦理故事是2020年最流行的AI相关故事之一,包括谷歌解雇TimnitGebru以及欧盟委员会、联合国和梵蒂冈发起的伦理新闻.报告倡议等主题。到2020年,主要AI研究会议的出席人数翻了一番,因为大多数团体选择了虚拟会议。根据2020年计算研究协会的调查,女性占AI博士毕业生的18%。中国在论文总数上超过美国,但美国在AI研究会议上的引用率上延续了20年的领先优势。根据GitHubStar总数,TensorFlow是最受欢迎的AI软件库,其次是Keras和PyTorch。arXiv上与AI相关的论文已从2015年的约5,500篇增长到2020年的近35,000篇。QueerinAI2020成员调查发现,大约一半的受访者经历过骚扰或歧视,并遇到了包容性问题。学术研究人员在全球发表的论文总数中居首位。但在美国,商业研究排名第二,而政府研究在欧洲和中国排名第二。从2004年到2019年,卡内基梅隆大学(16)、佐治亚理工学院(14)和华盛顿大学(12)流失的教职员工最多。报告中专门讨论技术挑战进展的部分重点介绍了计算机视觉系统和语言模型的进展,以及用于药物发现或高效化学和分子合成等任务的人工智能。AIIndex报告显示了可用于监视的AI系统的进展,例如物体检测系统YOLO。VoxCeleb也取得了相当大的进步,它衡量了从6,000人的数据集中识别声音的能力。AIIndex图表显示,2017年等错误率在8%左右,到2020年下降到1%以下。“这个指标告诉我们,AI系统的等错误率已经从8%下降到0.5%左右,这告诉你这种能力将在全球范围内悄悄部署,”克拉克说。一个技术进步专家小组将AlphaFold预测蛋白质折叠方式的能力和GPT-3列为2020年最受关注的两个AI系统。虽然AIIndex承认GPT-3几乎没有学到什么东西,但它引用了前EthicalAI团队联合负责人TimnitGebru等人的一篇论文。作为对大型语言模型及其使偏见永久化的能力的批评。它还指出了OpenAI和斯坦福大学上个月发表的一篇论文,认为大型语言模型的社会影响需要在为时已晚之前得到解决。在2019年接受VentureBeat采访时,AIIndex创始人YoavShoham对根据语言模型在有限任务上的表现来判断其价值持怀疑态度。VentureBeat对索引中提到的两份研究报告都有广泛的报道。VentureBeat涵盖的其他引用报告包括麦肯锡的《人工智能现状》报告,该报告发现企业领导者在解决与部署人工智能相关的风险方面进展甚微。另一份报告警告称,深度学习时代人工智能的去民主化可能会加剧不平等现象。AIIndex报告包括呼吁在计算机视觉、伦理学和NLP领域进行更多的基准测试和测试。正如GLUE和SuperGLUE等基准测试所证明的那样,Clark说,“由于我们构建它们的速度,我们正在用完测试。”创建新的基准和测试也是一个机会,可以制定反映人们价值观的指标,并衡量在应对重大挑战(例如森林砍伐)方面取得的进展。“我认为在一个空间中获得整体问责制的方法之一是进行与你所反对的相同的测试,或者相同的测试集。在我们拥有之前,讨论这些系统偏见和其他伦理问题非常模糊,我认为这只会阻碍我们作为一个社区,同时也让那些想假装这些问题不存在的人更容易继续假装它们不存在或不提出它们,“他说.前几年,AIIndex扩展到包括用于搜索预印本论文的arXiv监视器等工具。AIIndex的GlobalVitality工具提供了国家AI计划之间的比较,现在可用于26个国家/地区的23个类别。今年,该报告删除了与自动驾驶汽车进展相关的数据,克拉克表示,由于缺乏数据,报告没有包括全自动武器的信息。
