自然语言理解(NLP)被誉为人工智能皇冠上的明珠。计算机理解语言的能力。但这个“理解”还是需要引用的。从目前NLP模型的效果来看,虽然该模型可以在一些领域为人类提供帮助,比如写作、文本分类等,但要达到人类水平的语言智能还有很长的路要走。远距离。今年5月至6月,来自华盛顿大学、纽约大学和约翰霍普金斯大学的11名研究人员在NLP研究界发起了问卷调查,就NLP领域存在争议的问题广泛征求意见,包括该领域的影响、行业规模、对通用人工智能(AGI)风险的担忧、语言模型是否理解语言、未来的研究方向和伦理问题。调查主页:https://nlpsurvey.net/报告地址:https://nlpsurvey.net/nlp-metasurvey-results.pdf问题形式为:语言模型能否理解语言?将来可以做到吗?传统的模型基准范式是否仍然可用?什么样的预测模型适合研究人员构建和发布?下一个最具影响力的进步会来自工业界还是学术界?从调查结果来看,受访者在这些问题上几乎平分秋色。除了回答问题,研究人员还要求受访者预测问题答案的分布,以发现社区预测与现实不符的错误社会学信念(falsesociologicalbeliefs)。实验结果也符合预期:NLP从业者的领域思想和整个领域的现状之间产生了巨大的鸿沟。从其他结果中也可以看出,社区大大高估了基准的有用性和NLP模型解决现实世界问题的能力,而低估了语言结构、归纳偏差和跨学科科学的重要性。共有480人完成了问卷调查,其中327人(68%)在2019-2022年间共同撰写了至少2篇ACL出版物,属于调查的目标人群。根据ACLAnthology提供的数据,有6323人符合条件,这意味着大约5%的高级NLP从业者参与了调查。地理位置方面,58%来自美国(超过ACL统计值的35%),23%来自欧洲,8%来自亚洲(远低于ACL统计值的26%).其中,来自中国的NLP研究人员占比3%(ACL统计值为9%)。字段状态这部分包括六个问题,用户需要回答“同意”、“有点同意”、“不太同意”和“不同意”。1、民营企业影响力太大?77%的受访者同意。2.业界会产生被引用最多的研究成果?86%的受访者认为,未来十年被广泛引用的论文更有可能来自工业界而非学术界。但是,很多受访者认为,作品的引用次数并不能很好地代表其价值或重要性,行业继续主导该行业将产生负面影响,例如在GPT-等基础系统中3以及PaLM的绝对领导地位。而在学术界的受访者中,约有82%的人认为产业界的影响力太大,而只有58%的产业界受访者表示认同。3、NLP十年内会进入寒冬吗?只有30%的受访者认为,届时NLP的研发投入和就业机会将比高峰期减少至少50%。虽然30%不是一个很大的数字,但也反映出这部分NLP研究者认为该领域在不久的将来会发生较大的变化,至少投入资金较少。悲观的原因可能有很多,例如由于行业影响力太大导致创新停滞,行业将以少数资源充足的实验室垄断行业,NLP与其他AI子领域之间的界限将消失,ETC。。4、NLP会在30年内进入寒冬吗?62%的受访者认为,从长远来看,NLP领域可能会“发热”甚至变冷。5.NLP领域发表的大部分相关工作在科学价值上都存疑?67%的受访者同意。6.作者匿名审稿重要吗?63%的受访者同意。审查期间作者匿名的价值足以证明对审查中研究的传播进行限制是合理的。缩放比例、归纳偏差和相关领域本节包含四个问题。1.规模化能解决几乎所有的关键问题?只有17%的受访者同意,考虑到21世纪可用的所有计算和数据资源,使用现有技术大规模实施将足以实际解决任何重要的现实世界问题或NLP应用。2.是否有必要引入语言结构?50%的受访者同意,以语言学理论为基础的语言结构的离散一般表示(例如,涉及词义、句法或语义图)对于实际解决NLP中一些重要的现实世界问题或应用是必要的。3.专家的归纳偏差是否必要?51%的受访者同意,专家设计的强归纳偏差(例如通用语法、符号系统或受认知启发的计算原语)对于实际解决NLP中一些重要的现实世界问题或应用是必要的。4.Ling/CogSci会为引用最多的模型做出贡献吗?61%的受访者同意,2030年被引用最多的五个系统中至少有一个可能会从过去50年语言学或认知科学研究的具体、重要结果中汲取明确的灵感。AGI和主要风险1.AGI是一个重要的问题吗?58%的受访者同意,理解通用人工智能(AGI)的潜在发展以及与之相关的收益/风险应该是NLP研究人员的一个重要优先事项。2.最近的进展正在推动我们走向AGI?57%的受访者同意,大规模ML建模(例如语言建模和强化学习)的最新发展是迈向AGI的重要步骤。3、人工智能可能很快引发革命性的社会变革?73%的受访者同意,AI/ML的进步所带来的劳动自动化很可能会导致本世纪的经济结构调整和社会变革,至少在工业革命的规模上是这样。4、人工智能的决策是否会导致核弹级别的灾难?36%的受访者认为,人工智能或机器学习系统做出的决定可能会导致灾难,至少与本世纪的全面核战争一样严重。语言理解1.语言模型能理解语言吗?51%的受访者同意。一些仅在文本上训练的生成模型,在给定足够的数据和计算资源的情况下,可以在某种意义上理解自然语言2.多模态模型可以理解语言吗?67%的受访者同意。对于多模态生成模型,例如经过训练以访问图像、传感器和执行器数据等的模型,只要有足够的数据和计算资源,就可以理解自然语言。3.纯文本评价能否衡量模型的语言理解能力?36%的受访者同意。原则上,我们可以通过跟踪模型在纯文本分类或语言生成基准上的表现来评估模型对自然语言的理解程度。NLP未来的研究方向1.从业者过于关注语言模型的尺度?72%的受访者同意。目前,该领域过于关注扩展机器学习模型。2.过于关注基准数据集?88%的受访者同意当前的NLP模型过于关注优化基准性能。3、“模型架构”是不是走错了方向?37%的受访者同意。过去5年发表的大部分关于模型架构的研究都在错误的轨道上。4、“语言生成”是不是走错了方向?41%的受访者认为,过去5年发表的关于开放式语言生成任务的大部分研究都在错误的轨道上。5.“可解释模型研究”是否走错了方向?50%的受访者同意,过去5年发表的关于构建可解释模型的大部分研究都走错了路。6.“黑盒可解释性”是否走错了方向?42%的受访者认为,过去5年发表的关于解释黑盒模型的大部分研究都在错误的轨道上。7.我们应该做更多的工作来整合跨学科的见解吗?82%的受访者同意NLP研究人员应该优先考虑结合相关领域科学(例如社会语言学、认知科学、人机交互)的见解和方法,而不是当前的事态。AIEthics1.NLP的影响在过去是积极的吗?89%的受访者同意,总体而言,NLP研究对世界产生了积极影响。2.NLP未来的影响会是积极的吗?87%的受访者同意,总体而言,NLP研究将在未来对世界产生积极影响。3.构建一个容易被滥用的系统是否不道德?59%的受访者同意。4.伦理和科学会冲突吗?74%的受访者同意,在NLP研究的背景下,伦理考量有时会与科学进步相冲突。5.道德问题主要归因于数据质量和模型准确性?25%的受访者同意,原则上可以通过提高数据质量/覆盖范围和模型准确性来解决当前机器学习系统带来的主要伦理问题。6.预测心理特征是不道德的吗?48%的受访者认为,开发机器学习系统来预测人们的内在心理特征(如情绪、性别认同、性取向)本质上是不道德的。7.碳足迹是一个重要的考虑因素吗?60%的受访者同意,训练大型模型的碳足迹应该是NLP研究人员的主要关注点。8.NLP应该受到监管吗?41%的受访者同意NLP系统的开发和部署应由政府监管。
