本文概述了六个具体的风险领域:I.歧视、排斥和中毒,II.信息危害,III。错误信息的危害,IV。恶意使用,V。人机交互危害,以及VI。自动化、访问和环境危害。第一个风险领域讨论了大规模语言模型中的公平性和中毒风险。包括四种不同的风险:LM可能导致不公平的歧视以及代表性的重大伤害,即特定特征与社会身份的有害关联,通过永久化刻板印象和社会偏见。社会规范和类别可以排斥或边缘化圈外的人。LM延续了这样的规范,即名为“Max”的人是“男性”,或者“家庭”总是由父亲、母亲和孩子组成——一种可能否认不同身份的狭义类别使用。有毒语言会煽动仇恨或暴力,或引起冒犯。最后,对某些社会群体表现比其他群体更差的LM会对弱势群体造成伤害,例如支持影响这些群体的技术的模型。大部分风险源于选择包含有害语言并过度代表某些社会身份的训??练语料库。第二个风险领域包括来自私人数据泄露或LM正确推断私人或其他敏感信息的风险。这些风险源于训练语料库中的私有数据和LM的高级推理能力。第三个风险领域包括与LM提供虚假或误导性信息相关的风险,其中包括:创建信息较少的用户和破坏对共享信息的信任。错误信息会在敏感领域造成伤害,例如糟糕的法律或医疗建议。不良或虚假信息还可能导致用户采取他们不会采取其他方式的不道德或非法行为。错误信息的风险部分源于LM用于学习表示语言的过程:底层统计方法不能很好地区分事实正确的信息和事实错误的信息。第四个风险领域涵盖用户或产品开发人员试图使用LM造成伤害所带来的风险。这包括使用LM来提高虚假信息活动的有效性、大规模策划个性化恶作剧或欺诈,或者为病毒或武器系统开发计算机代码。第五个风险领域侧重于直接与人类用户交互的“对话代理”的特定用例所带来的风险。这包括将系统呈现为“类人”所带来的风险,这可能会导致用户高估其功能并以不安全的方式使用它。另一个风险是与此类代理的对话可能会导致操纵或提取用户私人信息的新途径。基于LM的对话代理可能会带来语音助手已经知道的风险,例如通过自我展示来延续刻板印象,例如“助手是女人”。这些风险部分源于此类对话代理背后的LM培训目标和产品设计决策。第六个风险领域包括更广泛地应用于LM和人工智能(AI)系统的风险。培训和运营LM的环境成本很高。基于LM的应用程序可能使某些群体比其他群体受益更多,而LM本身对许多人来说是无法访问的。最后,基于LM的自动化可能会影响某些工作的质量并扰乱创意经济的某些部分。由于LM在经济中的广泛使用以及LM带来的利益和风险的全球分配不均,这些风险尤为明显。我们总共介绍了21种风险,然后讨论了不同风险的来源并指出了潜在的风险缓解方法。妥协的来源可能决定采取适当的缓解措施:例如,泄露私人数据的风险源于该数据存在于训练数据集中这一事实。通过更好地编辑或整理训练数据,可以从源头上减轻这种风险。然而,其他缓解方法也可能适用,并确保整体缓解更有效。例如,训练过程中使用的算法工具(如差分隐私方法)或产品决策(如限制LM的访问和应用场景)都是可以组合的附加缓解方法。风险缓解方法多种多样:从社会或公共政策干预、技术解决方案和研究管理、参与式项目到产品设计决策。最后,我们讨论了组织责任和协作在实施此类缓解措施中的作用。有效衡量和减轻道德和社会风险需要广泛的专业知识和受影响社区的公平参与。这一点很关键:在广泛了解风险概况的情况下实施缓解措施,以确保减轻一种危害的风险不会加剧另一种危害的风险。否则,针对有毒言论的缓解方法可能会无意中导致针对某些社会群体的LM性能下降。我们强调进一步研究的方向,特别是扩展LM中概述的风险评估工具包,并强调需要包容性参与方法。最后,我们展示了阐明风险概况如何成为更广泛的负责任创新框架的第一步的当前工作。原标题:语言模型危害的伦理和社会风险
