当前位置: 首页 > 科技观察

微软开源多款工具和数据集让语言模型更和谐

时间:2023-03-18 15:40:35 科技观察

日前,微软宣布开源多款工具和数据集。测试。微软表示,AdaTest和(De)ToxiGen项目可以生成更可靠的大型语言模型(LLM),或类似于OpenAI的GPT-3的模型,用于分析和生成具有人类水平复杂性的文本。当前的LLM存在很多风险。由于这些模型是根据来自互联网(包括社交媒体)的大量数据进行训练的,因此它们在训练过程中可能会遇到有毒文本。由于重新训练模型的成本和存在的大量错误,查找和修复这些模型中的缺陷仍然是一个挑战。为了解决毒性问题,MicrosoftResearch团队开发了ToxiGen,这是一个用于培训内容审核工具的数据集,可用于标记有害语言。据微软称,ToxiGen包含274,000个“中性”和“有毒”陈述的示例,使其成为最大的公开仇恨言论数据集之一。微软研究院AdaTest和(De)ToxiGen项目负责人ToxiGen合作伙伴研究区域经理EceKamar表示:“我们认识到任何内容审核系统都会存在差距,这些模型需要不断改进。(De)ToxiGen的目标是让开发人员能够AI系统更有效地发现任何现有内容审核技术中的风险或问题。我们的实验表明该工具可用于测试许多现有系统,我们期待从社区中了解将从该工具中受益的新环境为生成样本,微软研究院团队提供了一个LLM示例,该示例包含13个少数群体的“中立”陈述和仇恨言论,包括黑人、有身体和认知障碍的人、穆斯林、亚洲人、拉丁裔、LGBTQ+和美洲原住民。这些陈述是从现有数据集以及新闻文章、评论文章、播客录音和其他类似的公共文本源中提取的。微软团队解释说用于创建ToxiGen语句的过程称为(De)ToxiGen,旨在通过指导LLM生成工具可能错误识别哪些语句来揭示特定审计工具的弱点。该团队检查了三个人类编写的毒性数据集,发现从一个工具开始并使用ToxiGen对其进行微调可以“显着”提高该工具的性能。微软团队认为,用于创建ToxiGen的策略可以扩展到其他领域,从而产生更多“微妙”和“丰富”的中立和仇恨言论示例。但专家警告说,这不是万灵药。