微软将开源数据集以提高机器阅读理解

时间：2023-03-20 18:35:55 科技观察

据外媒报道，微软将发布免费数据集以帮助机器创造更多的对话。该数据集称为MicrosoftMachineReadingComprehensionDataset（简称MSMARCO），包含100,000个英文查询和相应的答案。用于帮助人工智能系统更好地理解人类语言。微软合作伙伴集团项目经理RanganMajumder周五在博客中提到，微软将免费开放MSMARCO，希望与其他机构合作，更好地提高机器阅读理解能力。数据集中的信息来自Bing搜索和Cortana，并进行了相应的匿名处理。问题的答案基于互联网、人工编写和验证的信息。这些查询和响应将用于构建深度学习模型。目前，该数据集可免费下载用于非商业用途。与其他人工智能数据集开源项目类似，微软也将以同样的方式开源MSMARCO。其中之一是ImageNet，这是一个标记图像的数据库，可用于训练图像识别算法。微软此前使用ImageNet开发图像识别技术，现在正在使用该数据库为微软的计算机视觉API等产品提供支持。如果想了解更多关于MSMARCO的信息，可以下载其研发团队发表的论文。该团队还在应对另一项挑战，使用MARCO数据对训练好的模型进行评估，评估脚本仍在开发中。此次开源倡议也是微软进一步发展人工智能的重要举措。微软一直在构建基于机器学习和人工智能的Azure云平台，也为Office和Windows添加了一些人工智能功能。本周早些时候，微软推出了QnAMaker云服务，让开发者更容易创建问答聊天机器人。

上一篇：虚拟货币安全吗？

下一篇：软通动力进军智能客服，用专注和专业生活和生活

微软将开源数据集以提高机器阅读理解相关文章