据外媒报道,微软将发布免费数据集以帮助机器创造更多的对话。该数据集称为MicrosoftMachineReadingComprehensionDataset(简称MSMARCO),包含100,000个英文查询和相应的答案。用于帮助人工智能系统更好地理解人类语言。微软合作伙伴集团项目经理RanganMajumder周五在博客中提到,微软将免费开放MSMARCO,希望与其他机构合作,更好地提高机器阅读理解能力。数据集中的信息来自Bing搜索和Cortana,并进行了相应的匿名处理。问题的答案基于互联网、人工编写和验证的信息。这些查询和响应将用于构建深度学习模型。目前,该数据集可免费下载用于非商业用途。与其他人工智能数据集开源项目类似,微软也将以同样的方式开源MSMARCO。其中之一是ImageNet,这是一个标记图像的数据库,可用于训练图像识别算法。微软此前使用ImageNet开发图像识别技术,现在正在使用该数据库为微软的计算机视觉API等产品提供支持。如果想了解更多关于MSMARCO的信息,可以下载其研发团队发表的论文。该团队还在应对另一项挑战,使用MARCO数据对训练好的模型进行评估,评估脚本仍在开发中。此次开源倡议也是微软进一步发展人工智能的重要举措。微软一直在构建基于机器学习和人工智能的Azure云平台,也为Office和Windows添加了一些人工智能功能。本周早些时候,微软推出了QnAMaker云服务,让开发者更容易创建问答聊天机器人。
