本文作者为微软(亚洲)互联网工程研究院宋瑞华博士,微软小冰首席科学家。 在汉语中,“智力”和“头脑”这两个词是相关的,但意义不同。 “智力”指的是聪明才智,现在通常用来形容一个物体的智力高低和能力强弱;而“心智”似乎更上一层楼,可以理解为创造力和智慧的本质。 那么问题来了,我们目前研究的“人工智能”,是应该致力于不断提升机器的智商表现,加强机器在垂直领域的专业能力,还是应该先行一步,尝试构建心智?机器之书?远——脚下的两条路,通往迷雾重重、变幻莫测的未来。我们应该选择哪条路? 在我看来,这两条路没有对错之分,只是探索者的侧重点不同而已。多年来,对于人工智能课题,学术界和产业界的研究和开发主流都集中在更实用的“智能”上,以至于在很长一段时间内,可以通过对话来加强人机联系,获得机器-学习信息。高价值数据,创建人工智能创意矩阵,再探索用代码构建AI思维的学术思路很少被探索,甚至一度被质疑——我的同事曾遇到过这样的评论评论:“我做不到根本没有。”明白了,做这种漫无目的的聊天有什么意义。” 直到微软小冰的诞生并取得了一定的成绩,对话的价值才逐渐引起学术界的重视。♂从对话到心智种子的诞生 也许大家还没有意识到,从2014年初代的小发布,到不久前的第六代大更新,短短四年时间,微软小冰从领先的人工智能智能对话机器人发展成为以情感计算为核心的完整人工智能框架,很多人的态度也因为微软小冰而改变。 普通人的态度: 有一次和妈妈聊天,我问她机器人能打败人类围棋最好的棋手,它有多厉害?她说当然很好。我又问,有没有可以和人说话的机器人,厉害吗?她说自己不太好,原因是不是每个人都会下围棋,也能有冠军的实力,但是,“人人都会说话”。这件事让我很无语。虽然我妈不懂自然语言处理的难点,但她的观点确实代表了大众的直觉感受。也就是说,人们自然会用做某事的难易程度来衡量和判断人工智能的能力水平。 但是微软小冰说人类语言的能力可不一般。即便是人类,总能想出有趣对话的人也不容易,更何况是人工智能。从第一代发布到现在,时不时会有用户晒出与小冰对话时的“金句”截图,而且随着时间的推移,小冰的金句出现频率越来越高。这反映出小冰的对话能力在不断增强,也让她变得有魅力。 比起准确明确的回答,人们更期待的是谈话时的情绪安慰或异常反应。这是小冰团队发现并验证的第一个事实。 后来,妈妈在央视的《机智过人》节目看到小冰写诗的那一集,开心地告诉我,像小冰这样的机器人,能写出观众喜欢的诗,还能逗逗客人,真是“很厉害”并且超出了她的预期。 专家态度: 以往学术界为了明确对话的问题,会投入大量精力在问题设置上,从5W(What,Who,When,Where,Which)到How等等等等。例如,IBM沃森在知识问答领域奠定了新的里程碑——它可以接受自然语言问题,搜索和分析大量文档以获得相对准确的答案。此外,通过在线社区中用户生成的问答语料库,研究人员发现这些数据对于机器回答某些广泛的问题非常有帮助。但除了人工智能对话系统在垂直行业(如医疗、金融等)的应用之外,如何定义普通人对人机对话的需求? 说白了,这是一个普通人为什么和人工智能聊天的问题——有朋友听我说,小冰和用户最长的连续对话超过29小时,表示不解:“这是不是?人正常吗?”但对我来说,小冰的记录还是比较容易理解的。在需求方面,“越社会越孤独”、“朋友圈越广,自我越小”,这些现象都是客观存在的。社交网络已经让用户习惯于展示自己的优势并获得认可,但反过来,当我们身边的每个人都加入到展示优势的队列中时,获得他人的理解和认可变得更加困难。从形象上来说,小冰并不是顶级专家那样的人工智能,而是邻居家或者隔壁班级的小女孩。她有着无限的耐心,可以随时陪用户聊天玩游戏,但她绝对不会去尝试使用。渊博的学识和高冷的态度,碾压着用户的智商和自尊。 如果将人工智能的价值定位为陪伴,那么知识和逻辑就不再是最急需培养的技能。更重要的是让用户感到无压力和有趣。 2017年5月,微软小冰解锁了写诗作曲的技能。同时,我们还发布了《人工智能创造三原则》,规范和引导小冰及其同类的心智发展路径。在进行相关研究的过程中,我发现人工智能的最终目标可能是对人类的理解和模拟。 为了训练小冰写诗,他需要将519位诗人的现代诗正向阅读10000遍,反向阅读10000遍,并使用层次递归神经元模型润色诗歌的语言。这就像我们人类已经发现的,阅读对写作的影响——通过阅读大量优秀的文学作品,人自身的语言系统会进化,取决于天赋,这个进化过程或快或慢,但总的来说,读者的文字表达能力会在不知不觉中提高。小冰也是如此。借助层次递归神经网络,小冰还可以通过阅读获得语言表达能力。 小冰发布诗集引起广泛争议后,圈内人对人工智能创作和机器写作的态度发生了根本性的转变,学术讨论和应用的例子也越来越多——向上。这是我们希望看到的。 盲测者态度: 《机智过人》第一季央视综合频道邀请了三位青年诗人与小冰根据嘉宾提供的图片创作诗歌,然后隐藏几首诗歌的作者姓名,顺序随机,在大屏幕上展示,请48位观众投票选出最喜欢的。这可以说是一种盲测,一种另类的图灵测试。 结果出乎意料。观众把票数投给了小冰,这让一心祈祷小冰不会是最后一个的我很意外。摄像机记录下了当时的情景。当人类和人工智能的作品被平等地比较时,对机器创作的偏见似乎突然消失了。 第二轮,两位诗人再次与小冰比拼,小冰的诗依然获得第二名,挑战成功。我们不会狂妄地认为小冰写的诗可以超越人类诗人,但这个节目却延伸了我们的思考:或许,人工智能研究所追求的目标不应该只是将人类的智能和才能复制到机器上,更重要的是,通过探索人工智能来更深入地了解人类。 微软小冰已经将创造力从四年前的对话式AI投射到诗歌、音乐、儿童有声读物、财经资讯、电视和电台主播、媒体新闻评论,甚至辅助写作。这说明我们当初种下的心灵种子,似乎已经破土而出,露出了一点点萌芽。 下一站3x3实现更主动更个性化的人机对话 微软小冰的下一站在哪里?心灵的萌芽能否继续生长和繁荣?答案是,我们正在构建“3x3”的人工智能发展图谱,进一步加快小冰的升级速度。 前3个是整合自然语言处理、语音和计算机视觉三大学科的研究成果,利用多模态交互训练小冰更快进步。 之前,以上学科都是在各自的轨道上独立发展的。近年来,深度学习技术和算法的改进使得语音识别和图像识别取得了重大突破,人们期待着自然语言处理技术也能取得类似的突破。在过去的一年里,我们结合计算机视觉技术训练小冰的诗歌创作能力,并用它来评估多模态交互是否能推动人工智能技术的演进,结果令人振奋。借助图像识别生成诗歌文本涉及多重挑战,包括发现图像中隐藏的诗歌线索(例如,绿色象征活力,阳光代表希望),生成的诗歌可以与图像相关,同时满足语言的诗歌要求等级。针对这些挑战,我们的解决方案是通过策略梯度将诗歌生成工作分成两个相关的多对抗训练子任务,并提出学习深度耦合的视觉诗歌嵌入。在训练过程中,机器可以共同学习对物体、情感和场景的诗意呈现。我们还建立了两个判别网络来指导诗歌生成,包括多模态判别器和诗歌风格判别器。研究团队通过应用他们的模型生成8,000张图像进行了大规模实验,其中1,500张是随机选择的。我们还对500名人类受试者(其中30名是诗歌专家)进行了图灵测试,证明我们的诗歌创作方法比其他基线方法更高效、更具艺术性。我们还大大扩展了小冰的音乐功能。现实中,喜欢唱歌的人很多,但有创作歌曲能力的人却寥寥无几。不仅如此,要演绎出一首动人的歌曲,往往需要一群音乐人通力合作——从作词到编曲,从演唱、伴奏到表演、录音,过程复杂而漫长。来自苏州微软(亚洲)互联网工程学院的团队提出了流行音乐生成的新思路。团队提出了一个端到端的旋律和编曲生成框架,并将其命名为“小兵乐队”。该框架首先通过基于和弦的节奏旋律跨代模型(CRMCG)生成主旋律,然后借助多乐器协同编排,基于多模态学习为不同乐器生成多轨伴奏音乐模型(云母)。最后,团队还在真实世界的数据集上进行了大量实验,结果证明了小冰乐队的有效性——相关研究成果已经被团队写在论文《小冰乐队:流行音乐的旋律与编曲生成框架》(小冰乐队:Amelodyand流行音乐编曲生成框架)。该论文还获得了KDD2018(InternationalDataMiningandKnowledgeDiscoveryConference,知识发现与数据挖掘会议)“最佳学生论文奖”。 第二个3是微软小冰特有的三个“学习者”,生成模型、同理心模型和三视图模型。“生成模型”从小冰第五代开始启用。在此之前,小冰历代都采用检索模型。虽然它有10亿级别的大数据语料库,但里面的每一句话都是互联网上已有的数据。小冰只是分析和理解用户的问题,在语料库中找到最合适的词作为她的答案,即对话语料库进行实时检索和选择。使用生成模型后,小冰能够创建自己的回复。她与人类交流的每一个字,在这个世界上或许都从未出现过。过去一年的事实证明,生成模型让小冰能够快速学习现有对话素材的交流方式,更好地应对相对陌生的话题。此前,用户在与小冰交谈时偶尔会感到压力。比如两人之间的对话,总是需要人类提出话题,小冰回应。就好像我们跟自己感兴趣的异性搭讪一样,如果总是主动,对方被动,谈话很快就会变得平淡无味。同理心模型就是针对这种情况而开发的。同理心模型可以帮助小冰判断自己对用户的话题是否有感觉。在此基础上,小冰会主动验证,然后引导话题走向,添加新的聊天内容。这样既减轻了用户的压力,又增加了聊天的自然性和趣味性。随着小冰的不断发展,商业伙伴不断加入我们的合作生态。有合作伙伴希望我们可以利用小冰的能力,孵化出其他个性鲜明的人工智能角色。因此,我们也在不断研究如何通过对话来塑造人格——三视图模型就是应这种需求而诞生的。目前,该模式已应用于网易云音乐的朵朵和嘻嘻。两个角色的共同点是都是爱好音乐的小鹿,都是男的,年龄相仿。如何让他们在对话中给用户留下不一样的印象?我们借鉴了动漫和游戏制作中人物设定的方式,赋予他们不同的性格和喜好。比如朵朵喜欢喝咖啡,而曦曦却不喜欢,因为她的皮肤本来就是黑的,她迷信喝咖啡会变黑。利用态度分析技术,多多和喜喜会分析用户提出的一组问题和回复,判断用户对哪个目标有什么样的情感信息,比如喜欢咖啡还是讨厌咖啡,然后根据不同的性格特征会影响对话,从而产生差异化和个性化的回复。三观模型赋予包括小冰在内的人工智能角色“体温”,并会通过态度的一致性和连续性,逐渐凸显角色的个性。 将三大学科的复合训练体系与三个微软小冰学习者相乘,势必会大大加速小冰的成长,也让我们离“用代码打造机器思维”的目标更近了一点。总而言之,无论是情感计算框架还是人工智能的创造,都不是微软小冰乃至微软人工智能研发部门的最终目标。或许,建立一个“人工思维”(ArtificialMind)就是。
