文章|林奇5月21日,微软在中国举办首届人工智能大会。
上午的会议主要介绍了微软在中国相关的技术进展、企业合作和产品落地情况。
信息。
下午我们将以分会场的形式介绍视觉和演讲的应用。
视觉指的是图像识别。
在应用层面,主要针对图片中的物体进行分类和检测。
语音是指利用人工智能进行翻译和对话。
从论坛上的发言来看,微软开发的图像识别技术可以让图片中的更多细节被识别;语音识别使我们能够从与机器人的对话中获取更多信息,并且不需要通过语音翻译进行学习。
有了外语,你还可以去各个国家旅行,与外国朋友无障碍交谈。
论坛期间,微软大中华区研究人员详细阐述了图像识别在企业工作环境和员工安全维护、视频网站运营和车损识别中的应用,以及语音识别在人工智能对话和对话中的应用。
语音翻译。
具体应用在两个领域。
1.图像识别,解读图片中的各种视觉细节,微软大中华区创新合作部的技术顾问分享了基于机器学习和深度学习的计算机视觉在行业中的应用经验。
微软的视觉研究并不是近两年才开始的。
早在2000年,他们就开展了图像识别工作。
工作主要开展两个方面:一是图像分类;二是图像分类。
另一个是物体检测。
基于这个层次,我们开始研究如何分割物体和图像。
到目前为止,他们已经开发了六种图像识别应用模式,分别是:计算机视觉API;人脸API;必应视觉搜索;内容主持人;客户视觉服务;视频索引器。
他们详细介绍了其中两种应用模式的实现场景: 在计算机视觉服务模式下,可以用多种语言更详细地描述图片。
通过该服务,可以对大量图片进行标注和分类,并且可以对每张图片进行自动命名。
视频也可以分类。
视频网站还可以利用该技术自动解读视频并生成弹幕作为视频宣传的方式,提升视频的热度,鼓励观众加入评论,增加观众粘性。
在自定义视觉服务模式下,他们改进了物体检测功能,现在能够识别图片中更丰富的物体种类。
在所示的演示中,他们在其网站上进行了演示。
将图片上传到该网站,内置的图像识别程序可以立即识别图片中的物体。
当鼠标移动到对象上时,会出现自动识别和分类的标签。
如果后续上传的图片中存在相同标签的物体,程序会自动进行比对并检测出来。
该应用程序可用于建筑工地或车间。
在这些场景中安装摄像头,并将该程序嵌入到摄像头中。
您可以通过摄像头拍照并启动图像识别来找出哪些员工没有佩戴安全帽。
立即提醒他们佩戴安全帽,确保作业安全。
相比之下,这方面的应用非常广泛。
工作人员根据 90 张车祸后受损汽车的照片,训练了一个程序,可以从图片中自动检测汽车损坏情况。
通过图片识别,自动呈现图片中车辆受损部位的名称和受损程度。
日本的一个停车场也利用该程序来检测停车场内的异常情况,例如部件生锈、电气开关未关闭、保险是否安全等,以便及时进行维修。
及时;通过Vision AI开发者套件,他们还可以将训练好的模型安装在智能家居上进行应用。
2、语音识别让沟通不再无助。
在语音识别方面,应用程序分为Bot Service和语音翻译。
Bot Service中有两种典型的应用软件,一种是Dynamics,另一种是Office。
Dynamic主要应用于业务领域,比如在客服对话中,利用机器学习来训练固定模型对话,让智能客服能够与客户进行对话。
Office 中的应用程序更加个性化。
用户可以通过将此类程序插入微信、Skype等社交平台来与Bot进行对话。
例如,当你在商务微信中运行这个程序,向机器人询问你今天的工作任务时,它会自动分析你商务微信中的所有聊天记录,总结你今天的工作任务并发送给你;当你添加到群聊时,当你设置的语言与群内其他人的语言不同时,Bot会自动将语言翻译成对方的语言模式。
语音翻译有着更广泛的应用场景。
目前已在八个领域开展开发。
它们是:社交网络和游戏;客户服务;实时远程对话;电子商务;业务数据分析;跨国多语言交流;阅读;和同声翻译。
到目前为止,微软的语音翻译可以支持62种语言的语音到书面转换、11种语言的语音到语音翻译以及22种神经网络翻译语言。
虽然与真人人工翻译相比仍有不足,但对于日常工作和生活来说,它确实可以在很多场景下为人们带来便捷的服务。
因此,仍有发展的可能性和必要性。
结论:图像识别和语音识别已经在多个领域得到发展。
微软在图像识别和语音方面取得了长足的进步,可以看出他们正在努力不断开发新的应用领域。
从目前的成果来看,他们打开了许多新的大门,将为企业运营和个人生活工作带来更丰富的经验和高效的运作。