脸书又翻车了?昨天,Facebook刚刚宣布其机器翻译取得了里程碑式的进展,可以实现100种语言之间的互译,并且不依赖于英语。中介》,今天reddit网友来提车了。网友表示之前Facebook夸张宣传,这次有点过分了。Facebook的100种语言翻译不是里程碑?Facebook声称最新款可以直接执行机器翻译多达100种语言,例如从中文到法语,并且在训练过程中不需要英语作为中介。在广泛使用的用于评估机器翻译的BLEU指标上,它比以英语为中心的翻译系统高出10个百分点。FacebookAILab的作者并没有提到谷歌早在4年前就做了这件事,谷歌在2016年发布的这项研究成果也是一个端到端的学习框架,可以从数百万的例子中学习并显着提高翻译质量。这翻译系统不仅在测试数据上提升了翻译质量,还支持103种语言互译,翻译超过140个账单每天离子词。虽然还有一些问题,但谷歌确实做到了100种语言。让我们来看看谷歌的系统是如何工作的。Google的算法是零样本学习,假设我们使用日语、英语和韩语示例来实现一个多语言翻译系统,它与单个GNMT系统大小相同,通过共享参数来学习这几种不同语言对之间的翻译。这种共享使系统能够将“翻译经验”从一种语言对转移到另一种语言对。“Facebook声称它不依赖英文数据的说法也不准确。”Facebook论文的图表显示,使用的部分数据集包含英文。说它完全不依赖英文,有点抹杀了英文的作用。到目前为止,谷歌有论文讨论了103种语言的培训,还有一篇不“依赖英语数据”的单独论文。谷歌2019年发布的大规模多语言机器翻译支持103种语言,但源语言或目标语言为英语。从技术准确性的角度来看,确实很难找到同时满足这两个要求的论文:不依赖英文数据和超过100种语言。网友们认为,一个不具误导性的说法应该是,“Facebook创建了一个庞大的NMT数据集,并在其上训练了一个Transformer”。不管Facebook的说法准确与否,它的榜样效果确实比以前更好了。相关的数据集和代码也开源了,有算力的同学可以去验证。那么,人工翻译会被机器翻译取代吗?机器翻译会完全取代人工翻译吗?想太多!随着机器翻译技术的不断进步,这已经成为越来越多的人,尤其是翻译行业人士最关心的问题。这不是“杞人忧天”。无论是Facebook最近开源的M2M-100模型,还是谷歌此前发布的支持103种语言的AI翻译,都显示出机器翻译取代人工翻译的巨大可能性。但从目前机器翻译的发展来看,完全取代人工翻译并不现实。从技术角度看,机器翻译还有很多技术难点亟待攻克,如词序混乱、词义不准确、句法分析孤立等。从实际应用来看,机器翻译在一些口语翻译场景、对专业知识背景要求比较高的场景、大对话的场景中,无法实现准确快速的翻译。此前,媒体爆料多起机器翻译“翻车”事件。比如大型会议的机器同声翻译出现大量看不懂的内容,有些人名无法识别,还有一些日常对话翻译的很离谱……虽然从性能上来说不是那么令人满意,但是机器翻译的迅猛发展无疑将淘汰一批低水平的人工翻译,而那些只能进行“低端”翻译的人工翻译无疑将被机器翻译所取代。但是,真正高水平的译者根本不需要担心这个问题。即使是最先进的机器翻译,也离“可信、表现力、优雅”的翻译要求还相去甚远。相反,机器翻译可以将高水平的翻译人员从一些机械枯燥的简单翻译工作中解放出来,让机器翻译成为一种工具,腾出精力从事更具创造性的工作。事实上,未来的翻译人员可能更接近于编辑和质量控制专家,更多的是修改和打磨机器翻译的初稿,创作文献。总而言之,机器翻译完全替代人工翻译目前是一件不现实的事情。AI公司喜欢夸大宣传,人工智能是基于“ifelse”?Facebook,这种似乎可以取代人工翻译的模式,引起了很多讨论。甚至有网友认为,机器学习领域总是被舆论误导。一些大公司的研究或言论更容易被人听到,甚至在论文接受度上享有一定的优势。虽然现在顶会的论文审稿大多是双盲的,但是审稿人很容易判断作者的背景。比如论文中的模型,用了上千个TPU,这无疑是大厂的。像谷歌和Facebook这样的大型科技公司确实占据了很多有利位置。一些人工智能公司喜欢用这些论文来夸大人工智能在实践中的作用。新闻稿有时是由非研究人员根据有限的描述或论文摘要撰写的,可能没有任何事实核查,从而导致某些偏见。此前,一条关于优步的推文引起了广泛关注,援引一份新闻稿称:“优步将利用人工智能识别醉酒乘客,利用当前时间、汽车所在位置和用户的犹豫时间等参数进行判断。”下面的句子是这样写的:“那不是人工智能。这只是一个if语句。”还给出了实现这个智能识别系统的代码,一共需要两行代码:其实可能没那么简单。Uber可能会使用机器学习并根据过去的数据微调模型的权重,并使用错误的判断来更新预测模型,但某些AI应用程序不如论文。那么,您是否编写过基于ifelse的AI应用程序?
