腾讯闹乌龙,讯飞“造假”,人工智能颠覆行业是个伪命题?
文丨 不凡商业记者 张含
纸包不住火。
很显然,在人工智能领域摸爬滚打19年的科大讯飞是熟知这一点的。
在被指 AI 同传造假的时候,科大讯飞的回应显得很镇定:从未说过 AI 同传,没有侵犯知识产权,人机耦合才是未来发展之道。
“否认三连”之后,不管人机耦合的说法是否被大众所接受,科大讯飞至少摘掉了“造假”的帽子,讨论的焦点转向 AI 同传的相关技术。
在本次“造假”风波中,主要涉及到三种技术:语音识别、机器翻译和 AI 同传,第一个是科大讯飞这些年行走江湖的法宝,第二个是百度、谷歌、有道等机器翻译相关公司的战场,最后则是整个业界的终极目标。
但问题是,语音识别 ≠ AI 同传 ≠ AI 语音翻译,脱掉“造假”帽子的科大讯飞再也不能掩去语音识别与 AI 同传之间的鸿沟。
传说中的AI同传
每个少年都有一个武侠梦,练成一身武艺,行走江湖,去追求武学的最高境界。
在翻译界,同传被公认为从事翻译的最高境界。
同传,指的是译员在不打断讲话者演讲的情况下,不停的将演讲内容传达给听众。一般来说,同传译员要在演讲者开始讲话两到三秒钟后开口翻译,在演讲者讲话结束两到三秒钟后结束翻译,翻译的准确率要求在80%以上,超时也会被判定为严重工作失误。
正因为如此,AI 同传一向被认为是人工智能领域最具有挑战性的课题之一,要实现高质量的同传,需要两种技术同时在线:语音识别和机器翻译。
语音识别是科大讯飞最喜欢讲的故事。
1999年,在中科大的人机语音实验室干了8年后,26岁的刘庆峰带着实验室的师兄弟共同成立了科大讯飞的前身——硅谷天音,手里揣着的只有共同筹集的300万元和8年间积攒的语音合成技术。
后来,硅谷天音获得了由美菱集团和安徽省信托投资公司共同投资的3000万人民币,“硅谷天音”更名为“科大讯飞”。
刘庆峰拿着这笔钱开始进行资源整合,与擅长其它语音处理技术的研究机构共同成立联合实验室——各研究机构不需要改变原有研究领域,由科大讯飞负责产业整合,将语音技术实体落地,并以股权的形式共享利益。
从此,语音处理成为科大讯飞的核心技术,语音识别也成为外界认知科大讯飞的标签之一。
语音识别,简单来说就是将声音转换成波形文件,对声音进行分帧,再从每一帧中提取包含内容信息的声学特征。提取特征后将特征组成因素(类似于音标),再结合各种语音数据、语音模型,形成一个有足够多节点的网络。识别语音的时候,只需要找到与声音最匹配的路径就好。
现在,安静环境、发音标准情况下的语音识别已经完全可以实用,效果并不比输入法自动联想差。但嘈杂环境、带口音、不连贯、重复等情况下的语音依旧是个老大难的问题,各研究院在研究,科大讯飞也在探索。
但问题是,语音识别的结果直接决定了机器翻译的准确度。
评价机器翻译内容的好坏,国际上通常会有一些方法,除了人工评测,还有多种自动评测的方法。但不论具体评测方式如何,有一点需要知道:机器翻译的正确率并没有一个绝对值。
不管是谷歌、微软,还是百度、金山,目前国际上通行的做法是以“翻译错误降低率”来衡量自身技术的成熟度,而不是以具体准确率。
避谈具体的准确率,何谈追求信达雅。
“目前,科大讯飞的机器翻译已经达到大学六级水平,2019年将达到英语专业八级水平,可以满足日常交流,但还无法代替同传。”
科大讯飞在回应“造假”的声明中承认,在现阶段还无法实现 AI 同传,机器翻译只能达到简单交流的水平,人机耦合才是未来发展之道。
什么是人机耦合?
“人机耦合”这个词一出,瞬间吸引了不少火力,大众开始关注人机耦合是什么,被指“造假”的那场会议中,究竟是以人机耦合的方式,还是人类译员单独完成了同声传译。
科大讯飞表示,人机耦合指的是机器帮助同传人员提示专业词汇,记录说话人的关键字句,减轻同传的速记负担,当时会议上采用的讯飞听见就是一款人机耦合的产品。
人机耦合的方式有两种。
一种是人和机器共同完成一项任务,比如通过机器转写和同传翻译实现大屏幕的展示,通过语音合成将同传译员的文字合成为多语种声音。
另一种是机器作为助手,辅助人来完成某一项任务,比如帮助同传译员提供转写和翻译结果,作为参考帮助交传译员,减轻笔记压力。
但两种方式都被同传译员拒绝了。
原因很简单,同传是一个需要精神高度集中的过程,译员顾不上机器提供的辅助。
一般来说,译员需要按照听到的原文顺序不断将句子切割成意群和信息单位,一般听到一到两个意群就会开始翻译,在调整逻辑说出话语的同时,耳朵要听下面第三第四个意群。这一过程仅仅发生在几秒钟时间内,机器只会带来干扰,而不是帮助。
北外高翻学院的副院长李长拴、其它高校的口译老师以及多位译员在接受果壳采访时表示,“有文字也不看,甚至是闭着眼翻译”,“带稿翻译经常会降低效率”,“科大讯飞根本不了解译员的工作状态,才会认为机器能辅助译员”。
不过,讯飞听见虽然还达不到 AI 同传的标准,但已经接近 AI 交传的水平。
交传,也就是交互式传译,指的是说话者说完一段话后译员再翻译,准确度较高,好的翻译准确率能达到90%以上。
讯飞听见的实时翻译功能与交传类似。
对着手机说话,说出的内容会实时出现在屏幕下半部分,屏幕上半部分则是实时翻译的内容,先出现的翻译内容还会随着后文内容进行调整。
经简单测试发现,在语音识别内容误差不大的情况下,翻译内容基本准确无误,讯飞听见已经能实现日常交流。
AI 同传的未来
那么,等到语音识别技术进一步精进,机器翻译的正确率维持在一个相对稳定的范围内时,是否就能实现 AI 同传呢?
答案是否定的。
人类语言之美,非机器所能企及。
语言是门艺术,有起伏、有感情、有语境,即便是同一句话,放在不同的语境下表达会有不同的感情色彩,对应的翻译内容也会不一样。要让机器表达出这些情感,最基础的前提是提高 AI 理解语境的能力,但机器翻译并非基于理解,而是基于统计学和数据库。机器翻译要想达到人类译员一般的准确率,还有很长一段路要走。
但如果我们理解的人工智能并不是真正的人工智能呢?
8月23日,百度董事长李彦宏在发表主题演讲时指出,人们对人工智能存在误区,人工智能不是模仿人脑的工作原理,而是要用机器的方式实现人脑能够实现的价值或者作用。
让机器用机器的方式实现人脑能实现的价值,应用在翻译领域里,可能是这样一幅景象:
机器接收到演讲者传递的信息,然后通过机器的方式整合、处理、传达给观众,方式可能是换一种语言去转达,类似于人类翻译的方式,也可能是总结、转述,还有可能是用一些图表、动作、声音来描述它所接收到的信息。
只要传达的意义准确无误、没有产生偏差,机器就算是用机器的方式实现了人脑能实现的价值。
毕竟,没有任何人规定翻译一定是要用一种语言去描述另一种语言。
与同传相比,交传的难度更低,人工智能实现起来也更容易,但讯飞听见近似于 AI 交传的水平至少给了这样一个提示:我们在通往 AI 同传的路上一路狂奔。
AI 同传还未实现,但人工智能颠覆这个时代的征程才刚刚开始。
[注:本文部分图片来自互联网!未经授权,不得转载!每天跟着我们读更多的书]
互推传媒文章转载自第三方或本站原创生产,如需转载,请联系版权方授权,如有内容如侵犯了你的权益,请联系我们进行删除!
如若转载,请注明出处:http://www.hfwlcm.com/info/120179.html