科大讯飞陷AI同传造假疑云：从机器朗读到机器翻译还有多远？

2018世界人工智能大会刚落幕，科大讯飞却陷入了“AI同传造假”的风波。

9月20日，一位同传译员在知乎上发文称，在上海的一场会议中，讯飞的翻译其实为人工同传，并非机器智能翻译，并且译文由机器进行朗读。

这容易让观众产生“都是人工智能翻译”的错觉，而忽略背后同传译员们的劳动成果。对此，9月21日，科大讯飞的回复是，“科大讯飞从来没有把同传翻译包装成机器翻译。”

9月21日，科大讯飞董秘、高级副总裁江涛接受21世纪经济报道记者采访时说道：“尽管机器翻译获得发展，明年能达到英语专业8级的水平，但依然没办法代替同传。科大讯飞没有提到AI同传，并没有造假吹牛，目前的情况是一个误会。”

他进一步解释道，科大讯飞的智能会议系统有两种工作模式，一种是全自动翻译，系统识别中文并转化成英语、日语、韩语等同步显示在屏幕上；另外一种就是在专业的会议上，直接获取现场同传的声音，再同步到大屏幕上。“科大讯飞没有做混淆，而同传的对接是由会议主办方联系的。”

科大讯飞方面还提到，当机器同时提供转写和翻译服务时，文字展示区Logo显示为“讯飞听见—离线翻译系统”；机器仅提供转写服务时，文字展示区Logo显示为“讯飞听见”。讯飞听见是科大讯飞旗下提供语音转写、翻译的平台。

尽管目前语音识别成为AI的先行领域，但是语音翻译依旧是一大难题，现阶段无法精准翻译属正常现象。据21世纪经济报道记者了解，识别同传的译文在业内属于普遍的做法，不少公司以此进行夸大宣传。

人工还是智能？

谈及人工智能时代，机器能否代替人工是关注焦点。在语音领域，科大讯飞表示，希望通过语音转写和翻译技术帮助同传提高工作效率、减少失误，形成人机耦合的同传新模式，并不是去替代同声传译。而科大讯飞董事长刘庆峰在不同场合均表示，人机协同、人工智能+行业，才是未来人工智能最有希望做成的。

在走向人机耦合的操作过程中，智能固然离不开人工，但是，双方在配合工作中发生了“摩擦”。

对于此次同传译者的“投诉”，Ledge同声翻译创始人王民杰告诉21世纪经济报道记者：“除了用机器人的声音把译文读出来不太普遍之外，其他（机器识别同传译文）都很普遍。对于外国人的英文演讲，基本上采取的模式就是由我们人工同传翻译成中文，然后他们再把我们的中文从声音转换成文字显示在大屏幕上。”

“因此，同传界的很多人都觉得是科大讯飞剽窃了我们的劳动成果，让观众误以为是机器在同传，而不是人工同传。”王民杰继续说道，“但是我们在处理问题上也是两难，我们希望科技能够发展，帮助我们进行翻译。但是现在人工智能被过度夸大，我们身份特殊，也担心外界说自己由于害怕失业而进行攻击。”

王民杰的翻译公司和科大讯飞合作密切，此次事件发酵后，他也向科大讯飞提出意见，希望对方在大屏幕上显示他们只是语音识别，声音来自同传。

另一位资深同传译者告诉21世纪经济报道记者：“个人觉得机器代替人工同传还要很长时间，人机结合更实际。”

讯飞翻译产品经理刘晨璇则向21世纪经济报道记者复盘道：“事情发生在9月19-20日举行的2018创新与新兴产业发展国际会议上，我们向主办方提供了两种方案，一种是自动翻译，另一种是对同传语音进行识别，屏幕是转写的同传语音，我们并没有对此进行包装。”

也有人工智能业内人士告诉21世纪经济报道记者，其实大家都用这种方式进行，有“偷换概念”的嫌疑。但是同传译者的知识产权有待商榷，一般其产权属于雇用了同传的公司。

在近年来大众对于人工智能、人工翻译的期望颇高。而反观公司，也有将产品“赶鸭子上架”的情况出现。当然，语音方面有不少成熟的解决方案，然而观众的预期和企业产品效果之间差异过大，也导致此次风波发酵。

语音识别仍存瓶颈？

在2017年，科大讯飞就曾表态：现阶段人工智能技术发展不需要“被神化”。 “目前，机器翻译已经取得非常大的进步，在衣食住行等常用生活用语上的中英翻译可以达到大学六级的水平，能够帮助人们在一些场景处理语言交流的问题，但距离会议同传以及高水平翻译所讲究的‘信、达、雅’还存在很大的差距。”

对于人工耦合，江涛告诉21世纪经济报道记者，科大讯飞的人工智能系统会结合听和看的信息，也会针对关键词进行解释，相当于有一个助手在帮助译者进行翻译，降低了同传口译者的工作强度。而科大讯飞已经和上海外国语大学成立了研究院，探讨人机协同模式。在本周的2018世界人工智能大会上，就有三个嘉宾发言采取了人工耦合的模式。

应该说，科大讯飞在语音领域技术领先，但是仍面临着不少瓶颈。

首先从科大讯飞的产品技术方向来看，主要包括语音交互、机器翻译、文本识别。其中，语音交互是科大讯飞的老本行，包括语音识别、语音合成等。另外，采用日趋成熟的自然语言理解，也为语音交互提供了更强的支撑。

尤其是语音合成方面，科大讯飞在业界比赛中屡次夺冠。其通过机器学习提取声音的特征，通过声学波形合成出仿真声音。该技术的难点之一，就是如何能够骗过耳朵达到真人说话的效果。

但是在技术成熟的同时，仍有难题需要攻克。比如，遇到同音字识别、环境比较嘈杂的情况以及中文和英文夹杂的时候，语音的识别率就会下降。

刘庆峰在2018世界人工智能上表示，科大讯飞是全球唯一在语音合成中机器超过人工的公司，在安静的环境下，演讲主题确定的情况下语音准确率高，但是多人说话噪音环境下的识别率是关键。在他看来，通过大规模后台服务集群，语音识别正在走向实用。同时，用户也对方言、多人说话、安全保护等方面提出了新要求。

一位人工智能从业者告诉21世纪经济报道记者，自然语言处理技术需要得到攻克，这就涉及到机器的知识、情感、逻辑等能力。而这三个人类在幼儿时期就能掌握的机能，对于机器来说是难上加难。语音本身不是最难，但是语言背后需要人类的知识系统以及专业领域的能力，这些数据的掌握并非易事。而人工智能公司目前对翻译的野心很大，短时期内系统性地解决还是较为困难。