60秒的语音,1秒就能转成文字,即使是广普、川普,也能准确地被“翻译”成普通话。

打开文档,点击语音速记,开会时不用键盘敲得噼啪响,也能把会议内容用文字记录下来。

这是办公软件钉钉,展现的智能化能力。

嗯,真香。

而且这些技术,对于常刷AI前沿论文的我,亦似曾相识。

所以当我心生好奇,想要扒一扒应用背后的技术,还真找到了相关文献。

豁,左一个INTERSPEECH,右一手SOTA,还挂上了阿里的技术招牌达摩院,研发人员一水儿的大牛,甚至是达摩院语音实验室负责人鄢志杰亲自参与……

咦?那个让人“瑟瑟发抖”的钉钉本钉,一直印象是个应用型产品,怎么还和技术范儿的达摩院关联了起来?

再一打听,果然。

钉钉自己也大大方方承认,在整合进入阿里云体系后,包括达摩院,阿里云的最新最前沿的技术,都会开始加速落地。

现在,请叫钉钉为——阿里AI等前沿技术的用户界面。

前沿技术的产品化阵地?

就说长语音转文字这么一个小功能。

在钉钉里,最长可以发送5分钟的语音,同样能够秒转文字,并且支持四川话、广东话等多种方言。

中英混杂,也不影响文字转换的准确率。

功能虽常见,细节处却能见真章。而其背后用到的,正是达摩院最新的端到端语音识别技术。

2020年9月的云栖大会上,达摩院公布了语音AI方面的技术突破:

推出E2E-ASR端到端语音识别技术,基于达摩院提出的SAN-M网络结构,及基于SCAMA的流式端到端语音识别框架,在提升计算效率的同时,还将高难度场景中的语音识别错误率降低近三成,刷新已公布的在线ASR(语音识别)方法的SOTA。

更重要的是,该技术能在移动终端上,实现接近云端的语音识别效果。

类似的,还有支持中文、英文、日语、越南语等10种语言转化的AI翻译功能。

不只是针对文字对话、文档,结合OCR技术,对于聊天中的图片文件,钉钉同样可以一键识别文字并翻译。

而疫情期间着实火了一把的钉钉视频会议功能背后,同样有来自阿里云、达摩院的强力输出。

要知道,钉钉在2020年的用户数比2019年翻了一番,突破4亿。

想要平稳支持这个量级的用户的办公协同、远程上课需求,对于视频会议背后的技术人员而言,就意味着前所未有的高并发挑战。还记得疫情期间,各类在线教育、远程办公平台你崩我崩不断崩。

不仅需要充足的服务器、云计算资源作为基础支撑,也同样对视频编解码算法、视频会议架构等提出了更高难度的技术挑战。

比如传统的视频会议架构采用集中式架构,在大规模部署和弹性伸缩等方面存在天然的劣势。

但因为钉钉背靠阿里云的云计算和边缘计算能力,采用分布式微服务架构,可以进行超大规模系统计算资源编排和网络资源编排。并且能根据系统负载情况进行动态扩缩容,最后可以做到系统资源的最大化共享使用。

除此之外,由于5G普及、用户终端网络能力变强等因素,视频流量的持续增大,也对分发网络的时延提出了更高的要求,音视频的流量需要被更智能地分发、处理。

可以说,音视频对于技术人员的考验是全方位的。

而钉钉音视频如今已然连通了阿里云的基础技术实力,能充分结合达摩院所提供的视频编解码算法、语音3A处理、网络QoS、AI转写、机器翻译、AI降噪等技术,全面提升用户的视频会议体验。

类似达摩院语音实验室的智能降噪,在0db SNR下,MOS(Mean Opinion Score)依然可以达到3.5分,回声消除ERLE(回声回波损耗增强)可以达到52.2db,处于业界领先水平。

在当初钉钉整合进入阿里云体系时,张建锋就放话说,钉钉只会更强。

如今,诚不我欺。

钉钉如何更强?

最近钉钉的重要版本升级,就是直观展现。

这回,连定位都不一样了:直接从协同办公平台,升级成了企业协同办公和应用开发平台。

主要的变化,有以下几点:

推出钉钉宜搭等低代码开发工具,让非程序员用户也能快速开发新应用。

推出应用连接器,可以连接起钉钉、钉钉生态应用、用户自建的应用、原有IT系统等等,打破信息孤岛;

同时,通过1300+ API接口,将底层产品能力开放给客户,作为应用开发平台,为企业数字化转型降本增效。

……

不妨结合具体的案例,来看这到底是怎样一种能力。

蒙牛集团在2020年初疫情期间,面临着线下招投标暂停的问题。如何快速把招投标这件事挪到线上,尽快恢复正常工作?

蒙牛在早已将组织架构通过钉钉搬上云端的基础上,决定采用宜搭搭建招标平台,结合钉钉的群、视频会议等功能,线上完成供应商的招投标和审计工作。

据蒙牛集团IT总监郑炯介绍:

原本采购一套审计系统需要花100万元,现在用宜搭几乎0成本开发出来。

目前公司搭建宜搭应用100多项,替代大批采购IT系统,有效降低了企业的运营成本。

所以可以理解为,如今的钉钉:

中后台技术更强,达摩院等前沿技术的使用,让前端应用更有支撑和保障了。

中后台技术还进一步降低了前台技术开发门槛,开发者因地制宜开发适配的程序,变得更简单,于是钉钉能做的,更多了。

就说新上线的低代码开发产品宜搭,搭建出来的应用还是云原生的。

怎么说?由于宜搭自身天然构建在阿里云上,用它搭出来的应用具备分布式计算、弹性扩容、异地容灾、CDN加速、企业级云安全等阿里云原生能力。

而且,宜搭对阿里巴巴、阿里云的各类前沿技术和基础技术进行了组件化,每个用户能直接调用阿里的OCR、数据引擎、DataV等技术与产品。

以前的钉钉,只是一支单兵提供武器,现在却正在发动起广大开发者和人民群众。

钉钉凭啥“焕然一新”?

秘诀就可以套用群众路线:依靠群众、发动群众,从群众中来,到群众中去。

但在实践这条路线之前,钉钉有前置性的准备。

而这也就是阿里的“云钉一体”战略。

阿里云智能总裁张建锋说,在云智能体系中,钉钉上联行业应用,下联基础设施。

上联行业应用,前文说到的低代码工具、连接器等正在体现,让行业应用的创建开发、连接、数据互通更简单。

那下联基础设施如何体现?分析下来就是调用阿里云的底层各项计算、网络、存储服务、产业解决方案能力,以及将阿里云的在云、AI、大数据领域的前沿技术和算法等,在钉钉上进行产品化,把各种各样普通用户听起来遥不可及的前沿技术,在钉钉变成现实,变成用户触摸得到的产品、工具。

所以钉钉之所以焕然一新,在于云钉一体战略的初步成功,钉钉真的在成为阿里技术的集大成阵地。

其次,集阿里技术大成毕竟有限,所以阿里在实践“群众路线”中,把开发门槛降得更低,让更多场景性应用可以开花结果。

这也是为什么,低代码这件事,在钉钉此次升级中显得如此瞩目的原因。

如果连点成线来看,也就能理解为何当初一定要把钉钉调整并入阿里云体系之中了。

一方面,协同作战,统一领导,可以集中开发精锐和前沿技术炮火。

另一方面,阿里云也有了合适的面向终端客户和用户的业务应用窗口,各种前沿技术有了更直接的使用阵地。

也正因为此,钉钉现在可以说拥有强悍技术实力在后台支持。

当然,再来看云钉一体化战略的掌舵者——张建锋之前的判断,还会感慨阿里的战略格局和远见。

站在历史的角度来看钉钉未来,张建锋认为,全球软件发展的历史分为三个阶段:

第一阶段IT基础设施是大型机或小型机,企业购买大型软件系统来解决所有问题,但实施成本高、运维代价大、再次开发难。

第二波浪潮是SaaS软件兴起,比如Salesforce的CRM系统。这个阶段IT基础设施统一了,但软件是由不同的供应商提供,软件和软件之间还是形成了数据孤岛。

第三阶段是云钉一体进化的目标。主要的特点,就是基于云的能力,让企业开发应用从过去集成式或SaaS化的软件开发,进化到低代码开发,让企业、组织可以更低成本地跟上数字化转型的大势。

张建锋还说,未来十年有诸多不确定性,但也有明确的——最大的确定性——数字化技术的普及,整个社会经济和生活的全面数字化趋势。

所以不要担心钉钉“支配”你的学习和工作啦。

因为它将变革的,是与你数字化和智能化相关的一切。