阿里达摩院又一年：谈AI的一千种可能 -- 七猫资讯

马克思曾经一句名言“科技是第一生产力”，放到互联网时代依然颠扑不破，很多互联网公司也深谙这一点，对于“科技创新”的追求从未停止过。

以阿里巴巴举例。考虑到阿里的未来科技力量储备，马云在2017年建成「达摩院」，成立之初，他对达摩院提出三个要求，“活得要比阿里巴巴长”、“服务至少20亿人”、“必须用科技解决未来的问题”，官方声称这是“一家致力于探索科技未知，以人类愿景为驱动力的研究院”。

然而两年过去了，达摩院究竟在做什么？7月10日下午，阿里巴巴在北京举办了一场媒体沟通会，这场会的主角，是阿里巴巴达摩院机器智能技术实验室，几位阿里发言人讲了讲达摩院目前在AI领域的业务布局、人才储备、以及技术演进结果。

不一样的达摩院

成立达摩院时，马云表示三年内将投入逾1000亿元，并将在初期招揽100名顶级科学家和研究人员。但他同时也提出要求，即达摩院要学会自营自利，未来要自己挣钱。

这也使得达摩院一开始就与其他的研究院有了很大不同。

达摩院机器智能技术事业部首席架构师王骏以达摩院机器智能技术实验室为例介绍道，整个部门的运作方式，是“研”“发”并重，既有research（研究），也有develop（开发），任务是希望开发出先进的AI技术和产品，达到理想中的物理实验真正有价值的地方，不仅是商业价值，还有社会价值。

正因为学术思维和商业思维并重，该部门自然而然形成了一种自上而下的中心化研究管理体系，既确定了大的研究方向，同时保持研究自由度，任何研究小组都可以去做他感兴趣的方向，并兼顾短期、中期、长期的规划，最终的价值也都体现在创新技术产品上。

因此，回顾这两年，达摩院既有一些理论性的研究，也有一些实践性的应用。比如，仅阿里AI团队，便在国际顶级学术会议上共发表了近400篇顶级论文，同时也在国际顶级技术赛事上斩获40余项世界第一，有20多个行业应用落地，涉及交通、医疗、零售等等领域。

再比如，刚刚过去的6月份，在被誉为人工智能世界杯的WebVision竞赛中，阿里AI击败了全世界150多支参赛队伍，获得冠军。这是一个超大规模图像识别的比赛，它要实现的是给机器一张图，让它去搜索其他关联图，这与众所周知的“谷歌花大量时间让机器识别一只猫”是一样的道理，只不过这个比赛难度更大，它不允许人工标注，这就意味着要让机器自己具备归纳海量图片的能力。据王骏介绍，其实阿里很早就开始研究这一技术，拍立淘便是该技术的前身，目前阿里AI可以识别超过100万种物理实体，“我们希望有一天，计算机可以自动识别每一个物体。”王骏说。

还有，2018年1月，在斯坦福大学发起的机器阅读理解领域顶级赛事SQuAD上，阿里AI在开放域问答任务上达到人类水平。这是一个什么概念？我们所理解的AI问答，是基于数据库进行回答，但实际上很多问题涉及两点：有没有问答数据，以及有没有知识统计。比方一个简单问题“中国首都有多少人？”就隐含两个问题：“中国首都是哪？”以及“这个城市有多少人口？”因此，AI在这个回答过程里，先要在数据库里找到一个多文档排序，匹配出与问题相关的文档，再在文档里定位问题，并作出回答。

取得这些成绩，与达摩院雄厚的人才储备不无关系。目前，达摩院旗下的科学家团队包括：美国密歇根州立大学终身教授金榕、密西根大学终身教授施尧耘、新加坡南洋理工大学终身教授王刚等20多位世界级科学家，以及10多名IEEE Fellow。

王骏表示，达摩院是一个全球化的机构，半数以上成员拥有博士以上学位，办公室分布在4个国家的8个主要城市。其打趣说道，“正因为全球化，达摩院要想所有员工一起开个会，时间很难凑，因为各地都有时差。”

达摩院加持的语音AI

据王骏介绍，达摩院机器智能技术实验室本质以人工智能技术为核心，这就好比人类接收外界信号主要来自于三个感官通道，即视觉、语音、语言，与之相对应的，阿里AI的研究领域则是视觉智能、语音智能、语言和知识，以及决策智能。“阿里希望机器未来具有一定的人类思维数据处理能力。”

当天，达摩院首次对外展示了新一代语音合成技术——KAN-TTS（TTS，Text To Speech，即“从文本到语音”）。官方称，KAN-TTS由达摩院机器智能实验室自主研发，融合了目前主流的端到端TTS技术和传统TTS技术，从多个方面改进了语音合成。

达摩院语音实验室高级算法专家雷鸣介绍了语言合成技术的历史演变。1939年，人类第一次可以由键盘控制产生声音，经历过多个发展阶段，直到2017年，TTS技术已经可以提供接近真人表现力的合成语音，但依然有缺陷。

据雷鸣说，当前，业界商用系统的合成语音与原始音频录音的接近程度通常在85%-90%之间，这其实已经是一个很高水平，而基于KAN-TTS技术的合成语音，则可将该数据进一步提高到97%以上。

此外，传统语音合成定制需要10小时以上的数据录制和标注，对录音人和录音环境要求很高。从启动定制到最终交付，项目周期长成本高。

阿里利用Multi-Speaker Model与Speaker-aware Advanced Transfer Learning相结合的方法，将语音合成定制成本降低10倍以上，周期压缩3倍以上。也就是说，用1小时有效录音数据和不到两个月制作周期，就能完成一次标准TTS定制。

普通用户定制“AI声音”的门槛更低。只需手机录音十分钟，就能获得与录制声音高度相似的合成语音。阿里AI做到这一点，主要基于自动数据检查、自动标注方法和对海量用户场景的利用。

达摩院语音实验室对外提供了开箱即用的TTS解决方案，这主要是针对一些产品具有特定场景的需求。比如有些产品就要讲一些儿童教育的故事，有些则是讲富有情感的故事，针对这些，阿里TTS解决方案共有通用、客服、童声、英文和方言5个场景的34种高品质声音供选择。

达摩院语音实验室负责人鄢志杰说，达摩院是一个技术密集型团队，但它并不是只专注于技术的研究，同时也要把这些技术产品化。比如语音技术，阿里有各种各样语音的源头算法，这些不仅仅应用在阿里自己的业务上，同时也能够把这些技术放到云上，分享给合作伙伴。“可以说，阿里有什么，阿里云的客户就能拿到什么。”