2017年7月21日

云知声梁家恩：智能交互技术与物联网应用

原创
作者：刘晶晶 2017-07-21 11:29:00
人工智能
 语音识别
 新闻 7月21日上午WOTI2017主会场，云知声CTO梁家恩进行了主题为《智能交互技术与物联网应用》的精彩演讲。以下是演讲实录，让我们先睹为快！

【51CTO.com原创稿件】2017年7月21日-22日，由51CTO主办的以人工智能为主题的WOTI2017全球创新技术峰会在北京富力万丽酒店隆重举行。峰会期间，30+AI明星，数十场围绕人工智能主题的精彩演讲与圆桌论坛缓缓揭开面纱。除了场内的精彩演讲，场外还有专门为AI爱好者搭建的动手实验室和科技体验区，这一切都让本次大会亮点十足。

7月21日上午WOTI2017主会场，云知声CTO梁家恩进行了主题为《智能交互技术与物联网应用》的精彩演讲。以下是演讲实录，让我们先睹为快!

[[197624]]

大家上午好!刚才焦老师从学术层面介绍了很多底层技术算法和演进，应该说今年是人工智能第61年，经过了三代人的研究和努力，到今天为止技术已经逐步成熟，特别是在AlphaGo科普教育情况下，全社会都在关注人工智能，我们再次迎来了比较好的时代。云知声从成立到现在经历了五年时间，互联网环境下有很多创新，今天主要分享这部分内容。

这是一个智联网的时代，互联网和人工智能的结合。互联网不能独立成为一个产业，要和产业紧密结合才能发挥很大价值，这个时代我们称为智联网时代，重新定义IOT。过去说IOT是热了好几年的概念，移动互联之后进入万物互联时代，刚好和人工智能结合，未来不断的把万物连接起来，而且变得更加智能，有这样一个愿景。

整个产业发展是两条线结合的，上面这条线是信息产业发展，最早的图灵时代一直到信息时代的到来，再加上前面比较热闹的十年，2010年之后就迎来了万物智能时代，这个时代的特点是下面这条线，也是过去大家不太关注的，1956年开始诞生了人工智能这个概念。前面也经历了两次寒冬，过去大家认为只要有计算机出现，人工智能问题可能是二十年没有解决的问题，但二十年之后人类登上月球再回来人工智能所做的承诺都没有实现，所以第一次浪潮迅速进入寒冬。第二次是在行业初步应用的时候，但应用范围非常窄，所以导致第二次浪潮的衰落。

前面两次都是高校研究所在推动这个事情，第三次浪潮，产业的力量在非常强的推动产业发展，包括技术演进，这次浪潮我们认为是在97年深蓝击败Kasparov，2015年AlphaGo击败李世石，我们从业者认为这个离我们所想象的未来人工智能时代还有相当大的距离。这一轮产业化浪潮应该是从06年复兴深度学习之后，使得我们从研究阶段真正进入产业化时代，变成可以产业化的水平。

云知声是在2012年6月份成立的，上个月刚刚过完五周年的生日。我们的切入点是语音交互，过去的交互变革从最早的独立磁带，点卡开始变成鼠标键盘，然后诞生了微软这样一家伟大的公司，移动互联网到来的时候出现了触控+传感。现在移动时代诞生了IOT，比如阿里、腾讯，移动互联时代产品规模也比过去PC时代大了一个数量级，2010年后大家预估IOT时代，交互会对终端的渗透有非常大的影响。过去都是我们要求人去学习，通过学习把机器用好，到现在为止更多我们是需要机器学习人类，懂得我们人类，用人类自然的方式去交互，所以人机交互的发展是不可逆转的趋势，让用户使用设备的成本变得越来越低。刚才焦教授已经给我们介绍很多了。

人工智能是从知识、规则、模板、符号推理开始的，用机器处理我们的符号，将人类知识赋予机器去解决问题。做了二十年或者三十年后，发现很多实验都没有得到预期结果，后来大家想另外的办法，机器学习方法也不是当前提出来的，前面也有很多科学家研究，聚焦在我们能不能重点解决机器学习的问题，机器很难把我们人的知识装进去，我们能不能通过数据学习的方法让它变得越来越聪明，这是比较好的想法。

基础理论，统计知识在里面包括监督学习、无监督学习，当时得到比较大的发展，主要包括分类问题、回归问题、聚类和降维的问题，希望我们能用一个函数去描述数学的分布也好，物理机制也好，通过数据把参数估计出来，通过这个方法让机器变得越来越强大。很多函数，理论上只要你有足够大的数据，它就可以进行分布。这是比较有前途的研究。

语音识别，上个世纪88年李开复老师读博士时候的论文，当时用统计的方法，语音识别得到大的推进，是非常令人兴奋的方法。但后来又经历了将近二十多年、三十年的发展，当我们把这个机制用到真实生活里面的时候，发现很多复杂数据仍然没有办法解决，复杂场景的应用还是没有办法解决，我们的神经网络就是模拟人脑多层神经元结构来解决问题的。

为什么八十年代打入了冷宫?因为数据量和计算资源都很难支撑深度学习，和传统方法没法比，数据基础是严谨扎实的，但深度学习是黑盒子，不知道怎么做的更好，所以到06年的时候不敢再提神经网络这个词，因为名声已经不好了，和二十多年前神经网络没有多大区别。最大的特点是大数据的学习，特别是大数据得到爆发，在2010年后在工业界大行其道，现在基本上成为人工智能非常大的一块。现在如果谈人工智能，基本上就等同于谈深度学习，我们认为这些方法没有一个方法是包打天下的，后续期待更多方法演进。

人工智能技术体系我认为可以分成几个部分，人工智能研究的是人，如何管理人的智能系统，其实很简单，我们的视觉，我们的听觉以及我们的嘴巴，前面包括感知部分，还有表达部分，其实最重要的部分，核心部分是所谓认知计算部分，认知科学家也没有完全解开人是如何实现认知过程的，人的头脑非常复杂，解剖学也没办法研究他在活动状态的时候怎么工作。

现在从基础架构来讲，有机器学习加上大数据、云计算来推动发展。首先从计算角度来说，机器蹍压人类是不足为奇的，AlphaGo在围棋方面能够蹍压高手，计算能力已经完美蹍压人类，感知领域接近人类水平，甚至超过人类水平，不管是图像还是评测，最大特点是环境适应性方面有待提高，对于表达技术来说有待完善。

语音合成，十年前，甚至更早时间，可以听到语音播报，听起来没有问题，人接收起来没有问题，但你让他讲一个评书一个笑话或者演话剧，难度比较大。认知是人工智能深水区，从我们掌握的方法来说，没有办法产生自主意识，但我们是不是希望产生自主意识呢?不一定，而且把人工智能做好也不一定需要产生自主意识，有人对人工智能有比较深的担忧，主要是自主意识的诞生。

我认为未来我们可以看到的是整个产业应用有非常大规模的渗透，不管是车载、家居、穿戴、手持设备，这是我们普通用户能够感知到的。智能系统更加了解用户后，可以满足人类服务这些需求。现在很多智能制造，希望我们所制造的东西能更好满足用户，而不是挑来挑去没有我想要的，都是我们希望能够实现的零库存，用户系统，他需要什么东西，我们生产出来。不管是医疗、教育、金融、交通、安防领域等，主要是政府主导的智慧城市建设，这些方面我们都认为有很大应用空间。

产业升级的需求是非常大的，从用户到企业到政府来说需求非常大;接下来是整个技术，不管是AI技术突破，不管是大数据包括超级运算能力的普及，都有很大基础，所以我们对这轮人工智能产业化有非常强的信心，我们认为不会是颗粒无收的状态。

下面是我们这些年做的智能语音交互，跟大家做个分享。云知声是专注物联网人工智能服务，语音和图像的应用，包括认知计算能力，包括“三驾马车”也好，三大引擎也好。我们认为核心是认知突破，未来五年要做的，过去五年初见成效。给大家再介绍一下云知声的来源，我们认为智能是在云端实现的，包括未来很多内容服务都是在云端完成。

知的部分我们认为代表的是认知计算，包括语言也好，知识、思维、推理、规划能力都是在知来完成;声是对物联网交互来说是重要的环节，不一定代替所有的交互模式，但是一个交互方式，对人类来说，语言交互是非常自然和主要的交互方式。云知声在过去五年，从成立到物联网产业化落地来说做了非常多的工作，我不会一条条展开。

对人工智能技术来说，它的技术背景非常深，过去有非常强的技术积累能够在产业里边有所作为，这个行业有六十年积累，而且基因技术有非常深的数学背景才能做起来。我们经历了在云端的服务，把深度学习用到里面去，深度学习服务移动互联网。当语音和一个硬件设备非常紧密结合之后有非常好的体验，用户活跃度非常高，和它做交互，所以我们在2014年就开始布局“云端芯”战略，物联网未来一定是非常大的用户场景。不需要手和眼睛就能交互，大家特别依赖触控，现在满大街低头玩手机的，也发生很多事故，所以唤醒技术必不可少，物联网的接入做了很多工作。

我们也全面升级了这块技术，不管是语音识别、语义理解、语音合成都在落地，包括车载市场我们也做的非常好。2016年之后越来越多数据积累，比如超算平台，这些都在支撑我们往这个方向走的。2017年我们更多是推动终端交互方式，后面会展开。

经过五年发展，我们已经建立技术闭环，做交互有很多技术在里面，回声降噪问题还有唤醒问题，如何把功耗降低下来，未来物联网不可能带着很大电池和插电来做，所以功耗问题是我们要解决的，语音识别，声纹识别，这都是我们需要完成的工作。语音合成，用户要得到很好的反馈，如果想10%、20%，甚至30%的进步，需要很强大的AI架构，包括计算资源和数据、机器学习方法。这里有几个关键的问题。

首先是远讲和降噪，大家听的最多的是发现icall(谐音)、八个麦克风，去年Google是两个麦克风方案，我们主打的是两个麦克风方案，因为人只需要两个耳朵就能解决交互问题，辨别方向，同时我们重点听某一个人的交互。两个麦克风和多个麦克风，大多数人认为麦克风越多越强大，但其实麦克风越多算法相对比较成熟，但我们要保证麦克风的一致性，同时需要强大的技术支撑能力。但单纯从信号角度来讲，降噪能力非常差，比较大的优势在于两个麦克风安装非常方便，不管你的设备是什么形状，把两个麦克风装上去是比较简单的事情，但如果装八个麦克风或者六个麦克风就比较复杂。

低功耗唤醒更多是嵌入式系统优化，我们最早是在X86上做优化，在2015年我们做了专用芯片上的加速，2017年我们做的是UniOne方案，通过芯片把这些降噪和识别功能加进去，才能做比较好的功耗和内容匹配。下面是垂直方面的应用优化，因为语音识别技术现在发展非常快，不同行业有很多优化的点，包括POI、智能家居，需要做非常多的工作，还有合成技术，技术我就不展开了，请工作人员播放一下这段声音，大家感受一下。

(播放声音)

这是我们语音合成的声音，比过去十年前进步了很多，这里主要针对机器指令，包括聊天、问答、会话式推荐等结合在一起，这个是融合了端到端学习的对话系统、语用计算的框架。语义理解是我们希望一句话能把所有信息都编到里面去，就像最早语音助手的方式。语用计算是让机器更好的感知用户是谁，他在什么时间什么地点做交互，通过这个方式就能够简化人机交互繁琐方式，因为人交互的时候不需要把所有信息重新编排进去的。

前面讲的是我们智能语音交互技术推进的情况，下面给大家分享的是我们在物联网应用实践的结果。讲到未来物联网智联网愿景，我们人类感知到的是智慧家居、智慧出行和传感设备，能够达到这种状态的话，智能制造和智慧城市为支撑，toC、toB和toG的产业发展。我们要解决问题的挑战还是非常大的，因为智能交互和过去的交互方式复杂度提升了很多，不像过去触屏，对于语用我们需要解决很多问题，包括把非常多的AI技术集成起来，这是非常大的难点。

另外，我们要解决完整的交互方案设计，我们即便提供SDK也很难用好，很多开发者发现用SDK，交互很难做到我们想要的效果;还有远场识别，真实应用场景下，不可能让用户用手点再交互，还有内容聚合以及家居控制，我们把它打造成完整的方案，通过这个方案我们才能够在互联网里快速应用起来。

产品体系，以整个AI技术为核心，我们打造的是云端加上终端的交互系统，再加上芯片解决方案，这样的话系统有一个完整方案，加入到产业里面去，让物联网能够快速的把它应用起来。后面是产业落地的案例，左边是我们批量生产的设备，请工作人员播放一下视频。

(播放视频)

这是格力空调的展示，这个产品现在基本上属于国家领导人去展厅的时候演示的产品之一。云知声在五周年推出了家居中控方案，Pandora方案，大家可以看一下视频展示。

(播放视频)

这里面的展示有几个点，我们并不需要每一次交互都唤醒，两个用户在聊天的时候它不会做任何的互动动作，只有我们说它能够接收的指令和内容的时候它才会做，还有自定义自己个性声音，后面还有这些技术都是具备的。下面是一个车载产品，直接看展示吧。

(播放视频)

还有在医疗领域的应用，去年我们和协和医院做了这样一个病例录入系统，放一下视频。

(播放视频)

这里讲的都是专业的词汇，经过专业的训练，人都记不下来，专家10点半下班，他们每天都要花时间做这个，我们为他们节省了很多的时间。

这是我们未来物联网产业形态，我们所专注的是前面几个部分，一个是智慧大脑的部分，“云端芯”产品体系，面向智慧生活和智慧服务，为智能终端产品提供智能服务解决方案。物联网与人工智能的结合是大势所趋，智能语音技术迎来产业化机遇和挑战，语音技术取得突破性进展，但产业化仍面临噪声、口音、领域、功耗、成本等挑战。未来我们认为最大的挑战在于认知，认知计算是交互和服务升级的关键。未来开放的技术、产品、服务生态体系有利于AI产业的快速发展。本次就为大家分享这么多，谢谢。

51CTO记者将持续为您带来WOTI2017全球创新技术峰会前方精彩报道，敬请期待!

【51CTO原创稿件，合作站点转载请注明原文作者和出处为51CTO.com】

责任编辑：杜宁
来源： 51CTO
WOTI
云知声
 交互
 物联网

六狼博客

云知声梁家恩：智能交互技术与物联网应用原创

云知声梁家恩：智能交互技术与物联网应用

2026年7月
一	二	三	四	五	六	日
« 6月
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31