深度学习VS深度克隆,谁才是解决聊天机器人的更好方法?
作者:Riza C. Berkan 2017-08-15 17:55:52
人工智能 聊天机器人已经不新鲜了,Facebook、微软等很多大平台都有了自己聊天机器人,但是聊天机器人的发展好像遇到了瓶颈,本文作者 Riza C. Berkan 博士从深层的技术角度探讨如何解决聊天机器人领域面临的问题。
编者按:聊天机器人已经不新鲜了,Facebook、微软等很多大平台都有了自己聊天机器人,但是聊天机器人的发展好像遇到了瓶颈,本文作者 Riza C. Berkan 博士从深层的技术角度探讨如何解决聊天机器人领域面临的问题。
对话式 AI (聊天机器人)涉及到三个维度的问题:(1)语言技能(2)知识获取(3)对话行为。 这三者虽然强相关,但人类大脑通过单独的实验,在不同的时间段内,可能使用不同的神经区域来获得这些优点。 因此,开发整个过程的计算机模型也需要一些单独的处理和分布式方法。
深度学习提供了一个看上去可行的模型。 但是,它会在一个单一的模式下将所有数据都集成到大量的数据需求中。 这也与我们如何通过阅读学习相矛盾。和深度学习不同,我们每次阅读新文章时,显然不会重新学习语言技能。语言和知识能否分开处理,使后者的成长不需要与前者混合? 如果可行,我们如何模拟这种半独立性?
我将介绍一种新的方法,称为深度克隆方法(DCM)。 虽然这些技术细节是专有的(正在申请专利),但是这种方法可能还有许多其他变体值得试验。
深度克隆
DCM是专门为对话式AI 设计的新的机器学习方法。 术语“深度”来自其多层架构。 术语“克隆”是指将知识从其原始域传送到会话系统(将文档转换为聊天记录)。 DCM将(1)语言技能与(2)知识获取分离,但不涉及(3)单独对待的对话行为。 DCM的灵感来源于人脑的阅读过程,通过阅读(无监督)直接完成学习,而不是涉及语言实验(受监督)。 DCM通过句子处理给定的内容句子,将每个句子分解为概念,并通过大量网络学习这些概念如何相互关联。 已经使用这种方法开发了一些示例聊天机器人,只有通过编辑才能输入DCM要读取的内容。 以下是深度克隆与深度学习的对比:
神经元结构
DCM的核心创新是人造语言神经元的概念。 这个想法是从生物学的灵感来的,大脑的某些区域已知含有对语言输入敏感的神经元,正如其他区域对图像或其他感官敏感一样。 此外,语言敏感的神经元也可能具有语言角色兼容的不同结构。
另一方面,深度学习无论对哪种应用都使用同的神经元,典型的神经元如下图所示。在不同网络中有神经元模型的变化,然而没有涉及归因于自然语言处理的任何特定角色。 这些神经元需要一个数字输入,用于从输入层传播。 因此自然语言必须转换为数值,以使此操作正常工作,而且根据这种方法,这个转换可能是无意义的。
在DCM中,通过分解过程确定了六种不同的神经元类型。 黑色神经元代表内容(句子),红色神经元代表事件概念,蓝色神经元代表对象(对话主题)。绿色神经元代表每个句子的类型(维度),最终帮助黑色神经元回答问题。
网络结构
通过阅读每个句子并使连接遵循一组特定规则,DCM网络得到成长。 第一条规则是重复相似神经元的连接。 这个规则的唯一例外是遵循内容跟踪的黑色神经元。 第二条规则是事件与对象的连接(红色到蓝色)。 网络的增长与系统读取的内容成正比。
阅读整个内容后,最终网络成为多个层级,多个网络(称为高速公路)。 基本上有四条主要公路(黑色、红色、蓝色和橙色)。 进一步处理最终网络以将重复神经元压缩成单独的神经元。 这个最终过程产生一个基于事件的本体,其中每个事件概念都连接到大量的仪器上。 召回过程需要横穿4条高速公路,才能找到给定问题(或句子)的最佳匹配概念。通过推理找到最终的黑色神经元作为问题的答案。
总结
以下是深度学习与深度克隆的对比:
- 深度学习具有不分解作为需要本体论处理的单独步骤的优点。
- 深度克隆取决于分解过程的质量。
- 深度克隆具有数据量小和单步收敛的优点。
- 深度学习是一个黑盒子,而深度克隆是透明的,可以立即修改。
深度克隆的数据要求只是内容知识,而深度学习可能需要大量的数据用于语言检测和较长的训练周期。