分类用户提问-回答界限的方法、装置和电子设备与流程

文档序号:15615600发布日期:2018-10-09 21:17阅读:166来源:国知局

本发明涉及一种时间周期序列分析方法,更具体地,涉及一种通过时间周期序列分析方法来分类用户提问-回答的方法及其设备。



背景技术:

在现有的人机对话系统中,人作为提出问题的主体,机器人作为回答问题的主体,这样固定的一问一答的场景已经被广泛接纳和采用。但随着人机对话系统被应用到各个不同商品品类咨询的领域后,原有的一问一答模式已经开始逐渐不能满足人们的复杂对话场景,人们希望机器不只是针对问题回答,而是能更像导购员一样针对用户特定的需求,反问或提出特定的建议或由机器主动推荐相关商品,以帮助用户在购买商品过程中更准确的了解自身需求和所购买的商品的匹配度。

这种需求的提出涉及问话对象转移,原来的问话对象可能需要从人转换为机器,回答的对象也可能由机器转换为人。与人不同,因为没有记忆功能,所以机器只能分析当前句子内容并针对内容回答,而不知道对话过程中,人类是说完了一句话,还是在提出一个问题,这就给人机对话系统的问答界限的切换带来了巨大的挑战。

对电子商务领域业务的人机对话系统来说,现有的技术方案通常是利用大数据平台(haddop)来存储人工标记过的对话数据,然后使用诸如nlp,神经网络,深度学习等的机器学习算法对对话进行建模,并对机器进行模型训练,来回答用户的提问。图1是人机对话过程的通用流程图。

如图1所示,在现有技术中,人机对话系统主要涉及如下模块:进入对话界面、自然语义分析、问题分析、对话场景分类、答案组装、返回答案、以及退出对话界面。

其中,人机对话主要包括如下流程:首先,用户通过点击不同页面上的入口连接进入对话界面,并对机器提出问题,随后,针对用户所提出的问题,通过也被称为nlp分析的自然语义分析对其进行语言分析,语言分析可以包括:切词、语法分析、以及对语句长度,词频等的分析。随后,根据用户所提出的问题的商品类型,自主划分一些标识集合,该标识集合可以是例如手机、电子产品、图书、服装等,并由此输出提问的专用特征数据。随后,根据既有规则划分用户处于哪一个场境,然后根据提问的专用特征数据,机器在对应的答案库中找到问题的对应答案。随后,对对应答案做相关的流程化处理以适配到不同的客户端,例如,对于pc,返回json格式,而对于移动端,返回xml和json格式。最后,用户返回上一层操作菜单,或者直接退出人机对话程序。这种方式虽然能够容易地得到对应于用户提问的答案,但是由于使用的是固定的划分,因此无法灵活地判断用户所处于的场境。

在实现本发明过程中,发明人发现现有技术中至少存在如下问题:

场景分类目前采用的方式是人为地划分规则。如果用户进行反问,或是等待一段时间后再提问,这时的机器由于会话过期等原因,在不再次触发规则的情况下,无法进入咨询场景。

一旦出现多个推荐商品,会出现答非所问的情况,并且在同一个会话中出现多次对话的切换失败。这样的结果是,直接导致用户体验很差,满意度下降,甚至降低可部分用户购买商品的欲望。



技术实现要素:

有鉴于此,本发明实施例提供一种用户提问-回答分类方法,以及使用该方法的设备,能够减少人工分析场景规则的时间成本、提升促成订单的数量、以及通过不断积累已有的对话模型特征来建立用户的购物商品偏好特征。

为实现上述目的,根据本发明的一个方面,提供了一种用户问答界限分类方法,其特征在于,包括:从自然语义分析和问题分类获取人机对话的语法语义分析数据;对所获取的人机对话的语法语义分析数据进行标准化处理,生成对话特征数据;学习对话特征数据的特征,生成对话模型特征;对对话模型特征进行模型训练及分类计算,生成对话规律特征模型;以及使用对话规律特征模型来划分问题界限。

可选地,按照预定格式对专用特征数据进行标准化处理,使得生成的对话特征数据中分别标识出时间、提问、提问分类、以及提问特征。

可选地,对话特征数据的特征包括对话的开始时间和对话的结束时间。

可选地,对对话特征数据的特征进行对话类型学习和时间频率类型学习,其中,对话类型学习分析对话特征数据中的不同语句特征,以计算出提问特征数据与回答特征数据之间的区别;以及其中,时间频率类型学习采用统计方法计算提问特征数据与回答特征数据之间的时间间隔。

可选地,根据所述对话模型特征来计算提问开始界限概率、提问结束界限概率、以及继续对话界限概率的相应概率百分比。

可选地,其中,采用概率值最高的值作为界限指标来划分提问-回答界限。

为实现上述目的,根据本发明实施例的另一方面,提供了一种用户提问-回答界限划分的装置。

本发明的一种用户提问-回答界限划分的装置包括:场景分类模块,用于从人机对话的语句语义分析数据获取人机对话的语法语义分析数据、对所获取的语法语义分析数据进行标准化处理以生成对话特征数据、以及使用对话规律特征模型来划分提问-回答界限分类模块,用于学习所述对话特征数据的特征,生成对话模型特征;时间对话学习模块,用于对所述对话模型特征进行模型训练及分类计算,生成所述对话规律特征模型。

可选地,场景分类模块还用于:按照特定格式对所获取的人机对话的语法语义分析数据据进行标准化处理,使得生成的对话特征数据中分别标识出时间、提问、提问分类、以及提问特征。

可选地,所述时间对话学习模块还用于:对所述对话特征数据的特征进行对话类型学习和时间频率类型学习,其中,对话类型学习分析所述对话特征数据中的不同语句特征,以计算出所述提问特征数据与所述回答特征数据之间的区别;以及其中,时间频率类型学习采用统计方法计算所述提问特征数据与所述回答特征数据之间的时间间隔。

可选地,界限分类模块还用于:根据所述对话模型特征来计算提问开始界限概率、提问结束界限概率、以及继续对话界限概率的相应概率百分比。

可选地,场景分类模块还用于:采用概率值最高的值作为界限指标来划分问题界限。

为实现上述目的,根据本发明实施例的再一方面,提供了一种实现用户提问-回答界限划分的方法的电子设备。

本发明实施例的一种电子设备包括:至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明实施例的用户提问-回答界限划分的方法。

为实现上述目的,根据本发明实施例的又一方面,提供了一种非暂态计算机可读存储介质。

本发明实施例的一种非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行本发明实施例的用户提问-回答界限划分的方法。

上述发明中的一个实施例具有如下优点或有益效果:因为采用根据时间生命周期动态地分析用户和机器的对话特征数据,并进行带有时间特征式的对话模型训练,由此生成对话规律特征模型的技术手段,所以克服了传统的人机对话中的场景分类的技术问题,进而达到提高建模效率和分类准确度的技术效果

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明,不构成对本发明的不当限定。其中:

图1是根据现有技术中人机对话过程的通用流程图;

图2是实施根据本发明实施例的方法的流程图;

图3是根据本发明实施例的场景分类的示意图;

图4是根据本发明实施例的界限分类的示意图;

图5是根据本发明实施例的时间对话学习的示意图;

图6是根据本发明实施例的方法中的具体方法之间的流程的示意图;

图7是根据本发明实施例的用户提问-回答界限划分的装置的主要模块的示意图

图8是用来实现本发明实施例的用户提问-回答界限划分的方法的电子设备的硬件结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

本发明的技术方案对上述的对话场景分类进行了改进和创新。图2是实施根据本发明实施例的方法的流程图。

如图2所示,本发明的实施例的分类用户问答界限的方法主要包括以下步骤:

步骤s21:从上述自然语义分析和问题分类以及答案组装接收,并以此作为输入前进到步骤s22。

步骤s22:对从步骤s21得到的专用特征数据进行数据标准化操作。数据标准化操作也被称为归一化操作,具体地,通过将时间标签和用户输入问题标签添加到专用特征数据来进行数据标准化操作。在数据标准化操作完成后,将经过数据标准化操作的专用特征数据存储到将在下面说明的时间会话特征库中。

步骤s23:对存储在时间对话特征库中的经过数据标准化操作的专用特征数据进行机器学习,并将其输出到将在下面说明的对话模型特征库存储。

步骤s24:对所述对话模型特征进行对话模型训练和分类计算,生成对话规律特征模型,并将其输出到将在下面说明的问答界限分类库存储。

步骤s25:使用对话规律特征模型来进行问题的界限划分,并将所划分的场景分类提供给上述答案组装,由此组装对用户的提问的回答。

接下来,将参考图3至图5详细地描述根据本发明的各个方法的细节。用户提问-回答界限划分的实现方案具体如下:

如图3所示,根据本发明的方法包括时间特征预处理以及问答界限划分。该方法的主要功能是:1.在原有场景分类的基础上,将提问和答案的数据进行标准化处理后,输入到下面将描述的时间对话,以进行学习;2.负责对新增的问答界限分类库和当前语句分类进行比较划分,使用概念更好的界限划分。

在其中,时间特征预处理将当前对话中的数据,即,上述所获取的人机对话的语法语义分析数据按照【时间-问题-问题分类-问题特征】的格式进行标准化处理。之后,使用将在下面描述的问答界限分类库中的问题界限分类和当前语句的语句分类进行查找比对,并使用概率最高的界限分类,如果没有找到界限分类,则使用原有规则库进行问答界限的划分。

如图4所示,根据本发明的方法包括学习对话特征数据的特征。该方法的主要功能是采用例如分布式深度学习库deeplearning4j中的lstms算法,对对话模型特征进行模型训练和分类计算,并对带有时间序列的对话特征数据进行模型训练,使得能够计算出对应分类中提出的提问开始的概率,还是提问结束的概率,以及继续保持对话的概率。然而,本发明的方法不限于此。

如图所示,该方法进一步包括模型训练、问答界限分类计算、以及将数据存入问答界限分类库。其中,模型训练采用例如lstm算法,对输入的多个时间序列会话数据进行模型训练,得到问题界限分类模型数据,即,语句中问答界限分类,以及提问开始、提问结束、继续对话占各自的权重值。问答分类计算将不同分类下多个语句数据进行统计计算,按照提问开始界限概率,提问结束界限概率,继续对话界限概率三种值,计算出相应概率百分比。并输出给问答界限分类库保存。问答界限分类库用以保存问答分类计算模块所产出的问答界限分类,以【语句分类—预测问答界限分类—提问结束界限概率—提问开始界限概率—保持对话界限概率】的格式保存,方便对应查找。选取标准为采用概念率值最高的值作为界限指标进行判别。

如图5所示,根据本发明的方法包括模型训练及分类计算。时间对话学习保存当前对话中的问题和答案,并形成按时间排列的多组对话数据。同时,时间对话学习还可以找出问题和答案中的原始类别,统计出使用次数最多的类别的前三名。

如图所示,时间对话学习包括对话类型学习以及时间频率类型学习。其中,对话类型学习通过分析一组对话中不同语句特征,采用强化学习算法,计算出一组对话中提问和回答的区别,即,主要输出界限特征值。随后,时间频率类型学习通过分析一组对话中不同语句特征,采用统计方法,计算一组对话中的提问和回答的时间间隔。时间会话特征库以一组语句格式为【时间-语句-语句分类-语句特征】数据保存标准化后生成的对话特征数据,上述的其他方法对此数据进行学习。

接下来,将参考图6详细解释本发明的用户提问-回答界限划分的方法的流程。图6是根据本发明实施例的方法中的具体方法之间的流程的示意图。

如图6所示,首先,由图1的自然语义分析以及问题分类得到的人机对话的语法语义分析数据作为输入数据进入场景分类,此时,时间特征预处理会加入时间标签和用户输入问题标签,对语法语义分析数据做数据标准化操作(也被称为归一化操作),并输入到时间对话学习中的时间周期会话预处理临时保存(这时人机对话中只有用户的提问,因为机器还没有回答,所以还不是一次完整的会话,因此,将提问的处理数据临时存储到例如redis内存里),时间特征预处理完成之后,进入问答界限划分。问答界限划分使用已经计算好的、存储在问答界限分类库的数据以及当前问题的特征数据作为输入数据进行界限划分。在此,采用例如对应查找方式,如果没有找到界限分类,则使用规则库进行划分。随后,输出到场景分类并提供给答案组装使用。当流程进行到完成答案组装后,这时会将回答特征数据作为输入给时间特征预处理进行标准化操作,再输入给时间周期会话处理,到此产生了一次完整的会话,生成了对话特征数据。此时,时间特征预处理再将对话特征数据输入到时间会话特征库。一旦时间会话特征库有更新,则会通知下面的问答类型学习、对话类型习以对更新的对话特征数据进行机器学习并输出给对话模型特征库保存。而当语句模型特征库更新后,则会通知界限分类进行模型训练和分类计算,最后保存到问答界限分类库,以供问答界限划分随时使用问答界限分类库。

图7是根据本发明实施例的用户提问-回答界限划分的装置的主要模块的示意图。

如图7所示,本发明实施例的用户提问-回答界限划分的装置70主要包括:场景分类模块701、界限分类模块702以及时间对话学习模块703。其中:

场景分类模块701可用于从人机对话的语句语义分析数据获取人机对话的语法语义分析数据、对所获取的语法语义分析数据进行标准化处理以生成对话特征数据、使用对话规律特征模型来划分提问-回答界限、采用概率值最高的值作为界限指标来划分问题界限;界限分类模块702可用于学习对话特征数据的特征,生成对话模型特征;时间对话学习模块703可用于对对话模型特征进行模型训练及分类计算,生成对话规律特征模型。

此外,场景分类模块701还可用于:按照特定格式对所述专用特征数据进行标准化处理,使得生成的对话特征数据中分别标识出时间、提问、提问分类、以及提问特征。

本发明实施例中,时间对话学习模块703还可用于:对所述对话特征数据的特征进行对话类型学习和时间频率类型学习,其中,对话类型学习分析所述对话特征数据中的不同语句特征,以计算出所述提问特征数据与所述回答特征数据之间的区别;以及其中,时间频率类型学习采用统计方法计算所述提问特征数据与所述回答特征数据之间的时间间隔。

需要说明的是,界限分类模块702还可用于:根据所述对话模型特征来计算提问开始界限概率、提问结束界限概率、以及继续对话界限概率的相应概率百分比。

根据本发明的实施例,本发明还提供了一种电子设备和一种可读存储介质。

本发明的电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明所提供的用户提问-回答界限划分的方法。

本发明的非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行本发明所提供的用户提问-回答界限划分的方法。

如图8所示,是用来实现本发明实施例的用户提问-回答界限划分的方法的电子设备的硬件结构示意图。如图8,该电子设备包括:一个或多个处理器81以及存储器82,图8中以一个处理器81为例。其中,存储器82即为本发明所提供的非暂态计算机可读存储介质。

用户提问-回答界限划分的方法的电子设备还可以包括:输入装置83和输出装置84。

处理器81、存储器82、输入装置83和输出装置84可以通过总线或者其他方式连接,图8中以通过总线连接为例。

存储器82作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的用户提问-回答界限划分的方法对应的程序指令/模块(例如,附图6所示的场景分类模块61、界限分类模块62和时间对话学习模块63)。处理器81通过运行存储在存储器82中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的用户提问-回答界限划分的方法。

存储器82可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据用户提问-回答界限划分的装置的使用所创建的数据等。此外,存储器82可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器82可选包括相对于处理器81远程设置的存储器,这些远程存储器可以通过网络连接至用户提问-回答界限划分的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置83可接收输入的数字或字符信息,以及产生与用户提问-回答界限划分的装置的用户设置以及功能控制有关的键信号输入。输出装置84可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器82中,当被所述一个或者多个处理器81执行时,执行上述任意方法实施例中的用户提问-回答界限划分的方法。

上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。

根据本发明实施例的技术方案,提供一种用户提问-回答分类方法,以及使用该方法的设备,能够减少人工分析场景规则的时间成本、提升促成订单的数量、以及通过不断积累已有的对话模型特征来建立用户的购物商品偏好特征。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1