闲聊识别方法、装置、电子设备及存储介质与流程

文档序号：26279287发布日期：2021-08-13 19:35阅读：105来源：国知局

本发明涉及数据处理技术领域，具体涉及一种闲聊识别方法、装置、电子设备及存储介质。

背景技术：

目前，人机对话，是人工智能领域的子方向，通俗的讲就是让人可以通过人类的语言即自然语言与计算机进行交互，随着技术的不断发展，越来越多的商家开始使用智能客服，来缓解客户服务的压力。

但是在实际的交互过程中，可能会收到很多来自用户的闲聊语句，而闲聊问答具有非常强的发散性与无目的性，难以构建有效且全面的知识库。且闲聊与业务场景无关，无需人工构建知识库，因此这些闲聊语句会影响最终智能客服的回复准确率，而识别出闲聊文本并剔除，就能很好的解决的这个问题。

因此如何从用户的文本中识别出闲聊文本，已经成为业界亟待解决的问题。

技术实现要素：

本发明提供一种闲聊识别方法、装置、电子设备及存储介质，用以解决识别出闲聊文本的技术问题。

第一方面，本发明提供一种闲聊识别方法，包括：

基于客服领域关键词信息，对待识别文本进行预识别；

在所述待识别文本的预识别结果为闲聊文本时，基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量；

将所述字向量和所述词向量输入训练好的分类模型，得到最终的闲聊识别结果，其中，所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。

在一个实施例中，所述基于客服领域关键词信息，对待识别文本进行预识别，包括：

在所述待识别文本中未包含所述客服领域关键词信息的情况下，则判定所述待识别文本的预识别结果为闲聊文本；

或，在所述待识别文本中包含所述客服领域关键词信息的情况下，则判定所述待识别文本的预识别结果为非闲聊文本。

在一个实施例中，所述基于文本特征提取模型，对所述待识别文本进行特征提取之前，所述方法还包括：

去除所述待识别文本中的句号、表情符号和虚词。

在一个实施例中，所述基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量，包括：

对所述待识别文本进行特征词提取，得到所述待识别文本的特征词信息，并获取所述待识别文本的字符信息；

将所述字符信息和所述特征词信息同时输入文本特征提取模型，得到所述待识别文本的字向量和词向量。

在一个实施例中，所述将所述字向量和所述词向量输入训练好的分类模型之前，还包括：

获取多个样本字向量和每个样本字向量对应的闲聊类别标识，并获取多个样本词向量和每个样本词向量对应的闲聊类别标识；

将每个携带有闲聊类别标识的样本字向量和每个携带有闲聊类别标识的样本词向量作为一个训练样本，获取多个训练样本；

基于所述多个训练样本，对预设神经网络进行训练，当满足预设训练条件时，停止训练，得到训练好的分类模型。

第二方面，本发明提供一种闲聊识别装置，包括：

预识别模块，用于基于客服领域关键词信息，对待识别文本进行预识别；

提取模块，用于在所述待识别文本的预识别结果为闲聊文本时，基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量；

识别模块，用于将所述字向量和所述词向量输入训练好的分类模型，得到最终的闲聊识别结果，其中，所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。

在一个实施例中，所述预识别模块具体用于在所述待识别文本中未包含所述客服领域关键词信息的情况下，则判定所述待识别文本的预识别结果为闲聊文本；

或，在所述待识别文本中包含所述客服领域关键词信息的情况下，则判定所述待识别文本的预识别结果为非闲聊文本。

在一个实施例中，所述提取模块具体用于对所述待识别文本进行特征词提取，得到所述待识别文本的特征词信息，并获取所述待识别文本的字符信息；

将所述字符信息和所述特征词信息同时输入文本特征提取模型，得到所述待识别文本的字向量和词向量。

第三方面，本发明提供一种电子设备，包括存储器和存储有计算机程序的存储器，所述处理器执行所述程序时实现第一方面所述闲聊识别方法的步骤。

第四方面，本发明提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行第一方面所述闲聊识别方法的步骤。

本发明提供的一种闲聊识别方法、装置、电子设备及存储介质，通过在对待识别文本进行预识别之前，通过客服领域关键词信息对待识别文本进行初筛，筛选出需要进一步识别的闲聊文本，可以有效减少后续输入分类模型的数据量，减少数据运算量，提高识别效率，同时，本发明中使用字与词的向量对闲聊文本进行分布式特征表示，更全面的对文本进行特征表示，使文本特征提取模型更充分的拟合特征，本发明中的闲聊识别方法，识别速度快，占用资源少，而且准确率较高。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的闲聊识别方法的流程示意图；

图2为本发明实施例提供的闲聊文本识别流程图；

图3为本发明实施例所描述的闲聊识别装置结构示意图；

图4示例了一种电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的闲聊识别方法的流程示意图，如图1所示，包括：

步骤110，基于客服领域关键词信息，对待识别文本进行预识别；

具体地，由于本发明中的闲聊识别方法，主要是针对于客户服务领域的应用，因为本发明中通过设定客服领域关键词信息，来简单识别该文本识别为闲聊文本。

本发明实施例中所描述的客服领域关键词信息，具体可以是指客户服务领域的专业词语或者符号，例如常见的客服领域关键词信息可以包括“帮助”、“服务”等等。可以预先设定一个相关的关键词词库。

具体地，首先采用通用分词工具对所有待识别数据进行分词。通过引入客户服务领域的专业词语或者符号作为是否是闲聊文本的判断要素，如果待识别文本包含了客户服务领域的专业词语或者符号，则判定该文本为非闲聊文本，否则认为该文本为闲聊文本。

步骤120，在所述待识别文本的预识别结果为闲聊文本时，基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量；

具体地，在本发明实施例中，若待识别文本的预识别结果为闲聊文本时，则说明此时待识别文本很有可能确实为闲聊文本，但是仅仅依靠预识，仍然不足够准确，所以本发明在预识别的基础上，还需要对其进行二次识别。

因此，本发明中还会通过文本特征提取模型，对所述待识别文本进行特征提取，具体的，本发明中的文本特征提取模型可以是word2vec，并且对于每个闲聊文本使用了使用字与词的向量对来进行表示，更全面的对文本进行特征表示。

步骤130，将所述字向量和所述词向量输入训练好的分类模型，得到最终的闲聊识别结果，其中，所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。

具体地，由于在智能客服场景中，用户问句一般为小于20个字的短文本，且在闲聊场景中词的相对顺序对识别准确率影响较小，所以选择模型结构简单且可快速训练的textcnn模型。

将所述字向量和所述词向量输入训练好的分类模型，模型会输出待识别文本是否为闲聊文本的最终的闲聊识别结果。

在本发明实施例中，通过在对待识别文本进行预识别之前，通过客服领域关键词信息对待识别文本进行初筛，筛选出需要进一步识别的闲聊文本，可以有效减少后续输入分类模型的数据量，减少数据运算量，提高识别效率，同时，本发明中使用字与词的向量对闲聊文本进行分布式特征表示，更全面的对文本进行特征表示，使文本特征提取模型更充分的拟合特征，本发明中的闲聊识别方法，识别速度快，占用资源少，而且准确率较高。

可选地，所述基于客服领域关键词信息，对待识别文本进行预识别，包括：

在所述待识别文本中未包含所述客服领域关键词信息的情况下，则判定所述待识别文本的预识别结果为闲聊文本；

或，在所述待识别文本中包含所述客服领域关键词信息的情况下，则判定所述待识别文本的预识别结果为非闲聊文本。

具体地，在判定所述待识别文本的预识别结果为闲聊文本，在本发明实施例中，需要进一步通过其它方式判别该闲聊文本。

在判定所述待识别文本的预识别结果为非闲聊文本的情况下，则说明不需要对该文本进一步进行判别。

在本发明实施例中，通过客服领域关键词信息对待识别文本进行初筛，筛选出需要进一步识别的闲聊文本，可以有效减少后续输入分类模型的数据量，减少数据运算量，提高识别效率。

可选地，所述基于文本特征提取模型，对所述待识别文本进行特征提取之前，所述方法还包括：

去除所述待识别文本中的句号、表情符号和虚词。

具体地，在文本特征提取之前，通常均需要对待识别文本中的标点，以避免符号的影响。

但是在本发明的方案中预处理时需要去除句号，其余标点不需去除，这与闲聊结束时一般不打句号，若是疑问句则会打问号有关，因此本发明中认为其它符号也会影响到判别结果。

在本发明实施例中，通过与常规标点去除方式不同的去除方案，可以有效的保留有利于判断闲聊文本的特征，保证后续判别的准确性。

可选地，所述基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量，包括：

对所述待识别文本进行特征词提取，得到所述待识别文本的特征词信息，并获取所述待识别文本的字符信息；

将所述字符信息和所述特征词信息同时输入文本特征提取模型，得到所述待识别文本的字向量和词向量。

具体地，本发明中所描述的词向量，是指待识别文本中的特征词向量，因此需要首先对待识别文本进行关键词提取。

本发明中进行特征词提取的方式，可以是常见的关键词抽取算法，本发明中对此不作限定。

本发明中会将所述字符信息和所述特征词信息同时输入文本特征提取模型，得到所述待识别文本的字向量和词向量。

在本发明实施例中，使用字与词的向量对闲聊文本进行分布式特征表示，更全面的对文本进行特征表示，使文本特征提取模型更充分的拟合特征。

可选地，获取多个样本字向量和每个样本字向量对应的闲聊类别标识，并获取多个样本词向量和每个样本词向量对应的闲聊类别标识；

将每个携带有闲聊类别标识的样本字向量和每个携带有闲聊类别标识的样本词向量作为一个训练样本，获取多个训练样本；

基于所述多个训练样本，对预设神经网络进行训练，当满足预设训练条件时，停止训练，得到训练好的分类模型。

具体地，本发明中所描述的闲聊类别标识用于标识其属于闲聊类别还是非闲聊类别。

本发明中所描述的预设神经网络可以是textcnn模型，这是由于在智能客服场景中，用户问句一般为小于20个字的短文本，且在闲聊场景中词的相对顺序对识别准确率影响较小。

本发明中所描述的预设训练条件，可以是满足预设训练时间，或者满足预设训练此时。

本发明中训练好的分类模型能够，能够有效的识别输入的字向量和词向量是否属于闲聊文本。

图2为本发明实施例提供的闲聊文本识别流程图，如图2所示，包括：首先对文本进行预处理，然后抽取文本关键词，将关键词和文本同时进行特征抽取，得到文本的字符的表示和词的表示，然后将字符的表示和词的表示同时输入分类算法，最终得到文本的分类结果。

图3为本发明实施例所描述的闲聊识别装置结构示意图，如图3所示，包括：预识别模块310、提取模块320和识别模块330；其中，预识别模块310用于基于客服领域关键词信息，对待识别文本进行预识别；其中，提取模块320用于在所述待识别文本的预识别结果为闲聊文本时，基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量；其中，识别模块330用于将所述字向量和所述词向量输入训练好的分类模型，得到最终的闲聊识别结果，其中，所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。

或，在所述待识别文本中包含所述客服领域关键词信息的情况下，则判定所述待识别文本的预识别结果为非闲聊文本。

在一个实施例中，所述提取模块具体用于对所述待识别文本进行特征词提取，得到所述待识别文本的特征词信息，并获取所述待识别文本的字符信息；

将所述字符信息和所述特征词信息同时输入文本特征提取模型，得到所述待识别文本的字向量和词向量。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器（processor）410、通信接口（communicationinterface）420、存储器（memory）430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的计算机程序，以执行闲聊识别方法的步骤，例如包括：基于客服领域关键词信息，对待识别文本进行预识别；在所述待识别文本的预识别结果为闲聊文本时，基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量；将所述字向量和所述词向量输入训练好的分类模型，得到最终的闲聊识别结果，其中，所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器（rom，read-onlymemory）、随机存取存储器（ram，randomaccessmemory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的闲聊识别方法的步骤，例如包括：基于客服领域关键词信息，对待识别文本进行预识别；在所述待识别文本的预识别结果为闲聊文本时，基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量；将所述字向量和所述词向量输入训练好的分类模型，得到最终的闲聊识别结果，其中，所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。

另一方面，本发明实施例还提供一种处理器可读存储介质，所述处理器可读存储介质存储有计算机程序，所述计算机程序用于使所述处理器执行上述各实施例提供的方法的步骤，例如包括：基于客服领域关键词信息，对待识别文本进行预识别；在所述待识别文本的预识别结果为闲聊文本时，基于文本特征提取模型，对所述待识别文本进行特征提取，得到所述待识别文本的字向量和词向量；将所述字向量和所述词向量输入训练好的分类模型，得到最终的闲聊识别结果，其中，所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器（例如软盘、硬盘、磁带、磁光盘（mo）等）、光学存储器（例如cd、dvd、bd、hvd等）、以及半导体存储器（例如rom、eprom、eeprom、非易失性存储器（nandflash）、固态硬盘（ssd））等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕向楠
技术所有人：北京沃丰时代数据科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。