一种问题意图识别方法、装置、存储介质及电子设备与流程

文档序号:23469769发布日期:2020-12-29 13:10阅读:102来源:国知局
一种问题意图识别方法、装置、存储介质及电子设备与流程

本申请涉及人工智能技术领域,更具体地说,涉及一种问题意图识别方法、装置、存储介质及电子设备。



背景技术:

问题意图,即为获得问题的答案,模型需要对问题所做的推理。目前,对于问题意图的研究尚在初始阶段,在诸如squad、hotpotqa等问题数据集中都只是简单通过识别问题中的核心问题词组对问题意图做简单分类。

但由于问题模式众多,仅靠人工定义核心问题词组的方式难以涵盖所有问题模式。



技术实现要素:

有鉴于此,本申请提供一种问题意图识别方法、装置、存储介质及电子设备,以提高问题意图分类的准确性。

为实现上述目的,一方面,本申请提供了一种问题意图识别方法,所述方法包括:

获取待识别的问答数据,所述问答数据包括一个包含问题和答案的问答对、以及所述问答对在所属文章中的上下文文本;

在所述上下文文本中确定与所述答案相同的文本片段,并分别获取所述文本片段和所述答案的文本处理结果,所述文本处理结果包括词性标注结果和实体标注结果;

根据所述文本片段的词性标注结果修正所述答案的词性标注结果,以及根据所述文本片段的实体标注结果修正所述答案的实体标注结果;

至少基于所述答案修正后的词性标注结果和修正后的实体标注结果,对所述问题进行意图分类。

在一种可能的实现方式中,所述根据所述文本片段的词性标注结果修正所述答案的词性标注结果,包括:

统计所述文本片段的词性标注结果的分布概率;

将分布概率最高的一个词性标注结果作为所述答案的词性标注结果。

在又一种可能的实现方式中,所述根据所述文本片段的实体标注结果修正所述答案的实体标注结果,包括:

获取所述文本片段的实体标注结果中第一实体的实体标签、以及所述答案的实体标注结果中第二实体的实体标签;

对所述第一实体和所述第二实体进行合并去重,得到第三实体;

根据所述第三实体在所述文本片段的实体标注结果、以及所述答案的实体标注结果中的实体标签中的至少一个,确定所述第三实体的目标实体标签,所述第三实体的目标实体标签属于所述答案修正后的实体标注结果。

在又一种可能的实现方式中,所述根据所述第三实体在所述文本片段的实体标注结果、以及所述答案的实体标注结果中的实体标签中的至少一个,确定所述第三实体的目标实体标签,包括:

如果所述第三实体在所述文本片段的实体标注结果中的实体标签为多种,则将所述第三实体的多种实体标签中出现频次最高的一种实体标签作为所述第三实体的目标实体标签。

在又一种可能的实现方式中,所述至少基于所述答案修正后的词性标注结果和修正后的实体标注结果,对所述问题进行意图分类,包括:

如果所述答案修正后的实体标注结果中包含多个实体、且所述多个实体在所述答案修正后的实体标注结果中的实体标签属于同一种,识别所述答案修正后的词性标注结果中除所述多个实体外的其他词组的词性;

如果所述其他词组的词性均为连词,则根据所述多个实体在所述答案修正后的实体标注结果中的同一种实体标签确定所述问题的意图。

在又一种可能的实现方式中,所述至少基于所述答案修正后的词性标注结果和修正后的实体标注结果,对所述问题进行意图分类,还包括:

如果所述其他词组的词性不均为连接词,对所述问题匹配预设的问题文本模式,以根据相匹配的目标问题文本模式确定所述问题的意图。

在又一种可能的实现方式中,所述述至少基于所述答案修正后的词性标注结果和修正后的实体标注结果,对所述问题进行意图分类,还包括:

对所述问题匹配预设的字符串模式,以根据相匹配的目标字符串模式确定所述问题的意图。

又一方面,本申请还提供了一种问题意图识别装置,所述装置包括:

数据获取模块,用于获取待识别的问答数据,所述问答数据包括一个包含问题和答案的问答对、以及所述问答对在所属文章中的上下文文本;

文本处理模块,用于在所述上下文文本中确定与所述答案相同的文本片段,并分别获取所述文本片段和所述答案的文本处理结果,所述文本处理结果包括词性标注结果和实体标注结果;

标注修正模块,用于根据所述文本片段的词性标注结果修正所述答案的词性标注结果,以及根据所述文本片段的实体标注结果修正所述答案的实体标注结果;

意图分类模块,用于至少基于所述答案修正后的词性标注结果和修正后的实体标注结果,对所述问题进行意图分类。

又一方面,本申请还提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行所述的问题意图识别方法。

又一方面,本申请还提供了一种电子设备,包括:至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述存储器存储的程序,所述程序用于实现所述的问题意图识别方法。

本申请提供的一种问题意图识别方法、装置、存储介质及电子设备,对于问答数据的问答对,能够结合答案确定其问题的意图,由此确定模型需要对问题做哪些推理才能获得答案。而在结合答案对问题意图分类的过程中,由于答案缺少上下文信息,单独使用其做分类准确性有限,因此本申请在问答对的上下文文本中确定答案相关的文本片段,使用文本片段的文本处理结果修正答案的文本处理结果,由此提高问题意图分类的准确性。

此外,本申请中文本处理涉及词性识别和命名实体识别,由此本申请的启发式问题意图识别算法至少结合了词性识别和命名识别,这就能够最大限度保证文本处理的全面性,避免单一技术的处理带来的分类误差。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的电子设备的硬件结构框图;

图2为本申请实施例提供的问题意图识别方法的方法流程图;

图3为本申请实施例提供的问题意图识别方法的另一方法流程图;

图4为本申请实施例提供的问题意图识别装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。

人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中,自然语言处理(naturelanguageprocessing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请则主要涉及自然语言处理技术中的文本预处理和语义理解,将原先完整的数据集分割为具有不同问题意图的子集,而这些子集之间可以进行问答模型在不同问题意图上泛化性能的研究或者模型对于特定意图推理过程的研究。

由此,数据集中的样本可以分别作为本申请中的待识别问答数据,基于本申请能够对数据集中各样本的问题意图进行分类,从而按照问题意图将各样本划分到不同的子集中。

为方便本领域技术人员理解本申请,以下首先对本申请相关的术语进行定义:

命名实体识别(namedentityrecognition,ner):指识别并标注出文本中具有特定意义的实体,一般一个实体代表一个特定的具体事物个体,如人名、地名、时间、数字等。

词性(part-of-speech,pos)识别:将文本中的词组标注为对应的词性,如名词、形容词、动词等。

模型泛化性能(modelgeneralization):指模型在某一个/几个领域(domain)上训练后直接应用于其他未知的领域上的性能。

目前对于问题意图分类的研究较少。squad、hotpotqa等问答数据集中都只是简单地基于问题中的核心问题词汇(centralquestionword)对问题进行简单分类。例如,在英文数据中,根据wh开头的疑问词、系动词(is、are)、助动词(do、does)构成特定的疑问句文本模式,将问句与设计好的模式进行匹配,进而完成分类。

或者是基于ner工具识别答案中的命名实体,如果存在命名实体,则根据命名实体的类别去分类,否则,则将其问题意图分类为通用名词。

可见,现有技术仅仅单一从问题文本层面(问句模式)或者答案文本层面(ner分类)对问题意图做分类,一方面人工设计的问句模式多样性有限,不能覆盖所有的问句类型,另一方面现有的ner工具本身存在一定的误差,单一基于答案的ner分类会极大影响问题意图的准确度。

对此,本申请提供的问题意图识别方案,能够结合问答对中的答案确定其问题的意图,由此确定模型需要对问题做哪些推理才能获得答案。且在结合答案对问题意图分类的过程中,在问答对的上下文文本中确定答案相关的文本片段,使用文本片段的文本处理结果修正答案的文本处理结果,由此提高问题意图分类的准确性。此外,本申请中文本处理涉及词性识别和命名实体识别,由此本申请的启发式问题意图识别算法至少结合了词性识别和命名识别,这就能够最大限度保证文本处理的全面性,避免单一技术的处理带来的分类误差。

本申请实施例提供的问题意图识别方法,可以应用于诸如服务器或者pc端等电子设备中,参见图1所示的电子设备的硬件结构框图,电子设备的硬件结构可以包括:

至少一个处理器11,至少一个通信接口12,至少一个存储器13和至少一个通信总线14;

在本申请实施例中,处理器11、通信接口12、存储器13、通信总线14的数量为至少一个,且处理器11、通信接口12、存储器13通过通信总线14完成相互间的通信;

处理器11可能是一个中央处理器cpu、gpu(graphicsprocessingunit,图形处理器),或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本申请实施例的一个或多个集成电路等;

存储器13可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;

其中,存储器存储有程序,处理器可以调用存储器存储的程序,程序用于:

获取待识别的问答数据,问答数据包括一个包含问题和答案的问答对、以及问答对在所属文章中的上下文文本;

在上下文文本中确定与答案相同的文本片段,并分别获取文本片段和答案的文本处理结果,文本处理结果包括词性标注结果和实体标注结果;

根据文本片段的词性标注结果修正答案的词性标注结果,以及根据文本片段的实体标注结果修正答案的实体标注结果;

至少基于答案修正后的词性标注结果和修正后的实体标注结果,对问题进行意图分类。

可选的,程序的细化功能和扩展功能可以参照下文描述。

参见图2所示的问题意图识别方法的方法流程图,本申请实施例提供的问题意图识别方法包括如下步骤:

s101,获取待识别的问答数据,问答数据包括一个包含问题和答案的问答对、以及问答对在所属文章中的上下文文本。

本申请实施例中,待识别的问答数据可以是待区分问题意图的数据集中的一个样本,该问答数据至少包含一个问答对、以及该问答对在文章中的上下文文本。

对于一个问答对,其一般是对应于文章中的部分文本。比如牛顿相关的一个文章中提及“牛顿在前人(开普勒、胡克、雷恩和哈雷)研究的基础上,凭借他超凡的数学能力,发现了万有引力定律”,对此可以产生一个问答对:问题“万有引力定律的发现者是谁”和答案“牛顿”。

对此,可以将文章中“牛顿在前人(开普勒、胡克、雷恩和哈雷)研究的基础上,凭借他超凡的数学能力,发现了万有引力定律”这一句子、该句子上文多个句子、以及下文多个句子作为问答对的上下文文本。当然,对于上文和下文句子的数量,本申请实施例不做限定。

s102,在上下文文本中确定与答案相同的文本片段,并分别获取文本片段和答案的文本处理结果,文本处理结果包括词性标注结果和实体标注结果。

本申请实施例中,可以通过字符串匹配的方式,从上下文文本中检索与答案相同的文本片段,该文本片段为一个或多个。继续以问答对——问题“万有引力定律的发现者是谁”和答案“牛顿”为例,可以从该问答对的上下文文本中检索所有“牛顿”,检索到的每个“牛顿”词组即作为一个文本片段。

此外,本申请实施例中,可以采用文本处理工具,比如spacy对上下文文本和答案分别进行词性识别和命名实体识别,即获得上下文文本的词性标注结果和实体标注结果、以及答案的词性标注结果和实体标注结果。其中,词性标注结果中包含对每个词组所标注的词性,实体标注结果中则包含对识别到的实体所标注的实体标签。

由此,在上述已经确定文本片段的基础上,根据文本片段在上下文文本中的位置,从上下文文本的相应位置处获取该文本片段的词性标注结果和实体标注结果。继续以问答对——问题“万有引力定律的发现者是谁”和答案“牛顿”为例,假设其上下文文本由句1、句2和句3组成,答案“牛顿”的文本片段出现的位置有3个——句1的第5个词组、句3的第1个词组和句3的第10个词组。因此,在获得句1、句2和句3的词性标注结果和实体标注结果之后,可以分别获得句1的第5个词组、句3的第1个词组和句3的第10个词组在上下文文本中的词性标注结果和实体标注结果,以此作为文本片段的词性标注结果和实体标注结果。

s103,根据文本片段的词性标注结果修正答案的词性标注结果,以及根据文本片段的实体标注结果修正答案的实体标注结果。

本申请实施例中,文本片段的词性识别和实体识别是基于上下文文本所做的,因此其词性标注结果和实体标注结果都是考虑到上下文信息的,与答案缺少上下文信息不同,其标注结果显然更全面和准确,不会出现答案单独标注所导致的实体缺失或词性错误。

基于此,相较于命名实体识别,词性识别对于上下文信息的依赖更强,因此在对答案的词性标注结果做修正时,本申请以文本片段的词性标注结果为基准,具体可以对比文本片段的词性标注结果和答案的词性标注结果,一旦两者不同,则将文本片段的词性标注结果作为答案修正后的词性标注结果。

如果文本片段的数量为一个,或者文本片段的数量为多个、且多个文本片段的词性标注结果为一种(所有文本片段的词性标注结果相同),则可以直接采用文本片段的词性标注结果。

此外,如果文本片段的数量为多个,其中有可能出现多种词性标注结果,即至少两个文本片段的词性标注结果不相同,此时可以统计文本片段的词性标注结果的分布概率,并将分布概率最高的一个词性标注结果作为答案的词性标注结果。以下对分布概率进行说明:

具体的,假设文本片段有n个,其中,词性标注结果为a的文本片段有n1个,词性标注结果为b的文本片段有n2个,词性标注结果为c的文本片段有n3个,n1+n2+n3=n,则可以确定词性标注结果a的分布概率为n1/n、词性标注结果b的分布概率为n2/n、词性标注结果c的分布概率为n3/n。

基于此,选择分布概率n1/n、n2/n、n3/n中最高概率对应的词性标注结果作为答案的词性标注结果。

另外,本申请实施例在对答案的实体标注结果做修正时,考虑到命名识别实体识别漏检导致实体缺失,可以将文本片段的实体标注结果与答案的实体标注结果进行合并,即取并集。这样答案修正后的实体标注结果中实体的全面性更高。

具体的,合并实体标注结果包括两部分,合并实体、以及合并实体的实体标签。一般来说,一个实体在不同语境所代表的个体是一定的,比如“牛顿”,再比如“北京”,因此在命名实体识别时,为其标签的实体标签也是可以确定的,比如“牛顿”的实体标签为“人名”、“北京”的实体标签为“地名”。

因此,在合并文本片段的实体标注结果与答案的实体标注结果时,可以直接对实体进行合并去重,对于合并去重后得的实体,可以从文本片段的实体标注结果或者答案的实体标注结果中直接获得其实体标签。具体可以采用如下步骤:

获取文本片段的实体标注结果中第一实体的实体标签、以及答案的实体标注结果中第二实体的实体标签;对第一实体和第二实体进行合并去重,得到第三实体;根据第三实体在文本片段的实体标注结果、以及答案的实体标注结果中的实体标签中的至少一个,确定第三实体的目标实体标签,第三实体的目标实体标签属于答案修正后的实体标注结果。

本申请实施例中,通过对文本片段的实体(即第一实体)与答案的实体(即第二实体)进行合并去重,能够最大程度的确定答案中所包含的实体。进一步,对于合并去重后所得的第三实体:

如果该第三实体仅位于文本片段的实体标注结果中,则从所位于的文本片段的实体标注结果中获取其实体标签,作为其目标实体标签。同理,如果该第三实体仅位于答案的实体标注结果中,则从答案的实体标注结果中获取其实体标签,作为其目标实体标签。

此外,在实际应用中,部分实体出现在不同语境所代表的个体是不固定的,比如“304”,其一方面可以作为数字,另一方面还可以指机构名字,对此“304”作为实体时的实体标签分为“数字”和“机构”。

因此,如果该第三实体不仅位于文本片段的实体标注结果中,还位于答案的实体标注结果中,则分别从所位于的文本片段的实体标注结果、以及答案的实体标注结果中获取其实体标签;进一步对比所获取的多个实体标签是否相同。

如果相同,则将任意选择一个实体标签作为其目标实体标签。

而如果不同,则可以按照语境从中选择一个实体标签作为其目标实体标签。比如第三实体所位于的文本片段为一个,相应的其在该文本片段的实体标注结果中的实体标签也为一个,由于一个文本片段无法准确描述语境,因此可以将该第三实体在答案的实体标注结果中的实体标签作为目标实体标签。

为保证答案修正后的实体标注结果中一个实体对应一个能够代表真实语境的实体标签。本申请实施例在确定第三实体的目标实体标签时可采用如下步骤:

如果第三实体在文本片段的实体标注结果中的实体标签为多种,则将第三实体的多种实体标签中出现频次最高的一种实体标签作为第三实体的目标实体标签。

本申请实施例中,如果第三实体所位于的文本片段为多个、且其在多个文本片段的实体标注结果中的实体标签不同,即分为多种,此时可以统计第三实体的每种实体标签的出现频次,将出现频次最高的一种实体标签作为其目标实体标签。

比如,第三实体位于m个文本片段的实体标注结果中,实体标签d在其中的出现频次为m1、实体标签e在其的出现频次为m2,m1+m2=m,则将m1和m2中最大的一个所对应的实体标签作为第三实体的目标实体标签。

由此,所有第三实体及其目标实体标签构成答案修正后的实体标注结果。

s104,至少基于答案修正后的词性标注结果和修正后的实体标注结果,对问题进行意图分类。

由于答案与问题具有明显的因果关系,因此在分类问题意图时,可以基于答案来完成。并且,实体标签与意图类别具有一定的对应关系,比如“人物”对应“人物类别”、“日期”对应“日期类别”、“数字”对应“数字类别”、“地点”对应“地点类别”、其他实体标签对应“事物类别”,因此本申请实施例中,可以通过答案修正后的实体标注结果中的实体标签来初步确定相应的意图类别,进一步通过答案修正后的词性标注结果中的词性来辅助分类。从而将最终确定的意图类别作为问题的意图。

比如,在一些场景中,可以基于机器学习算法训练意图分类的模型,通过一些先验实体标注样本和词性标注样本对模型的参数权重做出训练,以保证模型对意图分类准确度符合要求。在实际应用中,将答案修正后的词性标注结果和修正后的实体标注结果输入至训练好的模型,从而获得由该模型输出的意图类别。

但机器学习算法会很大程度上受限于样本的语境和数量,对此,本申请实施例所提出的意图分类方法在同时引入命名实体识别和词性识别两种技术的基础上,按照一定的方案逻辑依次分类,使得可能被单一技术误分类的问答数据在多个因素的共同作用下能够被正确分类。

在一些实施例中,如果答案修正后的实体标注结果中包含一个实体、则根据该实体在答案修正后的实体标注结果中的实体标签确定问题的意图,具体可以基于实体标签与意图类别的对应关系来确定。

而为进一步保证其意图分类的准确性,还可以进一步对答案的文本长度进行限制,即在答案修正后的实体标注结果中包含一个实体的基础上、答案的文本长度小于预设的阈值,才可以根据实体在答案修正后的实体标注结果中的实体标签确定问题的意图。否则,则采用本申请以下诸如“问题文本模式”、“词性模式”、“字符串模式”匹配的方式来实现意图分类。

在其他一些实施例中,如果答案修正后的实体标注结果中包含多个实体、且多个实体在答案修正后的实体标注结果中的实体标签属于同一种,识别答案修正后的词性标注结果中除多个实体外的其他词组的词性;如果其他词组的词性均为连词,则根据多个实体在答案修正后的实体标注结果中的同一种实体标签确定问题的意图。

本申请实施例中,对于答案修正后的实体标注结果中各实体标签相同的场景,其问题属于实体标签所对应意图类别的可能性较大,但为进一步保证意图分类的准确性,需要进一步识别答案中除实体以外其他词组的词性,如果为诸如“和”、“或者”、“以及”、“与”、“and”、“or”、“aswellas”等连词,则可以确定答案中具有多个并列的意图类别相同的实体。此时,基于实体标签与意图类别的对应关系来确定问题的意图也就更为准确。

比如,对于问答对——问题“北京的著名旅游景点有哪些”和答案“故宫、长城、颐和园和圆明园”,显然该答案中“故宫”、“长城”、“颐和园”和“圆明园”的实体标签均为“地点”、且“和”为连词,因此问题“北京的著名旅游景点有哪些”的意图为“地点类别”可以明确。

在此基础上,如果其他词组的词性不均为连接词,对问题匹配预设的问题文本模式,以根据相匹配的目标问题文本模式确定问题的意图。

具体的,本申请实施例可以预先对问题的每种意图类别设置至少一个问题文本模式,问题文本模式可以仅匹配问题的开头、结尾或者任意位置,如果问题的文本与其中一个问题文本模式相匹配,即确定目标问题文本模式,则将问题分类至目标问题文本模式所对应的意图类别。

例如,在英语中,“whois/whoare/whodid”作为开头可以匹配“人物类别”的问题意图,而“howmany/howmuch/howold”作为开头可以匹配“数字类别”的问题意图,此外,“whereis/wheredo”作为开头则可以匹配“地点类别”的问题意图。

在其他一些实施例中,为实现对于特定问题意图的分类,比如“日期类别”、“数字类别”,本申请实施例可以预先对一个特定的问题意图设置至少一个字符串模式,比如“日期类别”的字符串模式为“dd/mm/yyyy”、“数字类别”的字符串模式为纯数字、数字+货币符号或者数字+逗号分隔符。在对问题进行意图分类的开始,先对问题匹配预设的字符串模式,根据相匹配的目标字符串模式确定问题的意图。

经过上述流程可能还有许多问题没有被分类,在其他一些实施例中,如果答案中没有识别到实体,即答案的实体标注结果为空,但其包含有名词/名词短语,则可以将其视为“通用名词类别”,例如“madmonkeys/gold/avillage”。因此,通过设置一些特定的词性模式,比如“冠词+名词”,再比如“形容词+名词”来匹配答案,可以识别“通用名词类别”的问题意图。具体的,对答案修正后的词性标注结果匹配预设的词性模式,以根据相匹配的目标词性模式确定问题的意图。

为方便理解本申请,以下对本申请的一个场景实施例进行说明。

在此定义了几个问题意图的类别“日期类别”、“数字类别”、“地点类别”“通用名词类别”和其他类别标签“事物类别”。参见图3所示的问题意图识别方法的方法流程图,以下对本申请的问题意图识别过程进行详细说明:

s201:通过字符串匹配的方式,在上下文文本中确定与答案相同的文本片段,并分别获取文本片段和答案的文本处理结果。

s202:使用文本片段的文本处理结果修正答案的文本处理结果:答案由于缺少上下文信息,单独标注可能会导致实体缺失或者词性错误。答案修正后的词性标注结果以文本片段为准,而答案修正后的实体标注结果则通过对文本片段和答案的实体取并集所获得。

s203:对于答案的文本,判断是否与日期的字符串模式相匹配:使用字符串匹配的方法确认答案的文本是否包含此类模式,如果包含则确定问题意图为“日期类别”,如果不包含则进入步骤s204。

s204:对于答案的文本,判断是否与数字的字符串模式相匹配:使用字符串匹配的方法确认答案的文本是否包含此类模式,如果包含则确定问题意图为“数字类别”,如果不包含则进入步骤s205。

s205:对于答案修正后的实体标注结果,判断是否只包含一个实体且答案的文本长度小于预设的阈值:如果是,则根据实体的实体标签确定问题的意图;如果否,则进入步骤s206。

s206:对于答案修正后的实体标注结果,判断多个实体的实体标签是否相同、且除多个实体外的其他词组的词性为连词:如果答案修正后的实体标注结果中实体数量大于1,进一步需要获得答案的文本中除实体外其他词组的词性,一方面可以通过答案修正后的词性标注结果确定,另一方面可以设置一个连接词表,如果除实体外其他词组均在该连接词表中,则根据任意实体的实体标签确定问题的意图;否则进入步骤s207。

s207:判断是否存在与问题相匹配的问题文本模式:该步骤对问题的每种意图类别设置一系列文本模式,可以只匹配开头、结尾或者任意位置,根据相匹配的目标问题文本模式确定问题的意图。如果没有匹配到问题文本模式,则进入步骤s208。

s208:判断是否存在与答案修正后的词性标注结果相匹配的词性模式:该步骤对答案的通用名词类别设置一些特定的词性模式,如果存在相匹配的目标词性模式则确定问题意图为“通用名词类别”。如果不存在,则视为其他标签,可能包含一些长句、形容词、动词短语等,如“black/singing/aus$10aweekraiseovertesla'sus$18perweeksalary”。

综上,本申请由于同时考虑了三类和问题意图相关的因素,命名识别识别、词性识别和特定模式识别,通过相关步骤的串联,使得可能会被单一技术误分类的问题在多个因素的共同作用下能够被正确分类。

为验证本申请的效果,申请人在squad和newsqa数据集上分别使用本申请和基于ner的方法将原始数据集分类成若干个子集,并在每个子集上各随机选取100个样本人工评价其分类准确度,结果如下表所示。可以看出本申请在各个类别上的分类准确度要普遍高于单一基于ner的方法。

下面对本申请实施例提供的问题意图识别装置进行介绍,下文描述的问题意图识别装置可认为是,电子设备为实现本申请实施例提供的问题意图识别方法,所需设置的程序模块。下文描述的问题意图识别装置内容,可与上文描述的问题意图识别方法内容相互对参照。

图4为本申请实施例提供的一种问题意图识别装置的结构示意图。如图4所示,该问题意图识别装置包括:

数据获取模块101,用于获取待识别的问答数据,问答数据包括一个包含问题和答案的问答对、以及问答对在所属文章中的上下文文本;

文本处理模块102,用于在上下文文本中确定与答案相同的文本片段,并分别获取文本片段和答案的文本处理结果,文本处理结果包括词性标注结果和实体标注结果;

标注修正模块103,用于根据文本片段的词性标注结果修正答案的词性标注结果,以及根据文本片段的实体标注结果修正答案的实体标注结果;

意图分类模块104,用于至少基于答案修正后的词性标注结果和修正后的实体标注结果,对问题进行意图分类。

其中,在本申请实施例提供的一种问题意图识别装置中,标注修正模块103根据文本片段的词性标注结果修正答案的词性标注结果,包括:

统计文本片段的词性标注结果的分布概率;将分布概率最高的一个词性标注结果作为答案的词性标注结果。

其中,在本申请实施例提供的一种问题意图识别装置中,标注修正模块103根据文本片段的实体标注结果修正答案的实体标注结果,包括:

获取文本片段的实体标注结果中第一实体的实体标签、以及答案的实体标注结果中第二实体的实体标签;对第一实体和第二实体进行合并去重,得到第三实体;根据第三实体在文本片段的实体标注结果、以及答案的实体标注结果中的实体标签中的至少一个,确定第三实体的目标实体标签,第三实体的目标实体标签属于答案修正后的实体标注结果。

其中,在本申请实施例提供的一种问题意图识别装置中,标注修正模块103根据第三实体在文本片段的实体标注结果、以及答案的实体标注结果中的实体标签中的至少一个,确定第三实体的目标实体标签,包括:

如果第三实体在文本片段的实体标注结果中的实体标签为多种,则将第三实体的多种实体标签中出现频次最高的一种实体标签作为第三实体的目标实体标签。

其中,在本申请实施例提供的一种问题意图识别装置中,意图分类模块104至少基于答案修正后的词性标注结果和修正后的实体标注结果,对问题进行意图分类,包括:

如果答案修正后的实体标注结果中包含多个实体、且多个实体在答案修正后的实体标注结果中的实体标签属于同一种,识别答案修正后的词性标注结果中除多个实体外的其他词组的词性;如果其他词组的词性均为连词,则根据多个实体在答案修正后的实体标注结果中的同一种实体标签确定问题的意图。

进一步的,在本申请实施例提供的一种问题意图识别装置中,意图分类模块104至少基于答案修正后的词性标注结果和修正后的实体标注结果,对问题进行意图分类还包括:

如果其他词组的词性不均为连接词,对问题匹配预设的问题文本模式,以根据相匹配的目标问题文本模式确定问题的意图。

进一步的,在本申请实施例提供的一种问题意图识别装置中,意图分类模块104至少基于答案修正后的词性标注结果和修正后的实体标注结果,对问题进行意图分类还包括:

对问题匹配预设的字符串模式,以根据相匹配的目标字符串模式确定问题的意图。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机可执行指令,该计算机可执行指令用于执行上述问题意图识别方法。

可选的,计算机可执行指令的细化功能和扩展功能可参照上文描述。

以上对本申请所提供的一种问题意图识别方法、装置、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素,或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1