基于知识卡片的智能问答方法、装置、设备及存储介质与流程

文档序号:26713939发布日期:2021-09-22 19:41阅读:171来源:国知局
基于知识卡片的智能问答方法、装置、设备及存储介质与流程
基于知识卡片的智能问答方法、装置、设备及存储介质
【技术领域】
1.本发明涉及人工智能技术领域,尤其涉及一种基于知识卡片的智能问答方法、装置、设备及存储介质。


背景技术:

2.智能问答机器人是未来智能化发展中人机交互的主要方式,特别是各种客服机器人,目前在各大企业都有广泛的应用。通过智能问答机器人了降低人工成本,提高了服务质量。
3.传统的问答方法主要是依靠关键字匹配的搜索引擎来查找用户所需要的信息,往往很难为用户返回一个简洁而准确的答案,甚至会搜索出很多无用的信息。现有技术中的智能问答机器人基于句子相似度的faq问答系统,与传统的依靠关键字匹配的搜索引擎相比,通过句子语义相似度匹配的方法在知识库已有的问题

答案对集合中找到与用户问题相匹配的问句,就能够准确的找到用户所需的答案。
4.现有技术中智能问答大多依靠知识库进行,知识库滞后以及实体信息利用不充分导致的答案与问题匹配度不高。


技术实现要素:

5.本发明的目的在于提供一种基于知识卡片的智能问答方法、装置、设备及存储介质,以解决现有技术中智能问答准确率低的技术问题。
6.本发明的技术方案如下:提供一种基于知识卡片的智能问答方法,包括:
7.根据预设的产品知识图谱构建每个产品的树结构属性图,其中,所述树结构属性图包括至少一个层,每一层包括至少一个属性,每一个属性对应一个知识卡片;
8.接收客户端发送的问题文本,对所述问题文本中的句子进行分字处理,得到所述问题文本对应的字符序列;
9.对所述字符序列进行字向量化处理,获取所述问题文本基于字的第一特征向量;
10.将所述问题文本的字符序列输入至预先训练好的命名实体识别模型中,输出所述问题文本的实体信息序列,其中,所述实体信息序列包括实体位置以及实体类型;
11.根据所述问题文本的所述实体信息序列生成所述问题文本的实体类型编码向量;
12.将所述第一特征向量和所述实体类型编码向量输入至预先训练好的意图识别模型中,对所述问题文本的意图进行预测,输出意图识别结果,其中,所述意图识别结果包括至少一个意图类型,所述意图识别模型中预设的意图类型标签与所述树结构属性图的属性对应;
13.根据所述实体信息序列获取所述问题文本对应的产品,输出所述产品的与所述意图类型对应的属性的知识卡片。
14.可选地,所述根据预设的产品知识图谱构建每个产品的树结构属性图,包括:
15.根据预设的产品知识图谱构建每个产品的树结构属性图框架,其中,所述树结构
属性图框架包括多个根节点,每个所述根节点包括至少一层子节点,每个节点对应一个属性;
16.根据叶子节点对应属性的知识内容生成所述叶子节点的知识卡片;
17.根据当前非叶子节点的下一层节点的知识卡片生成所述当前非叶子节点的知识卡片,直至所述根节点,得到每个产品的所述树结构属性图。
18.可选地,所述将所述问题文本的字符序列输入至预先训练好的命名实体识别模型中,输出所述问题文本的实体信息序列,包括:
19.获取实体创建信息,根据所述实体创建信息获取实体名称向量和实体类型,在实体表中添加所述实体名称向量对应的第一表列,在类型表中添加所述实体类型对应的第二表列,建立所述实体表和所述类型表的关联关系,得到保险产品实体库;
20.将所述问题文本的字符序列输入至预先训练好的命名实体识别模型中,将所述字符序列在所述保险产品实体库中进行匹配查询,根据所述关联关系生成查询结果;
21.根据所述查询结果对所述字符序列进行标注,得到中间字符序列;
22.根据所述中间字符序列的未标注部分进行命名实体识别,输出所述问题文本的实体信息序列,其中,所述实体信息序列包括实体位置以及实体类型。
23.可选地,所述根据所述问题文本的所述实体信息序列生成所述问题文本的实体类型编码向量,包括:
24.对所述实体信息序列中每一个实体类型进行离散化处理得到对应的离散特征向量;
25.将所述实体类型的离散特征向量根据所述实体位置生成初始实体编码向量;
26.统计所述实体信息序列中各实体对应分词的使用次数;
27.当所述使用次数小于或等于预设阈值时,利用经验系数调整对应所述离散特征向量的权重,得到所述实体编码向量。
28.可选地,所述意图识别模型的训练步骤包括:
29.获取至少一个训练样本,其中,所述训练样本包括问题文本的所述第一特征向量和所述实体类型编码向量以及真实意图类型标签;
30.将所述训练样本输入至待训练的意图识别模型的策略函数中,得到所述策略函数输出的每一时间步的标签概率分布;
31.根据所述标签概率分布进行采样,得到每一时间步的预测标签序列;
32.根据每一时间步的所述预测标签序列以及所述真实标签序列,对所述策略函数的参数进行训练,直至所述策略函数收敛,得到训练完成的意图识别模型。
33.可选地,所述将所述第一特征向量和所述实体类型编码向量输入至预先训练好的意图识别模型中,对所述问题文本的意图进行预测,输出意图识别结果,包括:
34.利用所述意图识别模型的输入层将所述第一特征向量和所述实体类型编码向量进行拼接,得到融合特征向量;
35.将所述融合特征向量输入至embedding层中,获取稠密融合特征向量;
36.将所述稠密融合特征向量输入至分类器中,得到输出结果;
37.将所述输出结果进行归一化处理,得到概率特征向量,其中,所述概率特征向量包括所述问题文本是每个预设意图类型的概率;
38.将所述概率特征向量中概率大于预设概率阈值的意图类型作为意图识别结果。
39.可选地,所述根据所述实体信息序列获取所述问题文本对应的产品,输出所述产品的与所述意图类型对应的属性的知识卡片,包括:
40.根据所述实体信息序列中至少一个实体信息计算所述实体信息序列与不同产品的关联度;
41.获取所述关联度超过预设关联度阈值的产品,作为所述问题文本对应的产品;
42.获取所述产品的树结构属性图中与所述意图类型对应的属性的知识卡片,输出获取的所述知识卡片。
43.本发明的另一技术方案如下:提供一种基于知识卡片的智能问答装置,包括:
44.树结构构建模块,用于根据预设的产品知识图谱构建每个产品的树结构属性图,其中,所述树结构属性图包括至少一个层,每一层包括至少一个属性,每一个属性对应一个知识卡片;
45.预处理模块,用于接收客户端发送的问题文本,对所述问题文本中的句子进行分字处理,得到所述问题文本对应的字符序列;
46.特征提取模块,用于对所述字符序列进行字向量化处理,获取所述问题文本基于字的第一特征向量;
47.实体识别模块,用于将所述问题文本的字符序列输入至预先训练好的命名实体识别模型中,输出所述问题文本的实体信息序列,其中,所述实体信息序列包括实体位置以及实体类型;
48.实体编码模块,用于根据所述问题文本的所述实体信息序列生成所述问题文本的实体类型编码向量;
49.意图识别模块,用于将所述第一特征向量和所述实体类型编码向量输入至预先训练好的意图识别模型中,对所述问题文本的意图进行预测,输出意图识别结果,其中,所述意图识别结果包括至少一个意图类型,所述意图识别模型中预设的意图类型标签与所述树结构属性图的属性对应;
50.答案输出模块,用于根据所述实体信息序列获取所述问题文本对应的产品,输出所述产品的与所述意图类型对应的属性的知识卡片。
51.本发明的另一技术方案如下:提供一种电子设备,包括处理器、以及与所述处理器耦接的存储器,所述存储器存储有可被所述处理器执行的程序指令;所述处理器执行所述存储器存储的所述程序指令时实现上述的基于知识卡片的智能问答方法。
52.本发明的另一技术方案如下:提供一种存储介质,所述存储介质内存储有程序指令,所述程序指令被处理器执行时实现如上述的基于知识卡片的智能问答方法。
53.本发明的有益效果在于:本发明的基于知识卡片的智能问答方法、装置、设备及存储介质,根据预设的产品知识图谱构建每个产品的树结构属性图,为每个属性配置知识卡片;对问题文本进行实体识别,实体识别的结果用于匹配产品的类型以及构建意图识别模型的输入向量;根据输入向量对问题文本进行意图识别,意图识别的结果直接对应树结构属性图中的属性,根据实体识别结果匹配的产品中与所述意图类型对应的属性的知识卡片输出问题文本的答案;上述方案中,通过树结构属性图以及知识卡片的设置,为智能问答提供了全新的处理流程以及答案召回方式,意图识别模型训练时,预设的意图类型与树结构
属性图中属性对应,直接反馈对应属性的知识卡片,无需在知识图谱及知识库中进行复杂的搜索及匹配,能够提高复杂问题的回答准确性,同时提高了回复速度;通过将字向量化的第一特征向量与实体类型编码向量结合,避免了问题文本中使用频率不高的新词对于意图识别的影响,通过提高意图识别的准确性,进而提高了答案的准确性,有利于将正确属性的知识卡片推荐给用户。
【附图说明】
54.图1为本发明第一实施例的基于知识卡片的智能问答方法的流程图;
55.图2为本发明第一实施例的基于知识卡片的智能问答方法中步骤s101的子步骤流程图;
56.图3为本发明第一实施例的基于知识卡片的智能问答方法中步骤s104的子步骤流程图;
57.图4为本发明第一实施例的基于知识卡片的智能问答方法中步骤s105的子步骤流程图;
58.图5为本发明第一实施例的基于知识卡片的智能问答方法中意图识别模型的训练步骤流程图;
59.图6为本发明第一实施例的基于知识卡片的智能问答方法中步骤s107的子步骤流程图;
60.图7为本发明第二实施例的基于知识卡片的智能问答方法的流程图;
61.图8为本发明第三实施例的基于知识卡片的智能问答装置的结构示意图;
62.图9为本发明第四实施例的电子设备的结构示意图;
63.图10为本发明第五实施例的存储介质的结构示意图。
【具体实施方式】
64.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
65.本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后
……
)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
66.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包
含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
67.图1是本发明第一实施例的基于知识卡片的智能问答方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该基于知识卡片的智能问答方法包括步骤:
68.s101,根据预设的产品知识图谱构建每个产品的树结构属性图,其中,所述树结构属性图包括至少一个层,每一层包括至少一个属性,每一个属性对应一个知识卡片;
69.其中,产品知识图谱是基于web of data技术框架的应用与实现。产品知识图谱实现对各保险产品从字符串描述到结构化语义描述,是对保险产品的知识映射(mapping world knowledge),本体可以作为知识图谱表示的概念模型和逻辑基础。产品知识图谱可以描述不同层次和粒度的概念抽象。产品知识图谱可以体现为一张巨大的图,图中的节点表示数据源,而图中的边代表不同数据源中相同实体链接。产品知识图谱可以用于挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
70.其中,本实施例的应用场景为保险业务相关咨询,例如,潜在待投保客户对于保险产品的咨询,已投保客户对于理赔或缴费事项的咨询,保险代理人在产品销售过程中进行产品咨询以为客户解答疑问或制定投保方案等。
71.其中,每个产品的树结构属性图的架构是相似的,例如,每个产品的第一层包括多个一级节点,每个一级节点对应一个属性,例如,佣金比例、保障详情、交费说明、投保规则、理赔规则等;在一级节点下可以设置一个或多个二级节点,每个二级节点对应一个属性,例如,作为一级节点的投保规则进一步包括投保年龄、起保点、职业加费、犹豫期、拒保风险等;在二级节点下还可以继续设置三级节点。
72.其中,知识卡片用于记录与对应属性的知识内容,不同的产品的树结构属性图中各层属性是相同的,不同产品的树结构属性图中相同的属性对应的知识卡片的内容一般不同。当新产品上市时,只需要针对其各层属性进行知识卡片的构建,无需更新知识库,适应于保险产品智能问答的场景。
73.在一个可选的实施方式中,请参阅图2所示,步骤s101具体包括:
74.s201,根据预设的产品知识图谱构建每个产品的树结构属性图框架,其中,所述树结构属性图框架包括多个根节点,每个所述根节点包括至少一层子节点,每个节点对应一个属性;
75.s202,根据叶子节点对应属性的知识内容生成所述叶子节点的知识卡片;
76.s203,根据当前非叶子节点的下一层节点的知识卡片生成所述当前非叶子节点的知识卡片,直至所述根节点,得到每个产品的所述树结构属性图;
77.其中,将下层节点的知识卡片进行聚合形成上一层节点的知识卡片。
78.s102,接收客户端发送的问题文本,对所述问题文本中的句子进行分字处理,得到所述问题文本对应的字符序列;
79.其中,在进行分字处理时,对所述问题文本进行去停用词以及去特殊符号处理后,使用深度学习分词器(tokenizer)进行分字处理。具体地,可以利用预训练模型bert(bidirectional encoder representation from transformers,来自变换器的双向编码
表示)对去除停用词和特殊符号后的输入文本进行字符级别的编码,得到初始的字向量表示,即问题文本对应的字符序列。其中,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言文本之前或之后会自动过滤掉某些字或词,停用词主要包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等。特殊字符是相对于传统或常用的符号外,使用频率较少字符且难以直接输入的符号,比如数学符号、单位符号、制表符等。去停用词、去特殊符号的目的是使输入文本更为简洁,提高智能问答的效率。
80.s103,对所述字符序列进行字向量化处理,获取所述问题文本基于字的第一特征向量;
81.在一个可选的实施方式中,可以利用bert网络对所述字符序列进行字向量化处理,获取所述问题文本基于字的第一特征向量,其中,所述bert网络用于对所述字符序列进行语义提取。具体地,bert网络包括输入层、输出层以及设置在输入层和输出层之间的多个transformer编码器(transformer encoder),输入层、第一个transformer编码器、第二个transformer编码器、
……
、第n个transformer编码器及输出层依次连接。所述bert网络用于对字符序列进行语义提取,输出融合句子语义的字向量,语义提取后的融合句子语义的字向量即为第一特征向量,transformer编码器用于识别字在问题文本中的依赖关系和时序特征,具体地,每个transformer编码器包括四个部分,分别为字向量与位置编码、注意力机制、残差连接与层标准化、和前馈,其中,字向量与位置编码的部分用于提供问题文本中每个字的位置信息;注意力机制的部分用于保持输入文本中的每个字向量都含有该问题文本中所有字向量的信息;残差连接与层标准化用于对字向量与位置编码的输出和注意力机制的输出进行残差连接(相加),再将残差连接后的输出进行归一化处理;前馈的部分由两层线性映射组成,并用relu激活函数激活,输出问题文本的隐藏序列。进一步地,bert网络中transformer编码器可以具有残差连接,残差连接的两个不同transformer编码器中高层的transformer编码器最终输出低层transformer编码器的隐藏序列和高层transformer编码器的隐藏序列之和至高层transformer编码器的下一层。
82.s104,将所述问题文本的字符序列输入至预先训练好的命名实体识别模型中,输出所述问题文本的实体信息序列,其中,所述实体信息序列包括实体位置以及实体类型;
83.其中,狭义的命名实体(named entity)是指人名、机构名、地名以及其他所有以名称为标识的实体,而更广泛的实体还包括数字、日期、货币、地址等,于是,广义的命名实体除了上述的实体类,还包括了时间类和数字类。
84.命名实体识别的任务就是识别出待处理文本中不同类型的命名实体。一般地,命名实体的类型主要包括实体类、时间类和数字类(三大类);进一步地,可以将命名实体的类型分为人名、机构名、地名、时间、日期、货币和百分比(七小类);更进一步地,可以根据不同应用领域进行细分,例如,在购物领域内,需要识别的命名实体类型可以包括人名、地址、购买时间等。在本实施例的保险业务应用场景中,实体类型可以包括保险产品名称、人名、机构名、医学专有名称、金融专有名词、地址、保单编号、年龄、日期、数量等,其中,产品名称例如为平安六福、e生平安、安诊无忧等具体商品名称,还可以为健康险、投资险、车险、医疗险、重疾险等商品类型属性;医学专有名称可能出现在投保咨询或者理赔咨询中,医学名称可以进一步细分为疾病名、症状、身体部位、病症、药物名称等。
85.其中,命名实体识别(named entity recognition,ner)表示从一段自然语言文本
中找出相关实体,并标注出其位置以及类型。实体可以根据需要进行定义,只要是业务需要的特殊文本片段都可以称为实体。在本实施例中,由命名实体识别的实体即实体信息序列,通过命名实体识别模型识别出的实体信息序列的序列实体类型,可以是上文的具体实体类型。其中,采用预先训练的命名实体识别模型,确定所述问题文本中实体信息序列的位置信息和实体类型信息,具体地,对所述问题文本的字符进行序列标记,该序列标记的结果可以包含实体信息序列的位置信息和实体类型信息;所述位置信息,用于表示构成所述实体信息序列的字符在所述问题文本字符串中的具体位置;所述实体类型信息,用于表示所述实体信息序列的具体实体类型。进行序列标记的方法包括但可以采用任意现有的序列标记方式,例如,可以采用bieo标注方式(即,采用begin,intermediate,end,other标注)。假定所得实体信息序列的具体实体类型有m种,可以将各具体实体类型记为c1,c2,c3,
……
,cm

1,cm。给定一个字符长度为n的问题文本的字符序列w={w1,w2,w3,
……
,wn

1,wn},该字符序列w中若干个连续的字符可以组成序列s=[wk

i,wk

i+1,
……
,wk]。如果序列s是属于cj实体类型,那么基于命名实体识别技术进行实体信息序列识别的结果可以进行如下标记:将wk

i标记为cj_b,将wk

i+1至wk

1标记为cj_i,将wk标记为cj_e。其中,b即begin,用于标识实体信息序列的开始字符;e即end,用于标识实体信息序列的结束字符;i即intermediate,用于标识实体信息序列的中间字符。本步骤中的命名实体识别模型具体可以采用hmm、memm、crf、nn/cnn

crf、rnn

crf、bi

lstm+crf、bert+crf等机器学习或深度学习方法。
[0086]
例如,问题文本为“体检发现甲状腺结节和乳腺增生还能投保e生平安重疾险吗?”,经过命名实体模型识别后,能提取的实体信息包括:疾病名:甲状腺结节;疾病名:乳腺增生;产品名:e生平安;产品名:重疾险。
[0087]
又如,问题文本为“长沙分公司的代理人销售平安六福可以拿多少提成”,经过命名实体模型识别后,能提取的实体信息包括:机构名:长沙分公司;职位名:代理人;产品名:平安六福;业务相关指标名:提成。
[0088]
在一个可选的实施方式中,为了更好的适用保险业务领域,可以为命名实体识别模型建立对应的保险产品实体库,用于保存商业化的保险产品名称(商业名称)或者保险公司内部交流名词,例如,“平安六福”,“e生平安”等。具体地,请参阅图3所示,步骤s104具体包括:
[0089]
s301,获取实体创建信息,根据所述实体创建信息获取实体名称向量和实体类型,在实体表中添加所述实体名称向量对应的第一表列,在类型表中添加所述实体类型对应的第二表列,建立所述实体表和所述类型表的关联关系,得到保险产品实体库;
[0090]
s302,将所述问题文本的字符序列输入至预先训练好的命名实体识别模型中,将所述字符序列在所述保险产品实体库中进行匹配查询,根据所述关联关系生成查询结果;
[0091]
s303,根据所述查询结果对所述字符序列进行标注,得到中间字符序列;
[0092]
s304,根据所述中间字符序列的未标注部分进行命名实体识别,输出所述问题文本的实体信息序列,其中,所述实体信息序列包括实体位置以及实体类型。
[0093]
当出现新产品时,将其对应的商品名称添加到保险产品实体库中;当产品停售后,将其对应的商品名称从保险产品实体库中删除,无需对命名实体识别模型重新进行训练。
[0094]
s105,根据所述问题文本的所述实体信息序列生成所述问题文本的实体类型编码向量;
[0095]
在本步骤中,根据实体类型进行编码,具体过程如下:对每一个实体类型进行离散化处理得到对应的离散特征;将所述实体类型的离散特征根据所述实体位置生成所述实体编码向量。例如,离散化处理可以是one

hot编码,所述one

hot编码转换为对每一所述实体类型分配一个整数值,即对每一实体类型进行编码,然后将该整数值转换成二值数组向量,将实体信息序列中的每个实体类型进行one

hot转换,再按照实体位置进行拼接。
[0096]
本步骤中的实体类型编码向量与现有技术中的实体向量不同,不是根据实体对应的分词或近义词的向量进行构建,而是根据保险产品业务咨询场景中出现的各实体类型进行编码后获取,例如,问题文本中的“甲状腺结节”以及“乳腺增生”均为疾病名,在实体类型编码向量中对应编码相同。
[0097]
一般地,在实体类型编码向量中,各实体类型的权重初始值均为1,当实体信息序列中识别为实体对应的分词为新词(例如,出现了新产品),为了保证后续意图识别的准确率,可以将该新词对应的实体类型的离散特征的权重进行调整,增加该新词的实体类型对后续意图识别的影响力,在一个可选的实施方式中,请参阅图4所示,步骤s105具体包括:
[0098]
s401,对每一个实体类型进行离散化处理得到对应的离散特征向量;
[0099]
s402,将所述实体类型的离散特征向量根据所述实体位置生成初始实体编码向量;
[0100]
s403,统计所述实体信息序列中各实体对应分词的使用次数;
[0101]
s404,当所述使用次数小于或等于预设阈值时,利用经验系数调整对应所述离散特征向量的权重,得到所述实体编码向量。
[0102]
具体地,在上述步骤中,预设阈值例如为5次、10次或20次,经验系数k可以根据经验值进行确定,经验系数k大于1.0,例如,k可以为1.25或1.5。
[0103]
s106,将所述第一特征向量和所述实体类型编码向量输入至预先训练好的意图识别模型中,对所述问题文本的意图进行预测,输出意图识别结果,其中,所述意图识别结果包括至少一个意图类型,所述意图识别模型中预设的意图类型标签与所述树结构属性图的属性对应;
[0104]
在一个可选的实施方式中,意图识别模型的输入层将所述第一特征向量和所述实体类型编码向量进行拼接,得到融合特征向量;意图识别模型再根据所述融合特征向量输出意图识别结果。
[0105]
在本步骤中,首先将融合特征向量输入至embedding层中映射成一个embedding表示,embedding层将其转换到低维的稠密特征向量表示,得到稠密融合特征向量;将所述稠密融合特征向量输入至分类器中,得到输出结果,将所述输出结果进行归一化处理,得到概率特征向量,所述概率特征向量包括所述问题文本是每个预设意图类型的概率,将所述概率特征向量中概率大于预设概率阈值的意图类型作为意图识别结果。
[0106]
在本实施例中,实体类型编码向量弥补了字向量化的第一特征向量对一些字面相似而实际含义不同的实体无法区别的问题,提高了意图识别的准确性。并且,通过步骤s401至s404的优选方案,更一步提高了意图识别的准确性。
[0107]
问题文本为“体检发现甲状腺结节和乳腺增生还能投保e生平安重疾险吗?”,经过意图识别模型识别后,意图识别结果为投保规则以及拒保风险,拒保风险为投保规则的下层属性。
[0108]
又如,问题文本为“长沙分公司的代理人销售平安六福可以拿多少提成”,经过意图识别模型识别后,意图识别结果为佣金比例。
[0109]
预设的意图类型与树结构属性图各层的属性一一对应,具体地,请参阅图5所示,意图识别模型的训练过程如下:
[0110]
s501,获取至少一个训练样本,其中,所述训练样本包括问题文本的融合特征向量以及真实意图类型标签;
[0111]
其中,融合特征向量按照步骤s102至s105的方法生成,对训练样本中每个问题本文的真实意图类型进行标注,形成真实意图类型标签,具体地,问题文本的真实意图类型标签可以包括多个真实意图类型,真实意图类型是根据树结构属性图中的属性确定的,多个真实意图标签中可以包括不同层的属性,例如,问题文本的意图为健康险的拒保风险,真实意图类型可以同时标注拒保风险和投保规则(拒保风险的上层)。
[0112]
s502,将所述训练样本输入至待训练的意图识别模型的策略函数中,得到所述策略函数输出的每一时间步的标签概率分布;
[0113]
其中,其中,时间步可以理解为时间区间,是将一个持续性的过程分解成小段,每一小段即为一个时间步,在模型训练的过程中,一次训练包括多个循环,每个循环对应一个时间步。每一时间步的标签概率分布包括所述问题文本是每个预设意图类型的概率。
[0114]
s503,根据所述标签概率分布进行采样,得到每一时间步的预测标签序列;
[0115]
其中,根据每一时间步的标签概率分布进行随机采样,将采样值作为每一时间步的预测标签,在本实施例中,通过调整策略函数的参数,能够使得每个分词的采样结果能够更加接近真实意图类型标签序列。
[0116]
s504,根据每一时间步的所述预测标签序列以及所述真实标签序列,对所述策略函数的参数进行训练,直至所述策略函数收敛,得到训练完成的意图识别模型。
[0117]
s107,根据所述实体信息序列获取所述问题文本对应的产品,输出所述产品的与所述意图类型对应的属性的知识卡片;
[0118]
其中,命名实体模型识别出的实体信息可以确定问题文本指向的产品,例如,上述的“e生平安”;意图识别模型识别出的意图类型直接对应了树结构属性图中的属性,如上述的“投保规则”和“拒保风险”,利用树结构属性图,召回“e生平安”的“拒保风险”对应的知识卡片以及“投保规则”对应的知识卡片,直接作为答案文本反馈至用户。
[0119]
另外,有一些问题文本可能没有直接指向产品的实体,例如,问题文本“我现在在东二环出了刮擦,该怎么办”,用户想知道车险的报案程序(理赔程序的下层属性),但是,提取的实体信息为:道路名:东二环;交通肇事名:刮擦;根据上述两个实体信息,可以指向产品为车险。
[0120]
在一个可选的实施方式中,请参阅图6所示,步骤s107具体包括:
[0121]
s601,根据所述实体信息序列中至少一个实体信息计算所述实体信息序列与不同产品的关联度;
[0122]
s602,获取所述关联度超过预设关联度阈值的产品,作为所述问题文本对应的产品;
[0123]
s603,获取所述产品的树结构属性图中与所述意图类型对应的属性的知识卡片,输出获取的所述知识卡片。
[0124]
图7是本发明第二实施例的基于知识卡片的智能问答方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图7所示的流程顺序为限。如图7所示,该基于知识卡片的智能问答方法包括步骤:
[0125]
s701,根据预设的产品知识图谱构建每个产品的树结构属性图,其中,所述树结构属性图包括至少一个层,每一层包括至少一个属性,每一个属性对应一个知识卡片。
[0126]
s702,接收客户端发送的问题文本,对所述问题文本中的句子进行分字处理,得到所述问题文本对应的字符序列。
[0127]
s703,对所述字符序列进行字向量化处理,获取所述问题文本基于字的第一特征向量。
[0128]
s704,将所述问题文本的字符序列输入至预先训练好的命名实体识别模型中,输出所述问题文本的实体信息序列,其中,所述实体信息序列包括实体位置以及实体类型。
[0129]
s705,根据所述问题文本的所述实体信息序列生成所述问题文本的实体类型编码向量。
[0130]
s706,将所述第一特征向量和所述实体类型编码向量输入至预先训练好的意图识别模型中,对所述问题文本的意图进行预测,输出意图识别结果,其中,所述意图识别结果包括至少一个意图类型,所述意图识别模型中预设的意图类型标签与所述树结构属性图的属性对应。
[0131]
s707,根据所述实体信息序列获取所述问题文本对应的产品,输出所述产品的与所述意图类型对应的属性的知识卡片。
[0132]
步骤s701至步骤s707具体参见第一实施例的步骤s101至步骤s107,在此不进行一一赘述。
[0133]
s708,根据将所述第一特征向量和所述实体类型编码向量建立所述问题文本的特征集合,将所述特征集合上传至区块链中,以使得所述区块链对特征集合进行加密存储。
[0134]
具体地,基于问题文本的特征集合得到对应的摘要信息,具体来说,摘要信息为问题文本的特征集合进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证问题文本的特征集合是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0135]
图8是本发明第三实施例的基于知识卡片的智能问答装置的结构示意图。如图8所示,该基于知识卡片的智能问答装置30包括树结构构建模块31、预处理模块32、特征提取模块33、实体识别模块34、实体编码模块35、意图识别模块36以及答案输出模块37,其中,树结构构建模块31,用于根据预设的产品知识图谱构建每个产品的树结构属性图,其中,所述树结构属性图包括至少一个层,每一层包括至少一个属性,每一个属性对应一个知识卡片;预处理模块32,用于接收客户端发送的问题文本,对所述问题文本中的句子进行分字处理,得到所述问题文本对应的字符序列;特征提取模块33,用于对所述字符序列进行字向量化处理,获取所述问题文本基于字的第一特征向量;实体识别模块34,用于将所述问题文本的字
符序列输入至预先训练好的命名实体识别模型中,输出所述问题文本的实体信息序列,其中,所述实体信息序列包括实体位置以及实体类型;实体编码模块35,用于根据所述问题文本的所述实体信息序列生成所述问题文本的实体类型编码向量;意图识别模块36,用于将所述第一特征向量和所述实体类型编码向量输入至预先训练好的意图识别模型中,对所述问题文本的意图进行预测,输出意图识别结果,其中,所述意图识别结果包括至少一个意图类型,所述意图识别模型中预设的意图类型标签与所述树结构属性图的属性对应;答案输出模块37,用于根据所述实体信息序列获取所述问题文本对应的产品,输出所述产品的与所述意图类型对应的属性的知识卡片。
[0136]
进一步地,所述树结构构建模块31还用于根据预设的产品知识图谱构建每个产品的树结构属性图框架,其中,所述树结构属性图框架包括多个根节点,每个所述根节点包括至少一层子节点,每个节点对应一个属性;根据叶子节点对应属性的知识内容生成所述叶子节点的知识卡片;根据当前非叶子节点的下一层节点的知识卡片生成所述当前非叶子节点的知识卡片,直至所述根节点,得到每个产品的所述树结构属性图。
[0137]
进一步地,所述实体识别模块34还用于获取实体创建信息,根据所述实体创建信息获取实体名称向量和实体类型,在实体表中添加所述实体名称向量对应的第一表列,在类型表中添加所述实体类型对应的第二表列,建立所述实体表和所述类型表的关联关系,得到保险产品实体库;将所述问题文本的字符序列输入至预先训练好的命名实体识别模型中,将所述字符序列在所述保险产品实体库中进行匹配查询,根据所述关联关系生成查询结果;根据所述查询结果对所述字符序列进行标注,得到中间字符序列;根据所述中间字符序列的未标注部分进行命名实体识别,输出所述问题文本的实体信息序列,其中,所述实体信息序列包括实体位置以及实体类型。
[0138]
进一步地,所述实体编码模块35还用于对所述实体信息序列中每一个实体类型进行离散化处理得到对应的离散特征向量;将所述实体类型的离散特征向量根据所述实体位置生成初始实体编码向量;统计所述实体信息序列中各实体对应分词的使用次数;当所述使用次数小于或等于预设阈值时,利用经验系数调整对应所述离散特征向量的权重,得到所述实体编码向量。
[0139]
进一步地,所述意图识别模块36还用于获取至少一个训练样本,其中,所述训练样本包括问题文本的所述第一特征向量和所述实体类型编码向量以及真实意图类型标签;将所述训练样本输入至待训练的意图识别模型的策略函数中,得到所述策略函数输出的每一时间步的标签概率分布;根据所述标签概率分布进行采样,得到每一时间步的预测标签序列;根据每一时间步的所述预测标签序列以及所述真实标签序列,对所述策略函数的参数进行训练,直至所述策略函数收敛,得到训练完成的意图识别模型。
[0140]
进一步地,所述意图识别模块36还用于利用所述意图识别模型的输入层将所述第一特征向量和所述实体类型编码向量进行拼接,得到融合特征向量;将所述融合特征向量输入至embedding层中,获取稠密融合特征向量;将所述稠密融合特征向量输入至分类器中,得到输出结果;将所述输出结果进行归一化处理,得到概率特征向量,其中,所述概率特征向量包括所述问题文本是每个预设意图类型的概率;将所述概率特征向量中概率大于预设概率阈值的意图类型作为意图识别结果。
[0141]
进一步地,所述答案输出模块37还用于根据所述实体信息序列中至少一个实体信
息计算所述实体信息序列与不同产品的关联度;获取所述关联度超过预设关联度阈值的产品,作为所述问题文本对应的产品;获取所述产品的树结构属性图中与所述意图类型对应的属性的知识卡片,输出获取的所述知识卡片。
[0142]
图9是本发明第四实施例的电子设备的结构示意图。如图9所示,该电子设备40包括处理器41及和处理器41耦接的存储器42。
[0143]
存储器42存储有用于实现上述任一实施例的所述基于知识卡片的智能问答方法的程序指令。
[0144]
处理器41用于执行存储器42存储的程序指令以进行基于知识卡片的智能问答。
[0145]
其中,处理器41还可以称为cpu(central processing unit,中央处理单元)。处理器41可能是一种集成电路芯片,具有信号的处理能力。处理器41还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0146]
参阅图10,图10为本发明第五实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序指令51,所述存储介质可以是非易失性,也可以是易失性。其中,该程序指令51可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
[0147]
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0148]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围。
[0149]
以上所述的仅是本发明的实施方式,在此应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1