回馈数据图谱生成方法、生成设备、问答设备及冰箱

文档序号:31704696发布日期:2022-10-01 10:21阅读:43来源:国知局
回馈数据图谱生成方法、生成设备、问答设备及冰箱

1.本发明涉及信息技术领域,尤其涉及一种回馈数据图谱生成方法、生成设备、问答设备及冰箱。


背景技术:

2.现如今,搭载自然语言处理系统以便于进行信息检索,已经成为人们工作和生活中不可或缺的一部分,当前的检索引擎主要通过对输入的语句进行关键词拆分,对既有的数据库进行遍历检索,并按照关键词的重复度进行降序排列,以方便人们获取想要得到的信息。然而,由于数据库内的数据排列较为零散,每次更换检索关键词都需要对整个数据库进行遍历,检索效果差,且回馈数据生成的速度缓慢。
3.现有技术中还提供一种对数据库建立知识图谱,将数据库中较为核心的内容提炼为实体,从而建立实体节点以及实体之间的关联关系,以使用户输入关键词后,可以根据关键词与实体之间的相似度进行检索,从而加快检索速度。但此种技术方案仍然存在一些缺陷:(1)更多地关注与实体本身及实体之间的关系,轻视了实体与数据库中其他内容之间的关联关系,导致检索抽取时输出的内容纷繁复杂,且与输入检索关键词的匹配度不高;(2)抽取实体及相关数据的过程中,在相关数据分布于数据库中多个位置时,仍然需要对数据库进行遍历才能得到完整的相关数据,对提升检索速度的贡献较小;(3)即使建立了实体与相关数据的关联性,现有技术中相关数据的划分较为大略,通常是以大量的数据作为一组相关数据,数据图谱的粒度级较大,导致检索精准度较低。


技术实现要素:

4.本发明的目的之一在于提供一种回馈数据图谱生成方法,以解决现有技术中生成方法搭建的图谱检索结果内容复杂、匹配度低,提高检索速度的程度有限,以及粒度级较粗所导致的检索精准度低的技术问题。
5.本发明的目的之一在于提供一种回馈数据图谱生成设备。
6.本发明的目的之一在于提供一种问答设备。
7.本发明的目的之一在于提供一种冰箱。
8.为实现上述发明目的之一,本发明一实施方式提供一种回馈数据图谱生成方法,包括:遍历原始信息库中所有原始语料,生成基础目录数据;根据所述基础目录数据,抽取形成实体信息元素以及实体关系元素;根据所述基础目录数据和所述原始信息库,依次执行属性融合以及同属性句段聚合,生成对应于不同文本句段数据的多组句段属性元素;其中,所述文本句段数据在所述原始语料中包含有多组;根据所述实体信息元素构建实体节点,根据所述实体关系元素建立实体间的关联关系,将所述句段属性元素按照句段与实体间的关联关系,对应存入所述实体节点中,生成回馈数据图谱。
9.作为本发明一实施方式的进一步改进,所述方法具体包括:根据所述基础目录数据在所述原始信息库中检索,得到对应于不同基础目录数据的多组待处理文本;根据所述
待处理文本,依次执行双向特征表示以及属性分类识别,得到对应于不同文本句段数据的多组初级属性数据;根据所述初级属性数据、所述文本句段数据以及实体指向数据,依次执行属性融合和同属性句段聚合,生成所述句段属性元素;其中,所述实体指向数据表征所述文本句段数据与所述实体间的关联关系。
10.作为本发明一实施方式的进一步改进,所述方法具体包括:根据所述初级属性数据之间的相似度,对所述初级属性数据执行属性融合,重新确定对应于不同文本句段数据的多组句段属性数据,并根据所述句段属性数据,对句段属性数据相同的多组文本句段数据执行同属性句段聚合,重新确定对应于不同文本句段数据的多组实体指向数据;根据所述实体指向数据、所述句段属性数据以及所述文本句段数据,生成所述句段属性元素。
11.作为本发明一实施方式的进一步改进,所述方法具体包括:对所有句段属性数据进行向量化,计算得到的句段属性向量中两两之间的属性相似度值;依次根据所述属性相似度值、所述实体指向数据、所述句段属性数据的数据量、所述文本句段数据的数据量,以及所述文本句段数据在所述待处理文本中的句段位置信息,依次重新确定所述句段属性数据以及所述实体指向数据。
12.作为本发明一实施方式的进一步改进,所述句段属性向量包括第一属性向量和第二属性向量,所述句段属性数据包括分别对应于所述第一属性向量和所述第二属性向量的第一属性数据和第二属性数据,所述实体指向数据包括分别对应于所述第一属性数据和所述第二属性数据的第一指向数据和第二指向数据;所述方法具体包括:若所述第一属性向量与所述第二属性向量之间的属性相似度值满足预设的融合相似度值,则判定所述第一属性数据和所述第二属性数据具有相同的内涵;根据所述第一属性数据和所述第二属性数据分别对应的实体指向数据、所述句段属性数据的数据量、所述文本句段数据的数据量,以及所述句段位置信息,依次重新确定第一属性数据和第一指向数据,以及第二属性数据和第二指向数据。
13.作为本发明一实施方式的进一步改进,所述方法具体包括:比较所述第一属性数据的数据量大小和所述第二属性数据的数据量大小,将所述第一属性数据和所述第二属性数据设定为数据量较小的句段属性数据。
14.作为本发明一实施方式的进一步改进,所述文本句段数据包括分别对应于所述第一属性数据和所述第二属性数据的第一句段数据和第二句段数据;所述方法还包括:判断所述第一指向数据和所述第二指向数据是否指向同一实体;若否,则判断所述第一句段数据的数据量大小和所述第二句段数据的数据量大小是否相同;若不同,则将所述第一指向数据和所述第二指向数据修改为该数据量较大的文本句段数据所对应的实体指向数据。
15.作为本发明一实施方式的进一步改进,所述方法还包括:若相同,则将所述第一指向数据和所述第二指向数据修改为该值较小的实体指向数据。
16.作为本发明一实施方式的进一步改进,所述方法具体包括:遍历所述待处理文本,根据预设的分句规则进行拆分,得到所述文本句段数据;将所述文本句段数据依次输入至预设的双向特征表示模型中,依次执行向量化表示、向量编码以及融合运算,得到分别对应所述文本句段数据的词向量特征表示;将所述词向量特征表示输入预设的属性分类卷积模型中,得到对应所述词向量特征表示的词向量特征集合;调用预设的第一激活函数处理所述词向量特征集合,并根据预设的属性分类规则识别得到对应所述文本句段数据的初级属
性数据。
17.作为本发明一实施方式的进一步改进,所述方法具体包括:按照预设尺寸的卷积核、调用预设的第二激活函数,对所述词向量特征表示中的每个词向量重复执行两次卷积和激活,并对得到的一阶卷积词向量进行池化,得到对应所述词向量特征表示的多组中间词向量特征;按照预设尺寸的卷积核、调用预设的第二激活函数,对所述中间词向量特征分别重复执行两次卷积和激活,并对得到的二阶卷积词向量进行池化,得到对应所述词向量特征表示的多组最终词向量特征;将对应于同一所述词向量特征表示的最终词向量特征进行组合匹配,得到所述词向量特征集合。
18.作为本发明一实施方式的进一步改进,所述方法具体包括:按照预设分隔规则,对所述文本句段数据添加句首向量标记和句间向量标记,得到标记句段数据;将所述标记句段数据中的所有单词,分别输入位置嵌入层、分割嵌入层和和字嵌入层,得到分别对应于每个单词的位置向量表示、分割向量表示和字向量表示,并对所述位置向量表示、所述分割向量表示和所述字向量表示进行融合运算,得到对应于每个单词的单词输入向量;将所述单词输入向量分别输入至双向编码器中,依次执行双向自注意力分配、残差连接、层标准化以及线性转换,得到对应于每个单词的单词编码向量;将对应于同一标记句段数据的单词编码向量依次进行连接运算,得到对应所述文本句段数据的词向量特征表示。
19.作为本发明一实施方式的进一步改进,所述位置向量表示表征不同单词在所述标记句段数据中的位置差异,所述分割向量表示表征所述标记句段数据中不同部分之间的内容差异,所述字向量表示表征对应于不同单词的多个预设维度的向量。
20.作为本发明一实施方式的进一步改进,所述方法具体包括:在所述文本句段数据中首个单词之前添加句首向量标记后,对所述文本句段数据的内容进行遍历,当识别得到预设的分隔符号时,将所述分隔符号处添加所述句间向量标记,迭代直至所述文本句段数据中所有单词均完成识别。
21.作为本发明一实施方式的进一步改进,所述方法还包括:接收预训练数据集;使能所述双向特征表示模型,依次执行掩码语言模型任务以及下句预测任务,对所述预训练数据集中的数据进行迭代遍历预测和验证,得到标准模型参数组;将所述标准模型参数组搭载于所述双向特征表示模型;所述方法具体包括:将所述文本句段数据依次输入至训练好的双向特征表示模型中,依次执行向量化表示、向量编码以及融合运算,得到分别对应所述文本句段数据的词向量特征表示。
22.作为本发明一实施方式的进一步改进,所述方法具体包括:遍历所述待处理文本中的所有数据,当识别得到预设的分句符号时,提取当前分句符号至前一分句符号之间的数据作为一组文本句段数据,迭代得到所有文本句段数据。
23.作为本发明一实施方式的进一步改进,所述方法具体包括:在所述原始信息库中,检索当前基础目录数据和下一基础目录数据之间的原始语料,得到对应所述当前基础目录数据的待处理文本;迭代生成分别对应所有所述基础目录数据的多组待处理文本。
24.作为本发明一实施方式的进一步改进,所述方法具体包括:迭代并以所述基础目录数据作为实体进行抽取和排序,将对应生成的实体序号数据和基础目录数据执行匹配,形成所述实体信息元素;其中,所述实体序号数据用于表征实体之间的内容差异,以及用于表征实体与所述文本句段数据的关联关系。
25.作为本发明一实施方式的进一步改进,所述方法具体包括:迭代并根据所述基础目录数据之间的层级关系,确定作为实体的基础目录数据两两之间的外部关联关系,并根据所述外部关联关系以及对应的两项基础目录数据,匹配形成所述实体关系元素。
26.作为本发明一实施方式的进一步改进,所述方法具体包括:分析得到所述原始信息库中的目录结构信息;迭代识别不同原始语料对应的多组原始格式信息,当所述原始格式信息匹配于预设的标准格式信息时,提取该原始格式信息对应的原始语料作为结构语料信息;根据所述结构语料信息和所述目录结构信息在所述原始信息库中的相对位置,对所述目录结构信息和所述结构语料信息进行排序整合,得到所述基础目录数据。
27.作为本发明一实施方式的进一步改进,所述目录结构信息包括相互对应的目录标题信息和目录层级序号;所述方法具体包括:迭代判断所述结构语料信息与所有目录结构信息之间的从属关系,得到位于所述结构语料信息最接近上一层级的目录结构信息,作为参考结构信息;根据所述参考结构信息中的目录层级序号,以及相邻的其他结构语料信息分布情况,确定所述结构语料信息的目录层级序号;按照所述目录层级序号对所述目录结构信息和所述结构语料信息进行排序整合,得到所述基础目录数据。
28.作为本发明一实施方式的进一步改进,所述目录结构信息包括先后设置的第一结构信息和第二结构信息,所述第一结构信息包括第一标题信息和第一层级序号,所述第二结构信息包括第二标题信息和第二层级序号;所述方法还包括:链接到所述原始信息库中所述第一标题信息所指向的实际位置,向下遍历并迭代识别不同原始语料对应的多组原始格式信息,对应提取符合条件的原始语料作为结构语料信息,分别存储为至少一组第一语料信息,直至识别到所述第二结构信息;根据所述第一层级序号,按照所述第一语料信息的内部排列顺序,生成对应于至少一组第一语料信息的至少一组第一次级序号,并将所述第一次级序号与对应的所述第一语料信息形成匹配,以所述第一次级序号作为对应所述第一语料信息的所述目录层级序号。
29.作为本发明一实施方式的进一步改进,所述方法具体包括:迭代遍历所述原始信息库中除所述目录结构信息以外的部分,提取符合条件的原始语料,得到第一语料信息;根据所述第一语料信息向前检索,得到首次出现的目录结构信息作为参考结构信息,并统计排列于所述第一语料信息和所述参考结构信息之间的其他结构语料信息的个数,得到前向语料数量;根据所述参考结构信息的所述目录层级序号,以及所述前向语料数量,生成对应于所述第一语料信息的第一次级序号,并将所述第一次级序号与所述第一语料信息形成匹配,以所述第一次级序号作为对应所述第一语料信息的所述目录层级序号。
30.作为本发明一实施方式的进一步改进,所述方法具体包括:定位所述原始信息库中的目录数据集合;提取所述目录数据集合中的目录标题信息和目录层级序号,组成所述目录结构信息,并按照所述目录层级序号对所述目录结构信息排序。
31.为实现上述发明目的之一,本发明一实施方式提供一种回馈数据图谱生成设备,包括:目录生成模块,用于遍历原始信息库中所有原始语料,生成基础目录数据;基本元素抽取模块,用于根据所述基础目录数据,抽取形成实体信息元素以及实体关系元素;属性元素分析模块,用于根据所述基础目录数据和所述原始信息库,依次执行属性融合以及同属性句段聚合,生成对应于不同文本句段数据的多组句段属性元素;其中,所述文本句段数据在所述原始语料中包含有多组;图谱构建模块,用于根据所述实体信息元素构建实体节点,
根据所述实体关系元素建立实体间的关联关系,将所述句段属性元素按照句段与实体间的关联关系,对应存入所述实体节点中,生成回馈数据图谱。
32.为实现上述发明目的之一,本发明一实施方式提供一种问答设备,包括:存储器、处理器,所述问答设备还包括:存储在所述存储器上并可在所述处理器上运行的回馈数据图谱生成程序,所述回馈数据图谱生成程序被所述处理器执行时,实现上述任一种技术方案所述的回馈数据图谱生成方法的步骤,和/或存储在所述存储器上,根据上述任一种技术方案所述的回馈数据图谱生成方法生成的回馈数据图谱。
33.为实现上述发明目的之一,本发明一实施方式提供一种冰箱,包括不同温度区域的储存间室,以及用于开闭储存间室的门体,所述冰箱还包括上述技术方案所述的问答设备。
34.与现有技术相比,本发明提供的回馈数据图谱生成方法,通过抽取基础目录数据建立实体信息元素和实体关系元素,能够充分利用原始信息库既有的结构关系进行数据图谱的构建,提升数据图谱生成的效率;通过属性融合及同属性句段聚合,不仅能够避免上下文属性一致性差,还能在图谱生成阶段就建立好实体与数据库中其他所有相关数据的关联关系,并以句段为单位进一步提升了图谱的粒度级,以使检索阶段能够快速且准确地锁定相关信息,如此实现了检索结果内容精准、匹配度高,大幅提高检索速度以及检索精准度的技术效果。
附图说明
35.图1是本发明一实施方式中问答设备的结构示意图。
36.图2是本发明一实施方式中回馈数据图谱生成设备的结构示意图。
37.图3是本发明一实施方式中回馈数据图谱生成方法的步骤示意图。
38.图4是本发明另一实施方式中回馈数据图谱生成方法的部分步骤示意图。
39.图5是本发明另一实施方式中回馈数据图谱生成方法的第一实施例的部分步骤示意图。
40.图6是本发明另一实施方式中回馈数据图谱生成方法的第一实施例的一个具体示例的部分步骤示意图。
41.图7是本发明另一实施方式中回馈数据图谱生成方法的第二实施例的部分步骤示意图。
42.图8是本发明另一实施方式中回馈数据图谱生成方法的第二实施例的一个具体示例的部分步骤示意图。
43.图9是本发明另一实施方式中回馈数据图谱生成方法的第三实施例的部分步骤示意图。
44.图10是本发明再一实施方式中回馈数据图谱生成方法的部分步骤示意图。
45.图11是本发明再一实施方式中回馈数据图谱生成方法一实施例的一个具体示例的部分步骤示意图。
46.图12是本发明再一实施方式中回馈数据图谱生成方法一实施例的另一个具体示例的部分步骤示意图。
具体实施方式
47.以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
48.需要说明的是,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者还包括为这种过程、方法、物品或者设备所固有的要素。此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
49.随着技术的发展,在数据分析和人机交互层面上,特别是在nlp(natural language processing,自然语言处理)这一分支下,人们愈发不满足于现有的检索系统在输入关键词后进行整个数据库范围的遍历检索,所导致的检索效率低下、输出内容冗杂而碎片化,以及算力要求高的现状,从而拓展地进行着对检索对应的回馈数据建立知识图谱的研究,其目标在于,当用户输入检索关键词或问题语料时,能够从知识图谱中按照脉络快速查询得到对应的检索结果或答案语料,据此形成对用户的回馈。如此,能够提升检索效率、增强对数据内容的锁定能力,便于用户快速得到结果或进行二次检索,以大幅提升交互体验以及生产效率。
50.本发明在上述技术基础下,进一步根据原始信息库中的目录数据抽取实体及实体间的关系,在根据目录数据和原始信息库所包含的原始语料执行属性融合和句段融合,以使上下文的属性判断统一,且调整归属于同一属性的多种句段的位置和关联关系,从而建立粒度级更细、关联关系维度更多,且更为准确的回馈数据图谱,本领域技术人员得以用此回馈数据图谱,结合自然语言处理的分析逻辑,共同构建问答反馈系统或检索系统。如此,形成了一种性能优异、输出结果具有更细粒度的回馈数据图谱生成方法、生成设备、问答设备及冰箱。
51.本发明提供的下述回馈数据图谱生成方法、生成设备和问答设备,可以被具体设置于一种或多种领域下,从而赋予该领域的下属装置,以知识图谱构建相关的功能。在一种场景下,该领域可以是家用电器领域、移动设备领域或互联网领域,并分别可以是:应用于空调、洗衣机或热水器等装置中,或应用于移动电话、个人电脑、手表、手环或耳机等装置中,或应用于asp、jsp、php等动态页面中、htm、html等静态页面中、基于windows、linux、ios平台的应用软件中。从而,赋予该领域装置或其他组分以本发明具有的技术效果。
52.本发明一实施方式中,具体提供一种冰箱,包括不同温度的存储间室,以及用于开闭存储间室的门体,用户可以通过开闭所述门体,向所述存储间室内存取物品,来提供物品以冷藏、冷冻或变温的存储环境。进一步地,所述冰箱还包括一种问答设备,从而实现对用户输入的问句或检索关键词进行接收,根据预设的回馈数据图谱,或根据预设的生成程序建立回馈数据图谱后根据该回馈数据图谱,生成对应问句的答案或检索结果而回馈至用户侧。所述问答设备设置于所述冰箱中,基于其功能配置,所述冰箱可以进一步实现对用户操作冰箱的指导、对冰箱内储藏物情况的分析反馈、对冰箱自身功能的自检与反馈、对冰箱与服务器的通信状况的反馈,以及对其他与冰箱相关的周边问题或检索的回馈。
53.例如,在一种实施方式中,可以是用户提出对智能冰箱操作的问题后,诸如提出如何设置感应自动开门、如何设置冰箱自动闭门、如何设置冰箱冷藏间室和冷冻间室温度等
问题后,所述冰箱调用该问答设备,根据基于操作指导说明建立的回馈数据图谱进行检索分析,输出检索结果或答案语料以形成回馈;在另一种实施方式中,也可以是用户提出关于冰箱内部储存物的问题后,诸如提出基于现有食材能做出何种菜品、要做出某种菜品还需要购买何种食材等问题后,所述冰箱调用该问答设备,根据回馈数据图谱进行检索分析,或结合对服务器上相关数据库的访问爬取后,根据该相关数据库和回馈数据图谱进行检索分析,从而输出检索结果或答案语料以形成回馈。
54.所述问答设备与所述冰箱在结构层面上的配合,可以是所述问答设备设置于所述冰箱内部任何一个能够接收供电、与用户进行交互的位置,并进一步地,可以设置于所述冰箱内部任何一个不会过分受到冰箱内部制冷系统影响,和/或能够与服务器进行通讯的位置。在所述问答设备被配置为具有诸如显示屏、音频采集设备和/或音频输出设备等输入输出设备时,或所述问答设备与上述输入输出设备连接时,至少上述输入输出设备可以设置于所述冰箱靠近用户一侧,上述问答设备可以至少设置于靠近上述输入输出设备一侧,从而简化接线。
55.在一种优选的实施方式中,所述问答设备包括触摸显示屏。所述触摸显示屏被具体嵌设于所述门体靠近用户一侧,用户可以向所述触摸显示屏输入检索关键词或问句数据,所述问答设备对所述检索关键词或所述问句数据进行处理后,在回馈数据图谱上检索匹配生成对应的检索结果或答案语料,并将其显示于所述触摸显示屏上。当然,在其他实施方式中,接收所述检索关键词和所述问句数据的方式,可以具体为或包括,音频采集设备接收语音形式的数据,并交由所述问答设备中其他部分进行语音识别;输出所述检索结果或所述答案语料的方式可以具体为或包括,音频输出设备以语音形式进行回馈输出。
56.为了适应更多应用场景和其他领域,如图1所示,本发明还提供一种问答设备100,可以设置于上述冰箱内,也可以设置于前述其他装置,或本文未提及但本领域技术人员能够想到的其他领域装置中,从而实现对应的技术效果。当然,本发明并不排斥将诸如所述冰箱这一整体,统称为一种问答设备100,换言之,问答设备100除了能够实现回馈数据图谱生成功能和/或调用回馈数据图谱进行问答的功能以外,还可以具有其他功能配置。
57.具体地,问答设备100包括存储器13、处理器11,基于此,问答设备100利用处理器11执行存储器13中的程序,并调用存储器13中存储的相关数据,实现响应用户问句数据或检索关键词输入,对应输出答句语料或检索结果。
58.其中,存储器13可以包括ram(random access memory,随机存取存储器),也可以包括nvm(non-volatile memory,非易失性存储器),例如至少一个磁盘存储器。可选地,存储器13还可以是至少一个远离前述处理器11设置的存储装置。
59.优选地,存储器13可以为或包括一种或多种计算机可读存储介质,所述计算机可读存储介质,可以是计算机能够存取的任何可用介质,所述可用介质可以是例如软盘、硬盘、磁带等的磁性介质,或例如dvd(digital video disc,高密度数字视频光盘)等的光介质,或例如ssd(solid state disk,固态硬盘)等的半导体介质。
60.处理器11可以是通用处理器,包括cpu(central processing unit,中央处理器)、np(network processor,网络处理器)等,还可以是dsp(digital signal processing,数字信号处理器)、asic(application specific integrated circuit,专用集成电路)、fpga(field-programmable gate array,现场可编程门阵列)或者其他可编程逻辑器件、分立
门或者晶体管逻辑器件、分立硬件组件。
61.本发明提供的问答设备100还可以包括通信接口12和通信总线14。处理器11、通信接口12、存储器13通过通信总线14完成相互间的通信。其中,通信接口12用于上述问答设备100与其他设备之间的通信。通信总线14可以是pci总线(peripheral component interconnect,外设部件互连标准)或eisa总线(extended industry standard architecture,扩展工业标准结构)等。该通信总线14可以分为地址总线、数据总线、控制总线等。为便于表示,图1中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
62.在一种实施方式中,问答设备100还包括存储在存储器13上,并可在处理器11上运行的回馈数据图谱生成程序,所述回馈数据图谱生成程序被处理器11执行时,实现一种回馈数据图谱生成方法,从而实现本发明的技术效果。进一步地,生成的回馈数据图谱可以被存储于存储器13中,从而处理器11可以执行存储器13中的问答检索程序,利用存储器13中的回馈数据图谱实现问答功能。
63.在另一种实施方式中,问答设备100还包括存储在存储器13上,根据一种回馈数据图谱方法生成的回馈数据图谱,如此,处理器11同样可以执行存储器13中的问答检索程序,利用存储器13中已经存在的回馈数据图谱实现问答功能。应当注意地,此处“已经存在的”,包含“预设的”和“根据前置步骤生成的”两层含义,后者对应的实施例提供的技术方案则可以理解为是两种实施方式的结合,也即利用前一种实施方式执行程序生成回馈数据图谱,而后利用后一种实施方式直接实现问答功能。
64.上述问答功能的实现方案,可以采用本领域的任何现有技术实现,也可以具体设置为:分析问句数据和检索关键词句的内容;执行分词、词性解析等预处理步骤后进行向量化;将向量化后的输入数据与回馈数据图谱中的数据进行相似度比对(可以是先与其中的实体比对后再与实体对应的内容比对,也可以仅与其中的实体比对),检索得到最为相似的数据后,提取该数据对应的答案语料或检索结果(可以是提取与实体对应的下属数据内容,也可以是提取实体本身/下属数据内容所对应的其他数据内容),并进一步反馈给用户。
65.本发明一实施方式进一步提供一种如图2所示的回馈数据图谱生成设备,所述回馈数据图谱生成设备包括目录生成模块21、基本元素抽取模块22、属性元素分析模块23和图谱构建模块24。
66.其中,目录生成模块21用于遍历原始信息库中所有原始语料,生成基础目录数据。基本元素抽取模块22用于根据所述基础目录数据,抽取形成实体信息元素以及实体关系元素。属性元素分析模块23用于根据所述基础目录数据和所述原始信息库,依次执行属性融合以及同属性句段聚合,生成对应于不同文本句段数据的多组句段属性元素;其中,所述文本句段数据在所述原始语料中包含有多组。图谱构建模块24用于根据所述实体信息元素构建实体节点,根据所述实体关系元素建立实体间的关联关系,将所述句段属性元素按照句段与实体间的关联关系,对应存入所述实体节点中,生成回馈数据图谱。
67.当然,上述问答系统并不局限于仅具有上述功能模块,也并不限定上述功能模块仅具有上述功能配置。本领域技术人员在本发明所提供的技术方案的启示下,可以想到添附具有其他功能的功能模块,也可以想到将其他功能配置添加于上述已有的功能模块中,来实现对所述问答系统功能的拓展。同时,值得强调地,上述功能模块的描述并不代表对其物理结构的限定,关于以独立模块形式进行描述的部分,其物理结构层面可以是由多个芯
片或模块组成的,多者相互配合共同实现相关技术效果和功能步骤;关于以多个模块形式进行描述的部分,其物理结构层面也可以设置为统一的整体,例如统一命名为主控模块的mcu(microcontroller unit,微控制单元)、cpu(central processing unit,中央处理器)等的情况,从而在该整体内部的不同功能分区中,执行相关功能步骤并实现对应的效果。
68.在一种优选的实施方式中,目录生成模块21还可以包括目录提取模块、结构分析模块和整合排布模块。其中,所述目录提取模块,用于分析得到所述原始信息库中的目录结构信息。所述结构分析模块,用于迭代识别不同原始语料对应的多组原始格式信息,当所述原始格式信息匹配于预设的标准格式信息时,提取该原始格式信息对应的原始语料作为结构语料信息。所述正和排布模块,用于根据所述结构语料信息和所述目录结构信息在所述原始信息库中的相对位置,对所述目录结构信息和所述结构语料信息进行排序整合,得到所述基础目录数据。
69.所述基本元素抽取模块22还可以进一步包括实体元素抽取模块和关系元素抽取模块。其中,所述实体元素抽取模块,用于迭代并以所述基础目录数据作为实体进行抽取和排序,将对应生成的实体序号数据和基础目录数据执行匹配,形成所述实体信息元素。所述关系元素抽取模块,用于迭代并根据所述基础目录数据之间的层级关系,确定作为实体的基础目录数据两两之间的外部关联关系,并根据所述外部关联关系以及对应的两项基础目录数据,匹配形成所述实体关系元素。
70.所述属性元素抽取模块23还可以进一步包括文本检索模块、属性识别模块和融合聚合模块。其中,所述文本检索模块,用于根据所述基础目录数据在所述原始信息库中检索,得到对应于不同基础目录数据的多组待处理文本。所述属性识别模块,用于根据所述待处理文本,依次执行双向特征表示以及属性分类识别,得到对应于不同文本句段数据的多组初级属性数据。所述融合聚合模块,用于根据所述初级属性数据、所述文本句段数据以及实体指向数据,依次执行属性融合和同属性句段聚合,生成所述句段属性元素。
71.在一种优选的实施方式中,所述回馈数据图谱生成设备还可以包括一种预训练模块,可以是独立设置的,也可以是设置于上述任一种模块、模型或神经网络之中的。所述预训练模块具体可以包括数据爬取模块、任务训练模块以及模型设置模块。其中,所述数据爬取模块,用于接收预训练数据集。所述任务训练模块,用于使能所述双向特征表示模型,依次执行掩码语言模型任务以及下句预测任务,对所述预训练数据集中的数据进行迭代遍历预测和验证,得到标准模型参数组。所述模型设置模块,用于将所述标准模型参数组搭载于所述双向特征表示模型。
72.本发明在一种实施方式中,进一步提供一种如图3所示的回馈数据图谱生成方法,可以搭载于上述任一种冰箱、问答设备和/或回馈数据图谱生成设备中,也可以搭载于上述任一种其他装置、设备或系统中。在该实施方式中,所述回馈数据图谱生成方法可以具体包括下述步骤。
73.步骤31,遍历原始信息库中所有原始语料,生成基础目录数据。
74.步骤32,根据基础目录数据,抽取形成实体信息元素以及实体关系元素。
75.步骤33,根据基础目录数据和原始信息库,依次执行属性融合以及同属性句段聚合,生成对应于不同文本句段数据的多组句段属性元素。
76.步骤34,根据实体信息元素构建实体节点,根据实体关系元素建立实体间的关联
关系,将句段属性元素按照句段与实体间的关联关系,对应存入实体节点中,生成回馈数据图谱。
77.其中,所述文本句段数据在所述原始语料中包含有多组。
78.如此,可以首先根据原始信息库抽取得到既有的基础目录数据后,建立实体信息元素和实体关系元素等基本元素,而后结合基础目录数据和原始信息库,共同遍历与基础目录数据相对应的原始语料,并依次进行属性融合和同属性句段聚合,从而生成对应于每个基础目录数据的多组文本句段数据,以及与每组文本句段数据相对应的句段属性元素,最终将这些句段属性元素,根据句段与实体间的关联关系,也即文本句段数据与基础目录数据之间的关联关系,建立生成回馈数据图谱。从而,用户可以据此进行快速高效的信息检索。
79.具体地,上述原始信息库可以指代,据以生成回馈数据图谱的任何一种数据库、数据文本或数据集合,本发明并不限制其形式,可以根据实际应用场景进行灵活变换。在一种实施方式中,回馈数据图谱生成方法被设置于冰箱等制冷装置内,从而,上述原始信息库可以是冰箱等制冷装置的说明书全文,或说明书中诸如“语音助手”等的部分,原始语料指代该说明书内的句段描述,该说明书也是应用后续步骤建立实体信息元素、实体关系元素以及句段属性元素的基础。
80.在生成原始信息库之前,本发明并不限制其不具有或只能具有某种预处理步骤,换言之,上述原始信息库的构建过程同样可以根据本领域技术人员的需要实施,可以是直接爬取既有的数据库,可以是根据采集到的信息实时建立的数据库。较为特殊地,在所述原始信息库是冰箱说明书的实施方式中,步骤51之前还可以包括:识别说明书文本格式,将所述说明书转化为预设的标准格式;根据格式转化后的说明书,建立所述原始信息库。在一种实施例中,说明书文本原始的格式可能是*.pdf格式或其他图形格式,预设的标准格式可以是*.doc、*.docx等可编辑的文本格式,转化的过程可以是单纯的格式整理,也可以是采用模板匹配法或几何特征抽取法进行文字识别,具体可以是采用ocr(optical character recognition,光学字符识别)技术进行文字识别。
81.此外,上述实体信息元素、实体关系元素以及句段属性元素,可以具体配置为包含两项或三项数据的数据组形式,在进行最终的图谱构建之前,上述数据组可以具体地被存储于csv(comma-separated values,逗号分隔值)格式的文件中进行保存,基于此,上述三种元素的具体形式可以是逗号分隔值的形式。回馈数据图谱的具体建立方法,可以通过将实体信息元素导入图数据库引擎中,从而建立图形化的数据库,在一种实施方式中,所述图数据库引擎优选为neo4j图形数据库,具有兼顾轻量化和高性能的特点,当然,也可以采用janusgraph、hugegraph、dgraph等,分别来适应较高读写性能要求或较复杂计算性能要求等场景。
82.步骤33中描述了句段属性元素的生成步骤,利用基础目录数据对原始数据库中的数据进行识别分类,并进一步根据分类结果进行属性融合和同属性句段的聚合,表达了递进设置的两步操作。在一些实施方式中,可以通过文本聚类算法实现上述过程,例如可以是k均值算法等基于划分的聚类算法、变色龙算法等基于层次的聚类算法、dbscan等基于密度的聚类算法、clique等基于网格的聚类算法、高斯混合模型等基于模型的聚类算法,或一些基于模糊集合的聚类算法。
83.基于此,本发明在基于上述实施方式的另一实施方式中,进一步提供一种如图3和图4所示的回馈数据图谱生成方法,可以搭载于上述任一种冰箱、问答设备和/或回馈数据图谱生成设备中,也可以搭载于上述任一种其他装置、设备或系统中。在该另一实施方式中,所述回馈数据图谱生成方法可以具体包括下述步骤。
84.步骤31,遍历原始信息库中所有原始语料,生成基础目录数据。
85.步骤32,根据基础目录数据,抽取形成实体信息元素以及实体关系元素。
86.步骤331,根据基础目录数据在原始信息库中检索,得到对应于不同基础目录数据的多组待处理文本。
87.步骤332,根据待处理文本,依次执行双向特征表示以及属性分类识别,得到对应于不同文本句段数据的多组初级属性数据。
88.步骤333,根据初级属性数据、文本句段数据以及实体指向数据,依次执行属性融合和同属性句段聚合,生成句段属性元素。
89.步骤34,根据实体信息元素构建实体节点,根据实体关系元素建立实体间的关联关系,将句段属性元素按照句段与实体间的关联关系,对应存入实体节点中,生成回馈数据图谱。
90.其中,所述实体指向数据表征所述文本句段数据与所述实体间的关联关系。
91.如此,通过先行锁定待处理文本,而后先行利用模型得到初步分类结果,再对所有结果进行修改和句段聚合,从而确定最终的属性分类结果。相比于其他现有技术而言,基础目录数据与待处理文本关系建立更为快捷迅速,保障了后续实体和句段之间关系的建立;以双向特征表示作为向量化的手段再进行属性分类识别,能够保留待处理文本的上下文关系,以更完整的数据来生成向量并识别得到初级属性数据;利用实体指向数据对初级属性数据进行二次处理,保持上下文属性判断的一致性,避免属性类似的句段被过于细致的区分开,并避免与实体匹配的句段数据量大导致图谱粒度级过粗,建立粒度级更细的、以句段为单位与实体进行匹配关联的图谱。
92.单条基础目录数据之下,包含至少一组文本段落,以该文本段落作为所述待处理文本,在对原始信息库中的所有原始语料的遍历过程中,根据位置天然地形成待处理文本分别与基础目录数据之间的对应关系。单条基础目录数据可能与多组待处理文本对应,也可能与一组待处理文本相对应,如此形成第一次对原始语料的拆分和对应关系的建立。而后,待处理文本中包括至少一组文本句段,从而以文本句段为单位进行双向特征表示和属性分类识别,得到对应于每组待处理文本的一组或多组文本句段数据,以及对应于每组文本句段数据的初级属性数据,由此可以建立文本句段数据与基础目录数据的对应关系,形成第二次对原始语料的拆分和对应关系的建立。前述过程旨在根据原始信息库固有的位置和数据形式进行分析,得到文本句段数据和相对应的初级属性数据后,可以对文本句段数据以初级属性数据为核心进行处理,形成对原始信息库的重组,建立脉络更为清晰的回馈数据图谱。
93.可以理解地,所述实体指向数据的生成,可以是在根据待处理文本生成对应文本句段数据对应的初级属性过程中,基于基础目录数据、待处理文本和文本句段数据三者之间的关系而附随地产生的。当然,在其他实施方式中,也可以是在该步骤之前产生的,本发明并不限制其具体的步骤安排。
94.根据原始信息库提取对应基础目录数据的待处理文本,可以是利用基础目录数据对原始信息库中文本/数据进行分割,分别对应提取多组待处理文本来建立其与基础目录数据的对应关系,但为了减少单次的输入数据量,当然也可以采用遍历判断的方式实现。从而,作为优选地,上述步骤331还可以进一步包括下述步骤。
95.步骤3311,在原始信息库中,检索当前基础目录数据和下一基础目录数据之间的原始语料,得到对应当前基础目录数据的待处理文本。
96.步骤3312,迭代生成分别对应所有基础目录数据的多组待处理文本。
97.如此,可以在预设数据窗口的滑动下,动态形成对应于每个基础目录数据的待处理文本,减少了单次输入模型的数据量,并保证迭代一次即可完成所有待处理文本的提取。
98.在本实施方式中,属性融合旨在让所有文本句段数据对应的初级属性数据能够被统一,防止具有过于细微差别的属性数据被过分地区分开,从而导致对检索效率提升的贡献低。这种问题通常会出现在初级属性数据中包含两个同义词的属性数据的情况下,例如当对应两组文本句段数据的初级属性数据分别为“清洁”和“清洗”时,两种初级属性数据的区分并不能够为检索结果或答案语料的生成有过多有益影响,此时,则可以在区分误差允许的情况下,将两种初级属性数据合并为一种。上述融合过程的基准,可以是根据预设的同义词库查找得到,也可以是对输出结果进行误差计算训练得到。
99.同时,同属性句段聚合旨在让所有归属于相同或相似属性数据的文本句段能够被聚合,在实现属性融合的基础上,能够进一步对所有文本句段数据的结构进行整理,建立更好的对应关系以方便检索。上述同属性句段聚合的过程,可以是通过为文本句段数据或其关联数据添加标记的方式实现。
100.本发明应对上述内容,提供一种包含于步骤333之内的较优方案,该较优方案可以具体包括下述步骤。
101.步骤3331,根据初级属性数据之间的相似度,对初级属性数据执行属性融合,重新确定对应于不同文本句段数据的多组句段属性数据,并根据句段属性数据,对句段属性数据相同的多组文本句段数据执行同属性句段聚合,重新确定对应于不同文本句段数据的多组实体指向数据。
102.步骤3332,根据实体指向数据、句段属性数据以及文本句段数据,生成句段属性元素。
103.如此,通过相似度确定是否需要融合以及需要融合的初级属性数据的对象,通过修改初级属性数据的方式实现属性融合,再通过重新确定后的属性数据,重新确定实体指向数据改变句段与实体之间的关联关系,使具有相同属性的句段能够被设定为指向与该属性相关的实体。在句段属性元素以数据组或逗号分割值的形式被构建时,其包含句段聚合后重新确定的实体指向数据、属性融合后重新确定的句段属性数据,以及拆分成以句子为单位的文本句段数据,如此建立更为精巧的图谱结构。
104.较优地,本发明提供基于上述实施方式的第一实施例,通过计算向量间的相似度决定是否进行属性融合,并进一步根据相似度以及文本句段数据与实体间的关联关系现状,重新建立文本句段数据与实体间优化后的关联关系,从而实现同属性句段的聚合。在该第一实施例中,如图3至图5所示,所述回馈数据图谱生成方法具体可以包括下述步骤。
105.步骤31,遍历原始信息库中所有原始语料,生成基础目录数据。
106.步骤32,根据基础目录数据,抽取形成实体信息元素以及实体关系元素。
107.步骤331,根据基础目录数据在原始信息库中检索,得到对应于不同基础目录数据的多组待处理文本。
108.步骤332,根据待处理文本,依次执行双向特征表示以及属性分类识别,得到对应于不同文本句段数据的多组初级属性数据。
109.步骤33311,对所有句段属性数据进行向量化,计算得到的句段属性向量中两两之间的属性相似度值。
110.步骤33312,依次根据属性相似度值、实体指向数据、句段属性数据的数据量、文本句段数据的数据量,以及文本句段数据在待处理文本中的句段位置信息,依次重新确定句段属性数据以及实体指向数据。
111.步骤3332,根据实体指向数据、句段属性数据以及文本句段数据,生成句段属性元素。
112.步骤34,根据实体信息元素构建实体节点,根据实体关系元素建立实体间的关联关系,将句段属性元素按照句段与实体间的关联关系,对应存入实体节点中,生成回馈数据图谱。
113.如此,利用向量化后的数据进行相似度计算,相比于诸如利用独热编码形成的tf-idf(term frequency

inverse document frequency,词频-逆文本频率指数)向量或simhash敏感哈希算法而言,能够兼顾运算速度和区分能力,当然,本发明并不排斥其他实施方式中利用上述其他算法实现句段间相似度的量化计算。所述句段属性向量,可以是相互独立的词向量,也可以是多个词向量共同组成的句段向量。两两之间相似度值的度量标准,可以采用最小编辑距离、欧氏距离(euclidean distance)、杰卡德相似度(jaccard similarity coefficient)、海明距离(hamming distance)或分类器等建立。
114.在本实施方式中,优选地,利用向量间的余弦相似度作为上述相似度值的度量标准,也即计算向量两两之间的余弦相似度,作为所述属性相似度值。具体地,可以以两向量之间的点乘结果作为被除数,并以两向量的模的乘积作为除数,计算得到所述余弦相似度作为所述属性相似度值。
115.步骤33312中,依次根据上述五项信息或数据来重新确定句段属性数据或实体指向数据,旨在综合考虑上述五项信息或数据所表征的相似程度、关联关系、不同数据的数据量大小以及位置情况来对实体和文本句段数据的关联关系进行重排,基于此,任何确定相似度是否满足条件、确定是否需要修改关联关系以及如何修改关联关系的方式,均可以替换地引用于该实施例中,例如可以是模型训练、最优化收敛、分阶段设定阈值,并可以是建立索引、遍历提取、添加标签或指针等。
116.本发明应对上述内容,提供一种包含于步骤33312之内的较优方案,该较优方案可以具体包括下述步骤。
117.步骤41,若第一属性向量与第二属性向量之间的属性相似度值满足预设的融合相似度值,则判定第一属性数据和第二属性数据具有相同的内涵。
118.步骤42,根据第一属性数据和第二属性数据分别对应的实体指向数据、句段属性数据的数据量、文本句段数据的数据量,以及句段位置信息,依次重新确定第一属性数据和第一指向数据,以及第二属性数据和第二指向数据。
119.其中,所述句段属性向量包括第一属性向量和第二属性向量,所述句段属性数据包括分别对应于所述第一属性向量和所述第二属性向量的第一属性数据和第二属性数据,所述实体指向数据包括分别对应于所述第一属性数据和所述第二属性数据的第一指向数据和第二指向数据。
120.具体地,所述属性相似度值为所述第一属性向量与所述第二属性向量的余弦相似度值,所述预设的融合相似度值为0.8。如此,可以清晰准确地判断两句段属性数据实质上是否是相同的,防止文本句段数据被过分分割为多种,导致回馈数据图谱中关联关系复杂而零散,影响答案语料生成和信息检索的速度。
121.较优地,本发明提供基于上述第一实施例的一个具体示例,在判断内涵相同时,可以进一步根据句段属性数据本身的特性,对不同的句段属性数据进行融合,实现属性数据的融合,提升回馈数据图谱的规整度。在该具体示例中,如图3至图6所示,所述回馈数据图谱生成方法具体可以包括下述步骤。
122.步骤31,遍历原始信息库中所有原始语料,生成基础目录数据。
123.步骤32,根据基础目录数据,抽取形成实体信息元素以及实体关系元素。
124.步骤331,根据基础目录数据在原始信息库中检索,得到对应于不同基础目录数据的多组待处理文本。
125.步骤332,根据待处理文本,依次执行双向特征表示以及属性分类识别,得到对应于不同文本句段数据的多组初级属性数据。
126.步骤33311,对所有句段属性数据进行向量化,计算得到的句段属性向量中两两之间的属性相似度值。
127.步骤41,若第一属性向量与第二属性向量之间的属性相似度值满足预设的融合相似度值,则判定第一属性数据和第二属性数据具有相同的内涵。
128.步骤42,根据第一属性数据和第二属性数据分别对应的实体指向数据、句段属性数据的数据量、文本句段数据的数据量,以及句段位置信息,依次重新确定第一属性数据和第一指向数据,以及第二属性数据和第二指向数据。
129.其中,步骤42具体包括:步骤420,比较第一属性数据的数据量大小和第二属性数据的数据量大小,将第一属性数据和第二属性数据设定为数据量较小的句段属性数据。
130.步骤3332,根据实体指向数据、句段属性数据以及文本句段数据,生成句段属性元素。
131.步骤34,根据实体信息元素构建实体节点,根据实体关系元素建立实体间的关联关系,将句段属性元素按照句段与实体间的关联关系,对应存入实体节点中,生成回馈数据图谱。
132.如此,可以将句段属性数据进行语言上的精简,保证句段属性数据能够清楚简洁地描述当前句段文本数据的归属类别。
133.所述对于句段属性数据的数据量大小的判断,优选为判断该句段属性数据的长度,当然,在其他实施方式中,上述句段属性数据也可以被定义为数据长度和数据维度的复合,同样能够实现本发明预期的、提升检索和回馈速度的效果。
134.作为另一具体示例,或作为上述具体示例的进一步改进,可以以判断实体指向数据指向的实体是否相同、文本句段数据的数据量大小是否相同作为先决条件,进一步比较
文本句段数据的数据量和实体指向数据的值,实现同属性文本句段数据的融合。具体地,在上述步骤33311和步骤3332之间,还可以包括下述步骤。
135.步骤41,若第一属性向量与第二属性向量之间的属性相似度值满足预设的融合相似度值,则判定第一属性数据和第二属性数据具有相同的内涵。
136.步骤420,比较第一属性数据的数据量大小和第二属性数据的数据量大小,将第一属性数据和第二属性数据设定为数据量较小的句段属性数据。
137.步骤421,判断第一指向数据和第二指向数据是否指向同一实体。
138.若否,则跳转步骤422,判断第一句段数据的数据量大小和第二句段数据的数据量大小是否相同。
139.若不同,则进一步跳转步骤4221,将第一指向数据和第二指向数据修改为该数据量较大的文本句段数据所对应的实体指向数据。
140.其中,所述文本句段数据包括分别对应于所述第一属性数据和所述第二属性数据的第一句段数据和第二句段数据。
141.如此,在第一属性向量和第二属性向量虽有差异但实质相同,两者分别对应的实体指向数据指向不同实体,且两者分别对应的文本句段数据归属于不同的基础目录数据之下时,进一步调整第一指向数据和第二指向数据为文本句段数据的数据量较大的一组实体指向数据,实现根据文本句段数据的数据量执行同属性融合的技术效果。
142.需要强调地,一方面,步骤420相对于步骤42中其他细化步骤的位置,可以是在其他细化步骤之前,也可以是在其他细化步骤之后或之间进行。另一方面,本发明上述步骤还暗含着,当判断第一指向数据和第二指向数据指向同一实体时,仅执行步骤420而不修改其他数据的含义,此点应当为本领域技术人员所理解。
143.作为上述具体示例的进一步改进,在判断第一指向数据与第二指向数据并非指向同一实体,且判断第一句段数据的数据量大小与第二句段数据的数据量大小相同时,并不必然不输出结果或报错,当然可以进一步依据句段位置信息来重新确定第一属性数据、第二属性数据、第一指向数据和第二指向数据。具体地,在上述步骤33311和步骤3332之间,还可以包括下述步骤。
144.步骤41,若第一属性向量与第二属性向量之间的属性相似度值满足预设的融合相似度值,则判定第一属性数据和第二属性数据具有相同的内涵。
145.步骤420,比较第一属性数据的数据量大小和第二属性数据的数据量大小,将第一属性数据和第二属性数据设定为数据量较小的句段属性数据。
146.步骤421,判断第一指向数据和第二指向数据是否指向同一实体。
147.若否,则跳转步骤422,判断第一句段数据的数据量大小和第二句段数据的数据量大小是否相同。
148.若相同,则进一步跳转步骤4222,将第一指向数据和第二指向数据修改为该值较小的实体指向数据。
149.其中,实体指向数据不仅用于表征句段与实体之间的关联关系,还可以表征实体之间的关联关系,例如在一种实施方式中,实体根据基础目录数据在原始信息库中的位置先后顺序具有1,2,3
……
的数字标记,实体指向数据可以复用该顺序标记,并记载于句段属性元素中作为实体指向数据,表征当前句段属于该实体,并形成句段位置顺序上的区分。当
然,本发明并不局限于此种复用的实施方式,实体指向数据可以具有指针等多种形式,其值上天然存在着差别,自然可以根据其值大小反应其所指向的实体位置,以及其自身在原始信息库中的位置。
150.如此,在第一属性向量和第二属性向量虽有差异但实质相同,两者分别对应的实体指向数据指向不同实体,两者分别对应的文本句段数据归属于不同的基础目录数据之下,且该文本句段数据的数据量也相同时,进一步对实体指向数据值的大小进行判断,充分考虑文本句段数据在原始信息库中的先后位置,据此重新确定实体指向数据。
151.本优选实施例中,是通过实体指向数据的值的大小来表征文本句段数据位于原始信息库中的位置的,当然,在其他实施方式中,也可以通过在遍历过程中生成其他顺序标签或时间标签的方式实现位置的标记,并利用该标记进行位置先后的判断。同样需要强调的,虽然上文中进行属性融合和同属性句段聚合的基准都是实体指向数据的值的大小,但是在其他实施方式中,不排除存在将上述量过程所依据的基准配置为不同的技术方案。
152.在本实施方式的步骤332中,双向特征表示旨在保留待处理文本的上下文关系,属性分类识别旨在对待处理文本中不同文本句段数据赋予不同的初级属性数据进行类别判断,本领域技术人员可以采用双向循环神经网络(bi-rnn,bi-directional recurrent neural network),特别是双向长短期记忆神经网络(bi-lstm,bi-directional long short-term memory)来实现上下文关系的特征表示,并可以使用有监督学习(supervised learning)、无监督学习(unsupervised learning)、半监督学习(semi-supervised learning)、小样本学习(few-shot learning)、零样本学习(zero-shot learning)、增量学习(incremental learning)、元学习(meta-learning)等模型进行初级属性数据的识别和分类。
153.较优地,本发明提供基于上述实施方式的第二实施例,通过调用双向特征表示模型和属性分类卷积模型进行处理,从而实现对文本句段数据赋予不同的初级属性数据的效果,利用简单的模型架构实现准确的属性判断和分类识别。在该第二实施例中,如图3、图4和图7所示,所述回馈数据图谱生成方法具体可以包括下述步骤。
154.步骤31,遍历原始信息库中所有原始语料,生成基础目录数据。
155.步骤32,根据基础目录数据,抽取形成实体信息元素以及实体关系元素。
156.步骤331,根据基础目录数据在原始信息库中检索,得到对应于不同基础目录数据的多组待处理文本。
157.步骤3321,遍历待处理文本,根据预设的分句规则进行拆分,得到文本句段数据。
158.步骤3322,将文本句段数据依次输入至预设的双向特征表示模型中,依次执行向量化表示、向量编码以及融合运算,得到分别对应文本句段数据的词向量特征表示。
159.步骤3323,将词向量特征表示输入预设的属性分类卷积模型中,得到对应词向量特征表示的词向量特征集合。
160.步骤3324,调用预设的第一激活函数处理词向量特征集合,并根据预设的属性分类规则识别得到对应文本句段数据的初级属性数据。
161.步骤333,根据初级属性数据、文本句段数据以及实体指向数据,依次执行属性融合和同属性句段聚合,生成句段属性元素。
162.步骤34,根据实体信息元素构建实体节点,根据实体关系元素建立实体间的关联
关系,将句段属性元素按照句段与实体间的关联关系,对应存入实体节点中,生成回馈数据图谱。
163.如此,可以更为高效地处理待处理文本的特征,对应生成细小的、以词向量为单位的词向量特征表示,并以此为基础进行卷积处理放大特征,并经过激活函数进行分类概率预测,从而得到特征判断更为准确的初级属性数据,以便后续进行融合和聚合。
164.当然,上述双向特征表示模型以及上述属性分类卷积模型,并不必然代表神经网络模型的整体,还可以是用于指代某个神经网络模型中用于实现特征标识和卷积的部分,例如特征提取层和卷积层。当然,本发明也可以优选地将双向特征表示模型配置为由一些诸如由elmo(embedding from language models)、nnlm(neural network language model,神经网络语言模型),甚至rnn、lstm形成的预训练语言模型构成。
165.关于步骤3321至步骤3324中所涉数据之间的关系,词向量特征表示是由对应于文本句段数据中所有单词的词向量组成的、表征文本句段数据词向量内容的数据;词向量特征集合是对数据量较大的词向量特征表示进行压缩和特征放大后得到的、同样对应于文本句段数据中每个单词特征的集合的数据;初级属性数据,即是对词向量特征集合进行词向量特征判断后,总结最终概率输出得到的、能够表征文本句段数据与规定属性之间对应关系的数据。具体地,所述第一激活函数优选为softmax激活函数,用于输出属性分类预测的概率值,便于进行精细化的排序和最终判断。
166.较优地,本发明提供基于上述第二实施例的一个具体示例,在该具体示例的一方面,可以通过对分句符号的识别,来对大段的待处理文本进行第一次拆分,从而适应后续模型的输入要求,并与后续对于词的拆分一起,共同构成二次递进的拆分方式,便于最终输出的整理。基于此,上述步骤3321可以进一步优化为:
167.步骤3321’,遍历待处理文本中的所有数据,当识别得到预设的分句符号时,提取当前分句符号至前一分句符号之间的数据作为一组文本句段数据,迭代得到所有文本句段数据。
168.当然,上述技术方案还可以是提取当前分句符号至下一分句符号之间的数据作为一组文本句段数据。可见,任何一种提取相邻两个分句符号之间的部分作为一组文本句段数据的实施方式均可以替换地应用于本技术中。
169.上述分句符号可以是任何表征句子已经结束的符号,对于中文或英文而言,可以是句号、问号、感叹号等,在需要进行更为精细化的拆分时,还可以包含分号。对于其他语言,还可以是在识别待处理文本对应的语言后,调用对应的分句符号数据包进行自适应处理。
170.相对应且较优地,在该具体示例的另一方面,通过文本句段数据进行标记并分别送入多个嵌入层以生成多个层面的向量表示,根据多种特征表示生成输入向量后再送入双向编码器中进行运算,对得到的编码向量进行融合,如此可以得到能够同时表征位置、分段关系、字节本身,且添加有双向注意力权重的词向量特征表示,从而涵盖文本单词更多维度下的内容,防止文本处理和向量化过程中导致的特征损失。该具体示例在所述步骤3322层面上提供的回馈数据图谱生成方法,如图3、图4、图7和图8所示,可以具体包括下述步骤。
171.步骤31,遍历原始信息库中所有原始语料,生成基础目录数据。
172.步骤32,根据基础目录数据,抽取形成实体信息元素以及实体关系元素。
173.步骤331,根据基础目录数据在原始信息库中检索,得到对应于不同基础目录数据的多组待处理文本。
174.步骤3321,遍历待处理文本,根据预设的分句规则进行拆分,得到文本句段数据。
175.步骤33221,按照预设分隔规则,对文本句段数据添加句首向量标记和句间向量标记,得到标记句段数据。
176.步骤33222,将标记句段数据中的所有单词,分别输入位置嵌入层、分割嵌入层和和字嵌入层,得到分别对应于每个单词的位置向量表示、分割向量表示和字向量表示,并对位置向量表示、分割向量表示和字向量表示进行融合运算,得到对应于每个单词的单词输入向量
177.步骤33223,将单词输入向量分别输入至双向编码器中,依次执行双向自注意力分配、残差连接、层标准化以及线性转换,得到对应于每个单词的单词编码向量。
178.步骤33224,将对应于同一标记句段数据的单词编码向量依次进行连接运算,得到对应文本句段数据的词向量特征表示。
179.步骤3323,将词向量特征表示输入预设的属性分类卷积模型中,得到对应词向量特征表示的词向量特征集合。
180.步骤3324,调用预设的第一激活函数处理词向量特征集合,并根据预设的属性分类规则识别得到对应文本句段数据的初级属性数据。
181.步骤333,根据初级属性数据、文本句段数据以及实体指向数据,依次执行属性融合和同属性句段聚合,生成句段属性元素。
182.步骤34,根据实体信息元素构建实体节点,根据实体关系元素建立实体间的关联关系,将句段属性元素按照句段与实体间的关联关系,对应存入实体节点中,生成回馈数据图谱。
183.具体地,上述分隔规则可以与步骤3321’中的分句方法配置为一致或类似,也即步骤33221也可以是,在所述文本句段数据的首个数据之前添加所述句首向量标记,遍历文本句段数据中的所有数据,当识别得到预设的分隔符号时,提取当前分隔符号至前一分隔符号或所述首个数据之间的数据作为一组数据,并在所述当前分隔符号处添加所述句间向量标记,如此,可以将文本句段数据拆分数据量更小的短句,适应各种模型的输入限制。当然,上述拆分还可以是基于构词法、词性等标准实现的,本发明在此不进行穷举。
184.其中,所述位置向量表示表征不同单词在所述标记句段数据中的位置差异,所述分割向量表示表征所述标记句段数据中不同部分之间的内容差异,所述字向量表示表征对应于不同单词的多个预设维度的向量。所述位置嵌入层、分割嵌入层和字嵌入层优选具有同一预设的维度标准,因此输出的位置向量表示、分割向量表示和字向量表示,除了对应包含上述不同特征信息以外,还会将标记句段数据转换为维度均一的向量表示,以便后续编码和特征提取。
185.定义文本句段数据为x,所述句首向量标记为[cls],所述句间向量标记为[sep],则所述标记句段数据x
model
可以至少被描述为:
[0186]
x
model
={[cls],x,[sep]}。
[0187]
定义对应于所述文本句段数据x中某个单词x(i)的位置向量表示为x
(i)position_embedding
、分割向量表示为x
(i)segment_embedding
、字向量表示为x
(i)token_embedding
,则对应
于该单词x(i)的单词输入向量x
(i)token
可以至少被描述为:
[0188]
x
(i)token
=x
(i)position_embedding
+x
(i)segment_embedding
+x
(i)token_embedding

[0189]
所述双向自注意力分配,用于根据不同的语义场景形成不同方式的向量融合。如此,在对文本句段数据中所有单词输入向量进行遍历时,能够充分体现全文整体的关系,为上下文不同情况分配不同的权重和注意力,以从上下文维度增强特征表示。
[0190]
所述残差连接,用于将进行双向自注意力分配前后的单词输入向量相加作为输出,从而能够避免重构整个输出的窘境,使得模型训练时直接反传到单词输入向量一层,从而简化模型的训练过程。
[0191]
所述层标准化,用于以残差连接处理的输出作为输入,并对神经网络隐藏层的输出做0均值1方差的标准化,归一化为标准正态分布,从而加快训练速度和收敛速度。所述线性转换,用于对输入的数据重复做两次线性变换,保持线性变换后的向量长度与原向量一致的基础上,增强特征的表达能力,从而得到所述单词编码向量。在一种实施方式中,所述位置嵌入层、所述分割嵌入层和和所述字嵌入层为词向量设定了统一的维度d,定义文本句段数据的长度为l,单词编码向量为xi,其中i=1,2,3,...,l,则所述词向量特征表示s可以至少满足:
[0192]
s=r
l*d

[0193]
s=x
1:l
=x1⊕
x2⊕
x3⊕……⊕
x
l

[0194]
其中,

表示连接运算,可以是简单的拼接,也可以是进行运算后简历其他关联关系,以生成序列形式的词向量特征表示。所述维度d优选取768维,当然也可以根据模型的具体情况进行调整。
[0195]
相对应且较优地,在该具体示例的再一方面,通过对词向量进行多次重复卷积,并在多次重复卷积中加入激活,再在每次激活之后进行池化,如此重复多次进行特征强化和词向量维度的精炼,最终得到特征精炼度高且整体维度较低的词向量特征集合,以构成对上述第二实施例中步骤3323的改进。该具体示例在所述步骤3323层面上提供的回馈数据图谱生成方法,如图3、图4、图7和图8所示,可以具体包括下述步骤。
[0196]
步骤31,遍历原始信息库中所有原始语料,生成基础目录数据。
[0197]
步骤32,根据基础目录数据,抽取形成实体信息元素以及实体关系元素。
[0198]
步骤331,根据基础目录数据在原始信息库中检索,得到对应于不同基础目录数据的多组待处理文本。
[0199]
步骤3321,遍历待处理文本,根据预设的分句规则进行拆分,得到文本句段数据。
[0200]
步骤3322,将文本句段数据依次输入至预设的双向特征表示模型中,依次执行向量化表示、向量编码以及融合运算,得到分别对应文本句段数据的词向量特征表示。
[0201]
步骤33231,按照预设尺寸的卷积核、调用预设的第二激活函数,对词向量特征表示中的每个词向量重复执行两次卷积和激活,并对得到的一阶卷积词向量进行池化,得到对应词向量特征表示的多组中间词向量特征。
[0202]
步骤33232,按照预设尺寸的卷积核、调用预设的第二激活函数,对中间词向量特征分别重复执行两次卷积和激活,并对得到的二阶卷积词向量进行池化,得到对应词向量特征表示的多组最终词向量特征。
[0203]
步骤33233,将对应于同一词向量特征表示的最终词向量特征进行组合匹配,得到
词向量特征集合。
[0204]
步骤3324,调用预设的第一激活函数处理词向量特征集合,并根据预设的属性分类规则识别得到对应文本句段数据的初级属性数据。
[0205]
步骤333,根据初级属性数据、文本句段数据以及实体指向数据,依次执行属性融合和同属性句段聚合,生成句段属性元素。
[0206]
步骤34,根据实体信息元素构建实体节点,根据实体关系元素建立实体间的关联关系,将句段属性元素按照句段与实体间的关联关系,对应存入实体节点中,生成回馈数据图谱。
[0207]
具体地,上述步骤33231可以优选配置为,对词向量特征表示中每个词向量执行:卷积、激活、卷积、激活,从而得到所述一阶卷积词向量。上述步骤33232可以优选配置为,对中间词向量特征执行:卷积、激活、卷积、激活,从而得到所述二阶卷积词向量。上述卷积步骤采用的卷积核优选为同一个预设的卷积核,且上述激活采用的激活函数也可以优选为同一个第二激活函数。在一种实施方式中,所述第二激活函数为relu激活函数,以利用其正输入不存在饱和梯度问题,以及纯线性关系计算,激活速度快的优势。所述池化层可以配置为执行最大池化。抽象为英文表示可以是:词向量特征表示word embedding依次进行convd_1、relu_1、conv1d_2、relu_2、maxpooling1d_1、convd_3、relu_3、conv1d_4、relu_4、maxpooling1d_2。
[0208]
进一步地,定义所述卷积核的尺寸为m,卷积滤波器为w∈r
md
,偏置向量为b,则所述最终词向量特征ci可以至少满足:
[0209]ci
=f(w*x
i:i+m-1
+b)。
[0210]
基于此,可以对最终词向量特征进行组合匹配,得到对应于文本句段数据的词向量特征集合。定义所述词向量特征集合为c,则其可以至少满足:
[0211]
c={c1,c2,...,c
l-m+1
}。
[0212]
优选地,卷积滤波器的数量可以是256个,卷积核的尺寸可以是3。此外,在将词向量特征集合送入步骤3324进行第一激活函数激活之前,为了适应于数据量以及神经元个数较为庞大的情况,还可以设置有dropout层,随机删除一些神经元来防止过拟合。此外,词向量特征集合输出与第一激活函数激活之间,还可以设置有全连接层,长度对应为128,用于将局部特征进行结合,从而输出全局特征。
[0213]
在一种优选的实施方式中,所述步骤33231之前,还可以包括对词向量特征表示进行长度修正的步骤,从而适应属性分类卷积模型的输入要求。具体地,对于长度大于属性分类卷积模型的长度标准值的词向量特征表示,可以对其进行截断操作,对于长度小于所述长度标准值的词向量特征表示,可以对其进行补全操作,优选为补0。优选地,所述长度标准值为32。
[0214]
当然,该具体示例最终呈现的较优实施方式,可以是提供如图3、图4、图7和图8中全部所示的、同时包含有上述三个层面的技术方案的。此时,该具体示例即同时具有上述三个层面分别具有的有益效果,并相互配合产生其他技术效果,此处不再赘述。
[0215]
较优地,本发明提供基于上述实施方式的第三实施例,通过在双向特征表示模型之前配置预训练步骤及任务,从而优选地将双向特征表示模型配置为预训练模型,如此节省模型运算的时间耗费、提升特征提取的准确性并避免前向时刻的依赖性。在该第三实施
例中,如图3、图4和图9所示,所述回馈数据图谱生成方法具体可以包括下述步骤。
[0216]
步骤31,遍历原始信息库中所有原始语料,生成基础目录数据。
[0217]
步骤32,根据基础目录数据,抽取形成实体信息元素以及实体关系元素。
[0218]
步骤331,根据基础目录数据在原始信息库中检索,得到对应于不同基础目录数据的多组待处理文本。
[0219]
步骤51,接收预训练数据集。
[0220]
步骤52,使能双向特征表示模型,依次执行掩码语言模型任务以及下句预测任务,对预训练数据集中的数据进行迭代遍历预测和验证,得到标准模型参数组。
[0221]
步骤53,将标准模型参数组搭载于双向特征表示模型。
[0222]
步骤3321,遍历待处理文本,根据预设的分句规则进行拆分,得到文本句段数据。
[0223]
步骤3322’,将文本句段数据依次输入至训练好的双向特征表示模型中,依次执行向量化表示、向量编码以及融合运算,得到分别对应文本句段数据的词向量特征表示。
[0224]
步骤3323,将词向量特征表示输入预设的属性分类卷积模型中,得到对应词向量特征表示的词向量特征集合。
[0225]
步骤3324,调用预设的第一激活函数处理词向量特征集合,并根据预设的属性分类规则识别得到对应文本句段数据的初级属性数据。
[0226]
步骤333,根据初级属性数据、文本句段数据以及实体指向数据,依次执行属性融合和同属性句段聚合,生成句段属性元素。
[0227]
步骤34,根据实体信息元素构建实体节点,根据实体关系元素建立实体间的关联关系,将句段属性元素按照句段与实体间的关联关系,对应存入实体节点中,生成回馈数据图谱。
[0228]
其中,所述掩码语言模型任务,表征随机遮挡预训练数据集中,一段输入数据组中的部分单词,使所述双向编码器对该被遮挡的单词进行预测和检验。所述下句预测任务,表征随机提取两段输入数据组,是双向编码器判断其是否在预训练数据集中是相邻的。如此,经过迭代训练,使双向编码器在不同文本句段数据之间和文本句段数据中不同单词之间具有更强的预测能力,从而使得向量化的过程更为准确。
[0229]
当然,上述步骤51至步骤53并不必然设置于步骤331和步骤3321之间,其可以被设置于步骤3322及其衍生步骤3322’等以前的任何位置,只需要满足在执行步骤3322及其衍生步骤之前完成预训练即可。
[0230]
结合该第三实施例与前述具体示例,所述双向特征表示模型可以优选为bert模型,能够解决其他预训练模型过分依赖于前向输入的问题,防止网络层数低导致的运算时间拉长、提取特征优先等弊端的出现,也能够避免其他神经网络模型执行文本向量化时可能导致的准确率降低的情况。此外,双向特征表示模型在配置为诸如bert模型的预训练模型时,该与训练模型可以是已经预训练好的模型直接使用,也可以是执行如图9所示的预训练过程,按照特定的预训练数据集训练得到。所述预训练数据集,可以采用通用的文本数据集,也可以是根据所述原始信息库(冰箱说明书)或特定领域其他文本数据重新建立得到。
[0231]
在一种情况下,所述原始信息库可能包含一种固有的目录结构信息,其表征着用户预先设定好的、对原始语料的分类倾向,从而,可以通过对该目录结构信息进行抽取,从而建立实体信息元素和实体关系元素。但在另一种情况下,原始信息库中不存在目录结构
信息,或目录结构信息概括较为宽泛,无法进行更为细致的实体抽取,会影响回馈数据图谱整体的功能。
[0232]
基于此,本发明在基于上述实施方式的再一实施方式中,进一步提供一种如图3和图10所示的回馈数据图谱生成方法,可以搭载于上述任一种冰箱、问答设备和/或回馈数据图谱生成设备中,也可以搭载于上述任一种其他装置、设备或系统中。在该再一实施方式关于所述步骤31的改进层面,所述回馈数据图谱生成方法可以具体包括下述步骤。
[0233]
步骤311,分析得到原始信息库中的目录结构信息。
[0234]
步骤312,迭代识别不同原始语料对应的多组原始格式信息,当原始格式信息匹配于预设的标准格式信息时,提取该原始格式信息对应的原始语料作为结构语料信息。
[0235]
步骤313,根据结构语料信息和目录结构信息在原始信息库中的相对位置,对目录结构信息和结构语料信息进行排序整合,得到基础目录数据。
[0236]
步骤32,根据基础目录数据,抽取形成实体信息元素以及实体关系元素。
[0237]
步骤33,根据基础目录数据和原始信息库,依次执行属性融合以及同属性句段聚合,生成对应于不同文本句段数据的多组句段属性元素。
[0238]
步骤34,根据实体信息元素构建实体节点,根据实体关系元素建立实体间的关联关系,将句段属性元素按照句段与实体间的关联关系,对应存入实体节点中,生成回馈数据图谱。
[0239]
如此,可以不仅仅依靠原始信息库中固有的目录结构信息进行实体的提取,还能够自主地识别原始信息库中其他能够作为实体的结构语料信息,从而补充所述目录结构信息,或依靠其本身形成一套基础目录数据。基于此,可以自发地理解原始信息库中符合标准格式信息要求的数据,提升实体提取的针对性,由于符合标准格式信息要求的原始语料通常记载有更为详细的、下位的内容,因此提取得到的实体更为准确,后续回馈数据产生的指向性也会更强。
[0240]
所述标准格式信息可以是加粗标记信息,也可以是底色标记信息、斜体标记信息等,所述目录结构信息可以是从*.doc、*.docx格式文件中的大纲部分提取得到,也可以是获取预设的大纲样式,并根据样式进行遍历查找得到。
[0241]
相对应且较优地,在该再一实施方式关于所述步骤32的改进层面,所述回馈数据图谱生成方法可以具体包括下述步骤。
[0242]
步骤31,遍历原始信息库中所有原始语料,生成基础目录数据。
[0243]
步骤321,迭代并以基础目录数据作为实体进行抽取和排序,将对应生成的实体序号数据和基础目录数据执行匹配,形成实体信息元素。
[0244]
步骤322,迭代并根据基础目录数据之间的层级关系,确定作为实体的基础目录数据两两之间的外部关联关系,并根据外部关联关系以及对应的两项基础目录数据,匹配形成实体关系元素。
[0245]
步骤33,根据基础目录数据和原始信息库,依次执行属性融合以及同属性句段聚合,生成对应于不同文本句段数据的多组句段属性元素。
[0246]
步骤34,根据实体信息元素构建实体节点,根据实体关系元素建立实体间的关联关系,将句段属性元素按照句段与实体间的关联关系,对应存入实体节点中,生成回馈数据图谱。
[0247]
其中,所述实体序号数据用于表征实体之间的内容差异,以及用于表征实体与所述文本句段数据的关联关系。
[0248]
当然,上述步骤321和步骤322并不必然同时设置于所述步骤32中,本领域技术人员当然可以选择其一实施,并采用其他方案形成实体信息元素和实体关系元素的其中另一。
[0249]
实体序号数据可以与所述实体指向数据具有相同或至少相关联的形式,如此,实体指向数据能够清楚地锁定单个实体来建立关联关系。但,所述实体序号数据并不一定表征所述基础目录数据之间的层级关系,例如,在一种实施方式中,目录结构数据包括《序号1,实体1》、《序号1.1,实体2》,结构语料信息包括从属于实体2的《序号1.1.1,实体3》,上述三者共同构成所述基础目录数据,并且其中序号的小数位能够表征基础目录数据之间的层级关系。经过抽取和排序后,可以对应生成《序号1,实体1》、《序号2,实体2》、《序号3,实体3》,同样能够实现建立实体本身、实体之间关系、实体与句段之间关系的技术效果,并且节省运算步骤。
[0250]
与此相对应地,关联于上述任一实体的句段属性元素,其中的实体指向数据可以与对应实体的实体序号数据一致,以关联于上述实体3的某一句段属性元素为例,其可以具有《序号3,句段属性数据,文本句段数据》的形式。
[0251]
对于实体关系元素的抽取,参考基础目录数据《序号1,实体1》、《序号1.1,实体2》、《序号1.1.1,实体3》的序号部分,可见其至少具有下述外部关联关系的内涵:实体1包含实体2,实体2包含实体3。基于此,可以建立《实体1,包含,实体2》、《实体2,包含,实体3》的所述实体关系元素,并在必要时,也可以建立《实体1,包含,实体3》的实体关系元素。
[0252]
当然,该再一实施方式可以是同时包含有上述两个层面的技术方案的。此时,该再一实施方式即同时具有上述两个层面分别具有的有益效果,并相互配合产生其他技术效果,此处不再赘述。
[0253]
步骤311中根据原始信息库分析其中的目录结构信息,作为优选地,可以进一步包括下述步骤。
[0254]
步骤3111,定位原始信息库中的目录数据集合。
[0255]
步骤3112,提取目录数据集合中的目录标题信息和目录层级序号,组成目录结构信息,并按照目录层级序号对目录结构信息排序。
[0256]
定位目录数据集合的方式,可以是简单的检索“目录”二字进行,也可以是识别原始信息库中包含大纲目录格式的数据,以集中包含大纲目录格式数据的页面作为所述目录数据集合。
[0257]
较优地,本发明提供基于上述再一实施方式的一个实施例。在该实施例中,如图3、图10,以及图11或图12所示,所述回馈数据图谱生成方法具体可以包括下述步骤。
[0258]
步骤311,分析得到原始信息库中的目录结构信息。
[0259]
步骤312,迭代识别不同原始语料对应的多组原始格式信息,当原始格式信息匹配于预设的标准格式信息时,提取该原始格式信息对应的原始语料作为结构语料信息。
[0260]
步骤3131,迭代判断结构语料信息与所有目录结构信息之间的从属关系,得到位于结构语料信息最接近上一层级的目录结构信息,作为参考结构信息。
[0261]
步骤3132,根据参考结构信息中的目录层级序号,以及相邻的其他结构语料信息
分布情况,确定结构语料信息的目录层级序号。
[0262]
步骤3133,按照目录层级序号对目录结构信息和结构语料信息进行排序整合,得到基础目录数据。
[0263]
步骤32,根据基础目录数据,抽取形成实体信息元素以及实体关系元素。
[0264]
步骤33,根据基础目录数据和原始信息库,依次执行属性融合以及同属性句段聚合,生成对应于不同文本句段数据的多组句段属性元素。
[0265]
步骤34,根据实体信息元素构建实体节点,根据实体关系元素建立实体间的关联关系,将句段属性元素按照句段与实体间的关联关系,对应存入实体节点中,生成回馈数据图谱。
[0266]
其中,所述目录结构信息包括相互对应的目录标题信息和目录层级序号。
[0267]
如此,可以通过目录结构信息与结构语料信息的相邻关系,推断结构语料信息与目录结构信息之间的从属关系,并根据结构语料信息上一层的目录结构信息的目录层级序号(例如实体2的序号1.1),生成结构语料信息的目录层级序号(例如实体3的序号1.1.1),并将目录层级序号与对应的目录结构信息、结构语料信息进行匹配,便于后续抽取基础目录数据(即实体)间的关系(例如包含关系)。
[0268]
优选地,在该实施例的一个具体示例中,如图3、图10和图11所示,所述目录结构信息包括先后设置的第一结构信息和第二结构信息,所述第一结构信息包括第一标题信息和第一层级序号,所述第二结构信息包括第二标题信息和第二层级序号。基于此,所述步骤3131还可以进一步包括:
[0269]
步骤31310,链接到原始信息库中第一标题信息所指向的实际位置,向下遍历并迭代识别不同原始语料对应的多组原始格式信息,对应提取符合条件的原始语料作为结构语料信息,分别存储为至少一组第一语料信息,直至识别到第二结构信息。
[0270]
与此相配合地,所述步骤3132还可以进一步包括:
[0271]
步骤31320,根据第一层级序号,按照第一语料信息的内部排列顺序,生成对应于至少一组第一语料信息的至少一组第一次级序号,并将第一次级序号与对应的第一语料信息形成匹配,以第一次级序号作为对应第一语料信息的目录层级序号。
[0272]
如此,可以通过固有的链接,方便的建立目录结构信息与原始信息库中其他位置及原始语料的对应关系,并据此生成结构语料信息的目录层级序号。
[0273]
具体而言,第一语料信息整体从属于第一结构信息,第一语料信息包含多个先后排列的原始语料,若第一层级序号为2.3,则第一语料信息中多个原始语料可以依次具有2.3.1、2.3.2、2.3.3等作为其目录层级序号。可见,本具体示例主要利用向下遍历并实时生成的方式,得到结构语料信息的目录层级序号。
[0274]
优选地,在该实施例的另一个具体示例中,如图3、图10和图12所示,所述步骤312可以进一步包括:
[0275]
步骤3120,迭代遍历原始信息库中除目录结构信息以外的部分,提取符合条件的原始语料,得到第一语料信息。
[0276]
与此相配合地,所述步骤3131还可以进一步包括:
[0277]
步骤31310’,根据第一语料信息向前检索,得到首次出现的目录结构信息作为参考结构信息,并统计排列于第一语料信息和参考结构信息之间的其他结构语料信息的个
数,得到前向语料数量。
[0278]
与此相配合地,所述步骤3132还可以进一步包括:
[0279]
步骤31320’,根据参考结构信息的目录层级序号,以及前向语料数量,生成对应于第一语料信息的第一次级序号,并将第一次级序号与第一语料信息形成匹配,以第一次级序号作为对应第一语料信息的目录层级序号。
[0280]
该另一具体示例,可以适用于目录结构数据无法链接到原始信息库中其他位置的情况,优先查询符合格式条件的结构语料信息后,再次前向查找得到与之相邻最近的、且属于其上一层级的目录结构数据,从而根据该参考结构信息的目录层级序号,进行结构语料信息的目录层级序号的生成。
[0281]
当然,上述两种具体示例并不必然相互排斥,在本发明中,优选地,可以先行判断目录结构信息是否存在链接,而后选择性采用两种具体示例之一进行处理。
[0282]
作为补充地,上述内容提供了关于本发明的不同实施方式、实施例以及具体示例,本领域技术人员可以理解的,不同层次分别进行论述而形成的多种技术方案之间,并不必然割裂而相互排斥地设置,本领域技术人员当然可以结合上述多种技术方案中的两种或更多形成更优化的技术方案。同时,可以理解地,本发明提供的最优技术方案在于,同时实施上述技术方案中涉及步骤的全部。
[0283]
综上,本发明提供的回馈数据图谱生成方法,通过抽取基础目录数据建立实体信息元素和实体关系元素,能够充分利用原始信息库既有的结构关系进行数据图谱的构建,提升数据图谱生成的效率;通过属性融合及同属性句段聚合,不仅能够避免上下文属性一致性差,还能在图谱生成阶段就建立好实体与数据库中其他所有相关数据的关联关系,并以句段为单位进一步提升了图谱的粒度级,以使检索阶段能够快速且准确地锁定相关信息,如此实现了检索结果内容精准、匹配度高,大幅提高检索速度以及检索精准度的技术效果。
[0284]
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
[0285]
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1