本技术涉及机器学习领域,具体涉及一种数据检索方法、装置、电子设备及存储介质。
背景技术:
1、随着自然语言处理技术和人工智能技术的快速发展,人机问答技术和能力都有了极大的提升,但随着信息量的爆发式增长,人机问答技术需要稳定、精确的在文本数据中快速检索关键信息作为回答参考的能力。
技术实现思路
1、基于上述技术现状,本技术提出一种数据检索方法、装置、电子设备及存储介质。
2、为了达到上述技术目的,本技术提出如下技术方案:
3、对目标问题和文本数据结构中的各个主节点进行联合特征分析处理,确定与所述目标问题相关的目标主节点;
4、对所述目标问题和所述目标主节点的各个子节点进行联合特征分析处理,确定与所述目标问题相关的目标子节点;
5、将所述目标子节点中的文本内容作为所述目标问题的检索结果;
6、其中,所述文本数据结构包括具有层级关系的至少一个主节点以及与所述主节点对应的子节点,所述主节点包括文本数据的主标题以及与所述主标题对应的文本内容的文本特征,所述子节点包括所述主标题下属的子标题以及与所述子标题对应的文本内容的文本特征。
7、可选的,所述对目标问题和文本数据结构中的各个主节点进行联合特征分析处理,确定与所述目标问题相关的目标主节点,包括:
8、将各个所述主节点分别与所述目标问题进行关联度分析处理,得到所述目标问题与各个所述主节点之间的关联度;
9、基于所述目标问题与各个所述主节点之间的关联度,确定与所述目标问题相关的目标主节点。
10、可选的,所述将各个所述主节点分别与所述目标问题进行关联度分析处理,得到所述目标问题与各个主节点之间的关联度,包括:
11、提取所述目标问题的问题特征和各个所述主节点的主节点特征;
12、将各个所述主节点的主节点特征分别与所述目标问题的问题特征进行特征联合处理,获得各个所述主节点各自与所述目标问题之间的第一联合特征;
13、对所述第一联合特征进行关联度分析处理,得到所述目标问题与各个所述主节点之间的关联度。
14、可选的,所述提取所述目标问题的问题特征和各个所述主节点的主节点特征,包括:
15、分别创建各个所述主节点与所述目标问题之间的连接关系;
16、基于各个所述主节点与所述目标问题之间的连接关系,将所述目标问题添加至所述文本数据结构;
17、利用预先训练的图神经网络,对所述文本数据结构进行节点特征提取,获得所述目标问题的问题特征和各个主节点的主节点特征。
18、可选的,利用预先训练的图神经网络,对所述文本数据结构进行节点特征提取,获得所述目标问题的问题特征和各个主节点的主节点特征,包括:
19、利用预先训练的图神经网络,对所述文本数据结构进行节点特征提取;
20、利用编码模型,对所述图神经网络提取得到的所述文本数据结构的各个节点的节点特征进行编码处理;
21、基于编码处理后的所述文本数据结构的各个节点的节点特征,确定所述目标问题的问题特征和各个主节点的主节点特征。
22、可选的,所述对所述第一联合特征进行关联度分析处理,得到所述目标问题与各个所述主节点之间的关联度,包括:
23、利用预先训练的关联度分析模型,对所述第一联合特征进行关联度分析处理,得到所述目标问题与各个所述主节点之间的关联度。
24、可选的,所述对所述目标问题和所述目标主节点的各个子节点进行联合特征分析处理,确定与所述目标问题相关的目标子节点,包括:
25、将各个所述子节点分别与所述目标问题进行关联度分析处理,得到所述目标问题与各个子节点之间的关联度;
26、基于所述目标问题与各个子节点之间的关联度,确定与所述目标问题相关的目标子节点。
27、可选的,所述将各个所述子节点分别与所述目标问题进行关联度分析处理,得到所述目标问题与各个子节点之间的关联度,包括:
28、提取所述目标问题的问题特征和各个所述子节点的子节点特征;
29、将各个所述子节点的子节点特征分别与所述目标问题的问题特征进行联合特征处理,获得各个所述子节点各自与所述目标问题之间的第二联合特征;
30、对所述第二联合特征进行关联度分析处理,得到所述目标问题与各个所述子节点之间的关联度。
31、可选的,所述对所述第二联合特征进行关联度分析处理,得到所述目标问题与各个所述子节点之间的关联度,包括:
32、利用预先训练的关联度分析模型,对所述第二联合特征进行关联度分析处理,得到所述目标问题与各个子节点之间的关联度。
33、可选的,所述文本数据结构通过以下方式构建:
34、基于第一文本数据中的主标题和子标题间的从属关系,确定所述第一文本数据的主节点和子节点之间的层级关系;
35、基于所述主节点和子节点之间的层级关系,构建所述第一文本数据的第一文本数据结构。
36、可选的,还包括:
37、确定所述第一文本数据和第二文本数据之间的关联关系;
38、根据所述第一文本数据和所述第二文本数据之间的关联关系,将所述第二文本数据的第二文本数据结构添加至所述第一文本数据结构。
39、可选的,所述确定所述第一文本数据和第二文本数据之间的关联关系,包括:
40、分别确定所述第一文本数据和所述第二文本数据的分类编号;基于所述第一文本数据和所述第二文本数据的分类编号之间的从属关系,确定所述第一文本数据和所述第二文本数据之间的关联关系;
41、或者,
42、获得所述第一文本数据的第一关键词和所述第二文本数据的第二关键词,并确定所述第一关键词和所述第二关键词的重复个数;根据所述重复个数与所述第一关键词或第二关键词的总数之间的比值,确定所述第一文本数据和所述第二文本数据之间的关联关系。
43、一种数据检索装置,包括:
44、第一处理单元,用于对目标问题和文本数据结构中的各个主节点进行联合特征分析处理,确定与所述目标问题相关的目标主节点;
45、第二处理单元,用于对所述目标问题和所述目标主节点的各个子节点进行联合特征分析处理,确定与所述目标问题相关的目标子节点;
46、结果确认单元,用于将所述目标子节点中的文本内容作为所述目标问题的检索结果;
47、其中,所述文本数据结构包括具有层级关系的至少一个主节点以及与所述主节点对应的子节点,所述主节点包括文本数据的主标题以及与所述主标题对应的文本内容的文本特征,所述子节点包括所述主标题下属的子标题以及与所述子标题对应的文本内容的文本特征。
48、一种电子设备,包括:
49、处理器;
50、用于存储所述处理器可执行指令的存储器;
51、所述处理器,用于通过运行所述存储器中的指令,执行上述数据检索方法。
52、一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器运行时,执行上述数据检索方法。
53、本技术提出的数据检索方法,包括:对目标问题和文本数据结构中的各个主节点进行联合特征分析处理,确定与所述目标问题相关的目标主节点;对所述目标问题和所述目标主节点的各个子节点进行联合特征分析处理,确定与所述目标问题相关的目标子节点;将所述目标子节点中的文本内容作为所述目标问题的检索结果;其中,所述文本数据结构基于至少一个文本数据构建,包括具有层级关系的至少一个主节点和与所述主节点对应的子节点,所述主节点包括所述文本数据的主标题以及与所述主标题对应的文本内容的文本特征,所述子节点,包括所述主标题的子标题以及与所述子标题对应的文本内容的文本特征。
54、该方法利用文本数据的层级关系的文本数据结构,结合与文本数据的主标题对应的主节点和所述目标问题进行联合特征分析,确定与目标问题相关的目标主节点,之后,再结合与所述目标主节点的子节点和所述目标问题进行联合特征分析,确定与所述目标问题相关的目标子节点作为所述目标问题的检索结果,该方法通过对文本数据结构中的主节点和子节点先后进行两段检索,即,先对主标题进行检索,再对具体内容进行检索,降低了检索的复杂度,加快了目标问题的检索速度。