本发明涉及搜索引擎,尤其涉及一种问题召回方法、装置、设备及存储介质。
背景技术:
1、搜索任务中,从用户query(查询语句)中准确计算出用户的搜索意图以及准确表征文档的语义是非常困难的。现有搜索算法主要通过关键词匹配结合倒排索引的方法进行检索,泛化性能有限,很难将语义相近但字面不匹配的结果准确召回,影响了最终效果。
2、上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
1、本发明的主要目的在于提供一种问题召回方法、装置、设备及存储介质,旨在解决现有技术搜索任务中无法准确计算出用户的搜索意图的技术问题。
2、为实现上述目的,本发明提供了一种问题召回方法,所述方法包括以下步骤:
3、确定目标查询问题对应的语义向量特征;
4、根据所述语义向量特征得到对应的待召回语义向量集;
5、根据所述待召回语义向量集确定召回问题,以完成问题召回。
6、可选的,所述根据所述语义向量特征得到对应的待召回语义向量集,包括:
7、根据所述语义向量特征输入预设目标语义召回模型,得到待召回语义向量集。
8、可选的,所述根据所述语义向量特征输入预设目标语义召回模型,得到待召回语义向量集之前,还包括:
9、获取第一训练数据,所述第一训练数据中包含第一采样查询数据、第一正样本数据以及第一负样本数据;
10、根据所述第一训练数据对初始语义召回模型进行训练得到待优化语义模型;
11、根据所述第一训练数据确定第二训练数据,所述第二训练数据中包含第二采样查询数据以及第二正样本数据和第二负样本数据,其中,第二正样本数据与第二负样本数据的比值大于或等于第一正样本数据与第一负样本数据的比值;
12、根据所述第二训练数据对待优化语义模型进行训练得到目标语义召回模型。
13、可选的,所述获取第一训练数据之前,还包括:
14、根据预设问答数据集确定普通样本;
15、获取采样网络地址,所述采样网络地址为具有查询功能的网络地址;
16、根据所述采样网络地址信息确定多个关联查询信息;
17、根据各所述关联查询信息得到困难样本;
18、根据所述普通样本和困难样本生成第一训练数据。
19、可选的,所述根据各所述关联查询信息得到困难样本,包括:
20、根据所述关联查询信息确定查询信息对;
21、确定所述查询信息对的点击信息;
22、根据所述点击信息对查询信息对进行筛选得到有效查询信息对;
23、根据所述查询信息对生成困难样本。
24、可选的,所述根据各所述关联查询信息得到困难样本,包括:
25、根据所述关联查询信息确定当前查询文本以及所述当前查询文本对应的查询结果;
26、确定各所述查询结果的点击率;
27、根据所述点击率确定有效查询结果;
28、根据所述目标查询文本和有效查询结果生成困难样本。
29、可选的,所述根据所述点击率确定有效查询结果,包括:
30、获取当前查询文本应的查询结果数量;
31、根据所述查询结果数量和查询结果的点击率确定有效查询结果。
32、可选的,所述根据所述第一训练数据对初始语义召回模型进行训练得到待优化语义模型,包括:
33、将所述第一训练数据带入初始语义召回模型,得到语义召回表征;
34、根据所述语义向量表征计算损失值;
35、根据所述损失值调整初始语义召回模型直至模型收敛,得到待优化语义模型。
36、可选的,所述根据所述待召回语义向量集确定召回问题,以完成问题召回,包括:
37、根据所述目标查询问题进行关键词分析,得到关键词信息;
38、根据所述关键词信息得到备选召回问题;
39、根据所述语义向量集和所述备选召回问题确定召回问题,以完成问题召回。
40、可选的,所述根据所述待召回语义向量集确定召回问题,以完成问题召回,包括:
41、根据所述语义向量特征和待召回语义向量特征集匹配预设向量特征库,得到语义向量特征对应的第一待召回问题和待召回语义向量特征集对应的第二待召回问题;
42、根据所述第一待召回问题和第二待召回问题确定召回问题,以完成问题召回。
43、此外,为实现上述目的,本发明还提出一种问题召回装置,所述问题召回装置包括:
44、确定模块,用于确定目标查询问题对应的语义向量特征;
45、处理模块,用于根据所述语义向量特征得到对应的待召回语义向量集;
46、所述处理模块,还用于根据所述待召回语义向量集确定召回问题,以完成问题召回。
47、可选的,所述处理模块,还用于根据所述语义向量特征输入预设目标语义召回模型,得到待召回语义向量集。
48、可选的,所述处理模块,还用于获取第一训练数据,所述第一训练数据中包含第一采样查询数据、第一正样本数据以及第一负样本数据;
49、根据所述第一训练数据对初始语义召回模型进行训练得到待优化语义模型;
50、根据所述第一训练数据确定第二训练数据,所述第二训练数据中包含第二采样查询数据以及第二正样本数据和第二负样本数据,其中,第二正样本数据与第二负样本数据的比值大于或等于第一正样本数据与第一负样本数据的比值;
51、根据所述第二训练数据对待优化语义模型进行训练得到目标语义召回模型。
52、可选的,所述处理模块,还用于根据预设问答数据集确定普通样本;
53、获取采样网络地址,所述采样网络地址为具有查询功能的网络地址;
54、根据所述采样网络地址信息确定多个关联查询信息;
55、根据各所述关联查询信息得到困难样本;
56、根据所述普通样本和困难样本生成第一训练数据。
57、可选的,所述处理模块,还用于根据所述关联查询信息确定查询信息对;
58、确定所述查询信息对的点击信息;
59、根据所述点击信息对查询信息对进行筛选得到有效查询信息对;
60、根据所述查询信息对生成困难样本。
61、可选的,所述处理模块,还用于根据所述关联查询信息确定当前查询文本以及所述当前查询文本对应的查询结果;
62、确定各所述查询结果的点击率;
63、根据所述点击率确定有效查询结果;
64、根据所述目标查询文本和有效查询结果生成困难样本。
65、可选的,所述处理模块,还用于获取当前查询文本应的查询结果数量;
66、根据所述查询结果数量和查询结果的点击率确定有效查询结果。
67、可选的,所述处理模块,还用于将所述第一训练数据带入初始语义召回模型,得到语义召回表征;
68、根据所述语义向量表征计算损失值;
69、根据所述损失值调整初始语义召回模型直至模型收敛,得到待优化语义模型。
70、此外,为实现上述目的,本发明还提出一种问题召回设备,所述问题召回设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的问题召回程序,所述问题召回程序配置为实现如上文所述的问题召回方法的步骤。
71、此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有问题召回程序,所述问题召回程序被处理器执行时实现如上文所述的问题召回方法的步骤。
72、本发明确定目标查询问题对应的语义向量特征;根据所述语义向量特征得到对应的待召回语义向量集;根据所述待召回语义向量集确定召回问题,以完成问题召回。通过上述方式,实现了对查询问题准确召回。本发明通过计算查询问题的语义向量特征,匹配语义相同的问题进行召回,准确的捕捉用户的搜索意图,将语义相近但字面不匹配的结果也可以进行准确召回,提高了召回的准确性的同时,提升了召回率。