表格问答中的短语泛化方法、装置、电子设备及存储介质与流程

文档序号:29856585发布日期:2022-04-30 09:32阅读:来源:国知局

技术特征:
1.一种表格问答中的短语泛化方法,包括:获取用户问题,并将所述用户问题转换为向量表示;基于所述向量表示,从向量空间中召回候选泛化数据集;其中,所述向量空间中包括用户词表中表格数据对应的用户词表向量;对所述用户问题分词得到词组集合,并从所述词组集合中提取核心词集合;其中,所述核心词集合中至少包括一个核心词;精排所述核心词集合与所述候选泛化数据集,得到所述核心词集合的泛化结果。2.根据权利要求1所述的方法,其中,所述基于所述向量表示,从向量空间中召回候选泛化数据集,包括:基于所述向量表示,从所述向量空间对应的语义索引中获取相似度满足预设范围的多个用户词表向量;获取所述多个用户词表向量对应的多个表格数据,并将所述多个表格数据作为候选泛化数据集。3.根据权利要求1所述的方法,其中,所述精排所述核心词集合与所述候选泛化数据集,得到所述核心词集合的泛化结果,包括:获取所述核心词集合之中的当前核心词,并获取所述当前核心词与所述候选泛化数据集中多个候选泛化数据之间的多个相似度得分;确定所述多个相似度得分中最高的相似度得分所对应的目标候选泛化数据;并将所述目标候选泛化数据作为所述当前核心词的泛化结果。4.根据权利要求3所述的方法,其中,所述获取所述当前核心词与所述候选泛化数据集中多个候选泛化数据之间的多个相似度得分,包括:将所述当前核心词与所述候选泛化数据集中之中每个候选泛化数据分别输入预训练语义模型,获取所述当前核心词与所述候选泛化数据集中多个候选泛化数据之间的多个相似度得分。5.根据权利要求1所述的方法,其中,所述获取用户问题,并将所述用户问题转换为向量表示,包括:响应于收到包含用户问题的问答请求,将所述用户问题输入预训练语义模型,获取将所述用户问题转换为向量表示。6.一种表格问答中的短语泛化装置,包括:向量转化模块,用于获取用户问题,并将所述用户问题转换为向量表示;候选集获取模块,用于基于所述向量表示,从向量空间中召回候选泛化数据集;其中,所述向量空间中包括用户词表中表格数据对应的用户词表向量;核心词获取模块,用于对所述用户问题分词得到词组集合,并从所述词组集合中提取核心词集合;其中,所述核心词集合中至少包括一个核心词;精排模块,用于精排所述核心词集合与所述候选泛化数据集,得到所述核心词集合的泛化结果。7.根据权利要求6所述的装置,其中,所述候选集获取模块,具体用于:基于所述向量表示,从所述向量空间对应的语义索引中获取相似度满足预设范围的多个用户词表向量;
获取所述多个用户词表向量对应的多个表格数据,并将所述多个表格数据作为候选泛化数据集。8.根据权利要求6所述的装置,其中,所述精排模块,具体用于:获取所述核心词集合之中的当前核心词,并获取所述当前核心词与所述候选泛化数据集中多个候选泛化数据之间的多个相似度得分;确定所述多个相似度得分中最高的相似度得分所对应的目标候选泛化数据;并将所述目标候选泛化数据作为所述当前核心词的泛化结果。9.根据权利要求8所述的装置,其中,所述精排模块在获取所述当前核心词与所述候选泛化数据集中多个候选泛化数据之间的多个相似度得分时,用于:将所述当前核心词与所述候选泛化数据集中之中每个候选泛化数据分别输入预训练语义模型,获取所述当前核心词与所述候选泛化数据集中多个候选泛化数据之间的多个相似度得分。10.根据权利要求6所述的装置,其中,所述向量转化模块,具体用于:响应于收到包含用户问题的问答请求,将所述用户问题输入预训练语义模型,获取将所述用户问题转换为向量表示。11.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。13.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。

技术总结
本申请公开了一种表格问答中的短语泛化方法、装置、电子设备及存储介质,涉及自然语言处理、智能搜索、深度学习等领域。具体实现方案为:获取用户问题,并将用户问题转换为向量表示;基于向量表示,从向量空间中召回候选泛化数据集;其中,向量空间中包括用户词表中表格数据对应的用户词表向量;对用户问题分词得到词组集合,并从词组集合中提取核心词集合;其中,核心词集合中至少包括一个核心词;精排核心词集合与候选泛化数据集,得到核心词集合的泛化结果。将用户词表、用户问题映射到同一个向量空间,进而可计算向量相似度作为语义相似度,最终得到用户问题中不同片段的泛化结果,提高了短语泛化精度。提高了短语泛化精度。提高了短语泛化精度。


技术研发人员:陈炳金 涂佳阳 何东峰 林英展 黄世维
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2021.12.28
技术公布日:2022/4/29
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1