基于自然语言处理的语句筛选方法、装置及计算机设备与流程

文档序号:26050640发布日期:2021-07-27 15:25阅读:来源:国知局

技术特征:

1.一种基于自然语言处理的语句筛选方法,其特征在于,所述方法包括:

若接收到用户输入的特征文本集合,根据预置的转换词典及预存的神经网络对所述特征文本集中的每一特征语句进行转换得到对应的第一语句表征向量;

根据所述转换词典及所述神经网络对预置的通用文本集合中的每一通用语句进行转换得到对应的第二语句表征向量;其中所述通用文本集合包含的通用语句的数量大于所述特征文本集合包含的特征语句的数量;

将所述第一语句表征向量及所述第二语句表征向量分别输入预置的多头自注意力网络以计算得到对应的第一语句权重向量及第二语句权重向量;

对每一所述通用语句对应第一语句权重向量与每一所述特征语句对应第二语句权重向量进行交叉计算,得到每一所述通用语句与每一所述特征语句之间的向量距离值;

获取与每一所述特征语句之间的向量距离值满足预置的筛选条件的多个通用语句后组合得到通用语句集合;

对所述通用语句集合包含的通用语句进行去重处理得到目标语句集合。

2.根据权利要求1所述的基于自然语言处理的语句筛选方法,其特征在于,所述根据预置的转换词典及预存的神经网络对所述特征文本集中的每一特征语句进行转换得到对应的第一语句表征向量,包括:

根据所述转换词典对每一所述特征语句进行转换得到第一特征向量;

将每一所述特征语句对应的第一特征向量输入所述神经网络进行计算得到对应的第一语句表征向量。

3.根据权利要求1所述的基于自然语言处理的语句筛选方法,其特征在于,所述根据所述转换词典及所述神经网络对预置的通用文本集合中的每一通用语句进行转换得到对应的第二语句表征向量,包括:

根据所述转换词典对每一所述通用语句进行转换得到第二特征向量;

将每一所述通用语句对应的第二特征向量输入所述神经网络进行计算得到对应的第二语句表征向量。

4.根据权利要求1所述的基于自然语言处理的语句筛选方法,其特征在于,所述将所述第一语句表征向量及所述第二语句表征向量分别输入预置的多头自注意力网络以计算得到对应的第一语句权重向量及第二语句权重向量,包括:

将每一所述特征语句的第一语句表征向量输入所述多头自注意力网络进行计算,得到与每一所述第一特征语句对应的一个第一多头向量矩阵;

对每一所述第一多头向量矩阵包含的多头向量值进行平均计算得到对应的第一语句权重向量;

将每一所述通用语句的第二语句表征向量输入所述多头自注意力网络进行计算,得到与每一所述第二特征语句对应的一个第二多头向量矩阵;

对每一所述第二多头向量矩阵包含的多头向量值进行平均计算得到对应的第二语句权重向量。

5.根据权利要求1所述的基于自然语言处理的语句筛选方法,其特征在于,所述对每一所述通用语句对应第一语句权重向量与每一所述特征语句对应第二语句权重向量进行交叉计算,得到每一所述通用语句与每一所述特征语句之间的向量距离值,包括:

对每一所述第一语句权重向量分别与每一所述第二语句权重向量进行交叉组合得到多个权重向量对;

根据预置的向量距离计算公式对每一所述权重向量对进行计算得到每一所述通用语句与每一所述特征语句之间的向量距离值。

6.根据权利要求1所述的基于自然语言处理的语句筛选方法,其特征在于,所述筛选条件为向量距离阈值,所述获取与每一所述特征语句之间的向量距离值满足预置的筛选条件的多个通用语句后组合得到通用语句集合,包括:

获取与每一所述特征语句之间的向量距离值不大于所述向量距离阈值的多个通用语句后组合得到所述通用语句集合。

7.根据权利要求1所述的基于自然语言处理的语句筛选方法,其特征在于,所述筛选条件为筛选数量,所述获取与每一所述特征语句之间的向量距离值满足预置的筛选条件的多个通用语句后组合得到通用语句集合,包括:

根据所述向量距离值由小到大对与每一所述特征语句对应的多个通用语句进行排序,得到每一所述特征语句对应的一个通用语句排序结果;

获取与每一所述特征语句对应的一个通用语句排序结果中排序靠前且数量等于所述筛选数量的多个通用语句后组合得到所述通用语句集合。

8.一种基于自然语言处理的语句筛选装置,其特征在于,所述装置包括:

特征语句转换单元,用于若接收到用户输入的特征文本集合,根据预置的转换词典及预存的神经网络对所述特征文本集中的每一特征语句进行转换得到对应的第一语句表征向量;

通用语句转换单元,用于根据所述转换词典及所述神经网络对预置的通用文本集合中的每一通用语句进行转换得到对应的第二语句表征向量;其中所述通用文本集合包含的通用语句的数量大于所述特征文本集合包含的特征语句的数量;

语句权重向量获取单元,用于将所述第一语句表征向量及所述第二语句表征向量分别输入预置的多头自注意力网络以计算得到对应的第一语句权重向量及第二语句权重向量;

向量距离值计算单元,用于对每一所述通用语句对应第一语句权重向量与每一所述特征语句对应第二语句权重向量进行交叉计算,得到每一所述通用语句与每一所述特征语句之间的向量距离值;

通用语句集合获取单元,用于获取与每一所述特征语句之间的向量距离值满足预置的筛选条件的多个通用语句后组合得到通用语句集合;

去重处理单元,用于对所述通用语句集合包含的通用语句进行去重处理得到目标语句集合。

9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于自然语言处理的语句筛选方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于自然语言处理的语句筛选方法。


技术总结
本发明公开了基于自然语言处理的语句筛选方法、装置及计算机设备,方法包括:将特征文本集合的特征语句转换为第一语句特征向量并将每一通用语句转换为对应的第二语句特征向量,分别计算得到第一语句权重向量及第二语句权重向量后进行交叉计算,得到每一通用语句与每一特征语句之间的向量距离值,根据向量距离值获取通用文本集合中的多个通用语句组合形成通用语句组合,进行去重处理得到目标语句集合。本发明属于语义解析技术领域,通过上述方法,采用多头自注意力网络获取得到语句权重向量,并基于交叉计算得到的向量距离值筛选得到目标语句集合,可快速准确筛地选得到与特征文本集合相匹配的目标语句集合,并且提高了目标语句集合的质量。

技术研发人员:康海梅;魏韬;马骏;王少军
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2021.04.28
技术公布日:2021.07.27
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1