文本匹配方法、装置、电子设备及可读存储介质与流程

文档序号:37167292发布日期:2024-03-01 12:09阅读:24来源:国知局
文本匹配方法、装置、电子设备及可读存储介质与流程

本发明实施例涉及人工智能,尤其涉及一种文本匹配方法、装置、电子设备及可读存储介质。


背景技术:

1、随着科技的发展日新月异,企业在日常工作中会产生大量的数据,而这些数据很多是以非结构化文本的形式存在,如规章制度、技术文档、宣传材料等等。人们往往需要从这些文档资料中获取信息,而从已有文档资料中找到相关文本信息如某个问题的答案,通常需要花费大量的时间和精力。

2、目前,文本匹配方式主要有两种:第一种是通过字符匹配,即通过计算文本之间的字符相似度来进行文本匹配;第二种是通过将文本转化为向量,计算文本向量间的相似度,选取其中相似度最高的文本作为文本匹配结果。然而,上述文本匹配方式存在文本匹配的准确率比较低的问题。


技术实现思路

1、本发明实施例提供一种文本匹配方法、装置、电子设备及可读存储介质,以解决现有技术中文本匹配方式存在文本匹配的准确率比较低的问题。

2、第一方面,本发明实施例提供一种文本匹配方法,该方法包括:

3、获取m个文本片段中每个文本片段的k个第一文本切片,以及获取n个第二文本切片,所述n个第二文本切片是基于目标文本切片得到;m、k和n均为正整数;

4、针对每个文本片段,获取第一相似度、第二相似度和第三相似度;所述第一相似度为所述文本片段的k-1个第一文本切片和所述目标文本的n-1个第二文本切片之间的相似度与所述文本片段的第k个第一文本切片和所述目标文本的第n个第二文本切片之间的相似度的叠加,第二相似度为所述文本片段的k个第一文本切片和所述目标文本的n-1个第二文本切片的相似度,第三相似度为所述文本片段的k-1个第一文本切片和所述目标文本的n个第二文本切片的相似度;

5、基于所述第一相似度、第二相似度和第三相似度,确定所述文本片段和所述目标文本的目标相似度;

6、将所述m个文本片段中与所述目标文本的目标相似度最高的文本片段确定为与所述目标文本匹配的文本片段。

7、第二方面,本发明实施例提供一种文本匹配装置,该装置包括;

8、第一获取模块,用于获取m个文本片段中每个文本片段的k个第一文本切片,以及获取n个第二文本切片,所述n个第二文本切片是基于目标文本切片得到;m、k和n均为正整数;

9、第二获取模块,用于针对每个文本片段,获取第一相似度、第二相似度和第三相似度;所述第一相似度为所述文本片段的k-1个第一文本切片和所述目标文本的n-1个第二文本切片之间的相似度与所述文本片段的第k个第一文本切片和所述目标文本的第n个第二文本切片之间的相似度的叠加,第二相似度为所述文本片段的k个第一文本切片和所述目标文本的n-1个第二文本切片的相似度,第三相似度为所述文本片段的k-1个第一文本切片和所述目标文本的n个第二文本切片的相似度;

10、第一确定模块,用于基于所述第一相似度、第二相似度和第三相似度,确定所述文本片段和所述目标文本的目标相似度;

11、第二确定模块,用于将所述m个文本片段中与所述目标文本的目标相似度最高的文本片段确定为与所述目标文本匹配的文本片段。

12、第三方面,本发明实施例提供一种电子设备,包括处理器,存储器,存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述文本匹配方法的步骤。

13、第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述文本匹配方法的步骤。

14、本发明实施例中,通过将文本片段和目标文本进行切片,可以极大地降低非相关内容对于相似度计算的影响,并针对每个文本片段,获取文本片段的第一文本切片和目标文本的第二文本切片之间整体的第一相似度、第二相似度和第三相似度,基于文本切片之间的整体相似度,确定文本片段和目标文本的整体相似度,并将m个文本片段中与目标文本的整体相似度最高的文本片段确定为与所述目标文本匹配的文本片段。如此,通过确定文本片段和目标文本的整体相似度,可以避免文本片段和目标文本之间局部相似而导致的文本匹配结果错误,从而可以提高文本匹配的准确率。



技术特征:

1.一种文本匹配方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取第一相似度、第二相似度和第三相似度,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述第四相似度,分别确定所述第一相似度、第二相似度和第三相似度,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述第一相似度、第二相似度和第三相似度,确定所述文本片段和所述目标文本的目标相似度,包括:

5.根据权利要求1所述的方法,其特征在于,所述m个文本片段是从预设文档资料中获取的与问题文本相关的文本片段,所述获取n个第二文本切片,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述答案文本,确定所述目标文本,包括:

7.一种文本匹配装置,其特征在于,所述装置包括:

8.根据权利要求7所述的装置,其特征在于,所述第二获取模块包括:

9.根据权利要求8所述的装置,其特征在于,所述第一确定单元,具体用于:

10.根据权利要求7所述的装置,其特征在于,所述第一确定模块,具体用于:

11.根据权利要求7所述的装置,其特征在于,所述m个文本片段是从预设文档资料中获取的与问题文本相关的文本片段,所述第一获取模块包括:

12.根据权利要求11所述的装置,其特征在于,所述第二确定单元,具体用于:

13.一种电子设备,其特征在于,所述电子设备包括:包括处理器,存储器,存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的文本匹配方法的步骤。

14.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的文本匹配方法的步骤。


技术总结
本发明提供一种文本匹配方法、装置、电子设备及可读存储介质,属于人工智能技术领域。该方法包括:获取每个文本片段的K个第一文本切片,获取N个第二文本切片;获取第一相似度、第二相似度和第三相似度;第一相似度为K‑1个第一文本切片和N‑1个第二文本切片之间的相似度与第K个第一文本切片和第N个第二文本切片之间的相似度叠加,第二相似度为K个第一文本切片和N‑1个第二文本切片的相似度,第三相似度为K‑1个第一文本切片和N个第二文本切片的相似度;基于第一相似度、第二相似度和第三相似度,确定文本片段和目标文本的目标相似度;将M个文本片段中与目标文本的目标相似度最高的文本片段确定为与目标文本匹配的文本片段。

技术研发人员:付淳川,罗华刚,张杰,于皓,王振
受保护的技术使用者:北京中关村科金技术有限公司
技术研发日:
技术公布日:2024/2/29
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1