文本检测方法、装置、电子设备、存储介质及产品与流程

文档序号:36260861发布日期:2023-12-05 18:57阅读:36来源:国知局
文本检测方法与流程

本说明书实施例涉及数据处理,并且更具体地,涉及数据处理中一种文本检测方法、装置、电子设备、计算机可读存储介质及计算机程序产品。


背景技术:

1、随着自然语言处理技术(natural language processing,nlp)的广泛应用,越来越多的用户在无形中应用着nlp技术带来的便利,用户可以通过文字信息进行交流获取所需的信息,在这个过程中,也不可避免会产生大量低质量的内容,例如无效的搜索信息、低俗的对话内容等等。与此同时,为保证nlp模型的准确性和数据的一致性,在模型训练阶段会选择线上用户数据作为训练测试集,那么这部分数据作为无价值的信息,会影响正常数据标签的分布,导致整体数据集质量降低,如果使用低质量的数据集进行模型训练,会影响模型的准确性。

2、因此,如何对用于模型训练的数据集中的低质量数据进行检测成为亟需解决的技术问题。


技术实现思路

1、本说明书实施例提供了一种、装置、电子设备、计算机可读存储介质及计算机程序产品,该方法能够高效的对用于模型训练的数据集中的低质量数据进行检测。

2、第一方面,提供了一种文本检测的方法,该文本检测方法包括:基于数据检索模型对待检测文本进行检索,得到所述待检测文本的至少一个近邻文本;确定所述待检测文本与所述至少一个近邻文本的文本语义相似度和/或文本标签相似度;基于所述文本语义相似度和/或所述文本标签相似度,对所述至少一个近邻文本中的噪声文本进行过滤,得到对比文本;基于所述对比文本对所述待检测文本进行文本检测。

3、第二方面,提供了一种文本检测装置,该文本检测装置包括:

4、文本检索模块,用于基于数据检索模型对待检测文本进行检索,得到所述待检测文本的至少一个近邻文本;

5、数据计算模块,用于确定所述待检测文本与所述至少一个近邻文本的文本语义相似度和/或文本标签相似度;

6、文本过滤模块,用于基于所述文本语义相似度和/或所述文本标签相似度,对所述至少一个近邻文本中的噪声文本进行过滤,得到对比文本;

7、文本检测模块,用于基于所述对比文本对所述待检测文本进行文本检测。

8、第三方面,提供一种电子设备,包括存储器和处理器。该存储器用于存储可执行程序代码,该处理器用于从存储器中调用并运行该可执行程序代码,使得该电子设备执行上述第一方面或第一方面任意一种可能的实现方式中的方法。

9、第四方面,提供了一种计算机程序产品,该计算机程序产品包括:计算机程序代码,当该计算机程序代码在计算机上运行时,使得该计算机执行上述第一方面或第一方面任意一种可能的实现方式中的方法。

10、第五方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序代码,当该计算机程序代码在计算机上运行时,使得该计算机执行上述第一方面或第一方面任意一种可能的实现方式中的方法。

11、本说明书实施例通过采用基于数据检索模型对待检测文本进行检索,得到待检测文本的至少一个近邻文本,确定待检测文本与至少一个近邻文本的文本语义相似度和/或文本标签相似度,基于文本语义相似度和/或文本标签相似度,对至少一个近邻文本中的噪声文本进行过滤,得到对比文本,基于对比文本对待检测文本进行文本检测的技术方案,能够高效的对待检测文本的标签是否标注准确进行检测,以判断待检测文本是否为低质量文本,如此能够实现对用于模型训练的数据集中的低质量数据进行高效检测,筛选出数据集中的低质量数据,有利于提高数据集的整体质量,从而提高模型的准确性。



技术特征:

1.一种文本检测方法,所述文本检测方法包括:

2.根据权利要求1所述的文本检测方法,所述待检测文本包括问题文本和回答文本;

3.根据权利要求1或2所述的文本检测方法,所述数据检索模型包括树形数据结构的检索模型。

4.根据权利要求1所述的文本检测方法,所述确定所述待检测文本与所述至少一个近邻文本的文本语义相似度和/或文本标签相似度包括:

5.根据权利要求4所述的文本检测方法,所述文本语义相似度大于或者等于第一相似度阈值,表示所述待检测文本的文本语义与所述至少一个近邻文本的文本语义相关;所述文本语义相似度小于所述第一相似度阈值,表示所述待检测文本的文本语义与所述至少一个近邻文本的文本语义不相关;

6.根据权利要求5所述的文本检测方法,所述基于所述文本语义相似度和/或所述文本标签相似度,对所述至少一个近邻文本中的噪声文本进行过滤,得到对比文本包括:

7.根据权利要求5所述的文本检测方法,所述基于所述文本语义相似度和/或所述文本标签相似度,对所述至少一个近邻文本中的噪声文本进行过滤,得到对比文本包括:

8.根据权利要求7所述的文本检测方法,所述基于判断结果对所述至少一个近邻文本中的噪声文本进行过滤,得到所述对比文本包括:

9.一种文本检测装置,所述文本检测装置包括:

10.一种电子设备,所述电子设备包括:

11.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被执行时,实现如权利要求1至8中任意一项所述的方法。

12.一种包含指令的计算机程序产品,当所述计算机程序产品在计算机或处理器上运行时,使得所述计算机或处理器执行如权利要求1至8中任意一项所述的方法。


技术总结
本说明书实施例提供了一种文本检测方法、装置、电子设备、计算机可读存储介质及计算机程序产品,该方法包括:基于数据检索模型对待检测文本进行检索,得到待检测文本的至少一个近邻文本;确定待检测文本与至少一个近邻文本的文本语义相似度和/或文本标签相似度;基于文本语义相似度和/或文本标签相似度,对至少一个近邻文本中的噪声文本进行过滤,得到对比文本;基于对比文本对待检测文本进行文本检测。

技术研发人员:都文龙,李庆泉,张炳淑,周中军
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1