本申请涉人工智能,特别涉及一种文本检测方法、装置及设备。
背景技术:
1、随着信息技术的飞速发展,文本信息量与日俱增,无法通过阅读快速在文本信息中筛选出需要的信息,一般通过对文本检测,判断文本中是否包括目标词汇进行判断,以筛选出需要的文本。
2、现有针对文本检测的方法,主要采用基于深度学习的智能检测算法。智能检测算法是以变压器的双层编码表示(bidirectional encoder representation fromtransformers,bert)模型为基础,根据已标注的目标文本信息训练目标文本检测模型。
3、但是,目前的基于bert模型的智能检测算法由于只对单个文本基本单位(即token)进行随机标记,容易丢失短语和实体信息,特别是对中文文本而言,容易进行忽略语义的替换标记,使得模型对目标文本检测效果不好,影响检测正确率。
技术实现思路
1、本申请实施方式的目的是提供一种文本检测方法、装置及设备,以解决现有的文本检测正确率较低的问题。
2、为解决上述技术问题,本说明书第一方面提供了一种文本检测方法,包括:
3、获取待检测文本以及目标词汇;
4、基于所述待检测文本的上下文关联关系,确定所述待检测文本的第一语义特征;
5、确定所述待检测文本的文本位置信息,并基于所述文本位置信息和所述第一语义特征,确定所述待检测文本的第二语义特征,其中,所述文本位置信息包括所述待检测文本的上下文的位置关系;
6、基于所述第二语义特征,判断所述待检测文本中是否包含目标词汇。
7、在一些实施例中,基于所述待检测文本的上下文关联关系,确定所述待检测文本的第一语义特征,包括:
8、将待检测文本进行词嵌入,得到待检测文本向量,所述待检测文本向量中包括多组词向量;
9、确定所述待检测文本向量中各组词向量之间的关联关系,并基于各组词向量之间的关联关系,确定所述第一语义特征。
10、在一些实施例中,所述词向量包括查询子向量、被查询子向量以及内容子向量;
11、相应的,确定所述待检测文本向量中各组词向量之间的关联关系,并基于各组词向量之间的关联关系,确定所述第一语义特征,包括:
12、基于所述查询子向量和所述被查询子向量,确定所述待检测文本中各组词向量之间的第一相关度;
13、将所述第一相关度和所述内容子向量融合,生成所述第一语义特征。
14、在一些实施例中,将所述第一相关度和所述内容子向量融合,生成所述第一语义特征,包括:
15、对所述相关度进行标准化处理,并将标准化后的相关度与所述内容子向量融合后进行归一化处理,得到所述第一语义特征。
16、在一些实施例中,确定所述待检测文本的文本位置信息,包括:
17、将所述第一语义特征输入双向循环神经网络,输出所述待检测文本的文本位置信息。
18、在一些实施例中,基于所述文本位置信息和所述第一语义特征,确定所述待检测文本的第二语义特征,包括:
19、将所述文本位置信息添加至所述第一语义特征中,得到中间语义特征;
20、确定目标词汇与所述中间语义特征的关联关系,得到第二相关度;
21、通过多个维度对所述第二相关度分配注意力,得到多个维度的注意力特征,不同维度对所述第二相关度的关注部分是不同的;
22、对所述多个维度的注意力特征拼接并进行线性变换,得到所述第二语义特征。
23、在一些实施例中,基于所述第二语义特征,判断所述待检测文本中是否包含目标词汇,包括:
24、将目标词汇进行词嵌入,得到目标词汇向量;
25、确定目标词汇向量与第二语义特征之间的相似度;
26、在相似度满足预设相似度阈值的情况下确定所述待检测文本中包括目标词汇。
27、本说明书第二方面还提供了一种文本检测装置,包括:
28、文本获取模块,用于获取待检测文本以及目标词汇;
29、第一特征提取模块,用于基于所述待检测文本的上下文关联关系,确定所述待检测文本的第一语义特征;
30、第二特征提取模块,用于确定所述待检测文本的文本位置信息,并基于所述文本位置信息和所述第一语义特征,确定所述待检测文本的第二语义特征,其中,所述文本位置信息包括所述待检测文本的上下文的位置关系;
31、文本判断模块,用于基于所述第二语义特征,判断所述待检测文本中是否包含目标词汇。
32、本说明书第三方面提供一种电子设备,包括:存储器和处理器,所述处理器和所述存储器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而实现第一方面任一项所述方法的步骤。
33、本说明书第四方面提供一种计算机存储介质,所述计算机存储介质存储有计算机程序指令,所述计算机程序指令被执行时实现第一方面任一项所述方法的步骤。
34、本说明书第五方面提供一种计算机程序产品,包含有计算机程序,所述计算机程序被处理器执行时实现第一方面任一项所述方法的步骤。
35、本说明书提供的文本检测方法,通过获取待检测文本以及目标词汇;基于所述待检测文本的上下文关联关系,确定所述待检测文本的第一语义特征;确定所述待检测文本的文本位置信息,并基于所述文本位置信息和所述第一语义特征,确定所述待检测文本的第二语义特征,其中,所述文本位置信息包括所述待检测文本的上下文的位置关系;基于所述第二语义特征,判断所述待检测文本中是否包含目标词汇。本申请通过对待检测文本两级语义特征的确定,即包括待检测文本上下文关联关系的第一语义特征和在第一语义特征的基础上融合待检测文本的文本位置信息的第二语义特征,可以得到更符合待检测文本语义的第二语义特征,并通过第二语义特征与目标词汇的匹配,可以有效提高文本检测的正确率,进而有助于后续对待检测文本的进一步处理。
1.一种文本检测方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,基于所述待检测文本的上下文关联关系,确定所述待检测文本的第一语义特征,包括:
3.根据权利要求2所述的方法,其特征在于,所述词向量包括查询子向量、被查询子向量以及内容子向量;
4.根据权利要求3所述的方法,其特征在于,将所述第一相关度和所述内容子向量融合,生成所述第一语义特征,包括:
5.根据权利要求1所述的方法,其特征在于,确定所述待检测文本的文本位置信息,包括:
6.根据权利要求1所述的方法,其特征在于,基于所述文本位置信息和所述第一语义特征,确定所述待检测文本的第二语义特征,包括:
7.根据权利要求1所述的方法,其特征在于,基于所述第二语义特征,判断所述待检测文本中是否包含目标词汇,包括:
8.一种文本检测装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序指令,所述计算机程序指令被执行时实现权利要求1至7任一项所述方法的步骤。