一种文本违规词的挖掘方法及装置与流程

文档序号:32401059发布日期:2022-12-02 19:01阅读:41来源:国知局
一种文本违规词的挖掘方法及装置与流程

1.本技术涉及文本内容安全审核领域,更具体的说,是涉及一种文本违规词的挖掘方法及装置。


背景技术:

2.随着科技的不断发展,网络技术日渐发达,吸引了越来越多人们加入网络生活。然而由于网民数量众多,网络世界纷繁复杂,难免存在一些违规内容,容易对良好网民造成不良导向,且通过文本信息传导的形式为如今网络上最为普遍的传导形式。因此监管安全文本内容的工作刻不容缓。
3.目前在对文本违规内容的识别技术中,通过深度学习模型直接进行文本分类,深度学习模型能够识别文本中的语意,并通过识别出的语意匹配相应的违规类型,然而这种违规内容的识别方式仅是对整个文本的识别判断,无法从组成文本的结构中具体分析违规类型,导致所得到的文本内容违规判断结果缺乏可解释性且不可靠。


技术实现要素:

4.鉴于上述问题,提出了本技术以便提供一种文本违规词的挖掘方法及装置,以提供组成文本的各个分词的违规分析,提高文本内容违规判断结果的可解释性和可靠性。
5.为了实现上述目的,现提出具体方案如下:
6.一种文本违规词的挖掘方法,包括:
7.切分用户输入的待挖掘文本,获得所述待挖掘文本中的多个待挖掘字符;
8.通过预先建立的违规字符识别模型对每个所述待挖掘字符进行模型编码,得到每个所述待挖掘字符对应的字符向量,每个所述字符向量带有多个违规类别维度;
9.通过所述违规字符识别模型对每个所述字符向量进行维度变换,得到每个待挖掘字符相对每个违规类别的字符违规概率;
10.对于每个所述违规类别,对每个待挖掘分词中的每个待挖掘字符在该违规类别上的字符违规概率进行平均处理,得到每个待挖掘分词在该违规类别的单类别违规概率,每个所述待挖掘分词为分词处理所述待挖掘文本得到的,每个所述待挖掘分词包含一个或多个所述待挖掘字符;
11.基于每个所述待挖掘分词的各个违规类别的单类别违规概率,通过预设的违规概率阈值过滤各个待挖掘分词,得到过滤后的各个违规类别下的待挖掘分词,并将所述过滤后的各个违规类别下的待挖掘分词确定为所述待挖掘文本的违规词。
12.可选的,所述基于每个所述待挖掘分词的各个违规类别的单类别违规概率,通过预设的违规概率阈值过滤各个待挖掘分词,得到过滤后的各个违规类别下的待挖掘分词,包括:
13.根据各个待挖掘分词,以及每个待挖掘分词的每个违规类别的单类别违规概率,生成各个待挖掘分词的单词违规类别概率分布;
14.在所述各个待挖掘分词的单词违规类别概率分布上,通过预设的违规概率阈值过滤各个待挖掘分词,得到过滤后的各个违规类别下的违规词。
15.可选的,在通过所述违规字符识别模型对每个所述字符向量进行维度变换,得到每个待挖掘字符相对每个违规类别的字符违规概率之后,还包括:
16.通过所述违规字符识别模型,对各个待挖掘字符中每个待挖掘字符的各个违规类别的字符违规概率进行线性归一化指数变换,得到各个违规类别的概率。
17.可选的,所述违规字符识别模型的建立过程,包括:
18.基于已有的训练字符数据和已有的各个违规类别标签,计算约束违规字符识别模型训练的总损失值;
19.在所述总损失值的约束下,以所述训练字符数据作为训练样本,所述各个违规类别标签作为样本标签,训练得到违规字符识别模型。
20.可选的,所述基于已有的训练字符数据和已有的各个违规类别标签,计算约束违规字符识别模型训练的总损失值,包括:
21.利用下列各式计算约束违规字符识别模型训练的损失公式:
[0022][0023]
其中,l为所述总损失值,z
ij
为所述训练字符数据中第i个训练字符命中各个违规类别标签中第j个违规类别标签的logit值,m为预设的非对称损失 asl硬阈值边界,yj为第j个违规类别标签,γ为预设的asl软阈值参数,k 为各个违规类别标签的总数量,n为所述字符样本的字符总数,λ为预设正则系数。
[0024]
可选的,在通过所述违规字符识别模型对每个所述字符向量进行维度变换,得到每个待挖掘字符相对每个违规类别的字符违规概率之后,还包括:
[0025]
根据各个待挖掘字符,以及每个待挖掘字符的各个违规类别的字符违规概率,生成各个待挖掘字符的字符违规类别概率分布。
[0026]
可选的,该方法还包括:
[0027]
确定已有的训练字符数据组成的语句的分词知识矩阵;
[0028]
以所述训练字符数据中的各个训练字符的字符违规类别概率分布,以及每个所述训练分词中各个字符之间的分词知识矩阵作为模型学习训练信息,训练所述违规字符识别
模型,得到违规分词识别模型。
[0029]
可选的,以所述训练字符数据中的各个训练字符的字符违规类别概率分布,以及每个所述训练分词中各个字符之间的分词知识矩阵作为模型学习训练信息,训练所述违规字符识别模型,得到违规分词识别模型,包括:
[0030]
利用下式确定分词违规类别概率分布矩阵:
[0031][0032]
其中,wk为分词知识矩阵,为分词违规类别概率分布矩阵,p为所述训练字符数据中的各个训练字符的字符违规类别概率分布的矩阵信息;
[0033]
以所述分词违规类别概率分布矩阵作为训练目标,训练所述违规字符识别模型,得到违规分词识别模型。
[0034]
可选的,该方法还包括:
[0035]
通过所述违规分词识别模型对各个待挖掘字符进行模型编码,得到多个析出分词,以及每个析出分词对应的带有各个违规类别维度的分词向量;
[0036]
通过所述违规分词识别模型对每个所述分词向量进行维度变换,得到该分词向量对应的析出分词的每个违规类别的分词违规概率;
[0037]
根据各个析出分词,以及每个析出分词的每个违规类别的分词违规概率,生成各个析出分词的析出分词违规类别概率分布;
[0038]
在所述各个析出分词的析出分词违规类别概率分布上,通过所述违规概率阈值过滤各个析出分词,得到过滤后的各个违规类别下的析出分词。
[0039]
一种文本违规词的挖掘装置,包括:
[0040]
文本切分单元,用于切分用户输入的待挖掘文本,获得所述待挖掘文本中的多个待挖掘字符;
[0041]
字符编码单元,用于通过预先建立的违规字符识别模型对每个所述待挖掘字符进行模型编码,得到每个所述待挖掘字符对应的字符向量,每个所述字符向量带有多个违规类别维度;
[0042]
向量维度变换单元,用于通过所述违规字符识别模型对每个所述字符向量进行维度变换,得到每个待挖掘字符相对每个违规类别的字符违规概率;
[0043]
概率累计单元,用于对于每个所述违规类别,对每个待挖掘分词中的每个待挖掘字符在该违规类别上的字符违规概率进行平均处理,得到每个待挖掘分词在该违规类别的单类别违规概率,每个所述待挖掘分词为分词处理所述待挖掘文本得到的,每个所述待挖掘分词包含一个或多个所述待挖掘字符;
[0044]
分词过滤单元,用于基于每个所述待挖掘分词的各个违规类别的单类别违规概率,通过预设的违规概率阈值过滤各个待挖掘分词,得到过滤后的各个违规类别下的待挖掘分词,并将所述过滤后的各个违规类别下的待挖掘分词确定为所述待挖掘文本的违规词。
[0045]
可选的,所述分词过滤单元,包括:
[0046]
概率分布生成单元,用于根据各个待挖掘分词,以及每个待挖掘分词的每个违规类别的单类别违规概率,生成各个待挖掘分词的单词违规类别概率分布;
[0047]
概率分布过滤单元,用于在所述各个待挖掘分词的单词违规类别概率分布上,通过预设的违规概率阈值过滤各个待挖掘分词,得到过滤后的各个违规类别下的违规词,并将所述过滤后的各个违规类别下的待挖掘分词确定为所述待挖掘文本的违规词。
[0048]
可选的,该装置还包括:
[0049]
归一化变换单元,用于在所述向量维度变换单元通过所述违规字符识别模型对每个所述字符向量进行维度变换,得到每个待挖掘字符相对每个违规类别的字符违规概率之后,通过所述违规字符识别模型,对各个待挖掘字符中每个待挖掘字符的各个违规类别的字符违规概率进行线性归一化指数变换,得到各个违规类别的概率。
[0050]
可选的,该装置还包括:
[0051]
总损失计算单元,用于基于已有的训练字符数据和已有的各个违规类别标签,计算约束违规字符识别模型训练的总损失值;
[0052]
模型训练单元,用于在所述总损失值的约束下,以所述训练字符数据作为训练样本,所述各个违规类别标签作为样本标签,训练得到违规字符识别模型。
[0053]
可选的,所述总损失计算单元,包括:
[0054]
总损失计算子单元,用于利用下列各式计算约束违规字符识别模型训练的损失公式:
[0055][0056]
其中,l为所述总损失值,z
ij
为所述训练字符数据中第i个训练字符命中各个违规类别标签中第j个违规类别标签的logit值,m为预设的非对称损失 asl硬阈值边界,yj为第j个违规类别标签,γ为预设的asl软阈值参数,k 为各个违规类别标签的总数量,n为所述字符样本的字符总数,λ为预设正则系数。
[0057]
可选的,该装置还包括:
[0058]
字符违规分布生成单元,用于在所述向量维度变换单元通过所述违规字符识别模型对每个所述字符向量进行维度变换,得到每个待挖掘字符相对每个违规类别的字符违规概率之后,根据各个待挖掘字符,以及每个待挖掘字符的各个违规类别的字符违规概率,生成各个待挖掘字符的字符违规类别概率分布。
[0059]
可选的,该装置还包括:
[0060]
分词知识矩阵确定单元,用于确定已有的训练字符数据组成的语句的分词知识矩阵;
[0061]
分词识别模型训练单元,用于以所述训练字符数据中的各个训练字符的字符违规类别概率分布,以及每个所述训练分词中各个字符之间的分词知识矩阵作为模型学习训练信息,训练所述违规字符识别模型,得到违规分词识别模型。
[0062]
可选的,所述分词识别模型训练单元,包括:
[0063]
第一分词识别模型训练子单元,用于利用下式确定分词违规类别概率分布矩阵:
[0064][0065]
其中,wk为分词知识矩阵,为分词违规类别概率分布矩阵,p为所述训练字符数据中的各个训练字符的字符违规类别概率分布的矩阵信息;
[0066]
第二分词识别模型训练子单元,用于以所述分词违规类别概率分布矩阵作为训练目标,训练所述违规字符识别模型,得到违规分词识别模型。
[0067]
可选的,该装置还包括:
[0068]
分词向量确定单元,用于通过所述违规分词识别模型对各个待挖掘字符进行模型编码,得到多个析出分词,以及每个析出分词对应的带有各个违规类别维度的分词向量;
[0069]
分词向量变换单元,用于通过所述违规分词识别模型对每个所述分词向量进行维度变换,得到该分词向量对应的析出分词的每个违规类别的分词违规概率;
[0070]
分词概率分布生成单元,用于根据各个析出分词,以及每个析出分词的每个违规类别的分词违规概率,生成各个析出分词的析出分词违规类别概率分布;
[0071]
析出分词过滤单元,用于在所述各个析出分词的析出分词违规类别概率分布上,通过所述违规概率阈值过滤各个析出分词,得到过滤后的各个违规类别下的析出分词。
[0072]
借由上述技术方案,本技术通过切分用户输入的待挖掘文本,获得所述待挖掘文本中的多个待挖掘字符,通过预先建立的违规字符识别模型对每个所述待挖掘字符进行模型编码,得到每个所述待挖掘字符对应的字符向量,每个所述字符向量带有多个违规类别维度,通过所述违规字符识别模型对每个所述字符向量进行维度变换,得到每个待挖掘字符相对每个违规类别的字符违规概率,对于每个所述违规类别,对每个待挖掘分词中的每个待挖掘字符在该违规类别上的字符违规概率进行平均处理,得到每个待挖掘分词在该违规类别的单类别违规概率,每个所述待挖掘分词为分词处理所述待挖掘文本得到的,每个所述待挖掘分词包含一个或多个所述待挖掘字符,进一步地,基于每个所述待挖掘分词的各个违规类别的单类别违规概率,通过预设的违规概率阈值过滤各个待挖掘分词,得到过滤后的各个违规类别下的待挖掘分词,并将所述过滤后的各个违规类别下的待挖掘分词确定为所述待挖掘文本的违规词。由此可见,从待挖掘文本的每个待挖掘字符出发,分析每个字符的违规类型可能性,从而得出由字符组成的分词的违规类型可能性,清晰地解析了每个分词所属违规类型、及该分词所属违规类型的概率高低的缘由,在此基础上通过违规概率阈值过滤得到最终各个违规类别下的分词,使最终得到的各个违规类别下的分词具有较高的可解释性,提升了文本内容违规判断的可靠性。
附图说明
[0073]
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0074]
图1为本技术实施例提供的一种挖掘文本违规词的流程示意图;
[0075]
图2为本技术实施例提供的一种基于违规分词识别模型的挖掘文本违规词的流程示意图;
[0076]
图3为本技术实施例提供的一种挖掘文本违规词的装置结构示意图;
[0077]
图4为本技术实施例提供的一种挖掘文本违规词的设备的结构示意图。
具体实施方式
[0078]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0079]
本技术方案可以基于具备数据处理能力的终端实现,该终端可以是电脑、服务器、云端等。
[0080]
接下来,结合图1所述,本技术的文本违规词的挖掘方法可以包括以下步骤:
[0081]
步骤s110、切分用户输入的待挖掘文本,获得所述待挖掘文本中的多个待挖掘字符。
[0082]
具体的,可以通过响应用户输入的文本,将用户输入的文本确定为待挖掘文本,切分待挖掘文本可以得到多个待挖掘字符tokens,单个待挖掘字符可以是单个汉字,也可以是单个英文字母,也可以是单个标点符号。
[0083]
步骤s120、通过预先建立的违规字符识别模型对每个所述待挖掘字符进行模型编码,得到每个所述待挖掘字符对应的字符向量,每个所述字符向量带有多个违规类别维度。
[0084]
具体的,预先建立的违规字符识别模型可以是属于深度学习类型的模型,可以为bert(bidirectional encoder representations from transformer)模型、 lstm(long-short term memory)模型等。可以将每个待挖掘字符输入至预先建立的违规字符识别模型中,由违规字符识别模型对待挖掘字符进行违规识别,在预先定义好的多个违规类别中,确定该待挖掘字符表达每个违规类别的分数。在确定了每个待挖掘字符的各个违规类别的分数后,通过模型编码,以字符向量的形式(tokens embeddings)表达各个违规类别的分数,并作为模型输出结果。
[0085]
步骤s130、通过所述违规字符识别模型对每个所述字符向量进行维度变换,得到每个待挖掘字符相对每个违规类别的字符违规概率。
[0086]
具体的,每个字符向量可以将每个违规类别的表达得分对应的维度方向的模长归一化,转化为0~1之间的值,其归一化的标准对象可以参照各个违规类别维度上模长最长的维度,从而得到每个待挖掘字符相对每个违规类别的字符违规概率。
[0087]
步骤s140、对于每个所述违规类别,对每个待挖掘分词中的每个待挖掘字符在该违规类别上的字符违规概率进行平均处理,得到每个待挖掘分词在该违规类别的单类别违
规概率。
[0088]
具体的,每个所述待挖掘分词可以为分词处理所述待挖掘文本得到的,每个所述待挖掘分词可以包含一个或多个所述待挖掘字符。
[0089]
示例如,违规类别有a类、b类和c类,待挖掘分词x中包含x1、x2和 x3三个待挖掘字符。x1在a类上的字符违规概率为0,x1在b类上的字符违规概率为0.2,x1在c类上的字符违规概率为0.3,x2在a类上的字符违规概率为0.1,x2在b类上的字符违规概率为0.2,x2在c类上的字符违规概率为0,x3在a类上的字符违规概率为0.1,x3在b类上的字符违规概率为 0.1,x3在c类上的字符违规概率为0.1,那么待挖掘分词x在a违规类别的单类别违规概率为(0+0.1+0.1)/3=0.067,那么待挖掘分词x在b违规类别的单类别违规概率为(0.2+0.2+0.1)/3=0.167,那么待挖掘分词x在c违规类别的单类别违规概率为(0.3+0+0.1)/3=0.133。
[0090]
步骤s150、基于每个所述待挖掘分词的各个违规类别的单类别违规概率,通过预设的违规概率阈值过滤各个待挖掘分词,得到过滤后的各个违规类别下的待挖掘分词,并将所述过滤后的各个违规类别下的待挖掘分词确定为所述待挖掘文本的违规词。
[0091]
具体的,预设的违规概率阈值可以表示判定待挖掘分词属于违规类别的概率限值,即当待挖掘分词相对违规类别a的单类别违规概率超过了预设的违规概率阈值时,可以判定待挖掘分词属于违规类别a,并确定该待挖掘分词为违规词。
[0092]
本实施例提供的文本违规词的挖掘方法,通过切分用户输入的待挖掘文本,获得所述待挖掘文本中的多个待挖掘字符,通过预先建立的违规字符识别模型对每个所述待挖掘字符进行模型编码,得到每个所述待挖掘字符对应的字符向量,每个所述字符向量带有多个违规类别维度,通过所述违规字符识别模型对每个所述字符向量进行维度变换,得到每个待挖掘字符相对每个违规类别的字符违规概率,对于每个所述违规类别,对每个待挖掘分词中的每个待挖掘字符在该违规类别上的字符违规概率进行平均处理,得到每个待挖掘分词在该违规类别的单类别违规概率,每个所述待挖掘分词为分词处理所述待挖掘文本得到的,每个所述待挖掘分词包含一个或多个所述待挖掘字符,进一步地,基于每个所述待挖掘分词的各个违规类别的单类别违规概率,通过预设的违规概率阈值过滤各个待挖掘分词,得到过滤后的各个违规类别下的待挖掘分词,并将所述过滤后的各个违规类别下的待挖掘分词确定为所述待挖掘文本的违规词。由此可见,从待挖掘文本的每个待挖掘字符出发,分析每个字符的违规类型可能性,从而得出由字符组成的分词的违规类型可能性,清晰地解析了每个分词所属违规类型、及该分词所属违规类型的概率高低的缘由,在此基础上通过违规概率阈值过滤得到最终各个违规类别下的分词,使最终得到的各个违规类别下的分词具有较高的可解释性,提升了文本内容违规判断的可靠性。
[0093]
本技术的一些实施例中,对上述实施例提到的、基于每个所述待挖掘分词的各个违规类别的单类别违规概率,通过预设的违规概率阈值过滤各个待挖掘分词,得到过滤后的各个违规类别下的待挖掘分词的过程进行介绍,该过程可以包括:
[0094]
s1、根据各个待挖掘分词,以及每个待挖掘分词的每个违规类别的单类别违规概率,生成各个待挖掘分词的单词违规类别概率分布。
[0095]
具体的,可以以各个待挖掘分词作为横坐标,各个违规类别作为纵坐标,通过颜色板指示的方式,在每个待挖掘分词的每个违规类别对应的位置上填充颜色,从而绘制出各
个待挖掘分词的单词违规类别概率分布。
[0096]
s2、在所述各个待挖掘分词的单词违规类别概率分布上,通过预设的违规概率阈值过滤各个待挖掘分词,得到过滤后的各个违规类别下的违规词。
[0097]
具体的,可以设定与预设的违规概率阈值对应的颜色深度阈值,当概率分布中的其一位置上所填充的颜色深度超过了所述颜色深度阈值时,可以判定该位置对应横坐标的待挖掘分词属于该位置对应纵坐标的违规类别,也即得到该位置对应的这个违规类别下的待挖掘分词。
[0098]
本实施例提供的文本违规词的挖掘方法,通过构建各个待挖掘分词的单词违规类别概率分布,并设置颜色深度阈值过滤得到各个违规类别下的违规词,能够更清晰、直观地分析出每个待挖掘分词属于的违规类型。
[0099]
考虑到更详细地分析用户输入的文本的违规情况,本技术的一些实施例中,还可以对各个待挖掘字符进行违规分析,基于此,在上述步骤s130、通过所述违规字符识别模型对每个所述字符向量进行维度变换,得到每个待挖掘字符相对每个违规类别的字符违规概率之后,可以包括:
[0100]
通过所述违规字符识别模型,对各个待挖掘字符中每个待挖掘字符的各个违规类别的字符违规概率进行线性归一化指数变换,得到各个违规类别的概率。
[0101]
具体的,可以将各个待挖掘字符的每个违规类别的字符违规概率进行累加,得到该违规类别下的累计概率值,并以此方式计算得到其它违规类别下的累计概率值,然后对各个违规类别下的累计概率值进行线性归一化指数变换 (linear softmax),得到各个违规类别在0-1之间的概率。
[0102]
本实施例提供的文本违规词的挖掘方法,通过所述违规字符识别模型,对各个待挖掘字符中每个待挖掘字符的各个违规类别的字符违规概率进行线性归一化指数变换,得到各个违规类别的概率,以更详细分析用户输入的待挖掘文本更偏向于何种违规类别,以便对违规文本进行分类。
[0103]
在本技术的一些实施例中,对上述实施例提到的违规字符识别模型的建立过程进行介绍,该过程可以包括:
[0104]
s1、基于已有的训练字符数据和已有的各个违规类别标签,计算约束违规字符识别模型训练的总损失值。
[0105]
具体的,可以利用下列各式计算约束违规字符识别模型训练的损失公式:
[0106][0107]
其中,l为所述总损失值,z
ij
为所述训练字符数据中第i个训练字符命中各个违规类别标签中第j个违规类别标签的logit值,m为预设的非对称损失 asl硬阈值边界,yj为第j个违规类别标签,γ为预设的asl软阈值参数,k 为各个违规类别标签的总数量,n为所述字符样本的字符总数,λ为预设正则系数。
[0108]
s2、在所述总损失值的约束下,以所述训练字符数据作为训练样本,所述各个违规类别标签作为样本标签,训练得到违规字符识别模型。
[0109]
具体的,训练模型的方式可以采取模型深度学习的方式。
[0110]
本实施例提供的文本违规词的挖掘方法,通过计算约束违规字符识别模型训练的总损失值,并在总损失值的约束下训练得到违规字符识别模型。
[0111]
考虑到更清晰地分析用户输入的文本的违规情况,本技术的一些实施例中,还可以生成基于字符的违规类别概率分布,基于此,在上述步骤s130、通过所述违规字符识别模型对每个所述字符向量进行维度变换,得到每个待挖掘字符相对每个违规类别的字符违规概率之后,可以包括:
[0112]
根据各个待挖掘字符,以及每个待挖掘字符的各个违规类别的字符违规概率,生成各个待挖掘字符的字符违规类别概率分布。
[0113]
具体的,可以以各个待挖掘字符作为横坐标,各个违规类别作为纵坐标,通过颜色板指示的方式,在每个待挖掘字符的每个违规类别对应的位置上填充颜色,从而绘制出各个待挖掘字符的字符违规类别概率分布。
[0114]
本实施例提供的文本违规词的挖掘方法,通过绘制出各个待挖掘字符的字符违规类别概率分布,能够更直观、清晰地分析用户输入的文本的违规情况。
[0115]
考虑到模型直接对分词分析,所得的分析结果更具备可解释性,模型的功能可以扩展至对分词进行分析,可以将分词信息作为训练知识,并向违规字符识别模型注入,使得基于违规字符识别模型可以得到的具备分词分析功能的违规分词识别模型,因此本技术的一些实施例中,所提出的文本违规词的挖掘方法还可以包括:
[0116]
s1、确定已有的训练字符数据组成的语句的分词知识矩阵。
[0117]
示例如,对于语句“天气不错啊”,其对应分词为“天气”、“不错”和“啊”,则可以得
出字符间紧密程度如下表所示:
[0118] 天气不错啊天11000气11000不00110错00110啊00001
[0119]
那么,语句“天气不错啊”对应的分词知识矩阵为:
[0120][0121]
s2、以所述训练字符数据中的各个训练字符的字符违规类别概率分布,以及每个所述训练分词中各个字符之间的分词知识矩阵作为模型学习训练信息,训练所述违规字符识别模型,得到违规分词识别模型。
[0122]
具体的,可以利用下式确定分词违规类别概率分布矩阵:
[0123][0124]
其中,wk为分词知识矩阵,为分词违规类别概率分布矩阵,p为所述训练字符数据中的各个训练字符的字符违规类别概率分布的矩阵信息。
[0125]
可以理解的是,在概率叠加后对语句内的所有字符进行加权平均更加合理,因此可以对wk进行加权平均处理,得到加权平均后的分词知识矩阵,并以加权平均后的分词知识矩阵确定分词违规类别概率分布矩阵,即
[0126]
其中,δ为加权平均系数,可以表示为w
kij
为分词知识矩阵的第i行第j列元素的值,n为分词知识矩阵的维度。
[0127]
示例如,那么
[0128]
进一步的,以所述分词违规类别概率分布矩阵作为训练目标,训练所述违规字符识别模型,得到违规分词识别模型。
[0129]
本实施例提供的文本违规词的挖掘方法,通过引入分词知识矩阵以得到分词违规类别概率分布矩阵,并训练得到违规分词识别模型,使得违规分词识别模型能够直接对分词分析,所得的分析结果更具备可解释性。
[0130]
考虑到在得到违规分词识别模型后,能够在不需要分词处理待挖掘文本即可得到
基于分词的违规类别概率分布,更好地确定文本违规词,本技术的一些实施例中,结合图2所示,所提出的文本违规词的挖掘方法,可以包括:
[0131]
步骤s210、通过所述违规分词识别模型对各个待挖掘字符进行模型编码,得到多个析出分词,以及每个析出分词对应的带有各个违规类别维度的分词向量。
[0132]
步骤s220、通过所述违规分词识别模型对每个所述分词向量进行维度变换,得到该分词向量对应的析出分词的每个违规类别的分词违规概率。
[0133]
步骤s230、根据各个析出分词,以及每个析出分词的每个违规类别的分词违规概率,生成各个析出分词的析出分词违规类别概率分布。
[0134]
具体的,该步骤可以通过违规分词识别模型来实现。
[0135]
步骤s240、在所述各个析出分词的析出分词违规类别概率分布上,通过所述违规概率阈值过滤各个析出分词,得到过滤后的各个违规类别下的析出分词。
[0136]
本实施例提供的文本违规词的挖掘方法,通过违规分词识别模型对待挖掘文本中的各个待挖掘字符进行分析,能够直接得到各个析出分词的析出分词违规类别概率分布,使得挖掘得出的违规词的违规类别更具备可解释性。
[0137]
下面对本技术实施例提供的实现挖掘文本违规词的装置进行描述,下文描述的实现挖掘文本违规词的装置与上文描述的实现文本违规词的挖掘方法可相互对应参照。
[0138]
参见图3,图3为本技术实施例公开的一种实现挖掘文本违规词的装置结构示意图。
[0139]
如图3所示,该装置可以包括:
[0140]
文本切分单元11,用于切分用户输入的待挖掘文本,获得所述待挖掘文本中的多个待挖掘字符;
[0141]
字符编码单元12,用于通过预先建立的违规字符识别模型对每个所述待挖掘字符进行模型编码,得到每个所述待挖掘字符对应的字符向量,每个所述字符向量带有多个违规类别维度;
[0142]
向量维度变换单元13,用于通过所述违规字符识别模型对每个所述字符向量进行维度变换,得到每个待挖掘字符相对每个违规类别的字符违规概率;
[0143]
概率累计单元14,用于对于每个所述违规类别,对每个待挖掘分词中的每个待挖掘字符在该违规类别上的字符违规概率进行平均处理,得到每个待挖掘分词在该违规类别的单类别违规概率,每个所述待挖掘分词为分词处理所述待挖掘文本得到的,每个所述待挖掘分词包含一个或多个所述待挖掘字符;
[0144]
分词过滤单元15,用于基于每个所述待挖掘分词的各个违规类别的单类别违规概率,通过预设的违规概率阈值过滤各个待挖掘分词,得到过滤后的各个违规类别下的待挖掘分词,并将所述过滤后的各个违规类别下的待挖掘分词确定为所述待挖掘文本的违规词。
[0145]
可选的,所述分词过滤单元,包括:
[0146]
概率分布生成单元,用于根据各个待挖掘分词,以及每个待挖掘分词的每个违规类别的单类别违规概率,生成各个待挖掘分词的单词违规类别概率分布;
[0147]
概率分布过滤单元,用于在所述各个待挖掘分词的单词违规类别概率分布上,通过预设的违规概率阈值过滤各个待挖掘分词,得到过滤后的各个违规类别下的违规词,并
将所述过滤后的各个违规类别下的待挖掘分词确定为所述待挖掘文本的违规词。
[0148]
可选的,该装置还包括:
[0149]
归一化变换单元,用于在所述向量维度变换单元通过所述违规字符识别模型对每个所述字符向量进行维度变换,得到每个待挖掘字符相对每个违规类别的字符违规概率之后,通过所述违规字符识别模型,对各个待挖掘字符中每个待挖掘字符的各个违规类别的字符违规概率进行线性归一化指数变换,得到各个违规类别的概率。
[0150]
可选的,该装置还包括:
[0151]
总损失计算单元,用于基于已有的训练字符数据和已有的各个违规类别标签,计算约束违规字符识别模型训练的总损失值;
[0152]
模型训练单元,用于在所述总损失值的约束下,以所述训练字符数据作为训练样本,所述各个违规类别标签作为样本标签,训练得到违规字符识别模型。
[0153]
可选的,所述总损失计算单元,包括:
[0154]
总损失计算子单元,用于利用下列各式计算约束违规字符识别模型训练的损失公式:
[0155][0156]
其中,l为所述总损失值,z
ij
为所述训练字符数据中第i个训练字符命中各个违规类别标签中第j个违规类别标签的logit值,m为预设的非对称损失 asl硬阈值边界,yj为第j个违规类别标签,γ为预设的asl软阈值参数,k 为各个违规类别标签的总数量,n为所述字符样本的字符总数,λ为预设正则系数。
[0157]
可选的,该装置还包括:
[0158]
字符违规分布生成单元,用于在所述向量维度变换单元通过所述违规字符识别模型对每个所述字符向量进行维度变换,得到每个待挖掘字符相对每个违规类别的字符违规概率之后,根据各个待挖掘字符,以及每个待挖掘字符的各个违规类别的字符违规概率,生成各个待挖掘字符的字符违规类别概率分布。
[0159]
可选的,该装置还包括:
[0160]
分词知识矩阵确定单元,用于确定已有的训练字符数据组成的语句的分词知识矩阵;
[0161]
分词识别模型训练单元,用于以所述训练字符数据中的各个训练字符的字符违规类别概率分布,以及每个所述训练分词中各个字符之间的分词知识矩阵作为模型学习训练信息,训练所述违规字符识别模型,得到违规分词识别模型。
[0162]
可选的,所述分词识别模型训练单元,包括:
[0163]
第一分词识别模型训练子单元,用于利用下式确定分词违规类别概率分布矩阵:
[0164][0165]
其中,wk为分词知识矩阵,为分词违规类别概率分布矩阵,p为所述训练字符数据中的各个训练字符的字符违规类别概率分布的矩阵信息;
[0166]
第二分词识别模型训练子单元,用于以所述分词违规类别概率分布矩阵作为训练目标,训练所述违规字符识别模型,得到违规分词识别模型。
[0167]
可选的,该装置还包括:
[0168]
分词向量确定单元,用于通过所述违规分词识别模型对各个待挖掘字符进行模型编码,得到多个析出分词,以及每个析出分词对应的带有各个违规类别维度的分词向量;
[0169]
分词向量变换单元,用于通过所述违规分词识别模型对每个所述分词向量进行维度变换,得到该分词向量对应的析出分词的每个违规类别的分词违规概率;
[0170]
分词概率分布生成单元,用于根据各个析出分词,以及每个析出分词的每个违规类别的分词违规概率,生成各个析出分词的析出分词违规类别概率分布;
[0171]
析出分词过滤单元,用于在所述各个析出分词的析出分词违规类别概率分布上,通过所述违规概率阈值过滤各个析出分词,得到过滤后的各个违规类别下的析出分词。
[0172]
本技术实施例提供的挖掘文本违规词的装置可应用于挖掘文本违规词的设备,如终端:手机、电脑等。可选的,图4示出了挖掘文本违规词的设备的硬件结构框图,参照图4,挖掘文本违规词的设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
[0173]
在本技术实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
[0174]
处理器1可能是一个中央处理器cpu,或者是特定集成电路asic (application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
[0175]
存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non
‑ꢀ
volatile memory)等,例如至少一个磁盘存储器;
[0176]
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
[0177]
切分用户输入的待挖掘文本,获得所述待挖掘文本中的多个待挖掘字符;
[0178]
通过预先建立的违规字符识别模型对每个所述待挖掘字符进行模型编码,得到每个所述待挖掘字符对应的字符向量,每个所述字符向量带有多个违规类别维度;
[0179]
通过所述违规字符识别模型对每个所述字符向量进行维度变换,得到每个待挖掘字符相对每个违规类别的字符违规概率;
[0180]
对于每个所述违规类别,对每个待挖掘分词中的每个待挖掘字符在该违规类别上的字符违规概率进行平均处理,得到每个待挖掘分词在该违规类别的单类别违规概率,每
个所述待挖掘分词为分词处理所述待挖掘文本得到的,每个所述待挖掘分词包含一个或多个所述待挖掘字符;
[0181]
基于每个所述待挖掘分词的各个违规类别的单类别违规概率,通过预设的违规概率阈值过滤各个待挖掘分词,得到过滤后的各个违规类别下的待挖掘分词,并将所述过滤后的各个违规类别下的待挖掘分词确定为所述待挖掘文本的违规词。
[0182]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0183]
本技术实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
[0184]
切分用户输入的待挖掘文本,获得所述待挖掘文本中的多个待挖掘字符;
[0185]
通过预先建立的违规字符识别模型对每个所述待挖掘字符进行模型编码,得到每个所述待挖掘字符对应的字符向量,每个所述字符向量带有多个违规类别维度;
[0186]
通过所述违规字符识别模型对每个所述字符向量进行维度变换,得到每个待挖掘字符相对每个违规类别的字符违规概率;
[0187]
对于每个所述违规类别,对每个待挖掘分词中的每个待挖掘字符在该违规类别上的字符违规概率进行平均处理,得到每个待挖掘分词在该违规类别的单类别违规概率,每个所述待挖掘分词为分词处理所述待挖掘文本得到的,每个所述待挖掘分词包含一个或多个所述待挖掘字符;
[0188]
基于每个所述待挖掘分词的各个违规类别的单类别违规概率,通过预设的违规概率阈值过滤各个待挖掘分词,得到过滤后的各个违规类别下的待挖掘分词,并将所述过滤后的各个违规类别下的待挖掘分词确定为所述待挖掘文本的违规词。
[0189]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0190]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0191]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
[0192]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1