敏感词检测方法、装置、电子设备及可读存储介质与流程

文档序号:31051683发布日期:2022-08-06 07:38阅读:206来源:国知局
敏感词检测方法、装置、电子设备及可读存储介质与流程

1.本技术涉及互联网技术领域,具体而言,本技术涉及一种敏感词检测方法、装置、电子设备及可读存储介质。


背景技术:

2.随着互联网的发展,网上购物、订餐已成为与普通人息息相关的一部分,在网上购物、订餐后,通常会进一步发布评论信息。
3.在海量的评论信息中偶尔会存在一些敏感内容,目前针对敏感内容的 判别依赖于专家经验,而且敏感内容本身还会随着相关人物、时间、事件 的变化,不断演变。如何更准确地判别内容中潜在的敏感风险,是当前面 临的问题。


技术实现要素:

4.本技术实施例提供了一种敏感词检测方法、装置、电子设备、计算机可读存储介质及计算机程序产品,可以解决现有技术的上述问题。所述技术方案如下:
5.根据本技术实施例的一个方面,提供了一种敏感词检测方法,该方法包括:
6.响应于语料库中更新含有敏感词的新语料,根据所述新语料更新知识图谱,所述知识图谱中的节点用于表征敏感词;
7.从所述语料库中确定预设数量的目标语料,结合所述知识图谱构造训练样本和训练标签,根据所述训练样本优化用于检测敏感词的判别模型,所述训练标签用于指示对应的训练样本是否包含敏感词;
8.根据所述判别模型对待检测文本进行检测,获得所述判别模型输出的检测结果,所述检测结果用于表示所述待检测文本是否包含敏感词。
9.作为一种可选的实施例,获得所述判别模型的检测结果,之后还包括:
10.若所述检测结果为待检测文本包含敏感词,则将所述待检测文本作为新语料存储至所述语料库。
11.作为一种可选的实施例,更新所述知识图谱,包括:
12.通过知识抽取模型从所述新语料中抽取至少一个实体;
13.从所述至少一个实体中确定对应敏感词的目标实体,若确定知识图谱中不存在与所述目标实体对应的节点,则在所述知识图谱中创建与所述目标实体对应的新节点。
14.作为一种可选的实施例,结合所述知识图谱构造训练样本和训练标签,包括:
15.将所述知识图谱中节点表征的敏感词插入所述目标语料中,获得所述训练样本中的黑样本以及对应的第一训练标签;
16.将所述知识图谱中节点表征的敏感词进行拆分,将拆分后的分词插入所述目标语料中,获得所述训练样本中的白样本以及对应的第二训练标签;
17.其中,所述第一训练标签用于表示对应的训练样本包含敏感词,所述第二训练标签用于表示对应的训练样本不包含敏感词。
18.作为一种可选的实施例,目标语料包括ugc语料。
19.作为一种可选的实施例,语料库中包括通用语料和ugc语料;
20.所述根据所述训练样本优化判别模型,之前还包括初始训练样本训练判别模型包括:
21.通过所述通用语料对初始模型进行训练,获得识别语义信息的表征模型;
22.通过所述ugc语料对所述表征模型进行预训练,获得所述预训练语言模型;
23.将所述预训练语言模型与文本分类模型连接,获得组合后的模型,通过所述初始训练样本对所述组合后的模型训练至收敛,获得所述判别模型。
24.作为一种可选的实施例,文本分类模型为bertbasechinese模型或者 chinesebert模型。
25.作为一种可选的实施例,根据训练好的判别模型对待检测文本进行检测,获得所述判别模型的检测结果,包括:
26.将所述待检测文本输入至所述预训练语言模型,获得所述待检测文本的文本特征,所述文本特征用于表征所述待检测文本的语义信息;
27.将所述文本特征输入至所述文本分类模型,获得所述检测结果。
28.根据本技术实施例的另一个方面,提供了一种敏感词检测装置,该装置包括:
29.图谱更新模块,用于响应于语料库中更新含有敏感词的新语料,根据所述新语料更新知识图谱,所述知识图谱中的节点用于表征敏感词;
30.模型优化模块,用于从所述语料库中确定预设数量的目标语料,结合所述知识图谱构造训练样本和训练标签,根据所述训练样本优化用于检测敏感词的判别模型,所述训练标签用于指示对应的训练样本是否包含敏感词;
31.检测模块,用于根据所述判别模型对待检测文本进行检测,获得所述判别模型输出的检测结果,所述检测结果用于表示所述待检测文本是否包含敏感词。
32.根据本技术实施例的另一个方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现上述方法的步骤。
33.根据本技术实施例的再一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
34.本技术实施例提供的技术方案带来的有益效果是:
35.响应于语料库中更新含有敏感词的新语料,则根据所述新语料更新知识图谱,通过图谱知识的抽取、沉淀,结合从语料库中的目标语料构造的训练样本更适用于商品评论等强对抗功放场景,利用训练样本优化判别模型,通过不断的语料更新以及模型训练,不断提高检测的精度,根据判别模型对待检测文本进行检测,获得所述判别模型输出的检测结果,大幅提高了检测的效率以及精度,真正适用于敏感词更新频繁、文本快速变异的检测场景。
附图说明
36.为了更清楚地说明本技术实施例中的技术方案,下面将对本技术实施例描述中所需要使用的附图作简单地介绍。
37.图1为本技术实施例提供的实现敏感词检测的系统架构示意图;
38.图2为本技术实施例提供的一种敏感词检测方法的流程示意图;
39.图3为本技术另一个实施例提供的敏感词检测方法的流程图的流程示意图;
40.图4为本技术实施例提供的一种标注平台的使用界面的示意图;
41.图5为本技术实施例提供的一种敏感词检测装置的结构示意图;
42.图6为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
43.下面结合本技术中的附图描述本技术的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本技术实施例的技术方案的示例性描述,对本技术实施例的技术方案不构成限制。
44.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本技术实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和 /或”指示该术语所限定的项目中的至少一个,例如“a和/或b”可以实现为“a”,或者实现为“b”,或者实现为“a和b”。
45.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
46.首先对本技术涉及的几个名词进行介绍和解释:
47.通用语料,基本反映了现代汉语的语言面貌,完成对它的词表提取,其过程、做法及词表结果,都有着重要意义。
48.ugc语料,即由用户生成内容(user generated content,ugc)构成的语料,ugc的概念最早起源于互联网领域,即用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户。本技术实施例的ugc语料可以是用户在购买商品后的评论信息。
49.知识图谱,实际上是一个语义网络,语义网络就是用节点表示实体或属性,边表示实体之间、实体与属性之间的各种语义关系。其中,实体是指客观存在于现实世界中且可区分的物体或事物;属性是描述实体特征的信息,如面积和长度等,关系是知识图谱最重要的特征,据此才能实现万事万物的互联,从而支持各种应用,如语义理解和信息检索等.所谓知识抽取,就是提取来自不同来源、不同结构的数据,形成知识最终存到知识图谱的过程。
50.机器学习(machine learning,ml),是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
51.本技术提供的敏感词检测方法、装置、电子设备、计算机可读存储介质以及计算机程序产品,旨在解决现有技术的如上技术问题。
52.下面通过对几个示例性实施方式的描述,对本技术实施例的技术方案以及本技术
的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
53.图1为本技术实施例提供的实现敏感词检测的系统架构示意图,终端 11和服务器12。
54.终端11可以是诸如手机、平板电脑、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备、pc(personal computer,个人计算机)等可以输出文本信息的电子设备。
55.服务器12可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。
56.本技术实施例提供的敏感词检测方法可以由终端11执行,也可以由服务器12执行,还可以由终端11和服务器12共同执行,本技术实施例对此不加以限定。对于本技术实施例提供的敏感词检测方法由终端11和服务器12共同执行的情况,服务器12承担主要计算工作,终端11承担次要计算工作;或者,服务器12承担次要计算工作,终端11承担主要计算工作;或者,服务器12和终端11二者之间采用分布式计算架构进行协同计算。
57.以敏感词检测方法由服务器12执行为例进行说明,服务器12响应于语料库中更新含有敏感词的新语料,根据所述新语料更新知识图谱,所述知识图谱中的节点用于表征敏感词;从所述语料库中确定预设数量的目标语料,结合所述知识图谱构造训练样本和训练标签,根据所述训练样本优化用于检测敏感词的判别模型,所述训练标签用于指示对应的训练样本是否包含敏感词;终端11通过接收用户输入的评论信息,将评论信息发送至服务器12,服务器12将评论文献作为待检测文本,根据所述判别模型对待检测文本进行检测,获得所述判别模型输出的检测结果,所述检测结果用于表示所述待检测文本是否包含敏感词,若待检测文本未包含敏感词,则对评论信息进行发布,否则向用户发送提醒信息。
58.本技术实施例中提供了一种敏感词检测的方法,如图2所示,该方法包括:
59.s101、响应于语料库中更新含有敏感词的新语料,根据所述新语料更新知识图谱,所述知识图谱中的节点用于表征敏感词。
60.针对敏感词会随着相关任务、时间、时间的变化不断演变的情况,本技术预先构建了可以不断更新含有敏感词的新语料的语料库。本技术实施例可以在语料库中每次更新的新语料的数量达到一定规模时,根据新语料更新知识图谱。
61.由于本技术的应用场景是针对于网上购物、订餐等本地生活类型的场景,属于强对抗攻防场景,经常出现各种形式的文本变异,因此本技术实施例的含有敏感词的新语料,可以直接取自ugc语料(包括但不限于用户昵称、用户评论等),这样基于ugc语料训练出的判别模型更适用于针对评论文本的敏感词检测。
62.本技术根据新语料更新知识图谱,实现图谱知识的抽取和沉淀,利用 知识图谱充分挖掘出各个敏感词的关系和属性。例如某语料“在a公司与 b公司建立合作关系30年之际,a公司的总裁c与b公司总裁d会面”, 其中“c”和“d”即可作为敏感词,以“c”为例,其中“c”与“a公 司”存在关联,“c”的属性为“人名”。
63.利用各个敏感词的关系和属性,可以构造出更符合强对抗攻防场景的、灵活多变的训练样本,进而以该训练样本训练出的判别模型的检测精度也更高。
64.s102、从所述语料库中确定预设数量的目标语料,结合所述知识图谱构造训练样
本和训练标签,根据所述训练样本优化用于检测敏感词的判别模型,所述训练标签用于指示对应的训练样本是否包含敏感词;
65.需要说明的是,本技术实施例的语料库中除了可以包括含有敏感词的语料,也可以包括不含有(或者很少含有)敏感词的语料,例如通用语料。本技术实施例的目标语料可以是从语料库中随机抽取的部分语料,也可以是专门提取的含有敏感词的语料,还可以是专门提取的不含有敏感词的语料,本技术不作具体的限定。
66.在获取目标语料后,利用知识图谱中节点表征的敏感词以及各节点的 关系、属性等信息,插入至目标语料中,获得训练样本以及对应的训练标 签。例如,某个敏感词为某人物的名字,因此可以将该人物的名字插入至 目标语料中,获得训练样本,具体来说,某目标语料为“湖北人吃了都觉 得太地道了”,训练样本为“湖北人xx吃了都觉得太地道了”。应当理 解的是,上述举例中“xx”即为敏感词,并且该“xx”是否真的为湖北 人并不重要,只要修改后的语句逻辑上符合语法要求即可,同时,在将敏 感词插入目标语料时,可以对目标语料进行适当的删减,以符合语法要求。 可以理解的是,插入敏感词获得的训练样本的训练标签用于指示对应的训 练样本包含敏感词。
67.应当理解的是,相当一部分敏感词属于人名,而人名中的“名”(即除了姓以外的部分)可能是比较常见的,甚至如果替换为其他的姓氏可能也变成了常见的姓名,因此通过变形可以获得非敏感词,利用这些非敏感词结合目标语料构造的训练样本,对应的训练标签则为不包含敏感词。本技术实施例可以避免在敏感词检测时过于敏感,提高检测精度。
68.本技术具体可通过如下方式训练得到判别模型:
69.首先,收集一定数量的训练样本,并生成相应的训练标签,训练标签用于表征对应的训练样本是否包含敏感词,随即,基于训练样本和训练标签对初始模型进行训练至收敛,从而得到判别模型。其中,初始模型可以是单一神经网络模型,也可以是多个神经网络模型的组合。
70.s103、根据所述判别模型对待检测文本进行检测,获得所述判别模型输出的检测结果,所述检测结果用于表示所述待检测文本是否包含敏感词。
71.本技术实施例的待检测文本可以是用户昵称和用户评论,例如每当新用户注册后创建昵称时,就将创建的昵称作为待检测文本通过判别模型进行检测,若检测通过,则允许注册该昵称。对于用户的评论信息,只有在确定不包含敏感词的情况下,才可以将评论公开,以促进干净、安全的互联网环境。
72.本技术在获得待检测文本后,通过将待检测文本输入至判别模型,即可获得判别模型输出的检测结果,不需要如现有技术那样基于人工进行检测,大大提高了检测效率。
73.需要说明的是,本技术实施例的敏感词检测方法,响应于语料库中更新含有敏感词的新语料,则根据所述新语料更新知识图谱,通过图谱知识的抽取、沉淀,结合从语料库中的目标语料构造的训练样本更适用于商品评论等强对抗功放场景,利用训练样本优化判别模型,通过不断的语料更新以及模型训练,不断提高检测的精度,根据判别模型对待检测文本进行检测,获得所述判别模型输出的检测结果,大幅提高了检测的效率以及精度,真正适用于敏感词更新频繁、文本快速变异的检测场景。
74.在上述各实施例的基础上,作为一种可选实施例,获得所述判别模型的检测结果,之后还包括:
75.若所述检测结果为待检测文本包含敏感词,则将所述待检测文本作为新语料存储至所述语料库。
76.需要说明的是,ugc语料出现敏感词的风险是极其低频的,在海量的ugc语料中进行捞取打标,从审核人力和成本上来看都是几乎不可能实现的。这也导致了能拿到的实际标注样本是很少量的,但是目前深度学习网络,需要大量的训练数据才能保证准召率指标。基于此,本技术实施例在发现待检测文本包含敏感词后,会将该文本作为新的语料存储在语料库中,为后续进行图谱知识沉淀奠定基础。
77.请参见图3,其示例性地示出了本技术另一个实施例的敏感词检测方法的流程图,如图所示,首先本技术构建知识图谱和基于判别模型检测敏感词并非完全独立,而是相辅相成,互相作为输入数据源,进行信息补充与完善,构成一个完整的链路。
78.具体地,本技术实施例可以以舆情信息、监管指令和/或其他途径作为信息源,构建并不断更新语料库,对语料库中的语料,通过预先训练的知识抽取模型进行知识抽取,具体地,包括实体识别、术语抽取、关系抽取、事件抽取等等,将抽取得到的知识通过标注平台进行审核,利用审核的敏感词更新知识图谱,实现知识沉淀,具体在知识图谱中记录节点、关系以及属性等信息。
79.从所述语料库中确定预设数量的目标语料,结合所述知识图谱构造训练样本以及训练标签,汇总至判别模型数据集中,利用判别模型数据集中的数据,对判别模型进行训练和迭代优化。将待检测文本输入至判别模型进行敏感词检测,获得检测结果,将检测结果为包含敏感词的待检测文本进一步输入到审核平台进行精准判断,若检测结果无误,则可以作为信源引入至语料库中。
80.在上述各实施例的基础上,作为一种可选实施例,本技术实施例更新所述知识图谱,包括:
81.s201、通过知识抽取模型从新语料中抽取至少一个实体。
82.需要说明的是,本技术实施例的新语料,既可以是识别出的、包含敏感词的ugc文本,也可以是包含敏感词的舆情信息、监管指令等等。
83.本技术实施例可以采用bertbasechinesener作为知识抽取模型,对待标注语料进行人物、时间、地点等实体的抽取。
84.可选地,本技术实施例的知识抽取模型可以包括:输入层、嵌入层、卷积神经网络特征提取层、多层注意力机制过滤层和输出层,其中:
85.输入层用于输入语料;
86.嵌入层用于对输入层输入的语料处理得到词向量;
87.所述卷积神经网络特征提取层,用于通过对词向量进行实体划分,通过分段最大池化分,从划分结果中提取最重要的局部特征信息,最终得到句子特征向量;
88.所述多层注意力机制过滤层,用于将卷积神经网络特征提取层提取得到的结果进行重要性质区分,留下权重超过设定阈值的特征信息;
89.输出层,用于将输出所述超过设定阈值的特征信息,形成分类结果和重要信息,其中分类结果用于表示实体是否属于敏感词,重要信息可以是实体的属性信息、关系等等。
90.s202、从所述至少一个实体中确定对应敏感词的目标实体,若确定知识图谱中不存在与所述目标实体对应的节点,则在所述知识图谱中创建与所述目标实体对应的新节
点。
91.本技术实施例从新语料中抽取到知识图谱中尚不存在的新敏感词的实体时,需要将该新敏感词对应的实体以一个新节点的形式沉淀在知识图谱中,并建立该新节点与知识图谱中的其他节点间的关联关系、属性信息等等。
92.请参见图4,其示例性地示出了本技术实施例的标注平台的使用界面的示意图,标注平台能够展示后端的知识抽取模型抽取的实体以及对应的属性信息,图4中的语料为“建交百年,张三与李四互致贺电”,针对抽取的实体“百年”、“张三”和“李四”进行高亮提醒,同时展示3个实体的属性:“百年”的属性为日期、“张三”和“李四”的属性为人物。
93.进一步由标注人员进行关系打标,图中“张三”和“李四”在知识图谱中的节点通过连接线相连,从图还可以看出“张三”与另一个实体节点“王二”也通过连接线相连,并标记了关系“夫妻”。
94.在上述各实施例的基础上,作为一种可选实施例,结合所述知识图谱构造训练样本和训练标签,包括:
95.1)将所述知识图谱中节点表征的敏感词插入所述目标语料中,获得所述训练样本中的黑样本以及对应的第一训练标签,第一训练标签用于表示对应的训练样本包含敏感词。
96.2)将所述知识图谱中节点表征的敏感词进行拆分,将拆分后的分词插入所述目标语料中,获得所述训练样本中的白样本以及对应的第二训练标签,第二训练标签用于表示对应的训练样本不包含敏感词。
97.需要说明的是,本技术实施例将敏感词直接插入目标语料,获得的是黑样本,如果将敏感词进行拆分,并将拆分后的分词插入目标语料,则获得的是白样本,避免模型训练时出现偏差。
98.具体地,例如某人名“李小明”为敏感词,那么将“李小明”直接插入目标语料“都说这家火锅很好吃”获得的训练样本“李小明都说这家火锅很好吃”为黑样本,而把“小明”插入目标语料获得的训练样本“小明都说这家火锅很好吃”则为白样本。
99.需要说明的是,本技术除了直接将敏感词插入目标语料可获得黑样本,还可以通过预设方法对敏感词进行变形,将变形后的词插入目标语料的语料也作为黑样本。本技术实施例的变形操作,包括但不限于拼音、知识图谱中关联的同含义词汇等。以上述“李小明”为例,拼音“lixiaoming”、“李大头”(若“李大头”作为互联网上默认的指代“李小明”的称谓) 插入到目标语料中获得的语料都是黑样本。
100.在上述各实施例的基础上,作为一种可选实施例,目标语料包括ugc 语料。
101.也就是说,本技术通过ugc语料构造训练样本。由于本技术的待检测文本为用户的昵称或者评论,经常出现各种形式的文本变异,在采用常规的语料,例如舆情文章、监管指令等语料训练判别模型,检测精度并不理想,而利用ugc文本作为目标语料,并结合知识图谱构造训练样本,则可以充分利用ugc文本本身贴近生活、表达灵活的特点,获得的训练样本更加贴近待检测文本的表达习惯,因此获得的判别模型的检测精度存在明显的提升。
102.在上述各实施例的基础上,作为一种可选实施例,根据所述训练样本优化判别模型,之前还包括训练判别模型。
103.应当理解的是,每当语料库中的新语料积累到一定程度,就需要对判别模型的参
数进行优化。而在整个阶段的初始阶段,还包括训练判别模型的步骤,具体的,本技术实施例训练判别模型包括三个步骤:
104.s301、通过所述通用语料对初始模型进行训练,获得识别语义信息的表征模型。
105.s302、通过所述ugc语料对所述表征模型进行预训练,获得所述预训练语言模型;
106.s303、将所述预训练语言模型与文本分类模型连接,获得组合后的模型,通过所述训练样本和训练标签对所述组合后的模型训练至收敛,获得所述判别模型。
107.本技术实施例首先基于通用语料训练得到可以识别语义信息的表征模型,再基于语料库中的ugc语料,对表征模型进行预训练 (further-pretrain),获得能够准确分析本地生活化语料的预训练模型。预训练通过自监督学习从大规模数据中获得与具体任务无关的预训练模型。体现某一个词在一个特定上下文中的语义表征。
108.首先,本技术实施例的预训练模型利用ugc语料,学习输入句子的每一个成员的上下文相关的表示,隐式地学习到了通用的语法语义知识。第二,它可以将从开放领域学到的知识迁移到下游任务,以改善低资源任务,特别适用于本技术中在初始训练判别模型时存在的训练样本较少的情况,有利于对低资源语言的处理。第三,预训练模型结合微调机制可以具备很好的可扩展性,在支持一个新任务时,只需要利用该任务的标注数据进行微调即可,很容易实现。
109.文本分类模型本质上是一个分类器,具体在本技术中为二分类分类器,即对待检测文本是否包含敏感词进行分类。本技术实施例在预训练模型之后连接文本分类模型,使得预训练语音模型的输出作为文本分类模型的输入,而文本分类模型的输出即为检测结果。将组合后的模型通过初始训练样本进行训练,使得一次训练可以同时调整预训练模型和文本分类模型的参数,当组合后的模型训练至收敛时,即获得判别模型。
110.在上述各实施例的基础上,在判别模型训练完成后,每次对判别模型进行优化时,只需要利用当前生成的训练样本对判别模型的参数进行优化,而无需重新训练表征模型以及预训练模型。
111.在上述各实施例的基础上,作为一种可选实施例,文本分类模型为 bertbasechinese模型或者chinesebert模型。
112.需要说明的是,bertbasechinese模型能够胜任中文语料的分类任务,但面对拼音语料以及字形变异的语料时,判别能力稍显不足,因此针语料中出现拼音以及字形变异的情况,本技术可以采用优化版模型,也即 chinesebert模型作为文本分类模型。
113.请参见表1,其示例性地示出了本技术实施例采用不同的文本分类模型时,判别模型的检测准确率的情况。表1中baseline为用于测试的审核数据基本情况,该数据为原始提供给审核人员打标的数据,反馈准确率 0.0420,由于所有数据均来源于该审核打标数据,所以baseline的recall 为1.000。
114.用该份数据在bertbasechinese模型和chinesebert模型上进行预测,两版的准确率均有明显提升。其中,chinesebert模型相对于 bertbasechinese模型,在precision和recall上均有明显提升。
115.模型名称precisionbaseline0.0420bertbasechinese0.0865
chinesebert0.1703
116.表1不同的文本分类模型建立的判别模型的检测准确率表
117.在上述各实施例的基础上,作为一种可选实施例,根据训练好的判别模型对待检测文本进行检测,获得所述判别模型的检测结果,包括:
118.将所述待检测文本输入至所述预训练语言模型,获得所述待检测文本的文本特征,所述文本特征用于表征所述待检测文本的语义信息;
119.将所述文本特征输入至所述文本分类模型,获得所述检测结果。
120.本技术实施例提供了一种敏感词检测装置,如图5所示,该装置可以包括:图谱更新模块101、模型优化模块102以及检测模块103,其中,
121.图谱更新模块101,用于响应于语料库中更新含有敏感词的新语料,根据所述新语料更新知识图谱,所述知识图谱中的节点用于表征敏感词;
122.模型优化模块102,用于从所述语料库中确定预设数量的目标语料,结合所述知识图谱构造训练样本和训练标签,根据所述训练样本优化用于检测敏感词的判别模型,所述训练标签用于指示对应的训练样本是否包含敏感词;
123.检测模块103,用于根据所述判别模型对待检测文本进行检测,获得所述判别模型输出的检测结果,所述检测结果用于表示所述待检测文本是否包含敏感词。
124.本技术实施例的装置可执行本技术实施例所提供的方法,其实现原理相类似,本技术各实施例的装置中的各模块所执行的动作是与本技术各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
125.本技术实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现敏感词检测方法的步骤,与相关技术相比可实现:响应于语料库中更新含有敏感词的新语料,则根据所述新语料更新知识图谱,通过图谱知识的抽取、沉淀,结合从语料库中的目标语料构造的训练样本更适用于商品评论等强对抗功放场景,利用训练样本优化判别模型,通过不断的语料更新以及模型训练,不断提高检测的精度,根据判别模型对待检测文本进行检测,获得所述判别模型输出的检测结果,大幅提高了检测的效率以及精度,真正适用于敏感词更新频繁、文本快速变异的检测场景。
126.在一个可选实施例中提供了一种电子设备,如图6所示,图6所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本技术实施例的限定。
127.处理器4001可以是cpu(central processing unit,中央处理器),通用处理器,dsp(digital signal processor,数据信号处理器),asic (application specific integrated circuit,专用集成电路),fpga(fieldprogrammable gate array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001 也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp 和微处理器
的组合等。
128.总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci(peripheral component interconnect,外设部件互连标准)总线或 eisa(extended industry standard architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
129.存储器4003可以是rom(read only memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(random accessmemory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electrically erasable programmable read onlymemory,电可擦可编程只读存储器)、cd-rom(compact disc read onlymemory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
130.存储器4003用于存储执行本技术实施例的计算机程序,并由处理器 4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
131.本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
132.本技术实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
133.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除图示或文字描述以外的顺序实施。
134.应该理解的是,虽然本技术实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本技术实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本技术实施例对此不限制。
135.以上所述仅是本技术部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术的方案技术构思的前提下,采用基于本技术技术思想的其他类似实施手段,同样属于本技术实施例的保护范畴。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1