敏感词处理方法、装置及可读存储介质与流程

文档序号:22735738发布日期:2020-10-31 09:13阅读:212来源:国知局
敏感词处理方法、装置及可读存储介质与流程

本申请涉及数据处理技术领域,尤其涉及一种敏感词处理方法、装置及可读存储介质。



背景技术:

随着互联网技术的不断发展,人们可以通过互联网快速获取信息,与此同时,一些非法以及不良言论也可能出现在互联网信息中,因此,对于不法及不良言论的识别以及过滤对于互联网安全来说至关重要。

现有技术中,通常通过建立敏感词库对互联网信息进行敏感词识别,并根据识别结果确定文本中是否存在敏感词。现有技术中的敏感词库中的敏感词通常是直接从互联网下载,这会导致敏感词库中的敏感词与运营商想要过滤的敏感词之间的契合度较低,则进一步会导致敏感词识别结果的准确度较低。



技术实现要素:

本申请实施例提供一种敏感词处理方法、装置及可读存储介质,以提高敏感词识别结果的准确度。

第一方面,本申请实施例提供一种敏感词处理方法,该方法包括:

获取待识别文本;

根据预先建立的决策树对所述待识别文本进行识别,获得敏感词识别结果;其中,所述决策树是预先通过确定有穷自动机dfa算法以及敏感词库建立的,所述敏感词库是根据运营商数据库建立的。

可选地,所述方法还包括:

根据敏感词挖掘模型通过文本挖掘算法对运营商数据库中的文本内容进行分析,获得所述敏感词库中的第一敏感词子集,所述第一敏感词子集中的敏感词与所述敏感词库中的至少一个其他敏感词子集中的敏感词的相似度满足预设要求。

可选地,所述运营商数据库中的文本内容为结构化的文本内容。

可选地,所述方法还包括:根据所述敏感词识别结果,过滤所述待识别文本中的敏感词,获得过滤后的文本。

可选地,所述方法还包括:根据所述第一敏感词子集对所述敏感词挖掘模型进行优化,获得优化后的敏感词挖掘模型。

第二方面,本申请实施例还提供一种敏感词处理装置,该装置包括:

获取模块,用于获取待识别文本;

处理模块,用于根据预先建立的决策树对所述待识别文本进行识别,获得敏感词识别结果;其中,所述决策树是预先通过确定有穷自动机dfa算法以及敏感词库建立的,所述敏感词库是根据运营商数据库建立的。

可选地,所述处理模块,还用于根据敏感词挖掘模型通过文本挖掘算法对运营商数据库中的文本内容进行分析,获得所述敏感词库中的第一敏感词子集,所述第一敏感词子集中的敏感词与所述敏感词库中的至少一个其他敏感词子集中的敏感词的相似度满足预设要求。

可选地,所述处理模块,还用于根据所述第一敏感词子集对所述敏感词挖掘模型进行优化,获得优化后的敏感词挖掘模型。

第三方面,本申请实施例还提供一种敏感词处理装置,包括:存储器、处理器及计算机程序指令;

所述存储器存储所述计算机程序指令;

所述处理器执行所述计算机程序指令,以执行如第一方面任一项所述的敏感词处理方法。

第四方面,本申请实施例还提供一种敏感词处理装置,包括:程序;

所述程序被处理器执行,以执行如第一方面任一项所述的敏感词处理方法。

第五方面,本申请实施例还提供一种程序产品,所述程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行本申请发明实施例第一方面任一项所述的敏感词处理方法。

本申请实施例提供一种敏感词处理方法、装置及可读存储介质,该方法通过获取待识别文本,并根据预先建立的决策树对待识别文本进行敏感词识别,获得敏感词识别结果;其中,本申请实施例中的决策树是预先通过确定dfa算法以及敏感词库建立的,敏感词库是根据运营商数据库建立的。根据运营商数据建立的敏感词库与运营商想要过滤的敏感词的契合度较高,因此,能够有效提高敏感词识别结果的准确度;另外,本申请实施例中决策树能够自动对待识别文本进行识别,提高了敏感词识别的处理效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请提供的敏感词处理方法适用场景示意图;

图2为本申请提供的敏感词处理方法实施例一的流程图;

图3为本申请提供的决策树的建立方法实施例一的流程图;

图4为本申请提供的敏感词处理方法实施例二的流程图;

图5a为本申请提供的敏感词处理方法实施例三的流程图;

图5b为本申请一实施例提供的结构化文本内容的结构示意图;

图6为本申请提供的敏感词处理装置实施例一的结构示意图;

图7为本申请提供的敏感词处理装置实施例二的结构示意图;

图8为本申请提供的敏感词处理装置实施例三的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

图1为本申请实施例提供的敏感词处理方法的应用场景的示意图。在图1所示的场景包括:至少一个终端设备101、运营商的网络设备102、敏感词处理装置103、第三方应用平台104。

示例性地,该终端设备101可以为智能手机、计算机、ipad等电子设备。

终端设备101可以通过安装的客户端连接至运营商的网络设备102,并通过运营商的网络设备102连接至第三方应用平台104,或者,终端设备101还可以通过网页连接至运营商的网络设备102,并通过运营商的网络设备102连接至第三方应用平台104。

示例性地,第三方应用例如可以为社交类应用、视频类应用、音频类应用、新闻类应用等等中的任意一种或多种。终端设备101可以通过运营商的网络设备102向第三方应用平台104发送文本信息,以使第三方应用平台104发布该文本信息。

运营商的网络设备102可以为运营商的基站、无线接入点等设备。敏感词处理装置103可以设置可以为独立的设备,或者,也可以与运营商的网络设备102集成在一起,敏感词处理装置103能够对运营商的网络设备102接收的文本信息进行敏感词识别以及过滤等处理,并将符合运营商要求的文本信息发送至第三方应用平台104。

现有技术中,通常先建立敏感词库,敏感词处理装置根据敏感词库对文本信息进行敏感词识别,并根据识别结果确定文本中是否存在敏感词。然而,现有技术中的敏感词库包括敏感词通常是直接从互联网下载,这会导致敏感词库中的敏感词与运营商想要过滤的敏感词之间的契合度较低,则进一步会导致敏感词识别结果的准确度较低。

基于现有技术中存在的上述问题,本申请实施例提供一种敏感词处理方法,通过基于运营商数据库建立的敏感词库建立决策树,并根据该决策树对文本内容进行敏感词识别及过滤。由敏感词库是基于运营商的数据库建立的,因此,基于该敏感词库建立的决策树与运营商想要过滤的敏感词的契合度较高,从而提高了敏感词识别结果的准确度。

下面通过几个具体的实施例对本申请提供的敏感词处理方法进行详细介绍。

图2为本申请提供的敏感词处理方法实施例一的流程图。本实施例提供的敏感词处理方法的执行主体可以为本申请实施例提供的敏感词处理装置,该装置可以通过任意的软件和/或硬件的方式实现。

如图2所示,本实施例的方法包括:

s201、获取待识别文本。

具体地,敏感词处理装置可通过运营商的网络设备获取待识别文本。本方案中,待识别文本包含一个或多个字符,且待识别文本可以包括多种不同语言种类的字符,例如,待识别文本中可以仅包括中文字符,或者,也可以仅包括英文字符,或者,还可以同时包括中文字符以及英文字符。

s202、根据预先建立的决策树对待识别文本进行识别,获得敏感词识别结果。

该方案中,决策树是预先通过dfa算法以及敏感词库建立的,该敏感词库是基于运营商数据库建立的。

具体地,参照图3所示,首先,建立根节点;接着,通过首字母建立分支(例如,可以从a-z的顺序建立分支);以敏感词库中的敏感词作为输入,将敏感词与决策树中的节点进行匹配,若匹配成功,则向下继续寻找,即继续匹配下一个敏感词;若未匹配成功,则建立新的节点,并将该未匹配成功的敏感词存储至该节点;重复执行上述匹配过程,直至将敏感词库中的敏感词全部匹配完成。

在一些可能的情况下,当敏感词为中文字符时,还可在决策树的节点中存储该中文字符对应的拼音。当敏感词为英文时,可将英文全称以及英文缩写均存储在该节点中。若敏感词为其他语言种类时,也可采用类似的方式进行处理。

由于在实际应用中,在待识别文本中,可能存在通过敏感词对应的拼音代替敏感词本身的情况,因此,为了进一步提高敏感词识别结果的准确性,可通过决策树各个节点存储的敏感词本身以及该敏感词对应的拼音对待识别文本进行敏感词识别,从而获得敏感词识别结果。

本实施例中,通过获取待识别文本,并根据预先建立的决策树对待识别文本进行敏感词识别,获得敏感词识别结果;其中,本实施例中的决策树是预先通过确定dfa算法以及敏感词库建立的,敏感词库是根据运营商数据库建立的。本实施例中,根据运营商数据建立的敏感词库与运营商想要过滤的敏感词的契合度较高,因此,能够有效提高敏感词识别结果的准确度;另外,本实施例中决策树能够自动对待识别文本进行识别,提高了敏感词识别的处理效率。

图4为本申请提供的敏感词处理方法实施例二的流程图。如图4所示,本实施例的方法包括:

s401、获取待识别文本。

s402、根据预先建立的决策树对待识别文本进行识别,获得敏感词识别结果。

本实施例所示的步骤s401以及s402分别与图2所示实施例中s201以及s202类似,详细可参照图2所示实施例中的描述,此处不再赘述。

s403、根据敏感词识别结果,过滤待识别文本中的敏感词,获得过滤后的文本。

在该方案中,过滤敏感词的方式可以是采用一些预先配置的字符、或者符号、或者数字、或者字符组、或者符号组、或者数字组合中的任意一种或多种替换识别出来的敏感词。

例如:预先配置的字符为“a”,若敏感词包括两个字符,则可以通过相同数量的字符“a”来替换敏感词;又如,预先配置的符号为“*”,若敏感词包括两个字符,则可采用相同数量的“*”符号来替换敏感词;又如,预先配置的数字为“0”,若敏感词包括两个字符,则可以采用相同数量的数字“0”来替换敏感词。当然,在实际应用中,预先配置的字符、符号以及数字等并不限于上述描述的几种,在进行替换时,采用的预先配置的字符的数量与敏感词的字符的数量可以相同,也可以不同,本申请实施例对此均不作限制。

当然,敏感词处理装置将待识别文本中的敏感词过滤掉,获得的过滤后的文本可以发送至第三方应用平台,以使第三方应用平台可将过滤后的文本发布出去。

本实施例中,敏感词处理装置通过将识别出的敏感词进行过滤,从而保证了提供给第三方应用平台的文本的安全性。

图5a为本申请提供的敏感词处理方法实施例三的流程图。参照图5a所示,本实施例的方法包括:

s501、根据敏感词挖掘模型通过文本挖掘算法对运营商数据库中的文本内容进行分析,获得所述敏感词库中的第一敏感词子集。

本步骤的目的在于:基于运营商的数据库建立敏感词库。

其中,运营商的数据库中的文本内容为结构化的文本内容,或者,也可以理解为运营商的数据库中包括结构化知识。其中,结构化知识区别于传统的多媒体知识(例如视频、音频、图片知识),结构化知识具体以文本的形式展现。结构化知识可以包括大量的模板,例如业务介绍模板、费用介绍模板等等,每个模板包括一个或多个要素,要素可以包括一个或多个原子,其中,原子是结构化知识的最小计量单位,用户可以根据知识的类型填写到相应的结构化知识中,即相应的模板中。

结构化知识中,文本内容以相应的结构存放在各个原子内,从而保证可以方便、快速、准确地提取文本内容。

示例性地,以业务规则模板为例说明结构化知识的具体式样,如图5b所示,业务规则模板包括3个要素,分别为:业务名称、业务介绍以及适用对象;业务名称包括三个原子,分别为:原子名称、参数类型以及内容,其中,原子名称对应的文本内容为“业务名称”,参数类型对应的文本内容为“文本类型”,内容对应的文本内容可以为输入的业务名称;业务介绍包括三个原子,分别为:原子名称、参数类型以及内容,其中,原子名称对应的文本内容为“业务介绍”,参数类型对应的文本内容为“文本类型”,内容对应的文本内容可以为输入的业务介绍;适用对象包括三个原子,分别为:原子名称、参数类型以及内容,其中,原子名称对应的文本内容为“适用对象”,参数类型对应的文本内容为“文本类型”,内容对应的文本内容可以为输入的适用对象。这些要素包括的一个或多个原子对应的文本内容可以编辑,例如,参数类型和内容可以编辑。

获取敏感词库中的第一敏感词子集具体可通过下述方式实现:

首先,采用敏感词挖掘模型,根据文本挖掘算法将运营商数据库中的文本内容与至少一个其他敏感词子集中的敏感词进行对比;其中,这里所指的至少一个其他敏感词子集中的敏感词可以是根据运营商在进行敏感词过滤的历史数据获得的,或者,这些敏感词还可以是经过人工审核确定的,符合运营商要求的敏感词。

接着,将运营商的数据库中的文本内容中包括的与至少一个其他敏感词子集中的敏感词相似度满足预设条件的词汇确定为第一敏感词子集中的敏感词。例如,可将相似度大于或等于预设阈值的词汇确定为第一敏感词子集中的敏感词。

通过使用敏感词挖掘模型不断执行上述过程,从而构建第一敏感词子集,第一敏感词子集与其他敏感词子集共同构成敏感词库。

s502、采用dfa算法以及所述敏感词库,建立决策树。

其中,采用dfa算法以及敏感词库建立决策树的具体实现方式参照上述图3所述实施例中的描述,此处不再赘述。

s503、获取待识别文本。

s504、根据所述决策树对待识别文本进行识别,获得敏感词识别结果。

本实施例所示的步骤s503以及s504分别与图2所示实施例中s201以及s202类似,详细可参照图2所示实施例中的描述,此处不再赘述。

本实施例通过采用文本挖掘算法,并基于运营商的数据库建立敏感词库,该敏感词库中的敏感词与运营商想要过滤的敏感词契合度较高,因此,采用基于该敏感词库建立的决策树进行敏感词识别,能够保证敏感词识别结果的准确性。

可选地,在图5a所示实施例的基础上,s501、根据敏感词挖掘模型通过文本挖掘算法对运营商数据库中的文本内容进行分析,获得所述敏感词库中的第一敏感词子集之后,还可以包括:

s505、根据第一敏感词子集对敏感词挖掘模型进行优化,获得优化后的敏感词挖掘模型。

具体地,将第一敏感词子集中包含的敏感词,以及第一敏感词子集中包含的敏感词携带的用于指示该词汇为敏感词的标签,输入至敏感词挖掘模型中,使敏感词挖掘模型进行学习,不断优化敏感词挖掘模型的一个或多个参数,从而获得优化后的敏感词挖掘模型。

一种可能的实现方式,第一敏感词子集中包括的敏感词的标签可以是由人工处理获得的。示例性地,该标签可以为人工标注的分数,分数越高,则该词汇为敏感词的概率越高,分数越低,则该词汇为敏感词的概率越低。

本实施例中,通过将第一敏感词子集中的敏感词作为训练样本输入至敏感词挖掘模型中,以供敏感词挖掘模型进行学习,不断进行优化,从而提高了敏感词挖掘模型的精确度;进一步,通过优化后的敏感词挖掘模型对运营商的数据库中的文本内容进行分析,从而获得的新的敏感词,提高了该词汇为敏感词的概率;另外,通过采用基于新的敏感词库建立的决策树进行敏感词识别,提高了敏感词识别的准确度。

图6为本申请提供的敏感词处理装置实施例一的结构示意图。如图6所示,本实施例所示的敏感词处理装置600包括:获取模块601以及处理模块602。

其中,获取模块601,用于获取待识别文本。

处理模块602,用于根据预先建立的决策树对所述待识别文本进行识别,获得敏感词识别结果;其中,所述决策树是预先通过dfa算法以及敏感词库建立的,所述敏感词库是根据运营商数据库建立的。

在一些可能的设计中,处理模块602,还用于根据敏感词挖掘模型通过文本挖掘算法对运营商数据库中的文本内容进行分析,获得所述敏感词库中的第一敏感词子集,所述第一敏感词子集中的敏感词与所述敏感词库中的至少一个其他敏感词子集中的敏感词的相似度满足预设要求。

在一些可能的设计中,所述运营商数据库中的文本内容为结构化的文本内容。

在一些可能的设计中,处理模块602,还用于根据所述敏感词识别结果,过滤所述待识别文本中的敏感词,获得过滤后的文本。

在一些可能的设计中,处理模块602,还用于根据所述第一敏感词子集对所述敏感词挖掘模型进行优化,获得优化后的敏感词挖掘模型。

本实施例的装置,可以用于执行图2至图5a所示任一方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

图7为本申请提供的敏感词处理装置实施例二的结构示意图。如图7所示,本实施例提供的敏感词处理装置700,包括:存储器701、处理器702以及计算机程序指令。

存储器701可以是独立的物理单元,与处理器702可以通过总线703连接。存储器701、处理器702也可以集成在一起,通过硬件实现等。

存储器701用于存储程序指令,处理器702调用该程序指令,执行以上图2至图5a任一方法实施例的操作。

可选地,当上述实施例的方法中的部分或全部通过软件实现时,上述敏感词处理装置700也可以只包括处理器702。用于存储程序的存储器701位于敏感词处理装置700之外,处理器702通过电路/电线与存储器连接,用于读取并执行存储器中存储的程序。

处理器702可以是中央处理器(centralprocessingunit,cpu),网络处理器(networkprocessor,np)或者cpu和np的组合。

处理器702还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specificintegratedcircuit,asic),可编程逻辑器件(programmablelogicdevice,pld)或其组合。上述pld可以是复杂可编程逻辑器件(complexprogrammablelogicdevice,cpld),现场可编程逻辑门阵列(field-programmablegatearray,fpga),通用阵列逻辑(genericarraylogic,gal)或其任意组合。

存储器701可以包括易失性存储器(volatilememory),例如随机存取存储器(random-accessmemory,ram);存储器也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flashmemory),硬盘(harddiskdrive,hdd)或固态硬盘(solid-statedrive,ssd);存储器还可以包括上述种类的存储器的组合。

图8为本申请提供的敏感词处理装置实施例三的结构示意图。如图8所示,本实施例提供敏感词处理装置800可以被提供为服务器,服务器可以为一个服务器,也可以为一组服务器,本申请实施例对此不作限制。

参照图8,敏感词处理装置800包括处理组件822,其进一步包括一个或多个处理器,以及由存储器832所代表的存储器资源,用于存储可由处理组件822的执行的指令,例如应用程序。存储器832中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件822被配置为执行指令,以执行上述方法任一实施例所示的敏感词处理方法。

敏感词处理装置800还可以包括一个电源组件826被配置为执行敏感词处理装置800的电源管理,一个有线或无线网络的接口850被配置为将敏感词处理装置800连接到网络,和一个输入输出(i/o)接口858。敏感词处理装置800可以操作基于存储在存储器832的操作系统,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1