敏感文本检测方法及装置的制造方法

文档序号:8543665阅读:310来源:国知局
敏感文本检测方法及装置的制造方法
【技术领域】
[0001]本发明涉及信息处理技术领域,特别涉及一种敏感文本检测方法及装置。
【背景技术】
[0002]随着互联网的兴起,网络文学以其方便阅读且涵盖海量数据等特点,得到了快速的发展。而在网络文学迅速普及且内容快速增长的同时,也伴随着大量内容涉及情色、暴力、政治言论等有害青少年身心健康的敏感文本的出现,敏感文本给阅读者造成了阅读障碍。因此,为了给阅读者创造一个良好的阅读环境,如何检测敏感文本,以将检测出来的敏感文本及时进行隔离,成为了一个关键问题。
[0003]现有技术预先配置一个关键词列表,所述关键词列表中包含多个关键词。当检测到一个新文本后,首先从关键词列表中选取一个关键词,然后对该文本进行从头至尾的扫描,统计该关键词在该文本中的出现频率;以此类推,直至遍历关键词列表中的所有关键词,得到关键词列表中每个关键词在该文本中的出现频率。最后,根据关键词列表中每个关键词在该文本中的出现频率检测该文本是否为敏感文本;如果至少一个关键词在该文本中的出现频率大于预设阈值,则确定该文本为敏感文本。
[0004]在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
[0005]由于在根据关键词列表中的关键词对文本进行检测时,需根据每一个关键词对文本进行多次从头至尾的扫描,所以消耗了大量的时间,导致文本检测的效率低下。

【发明内容】

[0006]为了解决现有技术的问题,本发明实施例提供了一种敏感文本检测方法及装置。所述技术方案如下:
[0007]一方面,提供了一种敏感文本检测方法,所述方法包括:
[0008]获取当前检测文本的特征文本字符串;
[0009]根据预先建立的有限自动状态机对所述特征文本字符串进行检测,得到每个关键词在所述特征文本字符串中的出现频率,所述有限自动状态机中包括多个关键词;
[0010]对于多个关键词类别中的每个关键词类别,基于所述关键词类别对应的每个关键词的出现频率及所述每个关键词的预设权重,计算所述关键词类别在所述文本中的权重;
[0011]当至少一个关键词类别的权重大于预设阈值时,确定所述文本为敏感文本。
[0012]另一方面,提供了一种敏感文本检测装置,所述装置包括:
[0013]字符串获取模块,用于获取当前检测文本的特征文本字符串;
[0014]关键词检测模块,用于根据预先建立的有限自动状态机对所述特征文本字符串进行检测,得到每个关键词在所述特征文本字符串中的出现频率,所述有限自动状态机中包括多个关键词;
[0015]权重计算模块,用于对于多个关键词类别中的每个关键词类别,基于所述关键词类别对应的每个关键词的出现频率及所述每个关键词的预设权重,计算所述关键词类别在所述文本中的权重;
[0016]敏感文本确定模块,用于当至少一个关键词类别的权重大于预设阈值时,确定所述文本为敏感文本。
[0017]本发明实施例提供的技术方案带来的有益效果是:
[0018]在获取当前检测文本的特征文本字符串后,根据预先建立的有限自动状态机对特征文本字符串进行检测,得到每个关键词在特征文本字符串中的出现频率;由于基于预先建立的有限自动状态机对特征文本字符串进行检测,所以在检测过程中,只需对特征文本字符串进行一次从头至尾的扫描,所以提高了检测效率,加快了检测速度,降低了资源占用率;且对于多个关键词类别中的每个关键词类别,基于关键词类别对应的每个关键词的出现频率及每个关键词的预设权重,计算关键词类别在文本中的权重,并根据关键词类别的权重确定当前检测文本是否为敏感文本,由于在确定敏感文本时,还需基于关键词的预设权重,所以提高了检测粒度,提高了检测精准率,可净化网络阅读环境。
【附图说明】
[0019]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本发明实施例一提供的一种敏感文本检测方法流程图;
[0021]图2是本发明实施例二提供的一种敏感文本检测方法流程图;
[0022]图3是本发明实施例二提供的一种有限自动状态机的结构示意图;
[0023]图4是本发明实施例二提供的一种字符匹配之前的特征文本字符串的检测示意图;
[0024]图5是本发明实施例二提供的一种字符匹配之后的特征文本字符串的检测示意图;
[0025]图6是本发明实施例三提供的一种敏感文本检测装置的结构示意图;
[0026]图7是本发明实施例四提供的一种服务器的结构示意图。
【具体实施方式】
[0027]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0028]实施例一
[0029]本发明实施例提供了一种敏感文本检测方法,参见图1,本实施例提供的方法流程包括:
[0030]101、获取当前检测文本的特征文本字符串。
[0031]102、根据预先建立的有限自动状态机对特征文本字符串进行检测,得到每个关键词在特征文本字符串中的出现频率,有限自动状态机中包括多个关键词。
[0032]103、对于多个关键词类别中的每个关键词类别,基于关键词类别对应的每个关键词的出现频率及每个关键词的预设权重,计算关键词类别在文本中的权重。
[0033]104、当至少一个关键词类别的权重大于预设阈值时,确定文本为敏感文本。
[0034]本实施例提供的方法,在获取当前检测文本的特征文本字符串后,根据预先建立的有限自动状态机对特征文本字符串进行检测,得到每个关键词在特征文本字符串中的出现频率;由于基于预先建立的有限自动状态机对特征文本字符串进行检测,所以在检测过程中,只需对特征文本字符串进行一次从头至尾的扫描,所以提高了检测效率,加快了检测速度,降低了资源占用率;且对于多个关键词类别中的每个关键词类别,基于关键词类别对应的每个关键词的出现频率及每个关键词的预设权重,计算关键词类别在文本中的权重,并根据关键词类别的权重确定当前检测文本是否为敏感文本,由于在确定敏感文本时,还需基于关键词的预设权重,所以提高了检测粒度,提高了检测精准率,可净化网络阅读环境。
[0035]进一步地,根据预先建立的有限自动状态机对特征文本字符串进行检测之前,该方法还包括:
[0036]配置关键词列表,关键词列表中至少包括多个关键词、每个关键词的关键词类别及每个关键词的预设权重;
[0037]确定关键词列表中全部关键词具有的公共如缀;
[0038]将公共前缀作为根节点,建立树状有限自动状态机,树状有限自动状态机的每一个分支中至少包含一个关键词。
[0039]进一步地,根据预先建立的有限自动状态机对特征文本字符串进行检测,包括:
[0040]从特征文本字符串的尾部开始,基于有限自动状态机利用坏字符跳转技术由后向前对特征文本字符串进行检测。
[0041]进一步地,基于有限自动状态机利用坏字符跳转技术由后向前对特征文本字符串进行检测,包括:
[0042]步骤a、确定有限自动状态机中最小长度字符串,将有限自动状态机由特征文本字符串的尾部向前移动,直至最小长度字符串的尾字符与特征文本字符串的尾字符对齐;
[0043]步骤b、判断公共前缀的首字符是否与公共前缀对齐的特征文本字符串的第一字符相匹配;
[0044]步骤C、如果匹配,则从与公共前缀的首字符对齐的字符开始,基于有限自动状态机判断特征文本字符串中是否存在关键词;如果存在关键词,则将关键词的出现频率加1,并将有限自动状态机向前移动最大长度字符串对应的长度;
[0045]步骤d、如果不匹配,则判断有限自动状态机中是否存在与第一字符相匹配的字符;如果存在与第一字符相匹配的字符,则将有限自动状态机向前移动,直至有限自动状态机中与第一字符相匹配的字符同第一字符对齐,从与公共前缀的首字符对齐的字符开始,基于有限自动状态机判断特征文本字符串中是否存在关键词;如果存在关键词,则将关键词的出现频率加1,并将有限自动状态机向前移动最大长度字符串对应的长度;
[0046]步骤e、以此类推,重复执行步骤b至步骤d,直至公共前缀到达特征文本字符串的首部。
[0047]进一步地,计算关键词类别在文本中的权重之前,该方法还包括:
[0048]确定关键词类别对应的每个关键词在文本中的位置权重;
[0049]计算关键词类别在文本中的权重,包括:
[0050]基于关键词类别对应的每个关键词的出现频率、每个关键词的预设权重及每个关键词的位置权重,计算关键词类别在文本中的权重。
[0051]进一步地,确定文本为敏感文本之后,该方法还包括:
[0052]当至少一个关键词类别的权重大于预设阈值时,根据权重最大的关键词类别确定文本的类别;
[0053]根据权重最大的关键词类别的权重与预设阈值的大小关系,确定文本的敏感程度;
[0054]输出文本的敏感程度。
[0055]上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再--赘述。
[0056]实施例二
[0057]本发明实施例提供了一种敏感文本检测方法,现结合上述实施例一的内容,对本发明实施例提供的敏感文本检测方式进行详细地解释说明。参见图2,本实施例提供的方法流程包括:
[0058]201、配置关键词列表,关键词列
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1