基于含有违法词的互联网文章自动过滤处理方法及系统与流程

文档序号:14303538阅读:1008来源:国知局

本发明涉及一种基于含有违法词的互联网文章自动过滤处理的方法及处理系统。



背景技术:

随着互联网、移动互联网的高速发展,基于b端和c端的互联网用户也越来越多,各用户也皆会基于部分官网或产品或平台发布一些文章或产品内容。但目前大部分的网民对于网络信息安全了解并不够多或不够熟悉,导致有些违法词或违禁词也运用写到了文章或产品内容里并发布,导致后续还得排查修改并查处。

对过往所发布的产品或文章内容没法有效保障是否含有违法词,违法词或违禁词会根据时间、阶段、社会发展情况不断增加或减少调整,也会随部分谣言事件的发生成为热词或重点关注查处事项。但各企业官网、产品、平台人员无法时时监控违法词的新增或减少并及时做出相应的处理或修改,同时每次的排查并修改也需耗费不少时间成本。

现有的互联网中小微企业,大部分都只考虑文章、产品的宣传推广,没有过多的考虑文章、产品内容是否含有违禁词,同时更多的是没有预防或处理措施,在如今网络信息高速分享传播的时代下,对于网络信息安全的提升有着一定的隐患。



技术实现要素:

本发明的目的,在于提供一种基于含有违法词的互联网文章自动过滤处理方法及系统,其可以将企业、平台中的互联网产品、文章内容有效自动过滤处理违法词,并实现产品、文章内容数据的长期有效的自动检测处理,特别是针对过往所发布的文章、产品,完全也不必担心随着的新违法词的出现,每一次再去花费大量的人工、时间成本检测及处理,进一步改善网络信息安全。

为了达成上述目的,本发明的解决方案是:

一种基于含有违法词的互联网文章自动过滤处理系统,包括:

违法词词库收集模块:收集违法词,并建立违法词词库;

词库人工核查模块:采取人工方式对违法词词库中新增导入的词进行核查,为每个词设立风险层级;

分词处理模块:在产品或文章中筛选排查出是否含有违法词;

违法词内容转换模块:将排查出的违法词根据词的风险层级对应不同的处理方式;

前台触发式访问过滤模块:用户访问文章时,触发分词处理模块对文章进行筛选排查;以及,

后台编辑发布检测模块:产品、文章编辑发布时,触发分词处理模块对文章进行筛选排查。

上述违法词词库收集模块根据网安每期公布提供的违法词列表、网上公布的非法词库定期收集及建库储存。

上述分词处理模块基于字符串匹配的方法、正向最大匹配分词算法以及反向最大匹配分词算法在产品或文章中筛选排查出是否含有违法词。

上述违法词词库中的词风险层级包括高风险和低风险,违法词内容转换模块将低风险违法词转换成***,将高风险违法词删除。

一种基于含有违法词的互联网文章自动过滤处理方法,包括如下步骤:

步骤1,创建违法词词库;

步骤2,管理词库,为每个词标注风险等级;

步骤3,产品、文章编辑发布时,利用分词检测技术筛选排查出是否含有违法词,并对排查出的违法词根据词的风险层级对应不同的处理方式。

上述步骤1中,从网安部门或互联网下载最新非法词词库,创建违法词词库,且定时或不定时维护更新违法词词库。

上述步骤2中,将含军事政治类、含情色类的相关词汇标注为高风险,将含阶段性的敏感词汇标注为低风险。

上述步骤3中,通过企业官网后台或平台后台编辑发布文章及产品时,当检测出含有违法词时无法编辑成功并提示含有的词汇做出修改。

上述步骤3中,当用户通过前台访问文章及产品时,也会利用分词检测技术筛选排查出是否含有违法词,并对排查出的违法词根据词的风险层级对应不同的处理方式。

上述步骤3中,分词检测技术采用基于字符串匹配的方法、正向最大匹配分词算法、反向最大匹配分词算法或双向最大匹配分词算法。

采用上述方案后,本发明具有以下有益效果:

(1)解决中小微企业、平台发布的产品、文章里不经意间含有违法词,规避后续可能出现的不及时处理或受到处罚;

(2)对过往所发布的产品或文章内容随着新违法词的出现能继续有效保障自动过滤处理,解放部分人工成本,企业、平台不需再因当有新词出现时立即对全部的文章、产品再次检测或处理;

(3)提升网络信息安全,从根本上长期有效的杜绝违法词、违禁词的出现;

(4)访问触发式过滤处理方式可以有效避免当文章、产品数据量过大时,执行过滤这些操作引起的数据库堵塞或执行时间超长。

附图说明

图1是本发明的流程图。

具体实施方式

以下将结合附图,对本发明的技术方案进行详细说明。

本发明提供一种基于含有违法词的互联网文章自动过滤处理系统,包括如下功能模块:

违法词词库收集模块:根据网安每期公布提供的违法词列表、网上公布的非法词库定期收集及建库储存。

词库人工核查模块:该模块采取人工方式对每次新增导入的关键词进行核查,为每个关键词设立标注低风险或高风险等层级。

分词处理模块:基于字符串匹配的方法、正向最大匹配分词算法以及反向最大匹配分词算法等方式封装而成的分词处理技术,在产品或文章中筛选排查出是否含有违法词或违禁词。

违法词内容转换模块:将过滤排查的违法词根据词的风险层级对应不同的处理方式,如低风险则将词转换成***,高风险则删除等。

前台触发式访问过滤模块:用户访问文章时,同时触发违法词过滤处理方式做出相应的检测处理。当添加新违法词到词库时,有用户访问旧文章,也将在访问触发过程中进行检测及处理。

后台编辑发布检测模块:产品、文章编辑发布时,触发违法词过滤处理方式做出相应的检测及提醒机制。

通过上面的几大模块,实现了基于含有违法词的互联网文章、产品自动检测过滤处理。

如图1所示,本发明还提供一种基于含有违法词的互联网文章自动过滤处理方法,包括如下步骤:

步骤1,创建违法词词库,从网安部门(会不定期地公布最新词库)或互联网下载最新非法词词库,导入违法词词库,每一阶段定期维护更新违法词词库;

步骤2,管理词库,给每个词标注风险等级,如将含军事政治类、含情色类的相关词汇标注为高风险,如将含阶段性的敏感词汇标注为低风险;

步骤3,非法词检测及处理,有几个场景及处理方式具体过程如下:

a.将分词检测技术及违法词标注风险层级包装封装成接口模式;

b.通过企业官网后台或平台后台编辑发布文章及产品时,在编辑完成的触发动作上加入违法词检测接口,当检测出含有违法词时无法编辑成功并提示含有的词汇做出修改;

c.用户通过前台访问文章及产品时,请求触发违法词检测接口,当检测出含有违法词时,根据检测出的违法词风险层级做出内容修正,例如将词汇自动替换成***再渲染页面或跳转404无法访问该篇文章,最高风险将可触发直接删除该篇文章或产品内容;

d.对过往所发布的产品或文章内容随着新违法词的出现能继续有效保障自动过滤处理,有新的非法关键词或删减旧关键词,都仅需在词库上做处理即可,当旧文章或旧产品内容含有新添加的违法词时,也将自动在有用户访问该文章/产品内容时触发做出相应内容修正结果。

所述违法词分词处理匹配方式如以下几种方式方法:

a.基于字符串匹配的方法,又称为机械分词方法或字典匹配方法,它主要依据词典的信息,而不使用规则知识和统计信息,按照一定的策略将待切分的汉字串与词典中的词条逐一匹配,若在词典中找到该词条,则匹配成功,否则做其它相应的处理。机械分词法依据待切分文本扫描的方向不同,分为正向匹配、逆向匹配以及双向匹配;依据分词过程是否与词性标注过程相结合,又可分为单纯分词方法和分词与标注相结合的一体化方法;依据每次匹配优先考虑长词还是短词,分为最大匹配和最小匹配。常用的基于字符串匹配的分词方法通常是将上述几种单一方法组合起来使用,例如:基于字符串的正向最大匹配、逆向最大匹配、双向最大匹配以及最少切分等。

b.正向最大匹配分词算法,根据匹配不成功时重新切取的策略区分,机械匹配分词法又分为增字匹配法和减字匹配法。增字法一般与最小匹配相结合,而减字法常与最大匹配相结合。因此正向最大匹配法采用减字匹配法较为常见,其基本思想是:假设己知机器词典中最长词条的长度为n,则以n作为减字开始的长度标准,首先将待扫描的文本串s从左向右截取长度为n的字符串w1,然后在词典中查找是否存在该字符串w1的词条。如果匹配成功,则w1标记为切分出的词,再从待扫描文本串的n+1位置开始扫描;如果匹配失败,将截取长度减1后,再从s中截取此长度的字符串w1’,重复上述匹配过程,直至截取长度为1为止。以扫描完句子作为整个匹配过程结束。其算法流程如图所示,经过这一流程处理后,原本的句子s将被切分成w1w2…wn的词序列,每一个wi均为词典中的词条或者是原子。

c.反向最大匹配分词算法,其基本思想与正向最大匹配分词法大体一致,只是扫描方向换成了从右至左。换句话说,当扫描汉语句子时,根据词典中最长词条的长度,从句末开始向左截取出汉语字符串与词典中的词条匹配,匹配流程与减字法相同,直至扫描到句首为止。例如,待切分字串为“他说的确实在理”时,正向最大匹配分词法的分词结果为“他/说/的确/实在/理/”,逆向最大匹配分词法的分词结果为“他/说/的/确实/在理/”,根据汉语原意,逆向最大匹配的分词结果是正确的,而正向最大匹配是错误的。据统计结果表明,单纯使用正向最大匹配法的错误率为1/169,单纯使用逆向最大匹配法的错误率为1/245,显然逆向最大匹配分词法较正向最大匹配分词法在切分准确率上有了较大提高,这一结果与汉语中心语偏后有一定的关系。为了节省处理待匹配字符串的时间,逆向最大匹配通常将词典中的词条也组织成逆序,例如“逆向”这一词条,在逆向最大匹配的分词词典中以“向逆”形式存储。

d.双向最大匹配分词算法,这种分词算法侧重于分词过程中检错和纠错的应用,其基本原理是对待切分字符串采用正向最大匹配和逆向最大匹配分别进行正向和逆向扫描和初步切分,并将正向最大匹配初步切分结果和逆向最大匹配初步切分结果进行比较,如果两组结果一致,则判定分词结果正确,如果存在不一致,则判定存在着切分歧义,需要进一步采取技术手段来消解歧义。

通过上述的几点违法词具体实现流程处理后,还可将处理后的url地址及涉及的违法关键词搜集入库存储,方便自查检测管理,也可在必要时提交搜索引擎或网安部分,提升整体网络信息安全。

以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1