本发明涉及网络信息技术领域,具体为一种基于信息交换场景中敏感话题过滤的解决方法。
背景技术:
在社交,论坛,新闻评论等存在用户信息交换的场景中,常会出现一些不适宜在公众场合展示的信息。一些软件或者网站的开发者试图屏蔽此类消息,但还是有一些此类用户会通过分隔符,分条发送等形式来躲避开发者的屏蔽。为了提高数据处理的效率,系统初始化时会将敏感词及分隔符等存于内存之中,如果敏感词库过于庞大,会对操作系统内存有很大的消耗。
技术实现要素:
本发明的目的在于提供一种基于信息交换场景中敏感话题过滤的解决方法,具有高效,可以有效屏蔽多种敏感话题信息,净化软件环境的优点,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于信息交换场景中敏感话题过滤的解决方法,包括敏感词过滤和相邻文本对比两个阶段,敏感词过滤阶段包括以下过滤步骤:
第一步、字母集合,先将敏感词首字组成集合;
第二步、敏感词拆分,将敏感词每个字拆分,后一个字作为前一个字的子节点,每一个节点都有一个字段isend来标志是否到此为敏感词;
第三步、系统判断以是否为特殊扰乱字符作为判断首要判断条件。
优选的,相邻文本阶段为判断敏感词过滤阶段的二次判断。
优选的,敏感词过滤阶段为一种用来存储敏感词库的数组加树型结构。
与现有技术相比,本发明的有益效果是:本发明的基于信息交换场景中敏感话题过滤的解决方法,开始系统接收消息,对消息判断是否含有敏感话题,若有则直接拦截不进行转发,对接收的消息的相邻若干条消息组装成一条消息进行敏感话题过滤,若系统判断存在敏感话题则拦截不转发,并记录消息和消息发送人,若系统判断不存在敏感话题,则消息正常发送给接受者,由于特定的数据结构,对敏感词的判断效率很高,有效拦截过滤各种形式组装的带有敏感话题的信息并且能识别相邻几条信息是否可组装为带有敏感词的信息,高效且可以有效屏蔽多种敏感话题信息,净化软件环境。
附图说明
图1为本发明的数据结构图;
图2为传统的判断流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行q清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1-2,本发明提供一种技术方案:一种基于信息交换场景中敏感话题过滤的解决方法,包括敏感词过滤和相邻文本对比两个阶段,敏感词过滤阶段为一种用来存储敏感词库的数组加树型结构,对敏感词的判断效率很高,大大高于一般的正则匹配,敏感词过滤阶段包括以下过滤步骤:
第一步、字母集合,先将敏感词首字组成集合;
第二步、敏感词拆分,将敏感词每个字拆分,后一个字作为前一个字的子节点,每一个节点都有一个字段isend来标志是否到此为敏感词,本系统可以任何im、论坛等系统无缝结合,消息的传递可以用多种协议,需要保证消息不丢失,推荐使用生产消费模式的消息队列;
第三步、系统判断,系统判断小妖和小妖怪不是敏感词,而小妖精则被认为是敏感词,系统判断以是否为特殊扰乱字符作为判断首要判断条件,当对每一个字符判断之前,会先判断其是否是特殊扰乱字符,当循环到特殊无意义字符时,会直接略过,有效拦截过滤各种形式组装的带有敏感话题的信息。
其中数据表示如下:
相邻文本阶段为判断敏感词过滤阶段的二次判断,经过了敏感词过滤阶段的判断为无敏感词的信息,系统会记录下本条信息,并与相邻几条信息组装再次进行步骤一的敏感词判断。经系统判定消息含有敏感词则系统会将本条及相邻几条信息记录,并将此用户记录,以便统计频次,对相邻信息的判断,多一条信息,系统判断时间就会大大增加,因此相邻信息数的指定不应太大,相邻文本阶段的判断能识别相邻几条信息是否可组装为带有敏感词的信息。
系统具体判断时,开始系统接收首字消息,对首字消息判断是否在首字集合,若不是,结果错误,若是,判断结束字段是否正确,若正确,结果错误,若不正确,再进行判断是否为最后字符,若是,结果错误,若不是,获取下一个字符,然后再进行下一个字符首字判断,也就是对接收的消息判断是否含有敏感话题,若有则直接拦截不进行转发;对首字消息的相邻若干条消息组装成一条消息进行敏感话题过滤。若系统判断存在敏感话题则拦截不转发,并记录消息和消息发送人。若系统判断不存在敏感话题,则消息正常发送给接受者。
对于本发明的基于信息交换场景中敏感话题过滤的解决方法,基于特定的数据结构,对敏感词的判断效率很高,大大高于一般的正则匹配,对相邻信息的判断,多一条信息,系统判断时间就会大大增加,因此相邻信息数的指定不应太大,本系统可以任何im、论坛等系统无缝结合,消息的传递可以用多种协议,需要保证消息不丢失,推荐使用生产消费模式的消息队列。
综上所述:本发明的基于信息交换场景中敏感话题过滤的解决方法,开始系统接收消息,对消息判断是否含有敏感话题,若有则直接拦截不进行转发,对接收的消息的相邻若干条消息组装成一条消息进行敏感话题过滤,若系统判断存在敏感话题则拦截不转发,并记录消息和消息发送人,若系统判断不存在敏感话题,则消息正常发送给接受者,由于特定的数据结构,对敏感词的判断效率很高,有效拦截过滤各种形式组装的带有敏感话题的信息并且能识别相邻几条信息是否可组装为带有敏感词的信息,高效且可以有效屏蔽多种敏感话题信息,净化软件环境。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。