基于动态划分与语义加权的干扰过滤匹配算法的制造方法与工艺

文档序号:11294124阅读:221来源:国知局
基于动态划分与语义加权的干扰过滤匹配算法的制造方法与工艺
本发明属于信息处理技术领域,特别涉及一种基于动态划分与语义加权的干扰过滤匹配算法。

背景技术:
随着信息技术的发展,网络与电子文档已经成为了信息的重要载体之一人们的工作、学习和生活都与网络与计算机息息相关。信息时代,电子文档与网络成为信息的重要载体之一,但它们在给人们提供方便与快捷的服务同时,也衍生出了很多问题,如仔网络中不良信息可以更快的泛滥与传递,含有非法或不良信息的电子文档可以在PC机中更隐蔽的隐藏等等。当前,无论是过滤网络上的不良信息,还是发现或取证PC机上的可疑电子文档,其核心技术,都是指定关键字下的模式匹配算法,以此发现或屏蔽不良信息。模式匹配算法的概念为:设模式串为s,匹配串为t,则算法依据某种规则,即在串t中寻找串s的所有出现。模式匹配算法应用于网络或PC机关键字检索与过滤时,通常由管理员配置所关心的关键字,在对所关注的电子信息进行多关键字的精确匹配。为了绕过关键字检索,不良信息的发布者往往对信息中敏感字进行处理,最典型的做法即为在信息关键字当中加入部分干扰信息,其目的在于使关键字可绕过管理系统的关键字匹配,但需保证人眼依旧能够正常辨识,如设‘保密’为一敏感词,则信息发布者常将其处理为形如‘保#*密’的形式,在保证了人眼可正常辨识的同时,也绕过了关键字的精确模式匹配算法。目前,针对这种在关键字之中加入干扰信息的手段,主要采用对少量特殊字符进行指定过滤,如:申请号为200810104017.6、发明名称为《利用短信网关发送垃圾短信的监控与过滤方法及系统》,提到了一种“标点符号、非字母汉字类字符和空格对应替换为空字符”的处理方法;四川师范大学硕士学位论文《基于HTTP协议面向中文文本的过滤技术研究》(作者:乐妍,2009年)中,提到了一种“剔除标点符号、数字、字母及非法文本的分割伪装”的方法,此类方法,都预先将干扰类字符固定,并且第一种方法,无法识别形如‘保asd密’式的干扰,而第二种方法,则会导致无法在文本中搜索本身即带有数字或英文的字符,如‘F1大奖赛’、‘第13集团军’等,总之,此类方法在匹配中只过滤某一类特定码值,过滤方式不灵活,智能性差,对于以交叉字符类方式存在的干扰信息,如“保asd123密”类的信息,无法做出正确识别,且由于这些算法对干扰字符定死,一旦要搜索的字符为干扰集内的元素(如数字、英文),则根本无法进行搜索。综上,有必要设计一种更具智能的干扰过滤算法,可以对以交叉字符类方式存在的干扰信息进行准确过滤,且可支持全部的字符类型匹配与过滤。

技术实现要素:
为解决现有干扰信息过滤算法不够智能、无法识别交叉字符方式的干扰、存在扫描死角等缺点,本发明提出了一种基于动态划分与语义加权的干扰过滤匹配算法,所述方案包括:一种根据字符编码空间,动态划分干扰集,生成干扰过滤机的算法,所述方法包括:对匹配串内容进行预处理,将编码统一为Unicode编码方式。再根据Unicode编码中不同字符的编码范围,将编码全集划分为若干个编码子集,如汉字集、英文集、数字集、拉丁文集等。具体为:将编码方式统一转换为Unicode编码方式,再根据Unicode编码方式对不同字符的不同编码范围的划分,将所有码值组成的全集划分为若干个编码子集,如在Unicode编码环境下的码值全集为[0x0000,0xFFFF],而汉字的编码子集为[0x4E00,0x9FA5],数字的编码子集为[0x0030,0039]。根据待匹配关键字各个单元的码值范围,确定此单元所属编码子集,进而通过关键字中所有单元,确定此关键字所使用的所有编码子集。具体为:依次读入关键字的每个字单元,根据其编码范围,确定此字符对应的编码子集,最终确定关键字所有字符所使用的所有编码子集,如关键字“F1赛车”所使用的编码子集为数字子集、英文子集与中文子集。根据编码全集与关键字使用的编码子集,用关键字的全部码集子集对全集取补集,得到的补集作为干扰信息码集空间,即对应此关键字的干扰过滤机。具体为:使用当前编码方式对于字符划分后得到的全部编码子集,减去关键字所包含的编码子集,差集即可定义为对应此关键字的干扰集,即得到对应与当前关键字的干扰过滤机。一种基于平均最小语义长度以确定各个字符的干扰权值与总体干扰阈值的算法,所述方法包括:根据平均最小语义长度确定干扰过滤过程中何时放弃对连续出现的干扰字符过滤的状态阈值。具体为:设当前某编码子集i内的单词平均字长为L(Ai),则可定义此字符语义的平均最大非语义长度为L(Ai)的高斯函数:[L(Ai)],若属于i的连续字符长度超过此值,则有较大几率形成一则有效单词信息。本算法中,提出了干扰阈值的概念,具体定义如下:干扰阈值在数值上等于连续可疑干扰字符的权值叠加,当叠加大于干扰阈值时,则认为此段可疑文字有可能...
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1