敏感信息的检测方法及装置的制作方法

文档序号:7927413阅读:100来源:国知局

专利名称::敏感信息的检测方法及装置的制作方法
技术领域
:本发明涉及计算机网络中的信息监控
技术领域
,尤其涉及敏感信息的检测方法及装置。
背景技术
:随着计算机技术的普及和网络技术的快速发展,丰富的网络信息资源为人们的生活提供了很大的便利,然而与此同时,计算机网络也成为了垃圾信息和不良信息的传播渠道之一,引起了一定的社会问题。因此网络信息的监控、管理和检测已经成为目前关注的热点问题。早期的网络信息检测技术是基于单模式的快速匹配检测方法,即通过判断所监控的网络信息中是否出现了预定义的关键词来确定网络信息中是否包含敏感信息。后期在此基础上,进一步产生了基于多模式的匹配检测方法,基于多模式匹配的检测方法的基本原理是有多个预定的关键词,当待检测网络信息中出现了其中一个关键词时,即判定待检测网络信息中出现了敏感信息,如BM(Boyer2Moore)方法、QS(quicksearch)方法和AC(Ah2Corasick)方法等。由于上述检测方法都是基于精确匹配的方法,即只有当所监控的网络信息中出现了与预定义的关键词完全相同的字符时,才能够检测得到该网络信息包含敏感信息,因此当网络信息中出现按照如下的任何一种方式得到的预定义关键词的变体时,采用上述方法得到的检测效果不佳(1)在关键词中插入空格、"/"等无效符号;(2)同音词转换,即将一个关键词中的一个或多个字变化为同音字或者拼音的形式,例如"法轮"可以变化为"珐轮"、"法伦"、"法lun"等形式;(3)字形转换,即根据文字字形结构,通过字形拆分的方法将关键词中的一个或多个字拆成多个字,例如"法轮"可以变化为'"?去轮"、"法车仑"等形式;(4)上述方法中一种或多种的结合。
发明内容本发明实施例提供一种敏感信息的检测方法及装置,用以解决现有的信息检测技术由于不能识别关键词的变异形式而造成的检测效果不佳的问题。本发明实施例提供的技术方案如下—种敏感信息的检测方法,包括获得关键词库,所述关键词库中包含对关键词进行变异处理得到的关键词变异形式信息;在检查出待检测信息中包含所述关键词库中的关键词变异形式信息时,确定待检测信息中包含敏感信息。—种敏感信息的检测装置,包括关键词库获取单元,用于获取包含对关键词进行变异处理得到的关键词变异形式信息的关键词库;敏感信息确定单元,用于在检查出待检测信息中包含关键词库获取单元得到的关键词库中的关键词变异形式信息时,确定待检测信息中包含敏感信息。本发明实施例通过对关键词进行变异处理得到关键词变异形式,获得包含关键词变异形式信息的关键词库,并基于该关键词库,检查待检测信息中是否包含关键词库中的关键词变异形式信息,在待检测信息中包含关键词库中的关键词变异形式信息时,确定待检测信息包含敏感信息。因此,本发明实施例提供的敏感信息检测方法可以识别待检测网络信息中的关键词变异形式,与现有技术相比,可以获得更优的信息检测效果。图1为本发明实施例的敏感信息的检测方法的原理流程图;图2为本发明实施例中对关键词进行字形拆分的示意图;图3为本发明实施例中对关键词和关键词字形变异形式构建索引信息的示意图;图4为本发明实施例中关键词索引表中索引记录的数据结构的示意图;图5为本发明实施例中关键词索引表的示意图;图6为本发明实施例中敏感信息的检测装置的结构示意图;图7为本发明实施例中关键词库获取单元的结构示意图;图8为本发明实施例中敏感信息确定单元的结构示意图。具体实施例方式下面结合各个附图对本发明实施例技术方案的主要实现原理具体实施方式及其对应能够达到的有益效果进行详细的阐述。如图1所示,本发明实施例的主要实现原理流程如下步骤10,对关键词进行变异处理得到关键词变异形式,获得包含关键词变异形式信息的关键词库,关键词库是指存储关键词和关键词变异形式信息的数据结构;步骤20,基于关键词库,检查待检测信息中是否包含关键词库中的关键词变异形式信息,在待检测信息中包含关键词库中的关键词变异形式信息时,确定待检测信息包含敏感信息。下面将根据本发明的上述发明原理,以关键词索引表为例,详细介绍两个实施例来对本发明方法的主要实现原理进行详细的阐述和说明。实施例一首先,根据用户输入的检测关键词,建立关键词索引表,具体方法如下第一步,进行字形拆分,字形拆分是根据字形拆分字典对用户输入的关键词中的每个字逐一进行拆分,得到所有可能的关键词变异形式。字形拆分字典的内容为由人工从网络上收集,经分析、整理、加工后得到的关于每个汉字的拆分形式信息。为了避免由于关键词过长导致拆分后得到的关键词变异形式过多,从而造成后续匹配处理耗用时间过长、占用过多系统资源的问题,可以限定只对用户输入的关键词中的前几个字进行拆分,例如在本实施例中,只对关键词中的前4个字进行拆分处理。在本实施例中,用户输入的关键词为"地下刊物"、"痴汉是犯罪",图2描述了对关键词进行拆分的结果,关键词"地下刊物"可被拆分为"土也下刊物"等7种变异形式,对于关键词"痴汉是犯罪",只对前4个字进行拆分,可以得到如图2所示的6种变异形式。第二步,在字体拆分的基础上,根据拼音字典,对关键词和关键词变异形式进行拼音转换,其中拼音词典中记录了每个汉字的读音信息。进行拼音转换的目的是为了能够识别第2种变异类型,即同音字或用拼音来代替文字的变异形式。对于少见的生僻字,如"?",可能由于拼音字典内容信息过少而无法转换成为对应的拼音,这时可以用一个特殊的字符,如"_"作为该字的拼音。在实际应用中,为了节省存储空间以及后续处理的便捷,可以根据拼音字典,在将关键词和关键词变异形式中的每个字转换为对应拼音或特殊字符后,再对其进行编码处理,生成对应的8bit拼音编码数据。对关键词"地下刊物"和"痴汉是犯罪"及其字形变异进行拼音转换和拼音编码的结果分别如图3中第2列和第3列内容所示。第三步,在对关键词和关键词变异形式进行拼音编码转换的基础上,建立索引表。索引表中每个记录的结构如图4所示,包含索引值、标号信息、字符串信息、长度信息、指向下一个链表节点的指针信息等数据。在本实施例中,关键词或关键词变异形式的索引值是其中前2个字的拼音编码数据的组合,标号信息是其中前4个字的拼音编码数据的组合,字符串信息是关键词或关键词变异形式的字符串,长度信息是关键词或关键词变异形式的字符串的字数。例如,关键词"地下刊物"中4个字拼音转换的结果分别为"di"、"xia"、"kan"、"wu",编码结果分别为3e、51、8d、4f。采用右结合的方式将"地""下"两字对应的拼音编码数据组合,得到索引值为513e,采用右结合的方式将"地"、"下"、"刊"、"物"4个字对应的拼音编码数据组合,得到标号信息为4f8d513e,长度信息为4,字符串信息为"地下刊物",指针信息为空。附图3中的第4列、第5列和第6列的内容分别说明了按照以上方法确定的部分关键词或关键词变异形式的索引记录的索引值、标号信息和长度信息。这里需要指明的是,将多个字对应的拼音编码进行组合的方式不仅限于右结合的方式,还可以有左结合等其它方式。根据关键词或关键词变异形式的索引值,将关键词或关键词变异形式的记录加入索引表中对应位置上,例如将索引值为513e的记录加入索引表中的位置513e上。当将一个关键词或关键词变异形式的记录加入索引表时,发现在待加入的位置上已有一个索引记录时,这时,将前一个已存在记录的指针信息修改为该要加入的记录的存放地址,即采用链表的方式解决索引表中同一个位置可能会出现多个记录时的冲突问题,附图5是根据图2中的信息建立的索引表片段的示意图。通过以上介绍的方法,用户可以基于以上建立的关键词索引表对网络信息进行检测处理,具体步骤如下首先,对用户输入的待检测的网络信息进行拼音转换处理。通常网络信息是电子文档形式,包括文本文档、HTML文档等,通过现有的技术手段,可以将其转化为字符串的形式。例如,在本实施例中,待检测的网络信息可被转化为待检测字符串"出版土也下刊物"。对待检测的字符串,逐字进行拼音转换处理,为了节省存储空间,可以对其进一步进行拼音转换处理,将其处理为拼音编码数据,具体的拼音编码转换方法与上述建立关键词索引表中提到的拼音转换方法相同,经拼音转换后,所得到的整个待检测的字符串的拼音编码数据串的大小为待检测字符串的长度X8bit,并保存拼音编码数据串中每个8bit的拼音编码数据对应的字在待检测字符串中的位置信息。对待检测字符串"出版土也下刊物"中每个字分别进行拼音转换,得到每个字对应的编码分别是28074262518D4F。然后,根据对待检测字符串进行编码转换的结果和关键词索引表,进行关键词检测处理,具体过程如下在拼音编码数据串中,逐次取出待检测字符串中相邻2个字的拼音编码数据,即根据拼音编码数据串中每个8bit的拼音编码数据对应的字在待检测字符串中的位置信息,第一次取出待检测字符串中第一个和第二个字的拼音编码数据,第二次取出待检测字符串中第二个和第三个字的拼音编码数据,依此类推。将所取出的待检测字符串中相邻的2个字的拼音编码数据组合在一起,得到一个索引值Index,查找关键词索引表中的索引值为Index的记录,即第Index个记录,如果该记录内容为空,则取出待检测字符串中下一个相邻的2个字的拼音编码数据,继续上述操作,直到遇到待检测字符串的结束符为止。例如,在本实施例中,首先取出字符串中第一个字"出"和第二个字"版"对应的拼音编码字符,采用右结合的方式组合,得到索引值0728,根据索引值0728查找关键词索引表,没有发现对应的记录,则在关键词索引表中查找由"版土"两个字对应的拼音编码数据组合而成的索引值4207位置上的记录,也没有发现对应的记录,则继续查找索引表中"土也"两个字对应的拼音编码数据组合而成的索引值6242对应的记录。这里需要指明的是,多个字对应的拼音编码组合的方式不仅限于右结合的方式,还可以有左结合等其它方式,需要与建立关键词索引表时采用的拼音编码组合的方式相同。如果该记录非空,则进行以下操作从拼音编码数据串中,取出在待检测字符串中进行比较的2个字之后的2个字的拼音编码数据,与索引值Index组合在一起,依次判断此4个字的拼音编码数据组合与关键词索引表中的索引值为Index的链表中的每个链表节点记录的标号信息是否相同,若不同,则继续与链表中的下一个链表节点记录的标号信息进行比较,直到最后一个链表节点记录为止;若相同,说明与该记录中的字符串信息的读音相同,则根据该记录中字符串的长度信息n,从待检测字符串中取出以进行比较的2个字中的第一个字为基准,其后的n个字,将此n个字与该记录中字符串信息中的每个字逐字进行精确匹配。这里对精确匹配的结果进行了分类、并定义了每类匹配结果的相似度值,分别为如果相同,则打1分;否则将该字从繁体转为简体,再跟该记录字符串信息中对应的字进行比较,打0.9分;将该字和字符串信息中的对应字都进行拆分,如果都能拆分且有一部分相同,则打0.7分;否则,说明这两个字字形相差太多,可能只是读音相同,打0.5分。然后对字符串中每个字的相似度值加和求几何平均数,如果超过了预定义的相似度阈值,则认为匹配成功,将该记录中字符串信息所对应的关键词和匹配字符串在待检测字符串中的位置写入匹配结果集中;否则认为没有匹配成功。从待检测字符串中取出下一个相邻2个字的拼音编码数据,重复上述操作,直到遇到待检测字符串的结束符为止。请参考图3,在本实施例中,"土也"两字的拼音编码数据组成的索引值是6242,查找索引表,发现索引表中6242的位置上有记录,则取出字符串中从第3个字,即"土"字开始,"土也下刊"4个字对应的拼音编码数据,组成标号信息8d516242,首先判断与索引表上索引值为6242的第一个链表节点记录中的标号信息是否相同,发现与第一个链表节点记录中的标号信息相同,则根据该记录的长度信息5,从待检测字符串中,取出"土也下刊物"5个字,与该记录的字符串信息"土也下刊物"逐字进行精确匹配,结果每个字都完全相同,加和求几何平均后,"土也下刊物"5个字与关键词索引表中索引值为6242的第一个链表节点记录中字符串信息的相似度值为1,超过了预定义的相似度阈值0.8,则将"土也下刊物"对应的关键词"地下刊物",和"土也下刊物"在待检测字符串中的位置3,写入匹配结果集中。继续获取下一个相邻2个字"也"、"下"的拼音数据编码,重复上述操作,发现在待检测字符串"出版土也下刊物"中第3个字"土"后,再没有出现相似度较高的匹配结果。实施例二在实施例一中,首先对关键词进行字形拆分,得到关键词的字形变异形式,然后对关键词和关键词字形变异形式进行拼音转换,并对拼音转换的结果进行编码,根据编码结果建立包含关键词和关键词字形、拼音变异信息的索引表。也可以只对关键词进行字形拆分,对关键词和关键词字形变异形式进行编码,根据编码结果建立只包含关键字和关键词字形变异信息的关键词索引表;在基于以上建立的关键词索引表对网络信息进行检测处理时,根据字形拆分字典对待检测字符串进行字形拆分并对拆分结果进行编码,将所得到的待检测字符串对应的字形拆分编码串与上述关键词索引表中的记录相比较,根据比较结果判断待检测信息中是否包含敏感信息。也可以只对关键词进行拼音转换,对关键词拼音转换的结果进行编码,根据编码结果建立只包含关键词拼音信息的关键词索引表;在基于以上建立的关键词索引表对网络信息进行检测处理时,对待检测字符串进行拼音转换并对拼音转换的结果进行编码,将所得到的待检测字符串所对应的拼音编码串与上述关键词索引表中的记录相比较,根据比较结果判断待检测信息中是否包含敏感信息。采用以上的方法能够分别检测出待检测字符串中是否出现了关键词的变异字形或拼音的变异形式,与实施例一相比较,在实施例二中建立关键词索引表和进行待检测字符串的检测处理时操作更简单,只是检测严格度要稍低于实施例一。实施例三结合实施例一和现有技术中针对包含关键词的检测规则的信息检测技术,本发明实施例三提出了一种基于包含关键词或关键词变异形式的检测规则,进行网络信息检测的方法。在实施例一的基础上,用户输入的检测标准不仅可以是关键词,也可以包含关键词的检测规则,例如,用户可以输入"地下刊物and痴汉是犯罪",其含义为当待检测的网络信息中同时出现"地下刊物"和"痴汉是犯罪"时,才认为待检测的网络信息中包含敏感信息。在建立关键词索引表之前,应先对用户输入的规则进行分析,具体过程如下将用户输入的规则中的关键词,写入关键词列表中,写入的信息包括关键词字符串,及该关键词在规则中的位置序号,如表1所示表1<table>tableseeoriginaldocumentpage7</column></row><table><table>tableseeoriginaldocumentpage8</column></row><table>将用户输入的规则中的逻辑关系符,和与该逻辑关系符相关的关键词的序号,写入规则列表,规则列表可以是表2所示的形式表2<table>tableseeoriginaldocumentpage8</column></row><table>在实际实现过程中,为了存储及处理时的便捷,可以使用预先定义的负整数或其它形式来代替逻辑关系符,例如and可以用-1代替等。根据关键词列表中的关键词,建立关键词索引表,并根据关键词索引表对待检测字符串进行检测处理,得到匹配结果集,具体方法与实施例一中介绍的方法类似,这里不再赘述。然后,基于匹配结果集中的关键词,查找关键词列表,获得匹配结果集中的关键词对应的序号,再结合规则列表,判断规则列表中的每条规则是否被满足,如果满足规则列表中的规则,则说明待检测网络信息中包含敏感信息;否则,说明待检测网络信息中不包含敏感信息。例如,预先设定字体拆分变异的相似度阈值为0.8,对待检测网络信息进行转换,得到的字符串为"出版土也下刊物",其中包含关键词拆分变异形式"土也下刊物",根据实施例一中提出的关键词索引表进行检测处理,匹配结果集中包含"地下刊物",而没有其它关键词的信息。根据关键词表,关键词"地下刊物"的序号是l,而后查找规则列表,确定没有符合的规则,这就表明待检测的网络信息中不包含敏感信息。实施例三中提出的信息检测方法与现有的针对检测规则的信息检测技术相比较,由于可以检测出检测规则中的关键词的变异字形和拼音转换的变异形式,因此可以获得更准确的信息检测效果。实施例四可以将实施例二中提出的技术方案和现有技术中针对包含关键词的检测规则的信息检测技术相结合,具体实现方法与实施例三相类似,所得到的信息检测方案可以分别检测出检测规则中的关键词的变异字形或拼音转换的变异形式。综上所述,在本发明实施例中,首先对用户输入的关键词进行字形拆分,并对关键词及拆分处理得到的关键词变异形式进行拼音转换,然后根据拼音转换的结果构建关键词索引表,此后根据关键词索引表进行网络信息检测。所述关键词索引表中的记录包含了关键词的字形变异形式以及同音词替代形式的信息,解决了现有的信息检测技术中,因为不能识别关键词变异而造成的信息检测效果不佳的问题。相应地,本发明实施例还提供了一种敏感信息的检测装置,请参照附图6,该装置包括关键词库获取单元610和敏感信息确定单元620,其中关键词库获取单元610,用于获取包含对关键词进行变异处理得到的关键词变异形式信息的关键词库,这里关键词库可以是关键词索引表,在关键词索引表中使用链表结构来解决同一个索引值位置上存在多个索引记录的问题;敏感信息确定单元620,用于在检查出待检测信息中包含关键词库获取单元610得到的关键词库中的关键词变异形式信息时,确定待检测信息中包含敏感信息。关键词库获取单元可以根据字形拆分字典,通过对关键词进行字形拆分处理,得到的关键词变异形式信息为关键词字形变异形式信息;关键词库获取单元也可以根据拼音字典,通过对关键词进行拼音转换处理,得到的关键词变异形式信息为关键词拼音信息。请参照图7,关键词库获取单元包括字形拆分处理子单元710和第一拼音转换处理子单元720,其中字形拆分处理子单元710,用于根据字形拆分字典,对关键词进行字形拆分处理,得到关键词字形变异形式信息;第一拼音转换处理子单元720,用于根据拼音字典,对字形拆分处理子单元710得到的关键词字形变异形式信息进行拼音转换处理,得到关键词字形变异形式信息的拼音信息。请参照图8,敏感信息确定单元包括第二拼音转换处理子单元810、判断子单元820和确定子单元830,其中第二拼音转换处理子单元810,用于根据拼音字典,对待检测信息中包含的字符进行拼音转换处理;判断子单元820,用于判断第二拼音转换处理子单元810得到的待检测信息中是否包含关键词库中的关键词或关键词变异的拼音信息;确定子单元830,用于在判断子单元820的判断结果为是时,确定待检测信息中包含所述关键词库中的关键词变异信息。其中,该敏感信息的检测装置中的字形拆分处理子单元、第一拼音转换处理子单元和第二拼音转换处理子单元对关键词或网络信息中包含的字符进行变异处理,以及判断子单元查找关键词库并判断待检测信息中是否包含关键词库中的拼音信息的具体过程请参照上述方法实施例的对应处理过程,这里不再详细赘述。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。权利要求一种敏感信息的检测方法,其特征在于,包括获得关键词库,所述关键词库中包含对关键词进行变异处理得到的关键词变异形式信息;在检查出待检测信息中包含所述关键词库中的关键词变异形式信息时,确定待检测信息中包含敏感信息。2.如权利要求1所述的方法,其特征在于,所述对关键词进行变异处理指对关键词进行字形拆分处理,得到的关键词变异形式信息为关键词字形变异形式信息。3.如权利要求1所述的方法,其特征在于,所述对关键词进行变异处理指对关键词进行拼音转换处理,得到的关键词变异形式信息为关键词拼音信息。4.如权利要求1所述的方法,其特征在于,所述对关键词进行变异处理指对关键词进行字形拆分处理,得到关键词字形变异形式信息;对所述关键词字形变异形式信息进行拼音转换处理,得到关键词字形变异形式信息的拼音信息。5.如权利要求3或4所述的方法,其特征在于,检查待检测信息中包含所述关键词库中的关键词变异信息,具体包括对待检测信息中包含的字符进行拼音转换处理;判断拼音转换处理得到的待检测信息中是否包含关键词库中的拼音信息,以及在包含关键词库中的拼音信息时,判定检查出待检测信息中包含所述关键词库中的关键词变异信息。6.—种敏感信息的检测装置,其特征在于,包括关键词库获取单元,用于获取包含对关键词进行变异处理得到的关键词变异形式信息的关键词库;敏感信息确定单元,用于在检查出待检测信息中包含关键词库获取单元得到的关键词库中的关键词变异形式信息时,确定待检测信息中包含敏感信息。7.如权利要求6所述的装置,其特征在于,关键词库获取单元通过对关键词进行字形拆分处理,得到的关键词变异形式信息为关键词字形变异形式信息。8.如权利要求6所述的装置,其特征在于,关键词库获取单元通过对关键词进行拼音转换处理,得到的关键词变异形式信息为关键词拼音信息9.如权利要求6所述的装置,其特征在于,关键词库获取单元具体包括字形拆分处理子单元,用于对关键词进行字形拆分处理,得到关键词字形变异形式信息;以及第一拼音转换处理子单元,用于对字形拆分处理子单元得到的关键词字形变异形式信息进行拼音转换处理,得到关键词字形变异形式信息的拼音信息。10.如权利要求8或9所述的装置,其特征在于,敏感信息确定单元具体包括第二拼音转换处理子单元,用于对待检测信息中包含的字符进行拼音转换处理;判断子单元,用于判断第二拼音转换处理子单元得到的待检测信息中是否包含关键词库中的拼音信息;以及确定子单元,用于在判断子单元的判断结果为是时,确定待检测信息中包含所述关键词库中的关键词变异信息。全文摘要本发明公开了一种敏感信息的检测方法及装置,以避免现有的信息检测技术由于不能识别关键词的变异形式而造成检测效果不佳的问题。该方法获得关键词库,所述关键词库中包含对关键词进行变异处理得到的关键词变异形式信息;在检查出待检测信息中包含所述关键词库中的关键词变异形式信息时,确定待检测信息包含敏感信息。文档编号H04L29/06GK101729520SQ200810224969公开日2010年6月9日申请日期2008年10月28日优先权日2008年10月28日发明者万小军,吴於茜,宗良,杨建武,王晨峰,肖建国,黄小江申请人:北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1