一种信息检测方法及装置制造方法

文档序号:6633073阅读:115来源:国知局
一种信息检测方法及装置制造方法
【专利摘要】本申请提供了一种信息检测方法和装置,其中一种信息检测方法,包括:获取待检测信息的文本信息;将文本信息与多属性词库中的第一属性词进行比对,第一属性词包括关键词和关键词的变形词;当文本信息中包括第一属性词时,将文本信息中位于第一属性词前的五个字符和位于第一属性词后的五个字符与多属性词库中的第二属性词进行比对,得到比对结果,第二属性词为关键词的限定词;依据比对结果,确定文本信息是否为非法信息。与现有技术相比,本申请提供的这种通过以不同词比较判定非法信息方式可以对文本信息进行较为全面的检测,降低单一关键词导致的判定错误的几率,从而提高信息检测的正确率。
【专利说明】-种信息检测方法及装置

【技术领域】
[0001] 本申请涉及信息检测【技术领域】,特别涉及一种信息检测方法及装置。

【背景技术】
[0002] 网站作为一种新型的沟通工具得到越来越多人的青睐,并且为了防止非法信息, 如包含有涉黄、赌、毒、暴力、恐怖等等国家禁止发布的信息,在网站上发布,在信息发布之 前需要首先对信息进行合法性检测,所谓合法性表明信息符合国家安全性要求。
[0003] 当下信息检测方法为;对待检测信息进行分词处理,得到多个独立的词语,然后将 每个独立的词语与关键词库中的关键词进行比对,当词语与关键词库中的关键词相同时, 判定待检测信息为非法信息,即不允许进行公布的信息,其中关键词库中的关键词为表明 涉黄、赌、毒、暴力、恐怖等信息的词。
[0004] 从上述过程中可W看出,现有信息检测方法仅能依据待检测信息进行分词后得到 的一组词中是否含有关键词来判断待检测信息是否是非法信息,该种判断方法通常不能对 检测信息进行全面判断,因此现有技术对非法信息判断的正确率还有待提高。


【发明内容】

[0005] 有鉴于此,本申请提供一种f旨息检测方法,用于提局f旨息检测的正确率。
[0006] 本申请还提供一种信息检测装置,用W保证上述方法在实际中的实现及应用。
[0007] 本申请提供的信息检测方法和装置的技术方案如下:
[0008] -方面,本申请实施例提供一种信息检测方法,所述方法包括:
[0009] 获取待检测f旨息的文本f旨息;
[0010] 将文本信息与预先建立的多属性词库中的第一属性词进行比对,其中第一属性词 包括关键词和关键词的变形词,变形词为与关键词具有相同发音或者包括同一语素的词;
[0011] 当文本信息中包括第一属性词时,将文本信息中位于第一属性词前的五个字符和 位于第一属性词后的五个字符与多属性词库中的第二属性词进行比对,得到比对结果,第 二属性词为关键词的限定词,限定词用于对关键词进行限定;
[0012] 依据比对结果,确定文本信息是否为非法信息。
[0013] 优选地,限定词包括正选词,正选词与关键词构成非法词组;
[0014] 依据比对结果,确定文本信息是否为非法信息包括;当比对结果表明文本信息中 包括正选词时,确定文本信息为非法信息;
[0015] 当比对结果表明文本信息中不包括正选词时,确定文本信息为合法信息。
[0016] 优选地,限定词包括反选词,反选词与关键词构成合法词组;
[0017] 依据比对结果,确定文本信息是否为非法信息包括;当比对结果表明文本信息中 不包括反选词时,确定文本信息为非法信息;
[0018] 当比对结果表明文本信息中包括反选词时,确定文本信息为合法信息。
[0019] 优选地,获取待检测信息的文本信息包括:
[0020] 确定待检测信息中符号的位置;
[0021] 从所确定位置处删除符号,得到文本信息。
[0022] 优选地,多属性词库的预先建立过程包括:
[0023] 获取任一待检测对象的关键词;
[0024] 对关键词进行属性分析,得到关键词的变形词和第二属性词;
[0025] 依据所获取的关键词,确定所得到的变形词和第二属性词在多属性词库中的位 置;
[0026] 将所得到的变形词和第二属性词写入所确定的位置中。
[0027] 另一方面,本申请提供一种信息检测装置,所述装置包括:
[0028] 获取模块,用于获取待检测信息的文本信息;
[0029] 第一比对模块,用于将文本信息与预先建立的多属性词库中的第一属性词进行比 对,其中第一属性词包括关键词和关键词的变形词,变形词为与关键词具有相同发音或者 包括同一语素的词;
[0030] 第二比对模块,用于当文本信息中包括第一属性词时,将文本信息中位于第一属 性词前的五个字符和位于第一属性词后的五个字符与多属性词库中的第二属性词进行比 对,得到比对结果,第二属性词为关键词的限定词,限定词用于对关键词进行限定;
[0031] 确定模块,用于依据比对结果,确定文本信息是否为非法信息。
[0032] 优选地,限定词包括正选词,正选词与关键词构成非法词组;
[0033] 确定模块用于当比对结果表明文本信息中包括正选词时,确定文本信息为非法信 息;W及用于当比对结果表明文本信息中不包括正选词时,确定文本信息为合法信息。
[0034] 优选地,限定词包括反选词,反选词与关键词构成合法词组;
[0035] 确定模块用于当比对结果表明文本信息中不包括反选词时,确定文本信息为非法 信息;W及用于当比对结果表明文本信息中包括反选词时,确定文本信息为合法信息。
[0036] 优选地,获取模块包括:
[0037] 确定单元,用于确定待检测信息中符号的位置;
[0038] 删除单元,用于从所确定位置处删除符号,得到文本信息。
[003引优选地,信息检测装置还包括:
[0040] 关键词获取模块,用于获取任一待检测对象的关键词;
[0041] 分析模块,用于对关键词进行属性分析,得到关键词的变形词和第二属性词;
[0042] 位置获取模块,用于依据所获取的关键词,确定所得到的变形词和第二属性词在 多属性词库中的位置;
[0043] 编写模块,用于将所得到的变形词和第二属性词写入所确定的位置中。
[0044] 与现有技术相比,本申请包括W下优点:
[0045] 在本申请中,首先获取待检测信息的文本信息;将文本信息与预先建立的多属性 词库中第一属性词进行比对;当文本信息包括第一属性词时,将文本信息中位于第一属性 词前的五个字符和位于第一属性词后的五个字符与第二属性词进行比对W得到比对结果, 然后依据比对结果,判断文本信息是否为非法信息;与现有技术相比,本申请不仅仅是通过 待测信息的文本信息是否包括关键词来判断其是否是非法信息,还会进一步判断待测信息 的文本信息是否包括关键词的变形词和文本信息中位于第一属性词前的五个字符和位于 第一属性词后的五个字符是否包括用于对关键词进行限定的限定词来最终判定文本信息 是否是非法信息,该种通过W不同词比较判定非法信息方式相对于采用单一关键词判定非 法信息方法,可W对文本信息进行较为全面的检测,降低单一关键词导致的判定错误的几 率,从而提局f旨息检测的正确率。

【专利附图】

【附图说明】
[0046] 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可W根据该些附图获得其 他的附图。
[0047] 图1为本申请实施例提供的一种信息检测方法的流程图;
[0048] 图2为限定词为正选词时本申请实施例提供的一种信息检测方法的第二种流程 图;
[0049] 图3为限定词为反选词时本申请实施例提供的一种信息检测方法的第H种流程 图;
[0050] 图4为本申请实施例提供的一种信息检测方法多属性词库的预先建立过程流程 图;
[0051] 图5为本申请实施例提供的一种信息检测方法的工作人员输入界面示意图;
[0052] 图6为本申请实施例提供的一种信息检测装置的示意图;
[0053] 图7为本申请实施例提供的一种信息检测装置的获取模块的示意图;
[0054] 图8为本申请实施例提供的一种信息检测装置中用于建立多属性词库的相关模 块示意图。

【具体实施方式】
[0055] 为了使本领域技术人员更好地理解本申请,下面将结合本申请实施例中的附图, 对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请 一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有 做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0056] 请参阅图1,其示出了本申请实施例提供的一种信息检测方法的流程图,可W包括 W下步骤:
[0057] 101 ;获取待检测信息的文本信息。
[0058] 其中文本信息是待检测信息中文字部分组成的信息,该文本信息不包括标点符号 等非文字信息,在本申请实施例中获取文本信息的一种可行方式是:将待检测信息中的符 号全部删除,剩下部分即为待检测信息的文本信息。
[0059] 例如待检测信息为;10月12日6时,沧源县禁毒大队经过鎮密侦查,在小黑江至 双江方向两公里处设卡拦截贩毒车辆。6时40分,一辆微型面包车不听禁毒民警警告强行 冲卡。在经过处理后得到的文本信息为;1〇月12日6时沧源县禁毒大队经过鎮密侦查在 小黑江至双江方向两公里处设卡拦截贩毒车辆6时40分一辆微型面包车不听禁毒民警警 告强行冲卡,从本例可W看出文本信息仅包括文字。
[0060] 102;将文本信息与预先建立的多属性词库中的第一属性词进行比对。
[0061] 在本申请实施例中第一属性词包括关键词和关键词的变形词,其中关键词是可确 定文本信息为非法信息的基本词,例如涉黄、赌、毒、暴力、恐怖等违反国家相关规定的信息 的词。
[0062] 变形词为与关键词具有相同发音或者包括同一语素的词,其危害程度和关键词的 危害程度相同,用于排除待检测信息为非法信息时人为书写错误关键词该种情况。比如关 键词为发票时,其变形词可W是发飘、发漂等;再例如关键词为枪,其变形词可W是木仓等。
[0063] 在将文本信息与多属性词库中的第一属性词进行比对时,是将文本信息与关键词 和变形词依次进行比对,W确定文本信息中是否包括第一属性词;如果文本信息中不包括 第一属性词,则该文本信息为合法信息,结束操作;如果文本信息中包括第一属性词,则该 文本信息可能为非法信息,此时需要将文本信息与其他词进行比较,W最终确定其是否为 非法信息。
[0064] 103;当文本信息中包括第一属性词时,将文本信息中位于第一属性词前的五个 字符和位于第一属性词后的五个字符与多属性词库中的第二属性词进行比对,得到比对结 果。
[0065] 其中第二属性词为关键词的限定词,用于对关键词进行限定。所谓限定可W是对 关键词的使用范围、使用方式、使用途径等的一些限定;在词组顺序中限定词可W位于关键 词之前,如"吸食冰毒"中的"吸食",该限定词位于关键词之前且用于限定冰毒的使用方式; 当然在词组顺序中限定词也可W位于关键词之后,如"冰毒检测"的"检测",该限定词位于 关键词之后且用于限定使用途径。
[0066] 在本申请实施例中第一属性词包括关键词和变形词,当文本信息包括关键词时, 则将文本信息中位于关键词前的五个字符和位于关键词后的五个字符与第二属性词进行 比对;当文本信息包括变形词时,则将文本信息中位于变形词前的五个字符和位于变形词 后的五个字符与第二属性词进行比对;当文本信息同时包括关键词和变形词时,则将文本 信息中位于关键词前的五个字符和位于关键词后的五个字符,W及位于变形词前的五个字 符和位于变形词后的五个字符均与第二属性词进行比对。
[0067] 作为第二属性词的限定词在文本信息中的位置靠近关键词,因此将文本信息中第 一属性词的前、后各五个字符共十个字符与限定词进行比对,W确定上述十个字符是否包 括第二属性词,由此可W提高文本信息在检测是否包括第二属性词时的精确性。假如文本 信息中的第二属性词和第一属性词中间隔了五个及五个W上字符,第二属性词就不能对第 一属性词起到限定作用,此时则不需要根据第二属性词判断文本信息是否违法。
[0068] 104 ;依据比对结果,确定文本信息是否为非法信息。
[0069] 在本申请实施例中在获取比对结果后,可W依据比对结果从语义上判断文本信息 是否为非法信息。
[0070] 应用上述技术方案,首先获取待检测信息的文本信息;将文本信息与预先建立的 多属性词库中第一属性词进行比对;当文本信息包括第一属性词时,将文本信息中位于第 一属性词前的五个字符和位于第一属性词后的五个字符与第二属性词进行比对W得到比 对结果,然后依据比对结果,判断文本信息是否为非法信息;与现有技术相比,本申请不仅 仅是通过待测信息的文本信息是否包括关键词来判其是否是非法信息,还会进一步判断待 测信息的文本信息是否包括关键词的变形词和文本信息中位于第一属性词前的五个字符 和位于第一属性词后的五个字符是否包括用于对关键词进行限定的限定词来最终判定文 本信息是否是非法信息,该种通过W不同词比较判定非法信息方式相对于采用单一关键词 判定非法信息方法,可W对文本信息进行较为全面的检测,降低单一关键词导致的判定错 误的几率,从而提高信息检测的正确率。
[0071] 在本申请实施例中通过举例来例证本申请W不同词比较判定非法信息方式相对 于采用单一关键词判定非法信息方法可W提高信息检测的正确率:
[0072] 如文本信息为;"出售一种商品该种商品可W检测食品中是否含有冰毒成分",关 键词为;冰毒,其限定词为;检测。在采用现有单一关键词进行判断时,该文本信息中包括 关键词"冰毒",则采用单一关键词判断时势必将该文本信息判定为非法信息。但是通过语 义分析可知该文本信息实际为合法信息,单一关键词的判断结果错误。当采用本申请实施 例提供的信息检测方式时,首先通过关键词判断出该文本信息有可能为非法信息,其次将 该文本信息与限定词"检测"进行比较,得到比对结果为文本信息中包括检测该一限定词, 然后依据比对结果从从语义上判断文本信息为合法信息,判断结果正确。由该例子可W证 明本申请实施例提供的信息检测方法可W提高信息检测的正确率。
[0073] 下面将W限定词包括正选词或者反选词来对本申请实施例中依据比对结果确定 文本信息是否为非法信息进行说明。其中正选词和关键词构成非法词组,如"发票"的正选 词包括"代开"、"出售"等,当文本信息中同时包括正选词和关键词时,该文本信息为非法信 息。相应的反选词与关键词构成合法词组,例如"冰毒"的反选词包括"试纸"、"检测"等, 当文本信息中包括反选词和关键词时,该文本为合法信息。从正选词和反选词来看,两者对 文本信息的判断方式不同,具体可W参阅图2和图3所示。
[0074] 其中图2是限定词为正选词时,本申请实施例提供的信息检测方法的第二种流程 图,可W包括W下步骤:
[0075] 101 ;获取待检测信息的文本信息。将待检测信息中的符号全部删除,剩下部分即 为待检测信息的文本信息。
[0076] 102;将文本信息与预先建立的多属性词库中的第一属性词进行比对,其中第一属 性词包括关键词和关键词的变形词,变形词为与关键词具有相同发音或者包括同一语素的 词。
[0077] 103;当文本信息中包括第一属性词时,将文本信息中位于第一属性词前的五个 字符和位于第一属性词后的五个字符与多属性词库中的第二属性词进行比对,得到比对结 果。第二属性词为关键词的限定词,用于对关键词进行限定。
[0078] 105 ;当比对结果表明文本信息中包括正选词时,确定文本信息为非法信息。
[0079] 106 ;当比对结果表明文本信息中不包括正选词时,确定文本信息为合法信息。
[0080] 图3是限定词为反选词时,本申请实施例提供的信息检测方法的第H种流程图, 可W包括W下步骤:
[0081] 101 ;获取待检测f旨息的文本f旨息。
[0082] 将待检测信息中的符号全部删除,剩下部分即为待检测信息的文本信息。
[0083] 102;将文本信息与预先建立的多属性词库中的第一属性词进行比对,其中第一属 性词包括关键词和关键词的变形词,变形词为与关键词具有相同发音或者包括同一语素的 词。
[0084] 103 ;当文本信息中包括第一属性词时,将文本信息中位于第一属性词前的五个 字符和位于第一属性词后的五个字符与多属性词库中的第二属性词进行比对,得到比对结 果。第二属性词为关键词的限定词,用于对关键词进行限定。
[0085] 107 ;当比对结果表明文本信息中不包括反选词时,确定文本信息为非法信息;
[0086] 108;当比对结果表明文本信息中包括反选词时,确定文本信息为合法信息。
[0087] 需要说明的一点是;本申请实施例提供的信息检测方法还可W同时对文本信息 是否包括正选词和反选词进行判断,当通过正选词或者反选词判断出文本信息为非法信息 时,则确定文本信息为非法信息。
[0088] 上述所有实施例中还包括多属性词库的预先建立过程,请参阅图4,其示出了本申 请实施例中建立多属性词库的过程,可W包括W下步骤:
[0089] 401 ;获取任一待检测对象的关键词。
[0090] 其中待检测对象为存在于文本信息中可能会导致文本信息为非法信息的事物,女口 前述冰毒即为一待检测对象,那么获取到的关键词即为"冰毒"。
[0091] 402;对关键词进行属性分析,得到关键词的变形词和第二属性词。
[0092] 其中对关键词的属性分析可W是由工作人员完成,在分析其属性后输入其认为的 变形词和第二属性词。例如可W为工作人员提供图5所示的界面,由工作人员将其认为的 变形词和第二属性词写入该界面的相应位置,从而得到关键词的变形词和第二属性词。
[0093] 403;依据所获取的关键词,确定所得到的变形词和第二属性词在多属性词库中的 位置。
[0094] 在获取到关键词、变形词和第二属性词后,首先需要确定关键词在多属性词库中 的位置W及关键词的第二属性词(即限定词)为正选词还是反选词,然后依据关键词的位 置确定与关键词在同一行的位置作为变形词和第二属性词在多属性词库中的位置。
[0095] 404 ;将所得到的变形词和第二属性词写入所确定的位置中。
[009引 W表1为例,表1是本申请实施例中多属性词库的一种形式,其示出了关键词、变 形词和第二属性词在多属性词库中的存储方式,其中"X"表示该词不存在。
[0097] 表1多属性词库的一种形式
[0098]

【权利要求】
1. 一种信息检测方法,其特征在于,所述方法包括: 获取待检测信息的文本信息; 将所述文本信息与预先建立的多属性词库中的第一属性词进行比对,其中所述第一属 性词包括关键词和所述关键词的变形词,所述变形词为与所述关键词具有相同发音或者包 括同一语素的词; 当所述文本信息中包括所述第一属性词时,将所述文本信息中位于所述第一属性词前 的五个字符和位于所述第一属性词后的五个字符与所述多属性词库中的第二属性词进行 比对,得到比对结果,所述第二属性词为所述关键词的限定词,所述限定词用于对所述关键 词进行限定; 依据所述比对结果,确定所述文本信息是否为非法信息。
2. 根据权利要求1所述的方法,其特征在于,所述限定词包括正选词,所述正选词与所 述关键词构成非法词组; 所述依据所述比对结果,确定所述文本信息是否为非法信息包括:当所述比对结果表 明所述文本信息中包括所述正选词时,确定所述文本信息为非法信息; 当所述比对结果表明所述文本信息中不包括所述正选词时,确定所述文本信息为合法 信息。
3. 根据权利要求1所述的方法,其特征在于,所述限定词包括反选词,所述反选词与所 述关键词构成合法词组; 所述依据所述比对结果,确定所述文本信息是否为非法信息包括:当所述比对结果表 明所述文本信息中不包括所述反选词时,确定所述文本信息为非法信息; 当所述比对结果表明所述文本信息中包括所述反选词时,确定所述文本信息为合法信 肩、。
4. 根据权利要求1所述的方法,其特征在于,所述获取待检测信息的文本信息包括: 确定所述待检测信息中符号的位置; 从所确定位置处删除所述符号,得到所述文本信息。
5. 根据权利要求1至4任意一项所述的方法,其特征在于,多属性词库的预先建立过程 包括: 获取任一待检测对象的关键词; 对所述关键词进行属性分析,得到所述关键词的变形词和所述第二属性词; 依据所获取的所述关键词,确定所得到的所述变形词和所述第二属性词在所述多属性 词库中的位置; 将所得到的所述变形词和所述第二属性词写入所确定的位置中。
6. -种信息检测装置,其特征在于,所述装置包括: 获取模块,用于获取待检测信息的文本信息; 第一比对模块,用于将所述文本信息与预先建立的多属性词库中的第一属性词进行比 对,其中所述第一属性词包括关键词和所述关键词的变形词,所述变形词为与所述关键词 具有相同发音或者包括同一语素的词; 第二比对模块,用于当所述文本信息中包括所述第一属性词时,将所述文本信息中位 于所述第一属性词前的五个字符和位于所述第一属性词后的五个字符与所述多属性词库 中的第二属性词进行比对,得到比对结果,所述第二属性词为所述关键词的限定词,所述限 定词用于对所述关键词进行限定; 确定模块,用于依据所述比对结果,确定所述文本信息是否为非法信息。
7. 根据权利要求6所述的装置,其特征在于,所述限定词包括正选词,所述正选词与所 述关键词构成非法词组; 所述确定模块用于当所述比对结果表明所述文本信息中包括所述正选词时,确定所述 文本信息为非法信息;以及用于当所述比对结果表明所述文本信息中不包括所述正选词 时,确定所述文本信息为合法信息。
8. 根据权利要求6所述的装置,其特征在于,所述限定词包括反选词,所述反选词与所 述关键词构成合法词组; 所述确定模块用于当所述比对结果表明所述文本信息中不包括所述反选词时,确定所 述文本信息为非法信息;以及用于当所述比对结果表明所述文本信息中包括所述反选词 时,确定所述文本信息为合法信息。
9. 根据权利要求6所述的装置,其特征在于,所述获取模块包括: 确定单元,用于确定所述待检测信息中符号的位置; 删除单元,用于从所确定位置处删除所述符号,得到所述文本信息。
10. 根据权利要求6至9任意一项所述的装置,其特征在于,所述装置还包括: 关键词获取|吴块,用于获取任一待检测对象的关键词; 分析模块,用于对所述关键词进行属性分析,得到所述关键词的变形词和所述第二属 性词; 位置获取模块,用于依据所获取的所述关键词,确定所得到的所述变形词和所述第二 属性词在所述多属性词库中的位置; 编写模块,用于将所得到的所述变形词和所述第二属性词写入所确定的位置中。
【文档编号】G06F17/30GK104331475SQ201410611713
【公开日】2015年2月4日 申请日期:2014年11月4日 优先权日:2014年11月4日
【发明者】张扬蕾, 张丽辉, 冯晓娜, 刘建辉, 文帅营 申请人:郑州悉知信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1