内容过滤的方法、装置及系统的制作方法

文档序号:6444604阅读:140来源:国知局
专利名称:内容过滤的方法、装置及系统的制作方法
技术领域
本发明涉及通信技术领域,尤其涉及一种内容过滤的方法、装置及系统。
背景技术
随着互联网的发展,人们通过互联网能够获得越来越多的信息。为了在大量的信息中过滤有害信息,为人们提供有益信息,目前使用的现有技术为基于词与词频统计分类的内容过滤方法。所述基于词与词频统计分类的内容过滤方法,主要根据网络信息中词与对应词频特征提取语义特征向量,根据对语义特征向量的分析来对网络内容进行控制,用以过滤有害信息。
在实现上述网络内容过滤的过程中,发明人发现现有技术中至少存在如下问题 基于词与词频统计分类的内容过滤方法,由于使用基于词与词频的统计方法而导致不能理解文本信息的语义,不能处理词与词频特征相似,但语义相反的网络信息,降低了内容过滤的准确率;而且,这种方法由于处理的信息过多而导致使用的语义特征向量维度巨大,加剧文本分类的训练时间,增加过滤时的运算代价,降低了内容过滤的效率。发明内容
本发明的实施例提供一种内容过滤的方法、装置及系统,提高内容过滤的准确率和效率。
为达到上述目的,本发明的实施例采用如下技术方案
一种内容过滤的方法,包括
获取待过滤的网络内容片断;
根据事件元素提取规则,对所述待过滤的网络内容片断进行事件元素提取,并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量;
根据事件分类模型,对所述语义特征向量进行正负类类别判断;
若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类,则对所述待过滤的网络内容片断对应的网络内容进行过滤处理。
一种内容过滤的装置,包括
获取单元,用于获取待过滤的网络内容片断;
特征向量生成单元,用于根据事件元素提取规则,对所述待过滤的网络内容片断进行事件元素提取,并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量;
第一判断单元,用于根据事件分类模型,对所述语义特征向量进行正负类类别判断;
过滤单元,用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类时,对所述待过滤的网络内容片断对应的网络内容进行过滤处理。
—种通信系统,包括〔0017〕 深度报文检测0?1设备,用于获取待过滤的网络内容片断;根据事件元素提取规 则,对所述待过滤的网络内容片断进行事件元素提取,并按照事件模板将提取的事件元素 生成对应于所述待过滤的网络内容片断的语义特征向量;根据事件分类模型,对所述语义 特征向量进行正负类类别判断;若所述对应于所述待过滤的网络内容片断的语义特征向量 被判定为负类,则对所述待过滤的网络内容片断对应的网络内容进行过滤处理。 〔0018〕 计费服务器,用于对所述0?1设备进行过滤处理后且传输过来的网络内容进行计 费。
〔0019〕 本发明实施例提供的内容过滤的方法、装置及系统,通过使用对应于待过滤的所 述网络内容片断的语义特征向量,并结合事件分类模型对所述待过滤的所述网络内容片断 进行过滤处理,能够准确理解网络内容,提高了内容过滤的准确率;并且,与根据网络内容 整体提取语义特征向量相比,网络内容片断的语义特征向量的使用,降低了过滤时的运算 代价。


〔0020〕 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。〔0021〕图1为本发明实施例1中的一种内容过滤的方法流程图;〔0022〕图2为本发明实施例2中的一种内容过滤的方法流程图;〔0023〕图3为本发明实施例3中的一种内容过滤的方法流程图;〔0024〕图4为本发明实施例4中的一种内容过滤的装置的组成框图;〔0025〕图5为本发明实施例4中的另一种内容过滤的装置的组成框图〔0026〕图6为本发明实施例4中的另一种内容过滤的装置的组成框图〔0027〕图7为本发明实施例4中的另一种内容过滤的装置的组成框图〔0028〕图8为本发明实施例4中的另一种内容过滤的装置的组成框图〔0029〕图9为本发明实施例4中的另一种内容过滤的装置的组成框图〔0030〕图10为本发明实施例4中的另一种内容过滤的装置的组成框图〔0031〕图11为本发明实施例4中的另一种内容过滤的装置的组成框图〔0032〕图12为本发明实施例4中的网络设备的组成框图;〔0033〕图13为本发明实施例4中的--种通信系统的组成框图;〔0034〕图14为本发明实施例4中的上网应用场景的结构框图。
具体实施例方式
〔0035〕 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。 〔0〇36〕 实施例1
本发明提供了一种内容过滤的方法,如图I所示,该方法包括
101、获取待过滤的网络内容片断。
其中,所述待过滤的网络内容片断可以为动态文本数据,也可以为静态文本数据, 本发明实施例对此不进行限制;若为动态文本数据时,可以为若干个携带有待过滤的网络内容的数据包;若为静态文本数据时可以是文本文档中的一段文字或全篇文字,本发明在此不进行限制。
102、根据事件元素提取规则,对所述待过滤的网络内容片断进行事件元素提取, 并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量。
其中,所述事件元素提取规则是指在一段文字中选取名词、动词等词性的词,而不选取语气词、助词等词性的词,所述事件元素提取规则的具体实现方式可以由用户自行设定,也可以是从事件元素提取规则库中动态获取对应的事件元素提取规则,本发明对此不再赘述。例如,以待过滤的网络内容片断为“一批法轮功练习者闯入我驻美使馆,围攻我驻美使馆人员,导致多名工作人员受伤”这一句话为例,具体为
上述待过滤的网络内容片断根据事件元素提取规则提取出的事件元素为法轮功练习者、驻美使馆人员、闯入、围攻、工作人员受伤;对应使用的事件模板为暴力事件模板, 所述暴力事件模板包括行为主体、对象、语言特征以及导致相关结果;根据所述暴力事件模板将上述事件元素生成的对应于所述待过滤的网络内容片断的语义特征向量的内容如表I 所示。
表I语义特征向量表
行为主体对象语言特征导致相关结果法轮功练习者驻美使馆人员闯入、围攻工作人员受伤
对于其他待过滤的网路内容片断及使用其他事件模板生成语义特征向量的实现方法,与上述例子中的实现方法类似,本发明实施例对此不再赘述。
另外,需要说明的是,对语义特征向量表格式的设置根据处理的网络内容不同,实现方法也不同,本发明实施例提供的技术方法不局限于上述例子。
103、根据事件分类模型,对所述语义特征向量进行正负类类别判断。
其中,所述事件分类模型用于判断语义特征向量的正负类别。
104、若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类,则对所述待过滤的网络内容片断对应的网络内容进行过滤处理。
其中,所述过滤处理可以为丢弃,也可以为拦截并存储,本发明实施例对此不进行限制。
另外,需要说明的是,本发明实施例所处理的网络内容对应的语言种类可以但不局限于中文,也可以为其它语种,例如英语、阿拉伯语、德语、法语等,对应于其它语种的网络内容的过滤处理的实现方式与对应于中文的网络内容的过滤处理的实现方法类似,本发明实施例在此不再详细描述。
另外,需要说明的是,上述技术方案可以在一种网络设备上实现,所述网络设备用于监听网络数据,包括处理器和传输器;其中,
所述处理器,通过所述传输器获取待过滤的网络内容片断,根据事件元素提取规则,对所述待过滤的网络内容片断进行事件元素提取,并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量,根据事件分类模型,对所述语义特征向量进行正负类类别判断,并所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类时,对所述待过滤的网络内容片断对应的网络内容进行过滤处理。
其中,所述网络设备可以包括但不限于网关设备,如DPI (Deep Packet Inspection,深度数据检测技术)网关和3G核心网网关设备,如F1DSN(Packet Data Serving Node,分组数据服务节点)、GGSN(Gateway GPRS Support Node,网关 GPRS 支持节点)、网络防火墙等设备,本发明实施例在此不一一列举。
本发明实施例提供的内容过滤的方法,通过使用对应于待过滤的所述网络内容片断的语义特征向量,并结合事件分类模型对所述待过滤的所述网络内容片断进行过滤处理,能够准确理解网络内容,提高了内容过滤的准确率;并且,与根据网络内容整体提取语义特征向量相比,网络内容片断的语义特征向量的使用,降低了过滤时的运算代价。
实施例2
本发明实施例提供了一种内容过滤的方法,如图2所示,该方法为过滤动态文本数据的方法,包括
201、获取第一粗语料,并对所述第一粗语料进行事件聚类处理,生成第二粗语料、 事件模板及事件触发词词表,其中,一个所述事件模板对应事件触发词词表中的多个事件触发词。
其中,该获取第一粗语料,并对所述第一粗语料进行事件聚类处理,生成第二粗语料、事件模板及事件触发词词表可以通过以下方式实现,具体为
获取第一粗语料,所述第一粗语料为存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本,这些文本的来源可以为目前常见的各个门户网站上展出的网络内容。在获取第一粗语料之后,还需要对所述第一粗语料进行自然语言处理NLP,所述 NLP包括分词、词性标注、句法分析等。
对所述第一粗语料按照政治、经济、文化、军事等类别分别进行处理,生成第二粗语料、事件模板及事件触发词词表,对所述第一粗语料进行处理所参照的类别不局限于此, 用户可根据实际情况自行设置和添加。
其中,所述事件模板与事件触发词的对应关系为个所述事件模板对应事件触发词词表中的多个事件触发词,例如,事件模板为暴力事件模板,则对应的事件触发词为闯入、 猛闯、砸烂、扔等。
202、根据所述事件触发词词表中的事件触发词,在所述第二粗语料中识别出包含所述事件触发词的事件句,并对所述事件句进行标注生成动态文本事件分类训练语料。
203、从所述动态文本事件分类训练语料的事件句中根据所述事件句中的事件触发词对应的事件模板提取语义特征向量,并根据所述语义特征向量进行模型训练,生成动态文本事件分类模型,所述动态文本事件分类模型,用于指示语义特征向量的正负类别。
其中,在处理动态文本数据时,所述从所述动态文本事件分类训练语料的事件句中根据所述事件句中的事件触发词对应的事件模板提取语义特征向量的实现方法与步骤102的相关描述相同,本发明实施例对此不再赘述。
需要说明的是,所述根据语义特征向量进行分类,生成的动态文本事件分类模型, 以实现对应于一个事件模板都存在包含正类模型和负类模型的动态文本事件分类模型,以使得计算机等设备可以根据所述包含正类模型和负类模型的动态文本事件分类模型判断语义特征向量的正负类别。
另外,需要说明的是,步骤201至步骤203为动态文本数据过滤的使用的动态文本事件分类模型的训练过程,在对动态文本数据进行过滤处理时,可以重新执行步骤201至步骤203,也可以直接使用已经生成的动态文本事件分类模型,本发明实施例对此不进行限制。
204、获取当前数据包以及所述当前数据包的前驱数据包。
其中,所述前驱数据包为所述当前数据包的前一个相邻的数据包。
205、对所述当前数据包及所述前驱数据包进行解封装,得到所述当前数据包及所述前驱数据包的内容。
其中,所述对所述当前数据包及所述前驱数据包进行解封装,得到所述当前数据包及所述前驱数据包的内容的实现方法为本领域技术人员公知的技术,可以采用现有技术中的任一种方法实现,本发明实施例在此不再详细说明。
206、判断所述当前数据包及所述前驱数据包的内容中是否存在事件触发词,所述事件触发词用于指示进行网络内容过滤时使用事件模板的类型。若所述当前数据包或所述前驱数据包中任意一个的内容中存在事件触发词,则执行步骤207;若所述当前数据包和所述前驱数据包的内容中均不存在所述事件触发词,则执行步骤208。
其中,所述事件模板与所述触发词的对应关系与所述步骤201的相关描述相同, 本发明实施例对此不再赘述。
207、将所述当前数据包和所述前驱数据包重组,生成待过滤的网络内容片断,并执行步骤209。
其中,所述待过滤的网络内容片断的相关描述与步骤101中的相关描述相同,本发明实施例对此不再赘述。
208、直接转发所述前驱数据包并缓存所述当前数据包。
其中,缓存所述当前数据包用于在后继数据包到来时,作为后继数据包的前驱数据包进行处理。
其中,所述后继数据包为与当前数据包相邻的后一个数据包。
209、从所述待过滤的网络内容片断中提取事件句,并对所述事件句进行自然语言处理。
需要说明的是,由于组成所述待过滤的网络内容片断的数据包只有两个,通常情况下,两个数据包的存储容量可以承载一个事件句。
210、根据事件元素提取规则,对经过自然语言处理后的事件句进行事件元素提取,并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的特征向量。
其中,所述根据事件元素提取规则,对经过自然语言处理后的事件句进行事件元素提取,并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量的实现方式与步骤102的相关描述相同,本发明实施例对此不再赘述。
211、根据所述动态文本事件分类模型,对所述语义特征向量进行正负类类别判断。
需要说明的是,所述动态文本事件分类模型包括正类模型和负类模型,其中正类模型可以如表2所示,负类模型可以如表3所示,所述正类模型与所述负类模型均对应于暴力事件模板,其他类型的事件模板也设置有对应的正类模型和负类模型,用户可根据实际需求自行设置。
表2正类模型
权利要求
1.一种内容过滤的方法,其特征在于,包括获取待过滤的网络内容片断;根据事件元素提取规则,对所述待过滤的网络内容片断进行事件元素提取,并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量;根据事件分类模型,对所述语义特征向量进行正负类类别判断;若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类,则对所述待过滤的网络内容片断对应的网络内容进行过滤处理。
2.根据权利要求I所述的内容过滤的方法,其特征在于,所述获取待过滤的网络内容片断,包括获取当前数据包以及所述当前数据包的前驱数据包;对所述当前数据包及所述前驱数据包进行解封装,得到所述当前数据包及所述前驱数据包的内容;判断所述当前数据包及所述前驱数据包的内容中是否存在事件触发词,所述事件触发词用于指示进行网络内容过滤时使用事件模板的类型;若所述当前数据包或所述前驱数据包中任意一个的内容中存在事件触发词,则将所述当前数据包和所述前驱数据包重组,得到待过滤的网络内容片断。
3.根据权利要求2所述的内容过滤的方法,其特征在于,在判断所述当前数据包及所述前驱数据包的内容中是否存在事件触发词之后,还包括若所述当前数据包和所述前驱数据包的内容中均不存在所述事件触发词,则直接转发所述前驱数据包并缓存所述当前数据包。
4.根据权利要求I或2所述的内容过滤的方法,其特征在于,当所述待过滤的网络内容片断为动态文本数据时,所述根据事件元素提取规则,对所述待过滤的网络内容片断进行事件元素提取包括从所述待过滤的网络内容片断中提取事件句,并对所述事件句进行自然语言处理;根据事件元素提取规则,对经过自然语言处理后的事件句进行事件元素提取。
5.根据权利要求I所述的内容过滤的方法,其特征在于,当所述待过滤的网络内容片断为静态文本数据时,所述根据事件元素提取规则,对所述待过滤的网络内容片断进行事件元素提取还包括从所述待过滤的网络内容片断中提取多个事件句,并对多个事件句分别进行自然语言处理;根据事件元素提取规则,对经过自然语言处理后的多个事件句进行事件元素提取; 所述按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量为根据事件模板,将提取的对应于事件句的事件元素生成对应的语义特征向量;将所述对应于多个事件句的语义特征向量组合生成对应于待过滤的所述网络内容片断的语义特征向量。
6.根据权利要求I所述的内容过滤的方法,其特征在于,在所述获取待过滤的网络内容片断之前,还包括获取第一粗语料,并对所述第一粗语料进行事件聚类处理,生成第二粗语料、事件模板及事件触发词词表,其中,一个所述事件模板对应事件触发词词表中的多个事件触发词。根据所述事件触发词词表中的事件触发词,在所述第二粗语料中识别出包含所述事件触发词的事件句,并对所述事件句进行标注生成事件分类训练语料;从所述事件分类训练语料的事件句中根据所述事件句中的事件触发词对应的事件模板提取语义特征向量,并根据所述语义特征向量进行模型训练,生成事件分类模型,所述事件分类模型,用于指示语义特征向量的正负类别。
7.根据权利要求I所述的内容过滤的方法,其特征在于,在所述根据事件分类模型,对所述语义特征向量进行正负类类别判断之后,还包括若所述对应于所述待过滤的网络内容片断的语义特征向量被判断为正类,则直接转发所述待过滤的网络内容片断。
8.根据权利要求I所述的内容过滤的方法,其特征在于,当所述待过滤的网络内容片断为动态文本数据时,在对所述待过滤的网络内容片断对应的网络内容进行过滤处理之前,还包括于第一阈值时间段内,对判定为负类事件的次数进行统计,得到第一统计值;若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第一统计值等于或小于第一阈值,则将所述负类网络内容片断对应的网络内容进行转发;若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第一统计值大于第一阀值,则执行所述对所述待过滤的网络内容片断对应的网络内容进行过滤处理。
9.根据权利要求I所述的内容过滤的方法,其特征在于,当所述待过滤的网络内容片断为静态文本数据时,在对所述待过滤的网络内容片断对应的网络内容进行过滤处理之前,还包括判断所述待过滤的网络内容片断对应的网络内容长度是否超过第二阈值;若超过第二阈值,则于第二阈值时间段内,对判定为负类事件的次数进行统计,得到第二统计值;若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第二统计值等于或小于第三阈值,则将所述负类网络内容片断对应的网络内容进行转发;若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第二统计值大于第三阀值,则执行所述对所述待过滤的网络内容片断对应的网络内容进行过滤处理。
10.根据权利要求9所述的内容过滤的方法,其特征在于,在判断所述待过滤的网络内容片断对应的网络内容长度是否超过第二阈值之后,还包括若所述待过滤的网络内容片断对应的网络内容长度没有超过第二阈值,则执行所述对所述待过滤的网络内容片断对应的网络内容进行过滤处理。
11.一种内容过滤的装置,其特征在于,包括获取单元,用于获取待过滤的网络内容片断;特征向量生成单元,用于根据事件元素提取规则,对所述待过滤的网络内容片断进行事件元素提取,并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量;第一判断单元,用于根据事件分类模型,对所述语义特征向量进行正负类类别判断;过滤单元,用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判断为负类时,对所述待过滤的网络内容片断对应的网络内容进行过滤处理。
12.根据权利要求11所述的内容过滤的方法,其特征在于,所述获取单元包括获取模块,用于获取当前数据包以及所述当前数据包的前驱数据包;解封装模块,用于对所述当前数据包及所述前驱数据包进行解封装,获取所述当前数据包及所述前驱数据包的内容;判断模块,用于判断所述当前数据包及所述前驱数据包的内容中是否存在事件触发词,所述事件触发词用于指示进行网络内容过滤时使用事件模板的类型;生成模块,用于在所述当前数据包或所述前驱数据包中任意一个的内容中存在事件触发词时,将所述当前数据包和所述前驱数据包重组,生成待过滤的网络内容片断。
13.根据权利要求12所述的内容过滤的装置,其特征在于,该装置还包括转发单元,用于在所述当前数据包和所述前驱数据包的内容中均不存在所述事件触发词时,直接转发所述前驱数据包并缓存所述当前数据包。
14.根据权利要求11或12所述的内容过滤的装置,其特征在于,所述特征向量生成单元包括第一提取模块,用于在所述待过滤的网络内容片断为动态文本数据时,从所述待过滤的网络内容片断中提取事件句,并对所述事件句进行自然语言处理;第二提取模块,用于根据事件元素提取规则,对经过自然语言处理后的事件句进行事件元素提取。
15.根据权利要求11或12所述的内容过滤的装置,其特征在于,所述特征向量生成单元还包括第三提取模块,用于在所述待过滤的网络内容片断为静态文本数据时,从所述待过滤的网络内容片断中提取多个事件句,并对多个事件句分别进行自然语言处理。第四提取模块,用于根据事件元素提取规则,对经过自然语言处理后的多个事件句进行事件元素提取;第一生成模块,用于根据事件模板,将提取的对应于事件句的事件元素生成对应的语义特征向量;第二生成模块,用于将所述对应于多个事件句的语义特征向量组合生成对应于待过滤的所述网络内容片断的语义特征向量。
16.根据权利要求11所述的内容过滤的装置,其特征在于,该装置还包括第一生成单元,用于获取第一粗语料,并对所述第一粗语料进行事件聚类处理,生成第二粗语料、事件模板及事件触发词词表,其中,一个所述事件模板对应事件触发词词表中的多个事件触发词;第二生成单元,用于根据所述事件触发词词表中的事件触发词,在所述第二粗语料中识别出包含所述事件触发词的事件句,并对所述事件句进行标注生成事件分类训练语料;第三生成单元,用于从所述事件分类训练语料的事件句中根据所述事件句中的事件触发词对应的事件模板提取语义特征向量,并根据所述语义特征向量进行模型训练,生成事件分类模型,所述事件分类模型用于指示语义特征向量的正负类别。
17.根据权利要求11所述的内容过滤的装置,其特征在于,所述转发单元还用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判断为正类时,直接转发所述待过滤的网络内容片断。
18.根据权利要求11所述的内容过滤的装置,其特征在于,当所述待过滤的网络内容片断为动态文本数据时,该装置还包括统计单元,用于于第一阈值时间段内,对判定为负类事件的次数进行统计,得到第一统计值;所述转发单元,还用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第一统计值等于或小于第一阈值时,将所述负类网络内容片断对应的网络内容进行转发;所述过滤单元,还用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第一统计值大于第一阀值时,对所述待过滤的网络内容片断对应的网络内容进行过滤处理。
19.根据权利要求11所述的内容过滤的装置,其特征在于,当所述待过滤的网络内容片断为静态文本数据时,该装置还包括第二判断单元,用于判断所述待过滤的网络内容片断对应的网络内容长度是否超过第二阈值,若所述待过滤的网络内容片断对应的网络内容长度超过第二阈值,触发所述统计单元;若所述待过滤的网络内容片断对应的网络内容长度没有超过第二阈值,触发所述过滤单元;所述统计单元,还用于于第二阈值时间段内,对判定为负类事件的次数进行统计,得到第二统计值;所述转发单元,还用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第二统计值等于或小于第三阈值时,则将所述负类网络内容片断对应的网络内容进行转发;所述过滤单元,还用于在所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类且所述第二统计值大于第三阀值时,对所述待过滤的网络内容片断对应的网络内容进行过滤处理;还用于在所述待过滤的网络内容片断对应的网络内容长度没有超过第二阈值时,对所述待过滤的网络内容片断对应的网络内容进行过滤处理。
20.一种网络设备,所述网络设备用于监听网络数据,其特征在于,包括处理器和传输器;其中,所述处理器,通过所述传输器获取待过滤的网络内容片断,根据事件元素提取规则,对所述待过滤的网络内容片断进行事件元素提取,并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量,根据事件分类模型,对所述语义特征向量进行正负类类别判断,并所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类时,对所述待过滤的网络内容片断对应的网络内容进行过滤处理。
21.一种通信系统,其特征在于,包括深度报文检测DPI设备,用于获取待过滤的网络内容片断;根据事件元素提取规则,对所述待过滤的网络内容片断进行事件元素提取,并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量;根据事件分类模型,对所述语义特征向量进行正负类类别判断;若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为负类,则对所述待过滤的网络内容片断对应的网络内容进行过滤处理;计费服务器,用于对所述DPI设备进行过滤处理后且传输过来的网络内容进行计费。
22.根据权利要求21所述的系统,其特征在于,所述DPI设备还用于若所述对应于所述待过滤的网络内容片断的语义特征向量被判定为正类,则转发所述待过滤的网络内容片断。
23.根据权利要求21或22所述的系统,其特征在于,所述计费服务器具体用于基于事件,对所述DPI设备进行过滤处理后且传输过来的网络内容进行计费。
24.根据权利要求21或22所述的系统,其特征在于,进一步包括报表服务器,用于对所述DPI设备进行过滤处理后且传输过来的网络内容进行数据分析统计。
全文摘要
本发明公开了一种内容过滤的方法、装置及系统,涉及网络通信安全技术领域,提高内容过滤的准确率和效率。该方法包括获取待过滤的网络内容片断;根据事件元素提取规则,对所述待过滤的网络内容片断进行事件元素提取,并按照事件模板将提取的事件元素生成对应于所述待过滤的网络内容片断的语义特征向量;根据事件分类模型,对所述语义特征向量进行正负类类别判断;若判定为负类,则对所述待过滤的网络内容片断对应的网络内容进行过滤处理。本发明主要应用于网络内容过滤的过程中。
文档编号G06F17/30GK102542063SQ20111045646
公开日2012年7月4日 申请日期2011年12月30日 优先权日2011年12月30日
发明者姜南, 张辉, 范家星 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1