一种信息规则生成方法及装置、信息类型判断方法及系统的制作方法

文档序号:6572961阅读:170来源:国知局
专利名称:一种信息规则生成方法及装置、信息类型判断方法及系统的制作方法
技术领域
本发明涉及互联网技术,具体涉及一种网络信息特征规则生成方法及装置、网络信息类 型判断方法及系统。
背景技术
近年来,随着互连网的发展,垃圾信息问题越来越引起人们的重视。比如不请自来的垃 圾邮件问题、垃圾网页问题、垃圾短信问题和日益增多的垃圾即时通信信息问题等,无时无 刻的困扰着互连网用户,浪费网络资源,甚至可能引起其他更加严重的社会问题。随着技术 的发展,垃圾信息过滤技术也得到了越来越多的关注和发展。今年来,机器学习方法得到了很大的发展,也成功应用到垃圾信息的过滤上。基于机器 学习方法的网络信息内容过滤器是近年来的研究热点。1998年Sahami将朴素贝叶斯 NB(NaiveBayes)方法用于垃圾邮件过滤,更是取得了巨大的成功。此后,越来越多的机器学 习方法用于垃圾网络信息过滤,特别是很多文本分类的方法可以直接用于垃圾信息的过滤问 题中,比如启发式规则、潜在语义索引LSI (Latent Semantic Index)技术、支持向量机 SVM(s叩port vector machine)方法、基于实例的学习方法(包括最近邻方法和基于案例的推 理)以及最大墒方法等。贝叶斯过滤器是其中非常简单有效的方法,在商业反垃圾信息软件中得到了广泛的应用。 它的本质是一种分类方法,将垃圾信息和非垃圾信息分为两类,通过对训练样本库的分析, 得到各特征词在垃圾信息和正常信息中分别出现的初始概率。对于新到信息,首先抽取特征 词,根据训练样本库中学习的概率计算新到信息分类为垃圾信息或者非垃圾信息的概率。同 时,也将该信息放入训练样本库,以便不断修正初始概率。贝叶斯过滤器的准确性相当高,但是它的缺点是需要维护训练样本库,而这个样本库通 常是需要用户的参与。发明内容本发明实施例的目的是提供一种网络信息特征规则生成方法及装置、网络信息类型判断 方法、装置及系统,使用本发明提供的实施例,可以对网络信息的信息类型进行判断,从而 过滤网络垃圾信息。为了解决现有技术存在的问题,本发明的实施方式提出了一种网络信息特征规则生成的 方法,该方法的步骤包括读取分类己知信息的内容;将所述信息内容使用预置提取算法得到信息规则库;采用所述的信息规则库使用预置学习算法进行概率分析得到最终特征集合; 将所述概率使用预置分析算法进行分数优化得到最终分数集。相应地,本发明的实施方式提出了一种网络信息特征规则生成装置,该装置包括网络信息读取单元,用于读取分类已知信息的信息内容;特征库提取单元,用于从所述信息内容中提取符合预置条件的特征;规则集生成单元,用于将所述特征进行概率分析得到最终的规则集合;规则分数生成单元,用于将所述规则概率进行优化得到最终的分数集合。另一方面,本发明的实施方式还提供了一种网络信息类型判断的方法,该方法的步骤包括读取分类未知信息的内容 对所述信息内容进行格式解析;读取所述的网络信息特征规则生成方法得到的规则库和分数集;对所述解析后的信息内容使用预置预测算法进行计算;根据计算结果对所述信息类型进行判断。相应地,本发明的实施方式提出了一种网络信息类型判断装置,该装置包括 网络信息读取单元,用于读取分类未知信息的信息内容; 信息内容解析单元,用于解析分类未知信息的信息内容; 规则与分数集读取单元,用于读取规则集与对应分数集内容;计算单元,用于以所述解析后的信息内容、规则集和分数集作为输入,采用预置预测算 法进行计算;判断单元,用于根据所述计算单元的计算结果对所述分类未知信息的信息类型进行判断。 最后,实施本发明具有以下有益效果-从本发明实施例提供的以上技术方案可以看出,本发明实施例采用分类巳知的网络信息 的信息特征规则生成方法,并使用生成的特征对分类未知的信息进行判断,由于这些规则可 以动态的调整和修改。同时垃圾信息过滤器充分利用了统计技术,可以自动地"学习"接收 信息的特点,来调整垃圾信息的分值。除了设置内部的规则之外,垃圾信息过滤器也可以访 问其它外部的同类型的垃圾信息库,这样可以进一步增强其适用性。


图1为本发明网络信息特征规则生成方法实施例一的具体流程图; 图2为本发明网络信息类型判断方法实施例一的具体流程图; 图3为本发明网络信息特征规则生成装置实施例一的结构图; 图4为本发明网络信息类型判断装置实施例一的结构图;图5为本发明网络信息类型判断系统实施例一的结构图。
具体实施方式
为使本发明的目的、技术方案、及优点更加清楚明白,以下参照附图并举实施例,对本 发明进一步详细说明。如图1所示,本发明提供的网络信息特征规则生成方法实施例一包括 步骤IOI、读取分类己知网络信息的内容;此处的网络信息的内容,是指我们要判断的邮件信息、网页信息、短信信息和即时通讯 信息等的发送内容,对于接收者可见的部分。分类已知网络信息是指该信息的分类是已知的, 也就是该信息是正常信息还是垃圾信息是已经确定的;步骤102、将所述信息内容使用预置提取算法得到信息规则库;这里所使用的预置提取算法是指将信息的文本内容进行预处理比如中文的编码转换、 全半角字符处理、字符转换,对停用词、标点符合和数学运算符等非识别字符用空格进行转换得到可识别字符集;将所述可识别字符集分解成单词和短语形成特征。步骤103、采用所述的规则库使用预置学习算法进行概率分析;首先计算得到的各个特征出现的频度,删除其中频率超过一定值的特征,以去除常见的 词汇,如"的"、"了"等,这里的一定值可由用户根据实际情况进行限定,同时删除频率 小于一定值的特征,以去掉其中表达不明显的词汇,这里的一定值也可以由用户进行限定, 通常为2或3;对剩下的特征采用信息增益方法得到每个特征的信息增益;将该信息增益按 照从大到小的顺序进行排序;并对排序后的信息增益选取特定个数得到最终的特征规则集合, 这里的特定个数应该由用户根据信息增益的变化趋势来限定特征的选取个数,此时的特征即 为最终的规则集合。本发明进一步提供了一种采用贝叶斯学习算法(Bayes)生成网络信息规则方法。 步骤104、将所述概率使用预置分析算法进行分数优化;读入特征规则集合与特征对应的各个特征的信息增益;读入分类己知的网络信息的内容; 计算所述各个特征项的分数并得到最终的分数集合。本发明进一步提供了一种采用神经网络优化网络信息规则分数方法。本发明应用的神经 网络是一个很简单的单神经元的BP神经网络,采用的是单神经元的感知机学习模型。首先构 造神经网络,同时基于特征向量将所有网络信息进行向量表示。将信息分成10份,将其中的 九份作为训练数据输入神经网络进行学习,经过学习后,每条规则的分数就得到了优化,就 可以用它来判断是否是垃圾信息了。所以,我们将余下一份作为测试数据验证学习性能。如图2所示,本发明提供的网络信息类型判断的实施例一包括步骤201、读取分类未知信息的内容;步骤202、对所述信息内容进行格式解析,这里的格式解析是指将按照该信息协议进行 解析,把该信息表示成能够识别的信息文本内容,如对邮件利用因特网邮件扩展协议格式 (MIME)形成邮件格式树等;步骤203、读取网络信息特征规则生成方法得到的规则库和分数集;读取由网络信息特征规则生成方法得到的规则库和各个规则对应的分数集合;步骤204、对所述解析后的信息内容使用预置预测算法进行计算;将读入规则库中的规则按照类型优化形成规则树的形式,并将所述解析后的信息内容按 照规则树进行匹配;若所述匹配成功则增加该规则对应分数,最后可以得到该信息的总匹配 分数。步骤205、根据计算结果对所述信息类型进行判断。如果得到的信息的总匹配分数大于规定的阈值,则判断该信息为垃圾信息,反之为非垃 圾信息。这里的阈值为用户自定义,可以根据不断的实验结果得出,在此处我们选择阈值为 5。如图3所示,本发明提供的网络信息特征规则生成装置的实施例一包括 网络信息读取单元301,用于读取分类己知信息的信息内容;分类已知信息既要有正常同类信息也要有垃圾同类信息,从而可以保证该类型网络信息 特征规则的全面性,因而能够保证网络信息特征规则的准确性;特征库提取单元302,用于从所述信息内容中提取符合预置条件的特征;这些特征应该是具有同类信息可代表性的词汇,即在总的信息语料库中出现的频率即不 过大也不过小。当然也不限于语料中的词汇,用户也可以自行添加或删除。规则分数生成单元303,用于将所述特征进行概率分析得到最终的规则集合;特征规则选取的数量具体应根据特征的信息增益的变化趋势来决定,形成最终的规则集合。规则分数生成单元304,用于将所述规则概率进行优化得到最终的分数集合; 这里采用很简单的单神经元的BP神经网络,采用的是单神经元的感知机学习模型。首先 构造神经网络,同时基于特征向量将所有网络信息进行向量表示。将信息分成10份,将其中 的九份作为训练数据利用神经网络进行学习,将所得到的特征作为神经网络神经元的输入, 将所得到的特征的信息增益作为神经网络神经元的权重,经过神经网络的递归学习后可以得 到新的权重。直到新的权重趋于稳定后,每条规则的分数就得到了优化,就可以用它来判断 是否是垃圾信息了。最后,我们将余下一份作为测试数据验证学习性能。从上可以看出,由于这些规则集合可以动态的调整和修改,同时垃圾信息过滤器充分利 用了统计技术,可以自动地"学习"接收信息的特点,来调整垃圾信息的分值。这使得该过 滤能根据不同阶段的垃圾信息特点来不断更新,能很好的适应不同阶段不同类型的垃圾信息 过滤器的要求。图4描述的是本发明提供的网络信息类型判断装置的实施例一,包括 网络信息读取单元401,用于读取分类未知信息的信息内容; 信息内容解析单元402,用于解析分类未知信息的信息内容;对所述信息内容进行格式解析,这里的格式解析是指将按照该信息协议进行解析,把该 信息表示成能够识别的信息文本内容,如对邮件利用因特网邮件扩展协议格式(MIME)形成 邮件格式树等;规则与分数集读取单元403,用于读取规则集与对应分数集内容; 读取由网络信息特征规则生成方法得到的规则库和各个规则对应的分数集合; 计算单元404,用于以所述解析后的信息内容、规则集和分数集作为输入,采用预置预 测算法进行计算;将读入规则库中的规则按照类型优化形成规则树的形式,并将所述解析后的信息内容按 照规则树进行匹配;若所述匹配成功则增加该规则对应分数,最后可以得到该信息的总匹配 分数;判断单元405,用于根据所述计算单元的计算结果对所述分类未知信息的信息类型进行 判断;通过预测算法计算后,就可以得到一个值, 一般情况下,这个值是一个可正可负的浮点 数。如果得到的信息的这个总匹配分数大于规定的阈值,则判断该信息为垃圾信息,反之为 非垃圾信息。这里的阈值为用户预先自定义的,可以根据多次的实验结果得出,在此处我们 选择阈值为5。从上可以看出,由于我们在进行匹配的时候预先将信息内容解析成树的形式,同时将关见 则集合优化成规则树的形式,所以在应用过程中,匹配判断的速度将不会很慢,满足实际的 需要。进一步,本发明提供了网络信息类型判断系统的实施例一,如图5所示,包括信息特征规则生成装置501,用于读取分类巳知信息的信息内容;从所述信息内容中提 取符合预置条件的特征;将所述特征进行概率分析得到最终的规则集合;将所述规则概率进 行优化得到最终的分数集合;网络信息类型判断装置502,用于读取分类未知信息的信息内容并进行解析;读取规则 集与对应分数集内容;以所述解析后的信息内容、规则集和分数集作为输入,采用预置预测 算法进行计算;根据所述计算单元的计算结果对所述分类未知信息的信息类型进行判断。以上对本发明实施例所提供的网络信息特征规则生成方法及装置、网络信息类型判断方 法及系统进行了详细介绍,以上实施例的说明只是用于帮助理解本发明的方法及其思想;同 时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会有 改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
权利要求
1、一种网络信息特征规则生成方法,其特征在于,包括读取分类已知信息的内容;将所述信息内容使用预置提取算法得到信息规则库;采用所述的信息规则库使用预置学习算法进行概率分析得到最终特征集合;将所述概率使用预置分析算法进行分数优化得到最终分数集。
2、 如权利要求l所述的网络信息特征规则生成方法,其特征在于,所述预置提取算法 包括将信息的文本内容进行编码转换、全半角字符处理、字符转换;对所述文本内容中停用词、标点符合和数学运算符等用空格进行转换得到可识别字符集;将所述可识别字符集分解成单词和短语形成特征。
3、 如权利要求l所述的网络信息特征规则生成方法,其特征在于,所述计算预置学习 算法包括计算所述特征出现的频度;删除所述频率过大或过小的特征;对所述的特征采用信息增益方法得到每个特征的信息增益;将所述信息增益按照从大到小的顺序进行排序;对所述排序后的信息增益选取特定个数得到最终的特征规则集合。
4、 如权利要求l所述的网络信息特征规则生成方法,其特征在于,所述预置分析算法 包括读入所述的特征规则集合与对应特征的信息增益;读入分类已知的网络信息的内容;计算所述各个特征项的分数并得到最终的分数集合。
5、 一种网络信息类型判断方法,其特征在于,包括 读取分类未知信息的内容对所述信息内容进行格式解析;读取所述的网络信息特征规则生成方法得到的规则库和分数集;对所述解析后的信息内容使用预置预测算法进行计算;根据计算结果对所述信息类型进行判断。
6、 如权利要求5所述的网络信息类型判断方法,其特征在于,所述的预置预测算法包括优化所述规则库形成规则树;将所述解析后的信息内容按照规则树进行匹配; 若所述匹配成功则增加该规则对应分数。
7、 如权利要求5所述的网络信息类型判断方法,其特征在于当最后所述分类未知的信 息分数大于一定的阈值时则判为垃圾信息,反之为非垃圾信息。
8、 一种网络信息特征规则生成装置,其特征在于,包括 网络信息读取单元,用于读取分类已知信息的信息内容; 特征库提取单元,用于从所述信息内容中提取符合预置条件的特征; 规则集生成单元,用于将所述特征进行概率分析得到最终的规则集合; 规则分数生成单元,用于将所述规则概率进行优化得到最终的分数集合。
9、 一种网络信息类型判断装置,其特征在于,包括 网络信息读取单元,用于读取分类未知信息的信息内容; 信息内容解析单元,用于解析分类未知信息的信息内容; 规则与分数集读取单元,用于读取规则集与对应分数集内容;计算单元,用于以所述解析后的信息内容、规则集和分数集作为输入,采用预置预测 算法进行计算;判断单元,用于根据所述计算单元的计算结果对所述分类未知信息的信息类型进行判断。
10、 一种网络信息类型判断系统,其特征在于,包括网络信息特征规则生成装置,用于读取分类已知信息的信息内容;从所述信息内容中 提取符合预置条件的特征;将所述特征进行概率分析得到最终的规则集合;将所述规则概 率进行优化得到最终的分数集合。网络信息类型判断装置,用于读取分类未知信息的信息内容并进行解析;读取规则集 与对应分数集内容;以所述解析后的信息内容、规则集和分数集作为输入,采用预置预测 算法进行计算;根据所述计算单元的计算结果对所述分类未知信息的信息类型进行判断。
全文摘要
本发明涉及互联网技术,公开了一种网络信息特征规则生成方法及装置、网络信息类型判断方法、装置及系统。其中网络信息特征规则生成方法包括读取分类已知信息的内容;将所述信息内容使用预置提取算法得到信息规则库;采用所述的信息规则库使用预置学习算法进行概率分析;将所述概率作为对应规则的分数得到分数集。网络信息类型判断方法包括读取分类未知信息的内容并进行格式解析;采用网络信息特征规则生成方法得到的规则库和分数集对所述解析后的信息内容使用预置预测算法进行计算;根据计算结果对所述信息类型进行判断。使用本发明提供的实施例,可以对网络信息的信息类型进行判断,从而过滤网络垃圾信息。
文档编号G06F17/30GK101329668SQ20071004931
公开日2008年12月24日 申请日期2007年6月18日 优先权日2007年6月18日
发明者勇 刘, 张凤荔, 晓 李, 技 耿, 蔚 邓, 梅 郑 申请人:电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1