一种基于数据特征的智能信息分类方法

文档序号:9687622阅读:708来源:国知局
一种基于数据特征的智能信息分类方法
【技术领域】
[0001] 本发明属于数据挖掘领域,设及一种基于数据特征的智能信息分类方法。
【背景技术】
[0002] 随着互联网的飞速发展,网络信息呈爆炸式增长。面对如此海量的Web信息,如何 快速、准确地获取有用信息,是当今互联网技术面临的挑战之一。网页自动分类是高效处理 海量Web信息的一种重要技术。它是指对于待分类网页,根据其内容由计算机根据某种自动 分类算法,把网页分为预先定义好的类别。
[0003] 目前,已经出现了多种基于统计理论和机器学习方法的文本自动分类算法。但是 与普通文本文档相比,网页具有W下特点:(1)网页采用超文本设计,网页内包含HTML标签, 运使得它比普通文本表现能力更强,可W利用的结构化信息和编辑信息更多;(2)Web上的 网页之间通过超链接互相关联,超链接所蕴含的内容推荐与内容相关关系给网页分类带来 很多启发信息;(3)网页通常包含大量噪音,如广告、导航条、推荐栏、作者信息等与主题内 容无关的信息;(4)中文网页使用中文表达,不像英语那样使用空白符间隔每个单词,中文 网页需要分词处理。正是上面运些原因使得网页分类比普通文本分类要复杂得多。

【发明内容】

[0004] 针对上述问题,本发明在深入研究中文网页的特点之后,根据网页标题、关键字等 部分对分类结果有较高权重的特点,提出了根据数据特征W预置关键词表和标题内容为知 识库来进行预先分类,再将网页转化成特征向量结合SVM算法作为补充的分类方法。该方法 极大地提高了分类器的综合性能。
[0005] 具体技术方案如下:一种基于数据特征的智能信息分类方法,包括训练和分类两 个阶段:
[0006] 训练阶段具体按照如下步骤进行:步骤一、对待训练网页进行预处理,去除与网页 分类无关的html标记,从中抽取出正文文本。步骤二、对抽取的文本进行中文分词处理,并 去掉分词后对网页分类没有多大意义的停止词。例如'的'、'了'等在汉语中没有实际意义 的字或词,此外还有一些生僻字和特殊符号,都必须作为停止词去掉。步骤Ξ、对分词和去 停止词后的结果进行词频统计。步骤四、对词频统计后的结果进行特征选择。具体做法是设 置词频阔值,过滤掉词频低于阔值的词。步骤五、对余下的高频词进行权重值计算,生成特 征向量。步骤六、创建行业知识库,为每个待训练类别预置该领域的关键词表。步骤屯、创建 SVM分类器。
[0007] 分类阶段具体按照如下步骤进行:步骤一、对待分类练网页进行预处理,去除与网 页分类无关的html标记,从中抽取出正文文本。步骤二、对抽取后的文本进行中文分词和去 停止词处理,具体实施方法和训练时一样。步骤Ξ、预分类。提取待分类网页的标题类容,与 预置行业知识库中的关键词表进行对比,确定网页的所属类别。若预分类成功,则直接返回 分类结果;若预分类失败,则继续W下步骤。步骤四、将网页文本分词和去停止词后的文本 转成特征向量。步骤五、使用SVM分类器对该特征向量进行分类,并返回分类结果。
[0008] 基于W上技术方案的公开,本发明具备如下有益效果:
[0009] 1、本发明中根据网页标题、关键字等部分对分类结果有较高权重的特点,提出W 预置关键词表和标题内容作为知识库来进行预先分类,大大提高了对中文网页的分类速 度。
[0010] 2、本发明中提出W数据特征建立知识库进行预分类,再结合SVM算法作为补充的 分类方法,极大地提高了分类器的综合性能。
【附图说明】
[0011] 图1是本发明提出的一种基于数据特征的智能信息分类方法的系统流程图。
[0012] 图2是本发明提出的一种基于数据特征的智能信息分类方法的训练阶段流程图。
[0013] 图3是本发明提出的一种基于数据特征的智能信息分类方法的分类阶段流程图。
【具体实施方式】
[0014] 如图1所示,为本发明提出的一种基于数据特征的智能信息分类方法的系统流程 图。参照图1,本发明提出的一种基于数据特征的智能信息分类方法包括:步骤S1,对已经标 记好的网页进行训练;步骤S2,对待分类的网页进行分类。
[0015] 参照图2,步骤S1中所述对已经标记好的网页进行训练包括:
[0016] 步骤S11,对待训练网页进行预处理,去除与网页分类无关的html标记,从中抽取 出正文文本。首先,除去〈style〉、〈script〉、〈applet〉等标记所嵌的html源码;其次,将< title〉、<meta>标签中内容提取出来,单独保存;最后,过滤掉上述html标签后,提取出网页 正文文本。
[0017] 步骤S12,对抽取的网页正文文本进行中文分词处理,并去掉分词后对网页分类没 有多大意义的停止词。例如'的'、'了'等在汉语中没有实际意义的字或词,此外还有一些生 僻字和特殊符号,都必须作为停止词去掉。
[0018] 步骤S13,对分词和去停止词后的结果进行词频统计。
[0019] 步骤S14,对词频统计后的结果进行特征选择。具体做法是设置词频阔值,过滤掉 词频低于阔值的词。
[0020] 步骤S15,使用空间向量模型(Vector Space Model)将待训练网页正文文本转换 成特征向量。在该模型中,每个文本文档被表示成如下的特征向量:
[0021] V(d) = (ti,ω 1(d); t2, ω 2(d);···; tn,Wn(d);)
[0022] 其中ti为特征项,〇i(d)为ti在文档中的权重。
[0023] 根据步骤S15所述,为了便于后续计算,需要减小特征向量的维度。步骤S12、S13、 S14减少了特征项的个数,即减少了特征向量的维度。
[0024] 根据步骤S15所述,特征项在文档中的权重〇i(d)可W使用基于TF-IDF的传统权 重算法进行计算,计算公式如下:
[0025]
[0026] 其中,tfi (d)为ti在文档d中出现的频率,N为文档集中的总文档数,ηκ为出现特征 项tK的文档数。
[0027] 根据步骤S15所述,在网页表示中,有两个因素影响特征项的权重值:一是特征项 在文档中出现的频率,一是特征项在文档中出现的位置。采用对不同位置特征词赋予不同 权重因子的方法,权重因子计算公式如下:
[002引
[0029] 其中,而表示核屯、词平均词频,而表示非核屯、词平均词频,dK和Νκ分别为核屯、词词 频和核屯、词数,do和No分别为非核屯、词词频和非核屯、词词数。核屯、词包括<*^16〉内的词和< meta〉标记中keywords,desc;ription位置出现的词,其余为非核屯、词。
[0030] 可选的,一般来说,核屯、词的词数少而出现次数多,且较为集中,所Κλ含1,当遇到 小于1的情况时就取λ= 1。对于核屯、词,特征向量公式就变为:
[0031 ] ω ' i(d) =λΧ ω i(d)
[0032] 步骤S16,创建知识库,为每个待训练类别预置该领域的关键词表。
[0033] 根据步骤S16所述,知识库的具体创建方法为:首先按各个类别提取训练集中所有 网页的〈title〉标记包含的内容,并对其进行分词处理,然后分别统计词频,并按
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1