基于模糊数据挖掘的中文网页自动分类方法

文档序号:6598814阅读:99来源:国知局
专利名称:基于模糊数据挖掘的中文网页自动分类方法
技术领域
本发明是针对模糊数据挖掘和基于模糊数据挖掘的中文网页自动分类方法的研
究,主要研究如何通过技术手段对中文网页的内容进行过滤提取、分词和特征选择以及文本表示,并研究了如何利用模糊数据挖掘的知识,对网页进行模糊分类的方法,涉及到网页自动获取、中文网页预处理、中文分词及关键词频度分析、中文网页模糊分类等技术领域。
背景技术
随着Internet技术和Web技术的高速发展,Internet上网页的数量正在不断的增
加。网络的日益普及以及网民数量的爆炸性增长,使得网络用户行为呈现出复杂性和多样
性,如何对网络用户行为进行恰当的分析、管理和告警是急需解决的问题。面对互联网海量
信息,如何在这些信息中过滤掉用户反感的信息,并将用户感兴趣的信息提取出来,实现信
息的主动推送,同时保证人们在信息选择方面的个人权利,逐渐成为大家所关注的研究点。
同时,中文网页种类繁多,通常包含很多的"噪音"信息,一个网页甚至会包含多个主题。获
取网页中的有效文本内容,并对网页的海量数据进行自动分类,是组织和管理网络资源的
关键。传统的人工分类的方法存在很多诸如效率低下、费用高的弊端。网页自动分类可以
在较大程度上解决目前网上信息纷繁杂乱的现象,并方便用户准确地定位所需的信息。因
此,网页自动分类便成了快速且有效地组织网络上海量信息的重要手段,具有较大的实用
价值。而在现实生活中,很多实际分类问题往往不好精确地确定某个对象属于某个类,只能
给出某个对象属于某个类的可能性有多大,这时,文本类别的识别就带有一定的模糊性,对
这些具有模糊性的模式借助于模糊理论来刻画显得很自然,这就引出了模糊分类的概念。 针对中文网页进行网页模糊自动分类有一定的难度,主要体现在 1)中文网页使用中文进行编辑,不像英文单词之间存在空格,需要对中文进行分
词处理,分词的效果直接影响到关键词的分析和网页分类的结果。 2)中文网页包含大量的"噪音",很多网页的编写没有规范,包含很多的广告、注释
以及其他信息,需要对网页进行预处理,进化网页内容,提取用户感兴趣的信息。 3)现今大部分对中文网页分类的研究集中在通过对中文网页进行特征选取和向
量表示,利用KNN(k-Nearest Neighbor algorithm)分类算法,对网页进行分类,该方法实
现网页分类时间代价和复杂性高。应用模糊数据挖掘的理论,对中文网页进行模糊分类的
研究并不多见。

发明内容
技术问题 本发明的目的是建立一种基于模糊数据挖掘的中文网页自动分类方法,并设计其分类模型和算法,通过对中文网页进行预处理,提取出网页中的中文信息,建立分类词语描述库,得到训练集特征词向量模糊矩阵;对待分类的新网页进行网页预处理及特征词模糊化,利用模糊分类匹配器,依照模糊评判原则,快速分析中文网页的模糊分类问题,便于分析网页的核心内容,快速掌握网页的关键信息及其所属类别,从而有利于高效的组织网络
上海量的信息。 技术方案 本发明基于模糊数据挖掘的中文网页自动分类方法,其特征在于该方法的步骤为 1)根据用户所输入待分类网页P的网址URL,进行待分类网页P的预处理,预处理过程包括提取网页的HTML源码、对网页源码中的广告、注释等内容过滤去噪以及提取出网页中的中文文本内容; 2)利用分词器对所提取出的中文文本内容进行分词操作,得到中文网页的分词后文本; 3)通过关键词频度分析器,对能体现该待分类网页P的主题和关键内容的的关键词进行提取,并按照关键词权重对关键词进行排序,提取出待分类网页P的特征词集合T ;
4)初始化数据表D :该数据表D是用于存储构建分类词语描述库时所生产的总特征词集合Z的总特征词向量模糊矩阵R;总特征词是通过文本预处理、训练集总特征词选择以及总特征词集合模糊化的模块得到的; 5)按照数据表D中总特征词的顺序对待分类网页P的特征词集合T进行特征词频度分析; 6)判断总特征词集合Z中的特征词是否存在于待分类网页P中;如果待分类网页
P存在该特征词t,则转入步骤7);如果不存在该特征词t,则转到步骤5); 7)统计总特征词集合Z中的特征词在待分类网页P中出现的频度; 8)构造隶属函数,将待分类网页P进行模糊化处理,得到待分类网页P的特征词向
量模糊矩阵B ; 9)将待分类网页P的特征词向量模糊矩阵B和总特征词向量模糊矩阵R进行模糊
分类匹配,得到待分类网页P的分类结果模糊向量C = {Cl, c2, . . . , cj ; 10)对待分类网页P的分类结果模糊向量C = {Cl, c2, . . . , cm}进行"归一化"处
理,得到归一化后的向量记为C' ,C' = ((VS,C2/S,….,Cm/S),其中,S二I]c,;
,=1 比较模糊向量C'中的各个元素的值,从中挑选出最大的隶属度值ck, 1《k《m ;
11)分类结果模糊评判,判断最大隶属度值ck与判别阈值a之间的关系,在归一化后的模糊向量C'中,若有且仅有一个元素的值Ck^ a,则判断新网页是归于第k类的;若每一个元素的值Ck《a ,则判断新网页是不属于本系统分类体系中的任一类别;若不止一个元素Ck》a ,则判断新网页是属于所有元素值大于a所对应的类别,由此得出分类并输出分类结果。判别阈值a的确定需要经过反复实验,综合所有类别的情况,使得各个分类的准确度保持在一个均衡的水平;
12)分类成功,结束;
其中,m是训练集网页的类别数目。 步骤1)所述的提取出网页中的中文文本内容的方法是通过阈值对比对网页的类型进行判断,利用正则表达式过滤器对噪音信息进行过滤,并提取出网页的中文,该方法的步骤为
a)依照所获得的网页源码得到该网页的标签树; b)通过和标准网页的相关阈值对比,确定步骤(a)所述网页的类型,网页类型包括主题型、链接型和图片型三种; c)判断网页是否为主题型网页,如果是主题型网页则转到步骤d);如果不是主题型网页,则转到步骤e); d)根据主题型网页主题的相关度计算,提取出网页主题内容块;
e)利用基于标记的正则表达式过滤器对网页的噪音信息进行过滤;
f)提取网页的中文文本;
g)结束。
有益效果 通过基于模糊数据挖掘的中文网页分类的方法,我们能够实现 1)运用模糊集理论及相关算法,根据训练样本网页库,建立分类词语描述库,得到
特征词向量模糊矩阵; 2)对新网页进行相关预处理,包括对原始流量数据的清洗,待分类网页的预处理,得到新网页特征词模糊向量。 3)对相应中文网页内容进行分词,按照相关算法提取出关键词,并将中文网页关键词按权重排名; 4)构建模糊分类器,依照模糊分类匹配的方法,实现对中文网页的模糊分类,降低传统分类的人工费用,提高分类的效率。 基于模糊数据挖掘的中文网页自动分类方法具有广泛的意义和应用价值。主要可以应用在 1.互联网用户兴趣度分析;
2.搜索引擎目录更新;
3.Web内容挖掘;
4.在线文档管理;
5.数字图书馆建设。


图l基于模糊数据挖掘的中文网页自动分类的架构图。图中给出了系统的三个层面及其所包含的功能。 图2是基于内容规则的网页中文提取方法流程图。图中给出了网页中文提取的各个部分的处理过程。 图3是基于模糊数据挖掘的中文网页自动分类方法流程图。图中给出了中文网页模糊自动分类的各个部分的处理过程。
具体实施例方式
下面结合附图对发明的技术方案进行详细说明 本发明提出了一种基于模糊数据挖掘的中文网页自动分类技术框架,并详细设计了网页模糊分类算法,如附图3所示。从图中可以看出,系统总共分为三个层面,从下往上依次是数据采集层、业务逻辑层以及表示层。 数据采集层所涉及到的方法为基于内容规则的网页中文提取方法。通过首先获取 到网页的HTML源码,对网页进行预处理。通过测试和分析,发现网页中易于包括各种标签、 脚本语言代码、广告及图片链接、设计人员注释、函数声明以及版权信息等冗余的信息。与 主题无关的噪音信息会对网页正文内容的提取的速度和精度造成很大影响,有必要进行去 除。在提取出网页的标签树以后,我们通过阈值对比的方法判断出网页的类型,当是主题型 网页的时候我们采用一种基于标记的正则表达式匹配过滤器来过滤掉网页中的非主题信 息。通过几层的过滤器过滤之后,再提取出网页中的中文信息。 本文的关键方法基于模糊数据挖掘的中文网页自动分类方法主要包含四个部分, 分别是分类词语描述库构建部分、新网页预处理部分、模糊分类匹配器部分以及分类结果 模糊评判部分。 以下详细介绍该设计的各个层面及网页中文提取方法和中文网页分类方法,如附 图l所示。 1.数据采集层 功能该层面提供根据数据清洗后得到的URL获取中文网页的HTML源码,对所获 取的源码进行过滤和去噪,以及提取该网页中的中文字符的技术。目的是实现对各类编码 的中文网页进行预处理,并提取相应的中文文本。
2.业务逻辑层 功能该层面提供对中文文本的分词,根据分词结果进行关键词分析以及网页模
糊分类匹配的工作。目的是对中文网页的中文文本内容进行分词,并依照相应算法对分词
结果进行关键词频度的分析,并对该网页的关键词和分类词语描述库中的特征词进行模糊
匹配,通过模糊评判规则,得到中文网页的模糊分类匹配。 3.表示层该层面主要提供用户的输入和各个部分结果的反馈。 基于内容规则的网页中文提取方法。该方法的处理过程如附图2所示 a)依照所获得的网页源码得到该网页的标签树; b)通过和标准网页的相关阈值对比,确定步骤(a)所述网页的类型,网页类型包 括主题型、链接型和图片型三种; c)判断网页是否为主题型网页,如果是主题型网页则转到步骤d);如果不是主题 型网页,则转到步骤e); d)根据主题型网页主题的相关度计算,提取出网页主题内容块;
e)利用基于标记的正则表达式过滤器对网页的噪音信息进行过滤;
f)提取网页的中文文本;
g)结束。 基于模糊数据挖掘的中文网页自动分类方法,该方法处理过程如附图3所示 1) 1)根据用户所输入待分类网页P的网址URL,进行待分类网页P的预处理,预处理过程包 括提取网页的HTML源码、对网页源码中的广告、注释等内容过滤去噪以及提取出网页中的 中文文本内容; 2)利用分词器对所提取出的中文文本内容进行分词操作,得到中文网页的分词后 文本;
3)通过关键词频度分析器,对能体现该待分类网页P的主题和关键内容的的关键 词进行提取,并按照关键词权重对关键词进行排序,提取出待分类网页P的特征词集合T ;
4)初始化数据表D :该数据表D是用于存储构建分类词语描述库时所生产的总特 征词集合Z的总特征词向量模糊矩阵R ;总特征词是通过文本预处理、训练集总特征词选择 以及总特征词集合模糊化的模块得到的; 5)按照数据表D中总特征词的顺序对待分类网页P的特征词集合T进行特征词频 度分析; 6)判断总特征词集合Z中的特征词是否存在于待分类网页P中;如果待分类网页
P存在该特征词t,则转入步骤7);如果不存在该特征词t,则转到步骤5) 7)统计总特征词集合Z中的特征词在待分类网页P中出现的频度; 8)构造隶属函数,将待分类网页P进行模糊化处理,得到待分类网页P的特征词向
量模糊矩阵B ; 9)将待分类网页P的特征词向量模糊矩阵B和总特征词向量模糊矩阵R进行模糊
分类匹配,得到待分类网页P的分类结果模糊向量C = {Cl, c2, . . . , cj ; 10)对待分类网页P的分类结果模糊向量C = {Cl, c2, . . . , cm}进行"归一化"处
理,得到归一化后的向量记为C' ,C' = ((31/%(32/5,...,(^/5),其中,5 = 2>,。
z=l 比较模糊向量C'中的各个元素的值,从中挑选出最大的隶属度值ck, 1《k《m ;
11)分类结果模糊评判,判断最大隶属度值ck与判别阈值a之间的关系,在归一 化后的模糊向量C'中,若有且仅有一个元素的值Ck^ a,则判断新网页是归于第k类的; 若每一个元素的值Ck《a ,则判断新网页是不属于本系统分类体系中的任一类别;若不止 一个元素Ck》a ,则判断新网页是属于所有元素值大于a所对应的类别,由此得出分类并 输出分类结果。判别阈值a的确定需要经过反复实验,综合所有类别的情况,使得各个分 类的准确度保持在一个均衡的水平;
12)分类成功,结束。
其中,m是训练集网页的类别数目。 分类词语描述库构建部分,主要通过对一系列有代表性的网页进行人工分类,得 到按类整理好的训练文本集合。然后分别经过训练集合的文本预处理、训练集特征词选择 以及总特征词集合模糊化的模块,得到总体的特征词向量模糊矩阵R,为后面的新网页分类 的工作打下基础。 新网页预处理部分,主要基于校园网用户访问网络的URL信息数据,从中提取出 有效的,较具有代表性的用户访问网页进行网页净化、网页中文文本提取以及中文分词,通 过对新网页的关键词进行分析,提取出新网页中文文本的特征词向量,最后形成新网页文 本的特征词模糊向量B,作为模糊分类匹配模块的基础。 模糊分类匹配器部分的主要工作是利用模糊数学中的模糊运算法则,通过对前面 所求得的新文本的特征词模糊向量B和训练集特征词向量模糊矩阵R进行模糊分类计算,
应用模糊综合评判的方法,从论域中选择出最优的对象从而得到新网页文本的模糊决断向 量集合C。 分类结果模糊评判这一部分就是要通过模糊分类匹配模块所得到的新网页分类
8结果的模糊向量值,依照最大隶属度的原则,通过对判别阈值a的判断,来对新网页的类 别归属问题进行分析。 根据本方法设计的关键词频度分析中文网页分类系统在项目中得到了具体的验 证。系统使用VS2005进行了前台的开发,SQL Server2005数据库进行后台协作,利用Cft语 言实现各项功能。用户在系统首页面输入相应网址的URL,按步骤操作即可分别得到该网页 的HTML源码,所提取的网页中文文本,该网页的关键词按频度排序结果以及该网页的模糊 分类结果。系统选择了六个类别的中文网页文本来构建分类词语描述库,作为本系统的分 类体系。它们分别是环境类、计算机类、教育类、新闻类、体育类和艺术类。每一类都都选择 了 200篇网页作为训练网页,六个类共计1200篇网页。这些网页都来自于新华网、新浪网、 搜狐网、网易、人民网等各个网站的分类栏目。在系统的测试网页达到800篇的时候,模糊 分类的第一维分类准确率封闭测试为78. 4%,具有实际的应用价值。
权利要求
一种基于模糊数据挖掘的中文网页自动分类方法,其特征在于该方法的步骤为1)根据用户所输入待分类网页P的网址URL,进行待分类网页P的预处理,预处理过程包括提取网页的HTML源码、对网页源码中的广告、注释等内容过滤去噪以及提取出网页中的中文文本内容;2)利用分词器对所提取出的中文文本内容进行分词操作,得到中文网页的分词后文本;3)通过关键词频度分析器,对能体现该待分类网页P的主题和关键内容的的关键词进行提取,并按照关键词权重对关键词进行排序,提取出待分类网页P的特征词集合T;4)初始化数据表D该数据表D是用于存储构建分类词语描述库时所生产的总特征词集合Z的总特征词向量模糊矩阵R;总特征词是通过文本预处理、训练集总特征词选择以及总特征词集合模糊化的模块得到的;5)按照数据表D中总特征词的顺序对待分类网页P的特征词集合T进行特征词频度分析;6)判断总特征词集合Z中的特征词是否存在于待分类网页P中;如果待分类网页P存在该特征词t,则转入步骤7);如果不存在该特征词t,则转到步骤5);7)统计总特征词集合Z中的特征词在待分类网页P中出现的频度;8)构造隶属函数,将待分类网页P进行模糊化处理,得到待分类网页P的特征词向量模糊矩阵B;9)将待分类网页P的特征词向量模糊矩阵B和总特征词向量模糊矩阵R进行模糊分类匹配,得到待分类网页P的分类结果模糊向量C={c1,c2,...,cm};10)对待分类网页P的分类结果模糊向量C={c1,c2,...,cm}进行“归一化”处理,得到归一化后的向量记为C′,C′=(c1/S,c2/S,...,cm/S),其中, <mrow><mi>S</mi><mo>=</mo><munderover> <mi>&Sigma;</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></munderover><msub> <mi>c</mi> <mi>i</mi></msub><mo>;</mo> </mrow>比较模糊向量C′中的各个元素的值,从中挑选出最大的隶属度值ck,1≤k≤m;11)分类结果模糊评判,判断最大隶属度值ck与判别阈值α之间的关系,在归一化后的模糊向量C′中,若有且仅有一个元素的值ck≥α,则判断新网页是归于第k类的;若每一个元素的值ck≤α,则判断新网页是不属于本系统分类体系中的任一类别;若不止一个元素ck≥α,则判断新网页是属于所有元素值大于α所对应的类别,由此得出分类并输出分类结果。判别阈值α的确定需要经过反复实验,综合所有类别的情况,使得各个分类的准确度保持在一个均衡的水平;12)分类成功,结束;其中,m是训练集网页的类别数目。
2. 根据权利要求l所述的基于模糊数据挖掘的中文网页自动分类方法,其特征在于步骤1)所述的提取出网页中的中文文本内容的方法是通过阈值对比对网页的类型进行判断,利用正则表达式过滤器对噪音信息进行过滤,并提取出网页的中文,该方法的步骤为a) 依照所获得的网页源码得到该网页的标签树;b) 通过和标准网页的相关阈值对比,确定步骤(a)所述网页的类型,网页类型包括主题型、链接型和图片型三种;c) 判断网页是否为主题型网页,如果是主题型网页则转到步骤d);如果不是主题型网页,则转到步骤e);d) 根据主题型网页主题的相关度计算,提取出网页主题内容块;e) 利用基于标记的正则表达式过滤器对网页的噪音信息进行过滤;f) 提取网页的中文文本;g) 结束。
全文摘要
本发明公布了一种基于模糊数据挖掘的中文网页自动分类方法,该方法由分类词语描述库构建部分、新网页预处理部分、模糊分类匹配器部分以及分类结果模糊评判部分组成。通过应用模糊综合评判的方法,将构建分类词语描述库时所生产的训练集特征词向量模糊矩阵和新网页预处理部分所生产的网页特征词模糊向量进行模糊分类运算,再通过分类结果模糊评判,从而得到该中文网页的模糊分类。该方法能有效提高分类效率,解决分类模糊性问题,具有良好的可扩展性,操作简单方便,易于推广。
文档编号G06F17/27GK101794311SQ201010118500
公开日2010年8月4日 申请日期2010年3月5日 优先权日2010年3月5日
发明者姚蓓丽, 孙雁飞, 张顺颐, 王攀 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1