云计算平台驱动的网页大数据内容聚类方法与流程

文档序号:34817498发布日期:2023-07-19 20:24阅读:32来源:国知局
云计算平台驱动的网页大数据内容聚类方法与流程

本技术涉及一种云平台网页大数据内容聚类方法,特别涉及一种云计算平台驱动的网页大数据内容聚类方法,属于云计算网络大数据检索。


背景技术:

1、在数以亿计的网页中,用户获取有效信息变得极为艰难,如何才能更加有效的挖掘浩瀚网络中的知识,面对“数据丰富,知识匮乏”的挑战,迫切需要强大的数据分析工具来应对复杂的海量数据。如何才能快速的辨别垃圾信息,如何才能更加从容的对数据归类这些都成为目前面临亟待解决的问题。

2、数据挖掘可以有效解决这些问题,数据挖掘有分类、估计、预测、关联规则、聚类,聚类则是属于机器学习中的无监督学习,着重于数据本身的分布特点,可以帮助发现数据中的群落,同时也可以寻找离群的样本,与分类最大的区别就是不需要对数据进行人工标记。

3、对网页进行聚类一直都是聚类解析中的重中之重,传统的网页为人工分类,不仅效率低下,而且会受到人的经验制约,有着人为不可控的因素影响。而通过对网页内容的文本聚类可以帮助用户对需要的网页信息按内容进行分组,极大的方便了用户浏览网页检索信息。当前有很多研究,但仍存在很多不足。

4、因为互联网中网页的数量极其庞大,对网页的聚类是基于对大规模的网页进行聚类,恰好对海量数据的聚类正是当前数据挖掘的热点。其与传统的聚类略有不同,首先单台计算机无法对百万数量级以上的网页进行处理,其次传统的聚类算法很难处理大规模的数据或者是处理数据会消耗大量的时间。基于以上两点,高性能的计算机和聚类算法的并行化可以一定程度上将问题得到解决,而且当数据量进一步扩大时,还可以提高集群数量来解决计算力不足的问题。

5、综上,现有技术的海量网页数据内容聚类方法存在一些问题和缺陷,本技术需要解决的问题和关键技术难点包括:

6、(1)在数以亿计的网页中,用户获取有效信息变得极为艰难,现有技术无法更有效的挖掘浩瀚网络中的知识,面对数据丰富与知识匮乏的挑战,迫切需要强大的数据分析工具来应对复杂的海量数据。如何才能快速的辨别垃圾信息,如何才能更加从容的对网页归类是目前面临亟待解决的问题,现有技术缺少高效准确的网页聚类解析方法,传统的网页为人工分类,不仅效率低下,而且会受到人的经验制约,有着人为不可控的因素影响。而通过对网页内容的文本聚类可以帮助用户对需要的网页信息按内容进行分组,极大的方便了用户浏览网页检索信息。当前有很多研究,但仍存在很多不足,多个步骤需要人工参与,不仅繁琐,而且人为因素对聚类结果影响很大,网页内容聚类为局部最优而非全局最优,造成聚类准确性不高,无法实现并行化处理,面对海量数据的处理效率很低。

7、(2)现有技术对于网页的特征提取及计算存在较多问题,特别是面对海量网页内容聚类特征提取及计算缺点明显,在抽取网页内容、网页分词、网页特征表达、网页内容聚类解析、网页内容评估等方面存在准确率和效率低的缺陷,针对高维度向量空间的缺陷无法有效降维,缺少基于网页半结构化特点,在特征词权重计算时,基于重要性为其赋予权值后进行加权运算,无法在网页内容聚类前的数据准备过程中采用mapreduce运算获取网页的向量,同时也存在对k均值聚类算法在k值需要人工确定、算法局部最优而非全局最优以及无法并行化处理的缺点,针对网页数据的半结构化特征缺少特征项权重计算方法,且无法在集群上运行,网页数据内容聚类正确率、加速比、算法效率都比较低。

8、(3)现有技术在聚类算法上,缺少针对云计算的网页聚类方法,缺少基于近似簇的优化方法和基于二分k均值网页聚类的优化方法,无法建立网页聚类并行化架构,传统的k均值聚类算法对k值的选择全凭经验判断,针对k均值聚类算法需指定k值的缺陷,缺少有效的解决方法,无法在基于近似簇的基础上进行优化;针对k均值聚类算法迭代中出现局部最优的缺陷,缺少有效的解决方法,无法在二分k均值网页聚类的基础上,结合簇内误差乘方和与极限点收敛规则进行优化,无法对原始数据进行全局最优聚类;缺少融合近似簇和二分k均值网页聚类的并行化计算,无法对海量数据进行聚类;同时缺少基于网页的url、头文件、标题标签信息改进的tf-idf算法,无法得到适用于网页特征词的权重计算方法,面对海量网页数据内容聚类结果、加速比、可拓展性方面性能上无法满足要求。


技术实现思路

1、本技术创造性的将高性能计算和网页聚类算法的并行化结合,提出一种云计算平台驱动的网页大数据内容聚类方法,对k均值聚类算法在k值需要人工确定、算法局部最优而非全局最优以及并行化处理三个方面进行优化改进,针对网页数据的半结构化特征对特征项的权重计算方法进行改进,采用k均值网页聚类算法,在基于近似簇和二分k均值网页聚类的基础上,提出“簇内误差乘方和”和“极限点收敛规则”,并在此基础上结合hadoop云平台构建并行化计算架构,构建云计算k均值网页聚类优化改进算法;通过算法改进实现高效准确的海量网页内容聚类,而且当数据量进一步扩大时,还可以提高集群数量来解决计算力不足的问题。在单机以及多个节点上分别进行测试后计算其正确率、最小误差乘方和、加速比、算法效率并进行比较评估,实验表明优化后的云计算k均值网页聚类算法聚类结果、加速比、可拓展性方面性能上都有较大程度的提高。

2、为实现以上技术效果,本技术所采用的技术方案如下:

3、云计算平台驱动的网页大数据内容聚类方法,采用k均值网页聚类算法,在基于近似簇和二分k均值网页聚类的基础上,提出“簇内误差乘方和”和“极限点收敛规则”,并在此基础上结合hadoop云平台构建并行化计算架构,构建云计算k均值网页聚类优化改进算法;

4、1)对于网页的特征提炼及计算进行改进,提出网页大数据内容聚类方法,包括:抽取网页内容、网页云平台分词、特征网页表达、网页内容聚类解析、网页内容聚类评估,针对高维度向量空间的缺陷采用df特征提炼方法进行降维,然后基于网页的半结构化特点,在特征词进行权重计算时,基于重要性因子,为其赋予权值后进行加权运算,然后在网页内容聚类前的数据准备过程中采用mapreduce运算获取网页的向量;

5、2)在对于聚类算法上,提出云计算k均值网页聚类优化方法,包括:算法新概念定义、基于近似簇的优化方法、基于二分k均值网页聚类的优化方法、网页聚类并行化架构,首先针对k均值聚类算法需指定k值的缺陷,在基于近似簇的基础上对其进行优化,设计算法近似簇(v,n),使得优化后的算法不需要指定k值进行聚类;然后针对k均值聚类算法迭代中出现局部最优的缺陷,在基于二分k均值网页聚类的基础上,结合簇内误差乘方和与极限点收敛规则进行优化,建立二分k均值网页聚类(k,v),使优化后的算法对原始数据进行全局最优聚类;融合近似簇(v,n)和二分k均值网页聚类(v,k),并进行并行化计算,对海量数据进行聚类;同时基于网页的url、头文件、标题标签信息的重要性,改进tf-idf算法,得到适用于网页特征词的权重计算方法。

6、进一步的,抽取网页内容:首先根据网页的url爬取网页的html源代码,然后基于选取的特征从html文档中抽取内容,采用网页的正文、网页头文件中的keywords和description以及title、url作为特征,其中url已存在于初始数据中,keywords、description和title这三个特征存在于<head>标签中的<meta>标签以及<title>标签中,头文件内容分析完毕后,根据规则表达式,将需要的字段内容从页面中抽取出来,存储到数据库中;

7、然后抽取正文,依据正文区的密度和行域的长度抽取正文,结合标签用途判断标题,步骤包括:

8、第一步:抽取<h1><h2>标签中的标题信息;

9、第二步:过滤所有html标签只保留文本信息;

10、第三步:以每个文本行为轴,上下三行定义为一块;

11、第四步:设定一个临界值,遍历行域长度,当行域长度骤升,且增长幅度大于该临界值时记为正文起始点;

12、第五步:当行域长度骤降,且尾随行域长度为0时,标记为正文结束点;

13、经过上述步骤得到网页的url、keywords、description、title、h1、h2、正文信息,共同构成网页内容。

14、进一步的,网页云平台分词:对url分词获取特征:

15、(1)对url进行解码;

16、(2)去掉头部“http://www”或“http:/”以及尾部“?”后面的字符串;

17、(3)将url中所有的数字去掉;

18、(4)用空格替换“_”、“-”、“.”、“/”这四个字符,然后以空格划分得到一组英文字符串;

19、(5)对上一步形成的英文字符串在英文字典中进行检索来判断其是否为一个英文单词,如果不是英文单词,则基于字典双向匹配的方法来进行分词,即同时从左往右和从右往左进行分词,如果结果一样则认定分词正确,否则按最小集处理,同时,url中出现一些不是单词的无意义英文字符串,将这些作为噪音去掉。

20、进一步的,特征网页表达:采用模型来量化网页,去掉停用词,然后采取特征提炼法进行降维,最后剩下的每一个词都是一个特征,剩下的m个词构成特征集,特征集表示为{w1,w2,…,wm},则特征网页表达为:

21、vi=(wi0,wi1,...,wim)  式1

22、vi为特征网页表达,wij为对应特征;

23、1)特征提炼:采取特征提炼法对空间模型进行修正来降低维度,采用文档特征概率来进行特征选取降维,如果某个词条的文档频率过低,则认定它与分类无关,将它移除掉以降低特征空间的维度,每个词的文档频率是所有文档中出现该词的文档数,设定一个临界值,特征提炼低于该临界值的词移除,高的保留。

24、2)基于网页核心点的特征权重计算模型:首先基于文本长度对特征词权重的影响,防止聚类中个别特征词的权重过高并抑制其它特征词的权重,做归一化处理,处理后计算式为:

25、

26、tfidf(ti,dj)为tf-idf特征权重,考虑到某个特征词如果在所有页面中都出现会导致其idf值为0,特征权重也为0的情况,故对tf-idf作如下改变:

27、

28、tf(ti,dj)表示特征词出现的频率,d为总文档数,d(ti)指包含特征词ti的文档数,对特征词赋予较高的权值进行加权处理,设正文中的特征词权值为1,则相应标签k对应的权值weightk对应设定;

29、基于tf-idf权重计算,idf不变仍为对tf的计算进行改良,首先n为文档加权后的总词汇数,nw为加权后的词汇频数,改进后的加权总词汇数和加权词汇频数式如下:

30、n=∑(weightk*numk)

31、nw=∑(weightk+kw)  式4

32、故改进后的tf计算式如下:

33、

34、其中numk为标签k中的总特征词数,kw为特征词w在标签k中出现的次数,weightk为该标签对应的权值,将改进后的tf和idf分别代入式3的归一化特征词权重计算式如下:

35、

36、计算得到基于网页核心点的特征权重。

37、进一步的,网页内容聚类评估:网页内容聚类将网页文档集划分为若干类,并使同一类中的网页最相似,不同类中的网页最为相异,综合使用f度量值,其式如下所示:

38、

39、其中c表示某一个聚簇,p(c)则是c的精确率,r(c)是指c的查全率,聚类的综合评价函数f为:

40、

41、通过度量多个节点并行处理比单个节点处理的加速倍数,来评估并行计算的效果,计算式如下:

42、

43、其中t1是单节点上运行的时间,tp是p个节点并行运算的时间,如果sp=p,则为线性加速比,大于p出现超线性加速比,接近p时,认定并行化效果良好;

44、通过算法效率反映节点数变化时集群的利用率情况,算法效率等于加速比除以子节点数。

45、进一步的,云计算k均值网页聚类优化方法新概念定义:

46、定义1,近似簇:给定数据集合u={ui|i=1,2,…,n],对于满足则称xi为近似簇集合,cj为近似簇中心点,t1为近似簇集合半径;

47、定义2,cf_i:簇c内误差乘方和,即簇ci内所有点到该簇中心点距离的平方之和,计算式如下式:

48、

49、其中,ci是簇ci的中心点;

50、定义3,极限点收敛规则:给定簇使得则xp,xq为簇c的极限点,以xp,xq两点为簇c初始聚类中心的极限点收敛规则,其中,dist(xp,xq)为极限距离。

51、进一步的,基于近似簇的优化方法:采用云计算k均值网页聚类中进行优化计算出k值,计算对象相似度来得到若干可重叠的近似簇,具体流程如下:

52、第1步:用交叉校验来确定两个距离临界值t1和t2,其中t1>t2,开始给定一个空的近似簇列表和数据集列表;

53、第2步:迭代数据,首先近似簇为空时,任取一个对象c作为近似簇,然后再任取一个对象р计算其与所有近似簇的距离,如果距离<t1,则将该对象加入到这个近似簇,否则该对象自己作为一个近似簇;

54、第3步:如果该对象与某个近似簇的距离<t2,则该对象不能加入其它近似簇;

55、第4步:遍历数据集中剩下的数据点,计算它们到列表中每个近似簇的中心的距离,避免在接下来的循环中用它建立新的近似簇,重复上述过程,直到数据集为空。

56、进一步的,基于二分k均值网页聚类的优化方法:首先设有簇集s,其中初始s中只有一个由所有数据集组成的簇,然后,循环从簇集s中取出一个簇,用k均值网页聚类算法,通过h次对选定的簇做二分聚类,选择具有最小总cf的2个簇,把这2个簇放回簇集s中。重复上述过程直到产生k个簇为止,其中,h为将簇二分的总次数,cf为误差的平方和,多次运行k均值产生的簇集,根据误差的平方和最小来选定最好的聚类的中心;

57、cf定义如下:

58、

59、在二分时,采用多次k均值网页聚类算法以找到cf最小的局部聚类结果,最后采用结果质心作为k均值网页聚类算法的初始质心,进行全局优化;

60、二分k均值网页聚类通过寻找使cf最大的簇为目标簇,将目标簇进行分裂,当所得簇数目为k时,停止分裂,最后再进行全局优化。

61、进一步的,网页聚类并行化架构:对优化后的算法进行并行化处理,分别对近似簇(v,n)和二分k均值网页聚类(v,k)进行并行化计算;

62、1)对近似簇(v,n)的并行化计算

63、(1)在近似簇(v,n)的mapper阶段,在每个计算机节点的数据集上进行近似簇聚类,最后输出的近似簇集合q,这个在近似簇(v,n))中map阶段得到的集合q将作为输入,参与下一步的reducer;

64、(2)近似簇(v,n)的reducer阶段,将集群中各个节点的map阶段输出的近似簇集合并在一起,然后对该并集进行聚类,最后输出聚类后所得到的簇的数目k;

65、2)对二分k均值网页聚类(v,k)的并行化计算

66、二分k均值网页聚类(v,k)算法最大的计算量在于根据cf_i寻找目标簇和确定目标簇中极限点的过程,针对这两个过程,采用hadoop并行海量数据处理进行优化;

67、(1)寻找目标簇算法的mapreduce优化,首先在map阶段计算cf_i,然后在reduce阶段比较cf_i,其中cf_i最大的簇作为目标簇;

68、(2)确定目标簇中极限点的算法的mapreduce优化,首先在mapper阶段,计算节点分配的簇中每两个数据对象的距离;然后在reducer阶段,比较这些距离地值,选出最大值得到距离最远点。

69、进一步的,云计算k均值网页聚类优化流程步骤:

70、先基于近似簇以及二分k均值网页聚类算法解决k均值网页聚类算法的现有缺陷,然后进行并行化,最后将并行化近似簇(v,n)和并行化二分云计算k均值网页聚类(v,k)相结合,该算法分两个阶段进行;

71、(1)并行化近似簇(v,n)是基于mapreduce框架的算法结构,在接收当前数据集v和数据规模n两个参数后,通过map和reduce阶段,高效产生第二阶段算法所需要的k值;

72、(2)并行化二分k均值网页聚类(v,k)也是基于mapreduce框架的算法结构,在接受当前数据集v和聚类簇数目k后,通过map和reduce阶段,高效产生聚类结果。

73、与现有技术相比,本技术的创新点和优势在于:

74、(1)本技术创造性的将高性能计算和网页聚类算法的并行化结合,提出一种云计算平台驱动的网页大数据内容聚类方法,对k均值聚类算法在k值需要人工确定、算法局部最优而非全局最优以及并行化处理三个方面进行优化改进,然后针对网页数据的半结构化特征对特征项的权重计算方法进行改进,通过算法改进实现高效准确的海量网页内容聚类,而且当数据量进一步扩大时,还可以提高集群数量来解决计算力不足的问题。采用k均值网页聚类算法,在基于近似簇和二分k均值网页聚类的基础上,提出“簇内误差乘方和”和“极限点收敛规则”,并在此基础上结合hadoop云平台构建并行化计算架构,构建云计算k均值网页聚类优化改进算法;在单机以及多个节点上分别进行测试后计算其正确率、最小误差乘方和、加速比、算法效率并进行比较评估,实验表明优化后的云计算k均值网页聚类算法聚类结果、加速比、可拓展性方面性能上都有较大程度的提高。

75、(2)针对传统网页内容聚类中认为网页的锚文本和网页正文的词是网页的特征,忽视了网页域名及html头文件中的信息与网页分类的联系,本技术提出了一种从网页域名中抽取特征词的方法,并在计算特征词权重时充分考虑网页中不同特征词的重要程度对其权重的影响,最终在tf-idf方法基础上对网页的特征提炼及计算进行改进,提出了网页大数据内容聚类方法,通过抽取网页内容、网页云平台分词、特征网页表达、网页内容聚类解析、网页内容聚类评估等一系列巧妙设计,针对高维度向量空间的缺陷采用df特征提炼方法进行降维,然后基于网页的半结构化特点,在特征词进行权重计算时,基于重要性因子,为其赋予权值后进行加权运算,然后在网页内容聚类前的数据准备过程中采用mapreduce运算获取网页的向量,使得网页的特征提炼及计算针对性更强,效率更高,聚类更加准确。

76、(3)传统k均值聚类算法只能保证算法收敛到局部最优,从而导致聚类结果对初始点的选择非常依赖,同时面对海量数据时容易因运算次数增多而使聚类过程耗时增加,针对上述问题以及结合海量数据特性,本技术创造性的提出采用近似簇算法与二分k均值网页聚类算法对k均值网页聚类算法进行了优化,使之能计算出k值,以及对网页数据进行高效的全局最优聚类,同时利用mapreduce编程模型实现了算法的并行化扩展,提出了云计算k均值网页聚类优化方法,通过算法新概念定义、基于近似簇的优化方法、基于二分k均值网页聚类的优化方法、网页聚类并行化架构,在基于近似簇的基础上对其进行优化,使得优化后的算法不需要指定k值进行聚类;在基于二分k均值网页聚类的基础上,结合簇内误差乘方和与极限点收敛规则进行优化,使优化后的算法对原始数据进行全局最优聚类;融合近似簇(v,n)和二分k均值网页聚类(v,k),并进行并行化计算,同时基于网页的url、头文件、标题标签信息的重要性,改进tf-idf算法,得到适用于网页特征词的权重计算方法,最终实现对海量网页数据内容的高效精准聚类,并具有良好的加速比和可拓展性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1