一种网页特征提取方法和装置与流程

文档序号:15588387发布日期:2018-10-02 18:39阅读:154来源:国知局

本发明涉及互联网领域的特征提取技术,尤其涉及一种网页特征提取方法和装置。



背景技术:

网页特征的提取是对网页内容进行数据分析的关键技术之一,更是对互联网用户进行个性化分析以及个性化服务推荐的重要环节。网页特征的提取质量的优劣会直接影响到对互联网用户个性化分析结果的好坏,也会进一步的影响到对用户提供个性化服务的质量。网页特征的提取过程对网页的架构,网页的内容字词的丰富性,字词的同义性非常敏感,网页特征的提取算法需要考虑这些因素对提取结果的影响,规避其他因素的干扰,提取最能表征网页内容的特征词。

现有技术中,网页特征提取的算法主要以文字频率-文档频率(tf_idf,termfrequency–inversedocumentfrequency)算法和基于文档对象模型(dom,documentobjectmode)树抽取技术为基础来构思优化的。tf_idf算法是一种用于信息检索与数据挖掘的常用加权技术,采用计算字词在文件中出现的次数以及全网包含本字词的文件数来评估字词在网页中的重要程度,并以重要程度的大小为标准来筛选网页的特征词。基于dom树的抽取技术是根据html网页所具有的树形层次结构特征来实现超文本标记语言html网页中的数据抽取,采用优化网页的特征向量的方式来提取网页的特征词。利用基于dom树抽取技术获取到的网页特征词具有相对较高的准确率和召回率。

然而,tf_idf算法中特征词权重计算存在不合理性,由于html文档与普通的文档在结构上有很大的不同,它属于半结构化的文本形式,特征词在文档中所处的位置不同,它所体现出对文章表征能力的程度也应该是有差别的,所赋予的权重值就应该不同,因此,这种简单的套用idf计算不是科学和全面的;tf_idf类间的区分能力存在不足性,tf_idf仅仅能区分一个特征项在此文本和此文本所在类的区别,但不能很好的表现此特征项和其他类间的区别。基于dom树的抽取技术对网页结构有过多的依赖性,dom技术是根据html网页所具有的树形层次结构特征来实现html网页中的数据抽取,利用基于dom树抽取技术获取到的网页特征词的准确率和召回率相对较高,但是该技术需要相应的若干实例网页,因此是适用于各个不同的知识领域,但由于对结构性的过分依赖,容易在网页结构变化的形式下被动。总而言之,上述两种基础方法各自存在的一定的局限性,即对特征词所处位置的不敏感和对网页结构过于依赖。



技术实现要素:

为解决上述技术问题,本发明实施例提供一种网页特征提取方法和装置,优化网页特征提取结果的质量,保证对互联网用户的个性化分析数据的正确性。

本发明的技术方案是这样实现的:

本发明实施例提供一种网页特征提取方法,所述方法包括:

获取目标网页,根据网页信息的位置架构将所述目标网页分为多个文档部分;

分别对所述多个文档部分进行分词处理,对分词处理结果进行统计,获得与所述多个文档部分对应的多个集合,其中,每一个文档部分对应一个集合,所述多个集合中的每一个集合包括至少一个数据对,每一个数据对包括:特征词和与所述特征词对应的次数;

根据第一集合中与所述特征词对应的次数确定基础位置权重值,所述第一集合为所述多个集合中数据对最多的集合;

根据所述基础位置权重值、预设权重比例值和所述多个集合中除所述第一集合外的所有集合,确定所述多个集合中除所述第一集合外的所有集合的权重值;

将所述多个集合和所述多个集合中除所述第一集合外的所有集合的权重值进行整合处理,获得所述目标网页的特征向量,以使得根据所述特征向量对网页进行特征分析。

可选的,所述根据网页信息的位置架构将目标网页分为多个文档部分,包括:

根据网页信息的位置架构将所述目标网页分为标题、关键词、正文三个文档部分。

可选的,所述分别对所述多个文档部分进行分词处理,对分词处理结果进行统计,获得与所述多个文档部分对应的多个集合,包括:

对标题文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第一特征词,统计与所述第一特征词对应的次数,将所述第一特征词和与所述第一特征词对应的次数以数据对的格式存储在与标题文档部分对应的第二集合,所述第一特征词包括至少一个特征词;

对关键词文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第二特征词,统计与所述第二特征词对应的次数,将所述第二特征词和与所述第二特征词对应的次数以数据对的格式存储在与关键词文档部分对应的第三集合,所述第二特征词包括至少一个特征词;

对正文文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第三特征词,统计与所述第三特征词对应的次数,将所述第三特征词和所述第三特征词对应的次数以数据对的格式存储在与正文文档部分对应的第一集合,所述第三特征词包括至少一个特征词。

可选的,所述根据第一集合中与所述特征词对应的次数确定基础位置权重值,包括:

确定所述第一集合中所有特征词对应的次数中最大次数值为所述基础位置权重值。

可选的,所述根据所述基础位置权重值、预设权重比例值和所述多个集合中除所述第一集合外的所有集合,确定所述多个集合中除所述第一集合外的所有集合的权重值,包括:

将所述基础位置权重值与第一预设权重比例值相乘的值分别与所述第二集合中每一个特征词对应的次数相乘,获得所述第二集合中每一个特征词的权重值,所述第一预设权重比例值为网页标题位置相对于网页正文位置的权重比例;

将所述基础位置权重值与第二预设权重比例值相乘的值分别与所述第三集合中每一个特征词对应的次数相乘,获得所述第三集合中每一个特征词的权重值,所述第二预设权重比例值为网页关键词位置相对于网页正文位置的权重比例。

可选的,所述将所述多个集合和所述多个集合中除所述第一集合外的所有集合的权重值进行整合处理,获得所述目标网页的特征向量,包括:

将所述多个集合中相同特征词对应的权重值相加,将相加后的权重值按照从大到小进行排序,确定排序后前n个权重值和与所述前n个权重值对应的特征词为所述目标网页的特征向量,其中,n为自然数。

本发明实施例提供一种网页特征提取装置,所述装置包括:获取单元、处理单元、确定单元,其中,

所述获取单元,用于获取目标网页;

所述处理单元,用于根据网页信息的位置架构将所述目标网页分为多个文档部分,还用于分别对所述多个文档部分进行分词处理,对分词处理结果进行统计,获得与所述多个文档部分对应的多个集合,其中,每一个文档部分对应一个集合,所述多个集合中的每一个集合包括至少一个数据对,每一个数据对包括:特征词和与所述特征词对应的次数;

所述确定单元,用于根据第一集合中与所述特征词对应的次数确定基础位置权重值,所述第一集合为所述多个集合中数据对最多的集合;还用于根据所述基础位置权重值、预设权重比例值和所述多个集合中除所述第一集合外的所有集合,确定所述多个集合中除所述第一集合外的所有集合的权重值;

所述处理单元,还用于将所述多个集合和所述多个集合中除所述第一集合外的所有集合的权重值进行整合处理,获得所述目标网页的特征向量,以使得根据所述特征向量对网页进行特征分析。

可选的,所述处理单元,用于根据网页信息的位置架构将所述目标网页分为标题、关键词、正文三个文档部分;

还用于对标题文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第一特征词,统计与所述第一特征词对应的次数,将所述第一特征词和与所述第一特征词对应的次数以数据对的格式存储在与标题文档部分对应的第二集合,所述第一特征词包括至少一个特征词;

还用于对关键词文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第二特征词,统计与所述第二特征词对应的次数,将所述第二特征词和与所述第二特征词对应的次数以数据对的格式存储在与关键词文档部分对应的第三集合,所述第二特征词包括至少一个特征词;

还用于对正文文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第三特征词,统计与所述第三特征词对应的次数,将所述第三特征词和所述第三特征词对应的次数以数据对的格式存储在与正文文档部分对应的第一集合,所述第三特征词包括至少一个特征词。

可选的,所述确定单元,用于确定所述第一集合中所有特征词对应的次数中最大次数值为所述基础位置权重值;

所述处理单元,还用于将所述基础位置权重值与第一预设权重比例值相乘的值分别与所述第二集合中每一个特征词对应的次数相乘,获得所述第二集合中每一个特征词的权重值,所述第一预设权重比例值为网页标题位置相对于网页正文位置的权重比例;还用于将所述基础位置权重值与第二预设权重比例值相乘的值分别与所述第三集合中每一个特征词对应的次数相乘,获得所述第三集合中每一个特征词的权重值,所述第二预设权重比例值为网页关键词位置相对于网页正文位置的权重比例。

可选的,所述处理单元,还用于将所述多个集合中相同特征词对应的权重值相加,将相加后的权重值按照从大到小进行排序;

所述确定单元,用于确定排序后前n个权重值和与所述前n个权重值对应的特征词为所述目标网页的特征向量,其中,n为自然数。

本发明实施例提供了一种网页特征提取方法和装置,用事先确定的网页各个基础部位的预设权重比例值和用统计网页特征词的最高次数来作为各个基础部位的基础位置权重值的调整值来最后确定特征词的位置权重值,实现了网页特征词提取中的个性化,实现了对网页内容各个位置上位置权重的动态确定,这样,优化网页特征提取结果的质量,保证对互联网用户的个性化分析数据的正确性,以及对互联网用户提供个性化服务的提供合理化的导向。

附图说明

图1为本发明实施例提供的网页特征提取方法流程示意图;

图2为本发明实施例提供的网页特征提取方法示例图;

图3为本发明实施例提供的网页特征提取装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供的网页特征提取方法,在对网页特征提取中采用了位置权重,融合了位置权重和出现频率这两个要素对网页特征向量提取的影响。在提取出高频且与全网其他网页具有区分度词汇的基础上,对目标网页按照网页信息的基本位置架构分成多个文档部分,并对各个文档部分赋予不同的权重比例值,以及根据网页出现次数最多特征词的次数作为基础位置权重值,以两者的乘积来确定各个位置上的结合网页的根据词汇在网页中出现的位置权重值,从而,实现了动态调整特征词对目标网页内容的表征能力。

本发明提供一种网页特征提取方法,如图1所示,所述方法可以包括:

步骤101、获取目标网页,根据网页信息的位置架构将所述目标网页分为多个文档部分。

本发明实施例提供的网页特征提取方法的执行主体为网页特征提取装置,即网页特征提取装置获取目标网页,并根据网页信息的位置架构将所述目标网页分为多个文档部分。

具体的,如图2所示,网页特征提取装置可以根据网页信息的位置架构将目标网页分为标题、关键词、正文三个文档部分。

步骤102、分别对所述多个文档部分进行分词处理,对分词处理结果进行统计,获得与所述多个文档部分对应的多个集合。

其中,每一个文档部分对应一个集合,所述多个集合中的每一个集合包括至少一个数据对,每一个数据对包括:特征词和与所述特征词对应的次数。

一种可能的实现方式中,网页特征提取装置对标题文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第一特征词,统计与所述第一特征词对应的次数,将所述第一特征词和与所述第一特征词对应的次数以数据对的格式存储在与标题文档部分对应的第二集合,所述第一特征词包括至少一个特征词;

网页特征提取装置对关键词文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第二特征词,统计与所述第二特征词对应的次数,将所述第二特征词和与所述第二特征词对应的次数以数据对的格式存储在与关键词文档部分对应的第三集合,所述第二特征词包括至少一个特征词;

网页特征提取装置对正文文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第三特征词,统计与所述第三特征词对应的次数,将所述第三特征词和所述第三特征词对应的次数以数据对的格式存储在与正文文档部分对应的第一集合,所述第三特征词包括至少一个特征词。

具体的,如图2所示,将整个网页结构化,根据位置将目标网页分成标题title,关键词mrta和正文content三个文档部分,并分别对该三个文档部分经过ictclas分词器分词,并将分词结果经过同义词合并处理统计各个词或短语出现次数,以(pij,fj)的数据对的格式分别存放于集合向量title,meta和content中,其中,p为词或短语,f为词或短语出现的次数,i为短语出现位置的编码,j为短语在该位置上的出现次序,title是与标题文档部分对应的集合,meta是与关键词文档部分对应的集合,content是与正文文档部分对应的集合。

假设title,meta与content中词的总个数分别为了l、m、n,

则title的集合内容为:{(pt1,f1),(pt2,f2)...(ptk,fk)...(ptl,fl)};

meta的集合内容为:{(pm1,f1),(pm2,f2)...(pmk,fk)...(pmm,fm)};

content的集合内容为:{(pc1,f1),(pc2,f2)...(pck,fk)...(pcn,fn)}。

步骤103、根据第一集合中与所述特征词对应的次数确定基础位置权重值。

其中,所述第一集合为所述多个集合中数据对最多的集合。

具体的,网页特征提取装置确定所述第一集合中所有特征词对应的次数中最大次数值为所述基础位置权重值。

本发明实施例中对网页中每个位置所占的权重予以区分,以此来表示在不同位置的词或短语对网页主要内容的影响力和象征作用力不同,所以这里需要单独对每个位置的词或短语分配权值。

这里,将标题位置的词或短语的权重定义为αb,关键词位置的词或短语的权重定义为βb,网页正文位置的词或短语的权重定义为1,其中,b为基础权重值,α和β为网页标题位置和关键词位置相对于网页正文位置的权重比例值,一般情况下在本实施例中,α取4,β取2,α、β可以根据实际具体情况调整。

这里,计算基础位置权重值b为:

b=max{fc1,fc2...fck...fcn}(1)

步骤104、根据所述基础位置权重值、预设权重比例值和所述多个集合中除所述第一集合外的所有集合,确定所述多个集合中除所述第一集合外的所有集合的权重值。

具体的,网页特征提取装置将所述基础位置权重值与第一预设权重比例值相乘的值分别与所述第二集合中每一个特征词对应的次数相乘,获得所述第二集合中每一个特征词的权重值,所述第一预设权重比例值为网页标题位置相对于网页正文位置的权重比例;将所述基础位置权重值与第二预设权重比例值相乘的值分别与所述第三集合中每一个特征词对应的次数相乘,获得所述第三集合中每一个特征词的权重值,所述第二预设权重比例值为网页关键词位置相对于网页正文位置的权重比例。

根据公式(1)得到的基础位置权重值b后计算集合title和meta中各个词或短语的权重:

wt=αb*{(pt1,f1),(pt2,f2)...(ptk,fk)...(ptl,fl)}

={(pt1,αb*f1),(pt2,αb*f2)...(ptk,αb*fk)...(ptl,αb*fl)}

wm=βb*{(pm1,f1),(pm2,f2)...(pmk,fk)...(pmm,fm)}

={(pm1,βb*f1),(pm2,βb*f2)...(pmk,βb*fk)...(pmm,βb*fm)}(2)

步骤105、将所述多个集合和所述多个集合中除所述第一集合外的所有集合的权重值进行整合处理,获得所述目标网页的特征向量,以使得根据所述特征向量对网页进行特征分析。

具体的,网页特征提取装置将所述多个集合中相同特征词对应的权重值相加,将相加后的权重值按照从大到小进行排序,确定排序后前n个权重值和与所述前n个权重值对应的特征词为所述目标网页的特征向量,其中,n为自然数。

示例性的,根据公式(2)得出网页三个部分中词或短语的权重集合后,整合网页三部分的特征项集合及其权重为同一个特征项集合中,整合原则为:相同的特征项的权重相加,并根据特征权重从大到小排序,选取前n个作为网页的特征向量。表现形式为:t={t1,....,ti,....tn},w={w1,....,wi,...,wn},ti为特征词,wi为与特征词ti对应的权重值。其中,n可以根据实际情况动态调整,t为网页的特征词集合,w为特征词集合的权重值集合,两者一一对应。

本发明实施例提供的网页特征提取方法,可适用于绝大多数的互联网网页特征提取过程;无须提前对互联网上的大量网页进行机器学习,且不依赖于网页的结构;实现了对网页内容各个位置上位置权重的动态确定;用事先确定的网页各个基础部位的位置权重比例和用统计网页内容字词的最高频数来作为各个基础部位的位置权重调整值来最后确定特征词的位置权重,实现了网页特征词提取中的个性化,这样,优化网页特征提取结果的质量,保证对互联网用户的个性化分析数据的正确性,以及对互联网用户提供个性化服务的提供合理化的导向。

现有技术中,如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或短语具有很好的类别区分能力,适合用来分类,这样,存在一定的局限性,即现有技术将网页中所有的词或者短语一视同仁,唯一的区别就是在网页中出现的次数,并且以这个区别来判断是否适合作为网页的特征词,但是网页相对于文档半结构化的特殊性,特征词出现的位置有其不同的权重意义,特征词出现的位置意义甚至比特征词的次数更能代表网页的特点。比如,在网页标题中出现的词或短语相对来说要比在网页正文中出现的词或短语要更能概括网页的内容和表征网页的特点,因为网页标题是已经过作者自提炼的特征,而在网页正文中出现的词或者短语是详细描述网页内容的众多词汇之一。

本发明实施例提供的网页特征提取方法,事先为网页的一些关键部位也是基础部位,如标题位置,关键词位置以及正文位置的位置权重比例值。这些部位是网页基本的架构部位,可以说是互联网上所有网页都会涵盖的部位,所以无需对此进行大量的学习;统计全网页中出现最多特征词的次数,以此来作为基础位置权重值的调整值,对于每个网页,特征词的最高频数是不可预定的,最后以位置权重比例值和基础位置权重值的乘积来作为网页各个位置上特征词的位置权重值,这样就实现了对网页位置权重的动态调整。

本发明实施例提供的网页特征提取方法,可以脱离网页的架构,根据词频来前期筛选网页内容中的高频字词,并不需要根据网页的结果位置来逐一的抽取,分别进行处理,从而,在一定程度上解决了现有提取算法对网页结构过于依赖的缺陷;根据字词所处的位置以及网页最高频数来动态调整各个词汇的权重值,并以这个权重值为标准来提取网页中能最大限度上表征网页内容的特征词,解决了现有提取算法对特征词所处位置不敏感的缺陷,平衡了高频和位置对特征词的作用关系。

本发明实施例提供一种网页特征提取装置30,如图3所示,所述装置包括:获取单元301、处理单元302、确定单元303,其中,

所述获取单元301,用于获取目标网页;

所述处理单元302,用于根据网页信息的位置架构将所述目标网页分为多个文档部分,还用于分别对所述多个文档部分进行分词处理,对分词处理结果进行统计,获得与所述多个文档部分对应的多个集合,其中,每一个文档部分对应一个集合,所述多个集合中的每一个集合包括至少一个数据对,每一个数据对包括:特征词和与所述特征词对应的次数;

所述确定单元303,用于根据第一集合中与所述特征词对应的次数确定基础位置权重值,所述第一集合为所述多个集合中数据对最多的集合;还用于根据所述基础位置权重值、预设权重比例值和所述多个集合中除所述第一集合外的所有集合,确定所述多个集合中除所述第一集合外的所有集合的权重值;

所述处理单元302,还用于将所述多个集合和所述多个集合中除所述第一集合外的所有集合的权重值进行整合处理,获得所述目标网页的特征向量,以使得根据所述特征向量对网页进行特征分析。

进一步地,所述处理单元302,用于根据网页信息的位置架构将所述目标网页分为标题、关键词、正文三个文档部分;

还用于对标题文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第一特征词,统计与所述第一特征词对应的次数,将所述第一特征词和与所述第一特征词对应的次数以数据对的格式存储在与标题文档部分对应的第二集合,所述第一特征词包括至少一个特征词;

还用于对关键词文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第二特征词,统计与所述第二特征词对应的次数,将所述第二特征词和与所述第二特征词对应的次数以数据对的格式存储在与关键词文档部分对应的第三集合,所述第二特征词包括至少一个特征词;

还用于对正文文档部分进行分词处理,将分词处理结果进行同义词合并处理获得第三特征词,统计与所述第三特征词对应的次数,将所述第三特征词和所述第三特征词对应的次数以数据对的格式存储在与正文文档部分对应的第一集合,所述第三特征词包括至少一个特征词。

进一步地,所述确定单元303,用于确定所述第一集合中所有特征词对应的次数中最大次数值为所述基础位置权重值;

所述处理单元302,还用于将所述基础位置权重值与第一预设权重比例值相乘的值分别与所述第二集合中每一个特征词对应的次数相乘,获得所述第二集合中每一个特征词的权重值,所述第一预设权重比例值为网页标题位置相对于网页正文位置的权重比例;还用于将所述基础位置权重值与第二预设权重比例值相乘的值分别与所述第三集合中每一个特征词对应的次数相乘,获得所述第三集合中每一个特征词的权重值,所述第二预设权重比例值为网页关键词位置相对于网页正文位置的权重比例。

进一步地,所述处理单元302,还用于将所述多个集合中相同特征词对应的权重值相加,将相加后的权重值按照从大到小进行排序;

所述确定单元303,用于确定排序后前n个权重值和与所述前n个权重值对应的特征词为所述目标网页的特征向量,其中,n为自然数。

具体的,本发明实施例提供的网页特征提取装置的理解可以参考上述网页特征提取方法实施例的说明,本发明实施例在此不再赘述。

本发明实施例提供的网页特征提取装置,可以脱离网页的架构,根据词频来前期筛选网页内容中的高频字词,并不需要根据网页的结果位置来逐一的抽取,分别进行处理,从而,在一定程度上解决了现有提取算法对网页结构过于依赖的缺陷;根据字词所处的位置以及网页最高频数来动态调整各个词汇的权重值,并以这个权重值为标准来提取网页中能最大限度上表征网页内容的特征词,解决了现有提取算法对特征词所处位置不敏感的缺陷,平衡了高频和位置对特征词的作用关系。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1