网页分类方法和装置、网页分类器的训练方法和装置制造方法

文档序号:6489236阅读:202来源:国知局
网页分类方法和装置、网页分类器的训练方法和装置制造方法
【专利摘要】本发明提供了一种网页分类方法和装置、网页分类器的训练方法和装置,其中的网页分类方法具体包括:提取待分类网页的用户搜索行为特征;依据第一网页分类器判别该用户搜索行为特征所属的网页类别;其中,所述第一网页分类器为依据网页类别样本的用户搜索行为特征所构造的分类器。本发明能够提高网页分类的准确率和召回率。
【专利说明】网页分类方法和装置、网页分类器的训练方法和装置
【技术领域】
[0001]本申请涉及互联网信息处理【技术领域】,特别是涉及一种网页分类方法和装置、一种网页分类器的训练方法和装置。
【背景技术】
[0002]随着互联网技术的普及和飞速发展,网络信息成爆炸性增长,一方面满足了用户对信息的需求,另一方面,如何根据网页内容把网页自动划分到不同的类别,以提高用户的体验,是目前面临的一个问题。
[0003]衡量网页分类方法的指标具体包括召回率和准确率等。其中,召回率,是正确分出类别的网页数量和所有网页中属于该类别的网页数量的比值,用于衡量网页分类方法是否具有通用性;准确率,是正确分出类别的网页数量除以所有分出类别的网页数量的比值,用于衡量网页分类方法是否准确。
[0004]现有技术常用的网页分类方法是:提取网页的文本内容和标签信息等网页内容特征,利用文本分类器对网页内容特征进行分类。其中的文本分类器是预先训练好的分类器,其使用分类算法对文本进行分类。
[0005]虽然网页内容特征的描述较为全面,但可能包含大量背景资料,这导致现有技术出现如下问题:
[0006]对于短文本的网页,现有技术能够提取的有效文本特征(代表网页唯一主题的有效特征)维度不足,且背景资料容易产生诸如广告、推荐信息、版权声明等与网页内容无关的噪声信息,更容易导致错误分类,从而引起准确率和召回率较低的问题。
[0007]对于长文本的网页,现有技术能够提取的网页内容特征的维数过高,而对于常用的分类算法,特征维度越高,意味着计算量越大,因此,高维的特征容易增加文本分类器的处理时间,从而降低了网页分类的速率;另一方面,只有代表网页唯一主题的有效特征才能够体现出网页所属的准确类别,而高维的特征很难集中体现出一个明确的主题或类别,往往体现出多个主题或类别,这样容易引起文本分类器的多峰分布以及最终的错误分类,从而弓I起准确率和召回率较低的问题。
[0008]总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够提高网页分类的准确率和召回率。

【发明内容】

[0009]本申请所要解决的技术问题是提供一种网页分类方法和装置、一种网页分类器的训练方法和装置,能够提高网页分类的准确率和召回率。
[0010]为了解决上述问题,本申请公开了一种网页分类方法,包括:
[0011]提取待分类网页的用户搜索行为特征;
[0012]依据第一网页分类器判别该用户搜索行为特征所属的网页类别;其中,所述第一网页分类器为依据网页类别样本的用户搜索行为特征所构造的分类器。[0013]优选的,所述提取待分类网页的用户搜索行为特征的步骤,进一步包括:
[0014]依据所述待分类网页的页面地址,在关系数据库中检索所述待分类网页对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征;
[0015]所述关系数据库中记录有搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,所述关系频率为对用户搜索行为数据和用户访问行为数据进行分析得到,所述搜索跳转访问页面为来源于搜索结果页面的访问页面。
[0016]优选的,所述提取待分类网页的用户搜索行为特征的步骤,进一步包括:
[0017]依据所述待分类网页的页面地址,在用户访问行为数据中查询得到所述待分类网页对应的用户物理地址和搜索跳转信息;
[0018]所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时其包括有搜索结果页面的页面地址;
[0019]依据所述待分类网页对应的用户物理地址和搜索跳转信息,在所述用户搜索行为数据中查询得到所述待分类网页对应的搜索关键词,作为用户搜索行为特征;
[0020]所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址。
[0021]优选的,通过如下步骤对所述用户搜索行为数据和用户访问行为数据进行分析得到所述关系频率:
[0022]通过查询用户访问行为数据,获取搜索跳转访问页面的页面地址及对应的用户物理地址和搜索跳转信息;
[0023]所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,其包括有搜索结果页面的页面地址;所述搜索跳转访问页面为来源于搜索结果页面的访问页面;
[0024]针对搜索跳转访问页面,依据其对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到其对应的搜索关键词,并记录查询命中的搜索跳转访问页面和搜索关键词的次数;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址;
[0025]建立查询命中的搜索关键词和搜索跳转访问页面之间的映射关系,并将查询命中的搜索跳转访问页面和搜索关键词的次数作为相应的关系频率。
[0026]优选的,所述方法还包括:
[0027]提取待分类网页的网页内容特征;
[0028]对所述网页内容特征进行降维;
[0029]融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征;
[0030]依据第二网页分类器判别该融合特征所属的网页类别;其中,所述第二网页分类器为依据网页类别样本的融合特征所构造的分类器。
[0031]优选的,所述用户搜索行为特征为搜索关键词集合,所述网页内容特征为内容词
汇集合;
[0032]所述融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征的步骤,进一步包括:
[0033]选取全部所述搜索关键词集合,以及,特定维数的部分所述内容词汇集合,组成融合特征;所述特定维数为第一预设维数与所述搜索关键词集合维数的差值;或者,
[0034]对所述搜索关键词集合和内容词汇集合的特征值进行归一化,依据归一化后的特征值对所述搜索关键词集合和内容词汇集合进行从高到低的合并排序,并选取排在前面的数目与第二预设维数相应的词汇,组成融合特征。
[0035]优选的,所述网页内容特征为内容词汇集合;
[0036]所述对所述网页内容特征进行降维的步骤,进一步包括:
[0037]依据分类影响因子,去除所述内容词汇集合中的噪声特征;所述分类影响因子具体可以包括规范因子、位置因子、标签因子、字体因子和词性因子中的一项或多项。
[0038]优选的,所述网页内容特征为内容词汇集合;
[0039]所述对所述网页内容特征进行降维的步骤,进一步包括:
[0040]依据词汇在网页文档中的词频,统计所述内容词汇集合中词汇在背景语料库中的背景语料权重;
[0041]选取背景语料权重大于预设阈值的词汇,组成降维后的内容词汇集合。
[0042]优选的,所述第一网页分类器为通过如下步骤构造的分类器:
[0043]获取网页类别样本;
[0044]提取所述网页类别样本的用户搜索行为特征;
[0045]依据所述用户搜索行为特征对所述网页类别样本进行训练,得到第一网页分类器。
[0046]另一方面,本申请还公开了一种网页分类器的训练方法,包括:
[0047]获取网页类别样本;
[0048]提取所述网页类别样本的用户搜索行为特征;
[0049]依据所述用户搜索行为特征对所述网页类别样本进行训练,得到第一网页分类器。
[0050]优选的,所述提取所述网页类别样本的用户搜索行为特征的步骤,进一步包括:
[0051]依据所述网页类别样本的页面地址,在关系数据库中检索所述网页类别样本对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征;
[0052]所述关系数据库中记录有搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,所述关系频率为对用户搜索行为数据和用户访问行为数据进行分析得到,所述搜索跳转访问页面为来源于搜索结果页面的访问页面。
[0053]优选的,所述提取所述网页类别样本的用户搜索行为特征的步骤,进一步包括:
[0054]依据所述网页类别样本的页面地址,在用户访问行为数据中查询得到所述网页类别样本对应的用户物理地址和搜索跳转信息;
[0055]所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时其包括有搜索结果页面的页面地址;
[0056]依据所述网页类别样本对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到所述网页类别样本对应的搜索关键词,作为用户搜索行为特征;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址。
[0057]优选的,通过如下步骤对所述用户搜索行为数据和用户访问行为数据进行分析得到所述关系频率:
[0058]通过查询用户访问行为数据,获取搜索跳转访问页面的页面地址及对应的用户物理地址和搜索跳转信息;
[0059]所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,其包括有搜索结果页面的页面地址;所述搜索跳转访问页面为来源于搜索结果页面的访问页面;
[0060]针对搜索跳转访问页面,依据其对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到其对应的搜索关键词,并记录查询命中的搜索跳转访问页面和搜索关键词的次数;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址;
[0061]建立查询命中的搜索关键词和搜索跳转访问页面之间的映射关系,并将查询命中的搜索跳转访问页面和搜索关键词的次数作为相应的关系频率。
[0062]优选的,所述方法还包括:
[0063]提取所述网页类别样本的网页内容特征;
[0064]对所述网页内容特征进行降维;
[0065]融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征;
[0066]依据所述融合特征对所述网页类别样本进行训练,得到第二网页分类器。
[0067]优选的,所述用户搜索行为特征为搜索关键词集合,所述网页内容特征为内容词
汇集合;
[0068]所述融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征的步骤,进一步包括:
[0069]选取全部所述搜索关键词集合,以及,特定维数的部分所述内容词汇集合,组成融合特征;所述特定维数为第一预设维数与所述搜索关键词集合维数的差值;或者,
[0070]对所述搜索关键词集合和内容词汇集合的特征值进行归一化,依据归一化后的特征值对所述搜索关键词集合和内容词汇集合进行从高到低的合并排序,并选取排在前面的数目与第二预设维数相应的词汇,组成融合特征。
[0071]优选的,所述网页内容特征为内容词汇集合;
[0072]所述对所述网页内容特征进行降维的步骤,进一步包括:
[0073]依据分类影响因子,去除所述内容词汇集合中的噪声特征;所述分类影响因子具体可以包括规范因子、位置因子、标签因子、字体因子和词性因子中的一项或多项。
[0074]优选的,所述网页内容特征为内容词汇集合;
[0075]所述对所述网页内容特征进行降维的步骤,进一步包括:
[0076]依据词汇在网页文档中的词频,统计所述内容词汇集合中词汇在背景语料库中的背景语料权重;
[0077]选取背景语料权重大于预设阈值的词汇,组成降维后的内容词汇集合。[0078]另一方面,本申请还公开了一种网页分类装置,包括:
[0079]提取模块,用于提取待分类网页的用户搜索行为特征;
[0080]判别模块,用于依据第一网页分类器判别该用户搜索行为特征所属的网页类别;其中,所述第一网页分类器为依据网页类别样本的用户搜索行为特征所构造的分类器。
[0081]优选的,所述提取模块进一步包括:
[0082]检索子模块,用于依据所述待分类网页的页面地址,在所述关系数据库中检索所述待分类网页对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征;所述关系数据库中记录有搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,所述关系频率为对用户搜索行为数据和用户访问行为数据进行分析得到,所述搜索跳转访问页面为来源于搜索结果页面的访问页面。
[0083]优选的,所述提取模块进一步包括:
[0084]第一查询子模块,用于依据所述待分类网页的页面地址,在用户访问行为数据中查询得到所述待分类网页对应的用户物理地址和搜索跳转信息;所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时其包括有搜索结果页面的页面地址;
[0085]第二查询子模块,用于依据所述待分类网页对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到所述待分类网页对应的搜索关键词,作为用户搜索行为特征;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址。
[0086]在本申请的一种优选实施例中,所述装置还可以包括:用于对所述用户搜索行为数据和用户访问行为数据进行分析得到所述关系频率的关系频率分析模块;所述关系频率分析模块具体可以包括:
[0087]第一查询获取子模块,用于通过查询用户访问行为数据,获取搜索跳转访问页面的页面地址及对应的用户物理地址和搜索跳转信息;所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,其包括有搜索结果页面的页面地址;所述搜索跳转访问页面为来源于搜索结果页面的访问页面;
[0088]第二查询获取子模块,用于针对搜索跳转访问页面,依据其对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到其对应的搜索关键词,并记录查询命中的搜索跳转访问页面和搜索关键词的次数;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址;
[0089]映射关系建立子模块,用于建立查询命中的搜索关键词和搜索跳转访问页面之间的映射关系,并将查询命中的搜索跳转访问页面和搜索关键词的次数作为相应的关系频率。
[0090]另一方面,本申请还公开了一种网页分类器的训练装置,包括:
[0091]样本获取模块,用于获取网页类别样本;
[0092]特征提取模块,用于提取所述网页类别样本的用户搜索行为特征;[0093]训练模块,用于依据所述用户搜索行为特征对所述网页类别样本进行训练,得到网页分类器。
[0094]与现有技术相比,本申请具有以下优点:
[0095]本申请实施例依据网页类别样本的用户搜索行为特征构造网页分类器;由于所述用户搜索行为特征中的搜索行为特征能够充分体现网页主题的网页特征,使得该网页分类器具有更为准确的网页主题描述能力和误差消除能力;并且,由于网页分类也是基于用户搜索行为特征来进行的,从而可以有效提高网页的准确率和召回率。
[0096]另外,受网页主题的限制,网页对应的搜索关键词的特征维数显著小于网页内容的特征维数,故本申请相对于现有技术,在分类算法实现的过程中,会明显的降低计算量,也即能够提高网页分类器的训练速度,以及,能够提高网页分类的速度。
【专利附图】

【附图说明】
[0097]图1是本申请一种网页分类器的训练方法实施例1的流程图;
[0098]图2是本申请一种映射关系矩阵的示意图;
[0099]图3是本申请一种网页分类器的训练方法实施例2的流程图;
[0100]图4是本申请一种网页分类方法实施例1的流程图;
[0101]图5是本申请一种网页分类方法实施例2的流程图;
[0102]图6是本申请一种网页分类器的训练装置实施例的结构图;
[0103]图7是本申请一种网页分类装置实施例的结构图。
【具体实施方式】
[0104]为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和【具体实施方式】对本申请作进一步详细的说明。
[0105]现有技术中,利用文本分类器对该网页内容特征进行分类。虽然网页内容特征的描述较为全面,但可能包含大量背景资料,这导致短文本的特征维数不足,长文本的特征维数过高;更重要的是,由于只有代表网页唯一主题的有效特征才能够体现出网页所属的准确类别,而无论网页内容特征的维数高低与否,均不能集中体现出对应网页的唯一主题,故现有技术存在准确率和召回率较低的问题。
[0106]并且,目前各应用中待分类网页的数量巨大,网页媒体的表示和存储格式复杂,网页主题的文本信息量(如短文本和长文本)也各不相同,这就给现有技术中文本分类器的训练和分类工作带来极大挑战;尤其对于长文本的网页,现有技术能够提取的网页内容特征的维数过高,这就增加了文本分类器的计算量和处理时间,从而降低了文本分类的速率。
[0107]如果采用能够充分体现网页主题的网页特征,则既能够给短文本的网页提供足够的特征维度,又能够避免长文本的网页出现的多峰分布问题,从而能够提高网页分类的准确率和召回率。
[0108]本申请发明人注意到了这一点,因此创造性地将能够充分体现网页主题的用户搜索行为特征应用到网页分类中。
[0109]在此通过对用户搜索行为和用户访问行为进行分析,来论述为什么用户搜索行为特征能够充分体现网页主题:[0110]用户之所以会产生搜索行为,往往是在解决任务时遇到自己不熟悉的概念或者问题,由此才产生了对特定信息的需求,那么之后用户会在头脑中逐步形成秒速需求的搜索关键词,将搜索关键词提交给搜索引擎,然后对搜索引擎返回的搜索结果页面进行浏览;[0111]由于存在对特定信息的需求,而搜索结果页面中会包括大量网页的超链接,故用户在搜索行为后也会产生与搜索行为相关的访问行为,例如,如果用户点击了搜索结果页面中的一个网页的超链接,则可以认为用户产生了访问行为;
[0112]综上,搜索关键词能够将用户引导至网页,故可以认为用户搜索关键词为用户在搜索过程中对所访问网页的主题内容的人工鉴别的反馈信息,其往往和网页主题具有非常强的相关性。
[0113]本申请的用户搜索行为特征通常包括有用户搜索关键词,虽然相对于现有技术中网页内容特征,用户搜索关键词对网页内容的描述能力不够全面,表达网页整体的思想和情感不够清晰;但由于用户搜索关键词为用户在搜索过程中对所访问网页的主题内容的人工鉴别的反馈信息,其往往和网页主题具有非常强的相关性;因此,相对于现有技术,本申请采用的用户搜索行为特征能够充分体现网页主题的网页特征,能够更好地体现网页主题的分类。
[0114]另外,受网页主题的限制,网页对应的搜索关键词的特征维数显著小于网页内容的特征维数,故本申请相对于现有技术,在分类算法实现的过程中,会明显的降低计算量,也即能够提高网页分类器的训练速度。
[0115]综上,本申请实施例依据网页类别样本的用户搜索行为特征构造网页分类器;由于所述用户搜索行为特征中的搜索关键词能够充分体现网页主题的网页特征,使得该网页分类器具有更为准确的网页主题描述能力和误差消除能力;并且,由于网页分类也是基于用户搜索行为特征来进行的,从而可以有效提高网页的准确率和召回率。
[0116]参照图1,示出了本申请一种网页分类器的训练方法实施例1的流程图,具体可以包括:
[0117]步骤101、获取网页类别样本;
[0118]在实际应用中,可以根据网页分类的实际需求,人工确定网页类别C= {cl,c2,...cn},其中,C网页类别集合,Cl,c2,…cn代表网页类别集合的元素。这些网页类别可以是宽泛的网页类别,如军事、经济、政治、新闻、科教、购物、财经、旅游、星座、学校网页类别等等,这些网页类别还可以是专业的网页类别,如奥运领域中的篮球、足球、排球、羽毛球、跳水、拳击等网页类别等等,本申请对具体的网页类别不加以限制。
[0119]在本申请的一种实施例中,可以通过聚类的方法处理网页以自动获得网页类别,本申请的聚类可以是将网页对象的集合分成由类似的对象组成的多个网页类别的过程。聚类方法有多种,如划分方法、层次方法、基于密度的方法、基于网格的方法、基于模型的方法等,每种具体实现要参见具体的聚类算法。
[0120]在此提供一种划分方法的示例,具体可以包括:
[0121]步骤Al、特征选择:提取网页特征,这里的特征可以是各种网页内容特征;
[0122]步骤A2、近邻测度:用于测量两个网页内容特征之间的相似程度;
[0123]步骤A3、聚类准则:依赖于具体特征的判断方法,如可以选取文本特征的余弦相似度作为聚类准则。[0124]步骤A4、聚类算法:即具体的聚类算法,如birch (Balanced Iterative Reducingand Clustering using Hierarchies) ), K-MEANS (k_ 平均)等。
[0125]步骤A5、结果验证:验证聚类结果的正确性。
[0126]在确定网页类别后,可以网页数据的实际涵盖范围和分类的应用目标来收集各网页类别对应的样本,一般要求各网页类别之间数据规模分布均衡,并且各网页类别之间具有较好的可区分性。由于各网页类别对应的样本的收集,为本领域内的公知技术,故在此不作赘述。
[0127]步骤102、提取所述网页类别样本的用户搜索行为特征;
[0128]由于搜索关键词能够将用户引导至网页,故在面对用户所访问的一个网页或网页类别样本时,其用户搜索行为特征中就包括能将用户引导至该网页或网页类别样本的搜索关键词,以下针对如何提取一个网页或网页类别样本的户搜索行为特征进行说明。
[0129]本【技术领域】中,用于表征用户网络行为的主要数据(以下简称用户网络行为数据)来自网站的网络服务器中的日志文件集。这些日志文件包含了访问该网络站点的关于每个访问者超文本传输协议(简称HTTP)事务的执行记录,可以通过利用类似于网络数据包嗅探技术的这种技术从日志文件集中获取用于表征用户网络行为的历史数据。
[0130]具体而言,日志文件集中的用户行为数据主要包含用户搜索行为数据和用户访问行为数据。其中,所述用户搜索行为数据记录有用户的搜索关键词和相应的搜索结果页面,所述用户访问行为数据记录有用户的访问页面。具体的,有些网站的用户访问行为数据还会记录有用户物理地址和搜索跳转信息,有些网站的用户搜索行为数据还会记录有用户物理地址和搜索结果页面中网页的超链接信息;这里,用户物理地址主要可以包括用户IP((网络之间互连的协议,Internet Protocol)地址,搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,还会记录有搜索结果页面的信息(如页面地址等)。
[0131]这样,本申请可以通过对用户搜索行为数据和用户访问行为数据进行分析,提取一个网页或网页类别样本的用户搜索行为特征。具体而言,本申请可以提供如下提取所述网页类别样本的用户搜索行为特征的方案:
[0132]提取方案P1、
[0133]提取方案Pl具体可以包括:
[0134]步骤B1、依据所述网页类别样本的页面地址,在用户访问行为数据中查询得到所述网页类别样本对应的用户物理地址和搜索跳转信息;所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,还会记录有搜索结果页面的页面地址;
[0135]步骤B2、依据所述网页类别样本对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到所述网页类别样本对应的搜索关键词,作为用户搜索行为特征;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中具体可以包括依据搜索关键词得到的多个页面地址。
[0136]依据上面的介绍,用户访问行为数据的数据字段具体可以包括:用户访问页面地址、用户物理地址和搜索跳转信息,那么,步骤BI可以依据所述网页类别样本的页面地址,在用户访问行为数据中查询得到对应的用户物理地址和搜索跳转信息。
[0137]用户搜索行为数据的数据字段具体可以包括:搜索关键词、用户物理地址和搜索结果,其中,所述搜索结果中具体可以包括依据搜索关键词得到的多个页面地址。这样,依据所述网页类别样本对应的用户物理地址和搜索跳转信息,在所述用户搜索行为数据中查询时,可以将所述网页类别样本对应的用户物理地址与用户搜索行为数据的用户物理地址进行匹配,将所述网页类别样本对应的搜索跳转信息与用户搜索行为数据的搜索结果进行匹配,得到所述网页类别样本对应的搜索关键词。
[0138]在此举一个具体的例子,假设用户A在百度中输入“defy手机”进行搜索,并得到想要的搜索结果页面(页面地址为B),则用户搜索行为数据的数据字段具体可以包括:“defy手机”、用户A的IP地址和搜索结果中的多个页面地址;假设用户A点击了搜索结果页面中展现的某个页面地址C,并访问了相应的网页,则用户访问行为数据的数据字段具体可以包括:访问页面地址C、用户A的IP地址和搜索来源页面地址B ;综上,本申请步骤BI和步骤B2可以针对访问页面地址C,提取得到相应的用户搜索行为特征“defy手机”。
[0139]本申请实施例中,采用用户物理地址主要是为了确保对同一用户的网络行为数据进行分析。
[0140]用户搜索行为特征具体可以包括搜索关键词和相应的特征值。需要说明的是,对于一个网页类别样本而言,其可能由不同用户的同一搜索关键词引导得到,此时,该同一搜索关键词的特征值应与用户数量相应;另外,一个网页类别样本也可能由不同的搜索关键词引导得到,则此种情况下,其用户搜索行为特征具体可以包括多个搜索关键词和相应的特征值。
[0141]提取方案P2、
[0142]由于一个网页类别样本可能由多个搜索关键词引导得到,且一个搜索关键词得到的搜索结果中可能包含有多个网页类别样本;这样,网页类别样本和搜索关键词存在多对多的映射关系。
[0143]并且,依据搜索行为和访问行为的频繁性,用户搜索行为数据和用户访问行为数据通常为海量数据,因此,提取方案P2预先对海量的用户搜索行为数据和用户访问行为数据进行分析,得到搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,并保存至关系数据库。
[0144]这样,提取方案2具体可以包括:依据所述网页类别样本的页面地址,在所述关系数据库中检索所述网页类别样本对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征;所述关系数据库中记录有搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,所述关系频率为对所述用户搜索行为数据和用户访问行为数据进行分析得到。
[0145]在本申请的一种优选实施例中,可以通过如下步骤对所述用户搜索行为数据和用户访问行为数据进行分析得到所述关系频率:
[0146]步骤D1、通过查询用户访问行为数据,获取搜索跳转访问页面的页面地址及对应的用户物理地址和搜索跳转信息;所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,还会记录有搜索结果页面的页面地址;所述搜索跳转访问页面为来源于搜索结果页面的访问页面;
[0147]步骤D2、针对搜索跳转访问页面,依据其对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到其对应的搜索关键词,并记录查询命中的搜索跳转访问页面和搜索关键词的次数;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中具体可以包括依据搜索关键词得到的多个页面地址;
[0148]步骤D3、建立查询命中的搜索关键词和搜索跳转访问页面之间的映射关系,并将查询命中的搜索跳转访问页面和搜索关键词的次数作为相应的关系频率。
[0149]假设搜索跳转访问页面记为Pi{i=0,1,……M}。那么,搜索关键词记为Tj{j =
O,1,……N},那么,在本申请的一种应用示例中,可以采用映射关系矩阵存储搜索关键词和搜索跳转访问页面之间的映射关系,矩阵元素Rij则表示相应的关系频率。参照图2,示出了本申请一种映射关系矩阵的示意图。
[0150]在依据图2所示映射关系矩阵中检索所述网页类别样本对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征的过程中,可以依据所述网页类别样本的页面地址检索映射关系矩阵的搜索跳转访问页面,假设检索得到搜索跳转访问页面Pi,那么Pi对应用户搜索行为特征可以表示为Fi=ITil, Ti2,…,TiJ,Fi的关系频率可以表示为Ri= {Rn,Ri2,…,RilJ,其中,N为Pi对应搜索关键词的总数。
[0151]例如,用户A通过搜索关键词T1= “手机”和T2= “电脑”搜索,并在搜索结果页面返回后,点击搜索页面内的链接访问了网站P1=Ittp:1l nb.zol.com.cn/”,用户B通过搜索关键词T3= “笔记本”和T2= “电脑”搜索,同样通过点击返回结果页面内的链接访问了网站P1= “http: // nb.zol.com.cn/”。那么,Fl可以表示为F1=IT1, T2, T3I,其对应的关系频率可以表示为Ri=U, 2,1} ο
[0152]步骤103、依据所述用户搜索行为特征对所述网页类别样本进行训练,得到网页分类器。
[0153]在具体实现中,可以采用各种统计方法依据所述用户搜索行为特征对所述网页类别样本进行训练,得到网页分类器。例如,典型的统计方法具体可以包括SVM(支持向量机,support vector machine)方法,贝叶斯方法、神经网络方法、K近邻方法、决策树方法等等。
[0154]在此提供一种SVM的训练方法示例,假设SVM的分类线性方程为x.w+b = O,对分类线性方程进行归一化,使得对线性可分的样本集(Xi,yi),i = l,...,n,X e Rd,y e {+I, -1},满足 Yi [(w.Xi)+b]-1 ^ O, i = I,…,η,且使4||w||2最小时,分类间隔 2/| w取最小值。
[0155]其中,Xi表示网页类别样本,yi表示Xi所属的网页类别,w表示用户搜索行为特征,分类间隔2/I Iwl I取最小值表示最优分类面,X是待分类网页的用户搜索行为特征,η为网页类别的数量,Rd表示d维的实数向量集合。
[0156]可以利用拉格朗日(Lagrange)优化方法可以把上述最优分类面问题转化为其对偶问题,而在最优分类面中采用适当的内积函数K(xi,xj)就可以实现某一非线性变换后的线性分类,相应的分类函数为
【权利要求】
1.一种网页分类方法,其特征在于,包括: 提取待分类网页的用户搜索行为特征; 依据第一网页分类器判别该用户搜索行为特征所属的网页类别;其中,所述第一网页分类器为依据网页类别样本的用户搜索行为特征所构造的分类器。
2.如权利要求1所述的方法,其特征在于,所述提取待分类网页的用户搜索行为特征的步骤,进一步包括: 依据所述待分类网页的页面地址,在关系数据库中检索所述待分类网页对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征; 所述关系数据库中记录有搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,所述关系频率为对用户搜索行为数据和用户访问行为数据进行分析得到,所述搜索跳转访问页面为来源于搜索结果页面的访问页面。
3.如权利要求1所述的方法,其特征在于,所述提取待分类网页的用户搜索行为特征的步骤,进一步包括: 依据所述待分类网页的页面地址, 在用户访问行为数据中查询得到所述待分类网页对应的用户物理地址和搜索跳转信息; 所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时其包括有搜索结果页面的页面地址; 依据所述待分类网页对应的用户物理地址和搜索跳转信息,在所述用户搜索行为数据中查询得到所述待分类网页对应的搜索关键词,作为用户搜索行为特征; 所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址。
4.如权利要求2所述的方法,其特征在于,通过如下步骤对所述用户搜索行为数据和用户访问行为数据进行分析得到所述关系频率: 通过查询用户访问行为数据,获取搜索跳转访问页面的页面地址及对应的用户物理地址和搜索跳转信息; 所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,其包括有搜索结果页面的页面地址;所述搜索跳转访问页面为来源于搜索结果页面的访问页面; 针对搜索跳转访问页面,依据其对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到其对应的搜索关键词,并记录查询命中的搜索跳转访问页面和搜索关键词的次数;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址; 建立查询命中的搜索关键词和搜索跳转访问页面之间的映射关系,并将查询命中的搜索跳转访问页面和搜索关键词的次数作为相应的关系频率。
5.如权利要求1所述的方法,其特征在于,还包括: 提取待分类网页的网页内容特征; 对所述网页内容特征进行降维;融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征; 依据第二网页分类器判别该融合特征所属的网页类别;其中,所述第二网页分类器为依据网页类别样本的融合特征所构造的分类器。
6.如权利要求5所述的方法,其特征在于,所述用户搜索行为特征为搜索关键词集合,所述网页内容特征为内容词汇集合; 所述融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征的步骤,进一步包括: 选取全部所述搜索关键词集合,以及,特定维数的部分所述内容词汇集合,组成融合特征;所述特定维数为第一预设维数与所述搜索关键词集合维数的差值;或者, 对所述搜索关键词集合和内容词汇集合的特征值进行归一化,依据归一化后的特征值对所述搜索关键词集合和内容词汇集合进行从高到低的合并排序,并选取排在前面的数目与第二预设维数相应的词汇,组成融合特征。
7.如权利要求5或6所述的方法,其特征在于,所述网页内容特征为内容词汇集合; 所述对所述网页内容特征进行降维的步骤,进一步包括: 依据分类影响因子,去除所述内容词汇集合中的噪声特征;所述分类影响因子具体可以包括规范因子、位置因子、标签因子、字体因子和词性因子中的一项或多项。
8.如权利要求5或6所述的方法,其特征在于,所述网页内容特征为内容词汇集合; 所述对所述网页内容特征进行降维的步骤,进一步包括:` 依据词汇在网页文档中的词频,统计所述内容词汇集合中词汇在背景语料库中的背景语料权重; 选取背景语料权重大于预设阈值的词汇,组成降维后的内容词汇集合。
9.如权利要求1所述的方法,其特征在于,所述第一网页分类器为通过如下步骤构造的分类器: 获取网页类别样本; 提取所述网页类别样本的用户搜索行为特征; 依据所述用户搜索行为特征对所述网页类别样本进行训练,得到第一网页分类器。
10.一种网页分类器的训练方法,其特征在于,包括: 获取网页类别样本; 提取所述网页类别样本的用户搜索行为特征; 依据所述用户搜索行为特征对所述网页类别样本进行训练,得到第一网页分类器。
11.如权利要求10所述的方法,其特征在于,所述提取所述网页类别样本的用户搜索行为特征的步骤,进一步包括: 依据所述网页类别样本的页面地址,在关系数据库中检索所述网页类别样本对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征; 所述关系数据库中记录有搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,所述关系频率为对用户搜索行为数据和用户访问行为数据进行分析得到,所述搜索跳转访问页面为来源于搜索结果页面的访问页面。
12.如权利要求10所述的方法,其特征在于,所述提取所述网页类别样本的用户搜索行为特征的步骤,进一步包括:依据所述网页类别样本的页面地址,在用户访问行为数据中查询得到所述网页类别样本对应的用户物理地址和搜索跳转信息;
所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时其包括有搜索结果页面的页面地址; 依据所述网页类别样本对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到所述网页类别样本对应的搜索关键词,作为用户搜索行为特征;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址。
13.如权利要求11所述的方法,其特征在于,通过如下步骤对所述用户搜索行为数据和用户访问行为数据进行分析得到所述关系频率: 通过查询用户访问行为数据,获取搜索跳转访问页面的页面地址及对应的用户物理地址和搜索跳转信息; 所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,其包括有搜索结果页面的页面地址;所述搜索跳转访问页面为来源于搜索结果页面的访问页面; 针对搜索跳转访问页面,依据其对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到其对应的搜索关键词,并记录查询命中的搜索跳转访问页面和搜索关键词的次数;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址; 建立查询命中的搜索关键词和搜索跳转访问页面之间的映射关系,并将查询命中的搜索跳转访问页面和搜索关键词的次数作为相应的关系频率。
14.如权利要求10所述的方法,其特征在于,还包括: 提取所述网页类别样本的网页内容特征; 对所述网页内容特征进行降维; 融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征; 依据所述融合特征对所述网页类别样本进行训练,得到第二网页分类器。
15.如权利要求14所述的方法,其特征在于,所述用户搜索行为特征为搜索关键词集合,所述网页内容特征为内容词汇集合; 所述融合所述用户搜索行为特征和所述降维后的网页内容特征,得到融合特征的步骤,进一步包括: 选取全部所述搜索关键词集合,以及,特定维数的部分所述内容词汇集合,组成融合特征;所述特定维数为第一预设维数与所述搜索关键词集合维数的差值;或者, 对所述搜索关键词集合和内容词汇集合的特征值进行归一化,依据归一化后的特征值对所述搜索关键词集合和内容词汇集合进行从高到低的合并排序,并选取排在前面的数目与第二预设维数相应的词汇,组成融合特征。
16.如权利要求14所述的方法,其特征在于,所述网页内容特征为内容词汇集合; 所述对所述网页内容特征进行降维的步骤,进一步包括:依据分类影响因子,去除所述内容词汇集合中的噪声特征;所述分类影响因子具体可以包括规范因子、位置因子、标签因子、字体因子和词性因子中的一项或多项。
17.如权利要求14所述的方法,其特征在于,所述网页内容特征为内容词汇集合; 所述对所述网页内容特征进行降维的步骤,进一步包括: 依据词汇在网页文档中的词频,统计所述内容词汇集合中词汇在背景语料库中的背景语料权重; 选取背景语料权重大于预设阈值的词汇,组成降维后的内容词汇集合。
18.—种网页分类装置,其特征在于,包括: 提取模块,用于提取待分类网页的用户搜索行为特征; 判别模块,用于依据第一网页分类器判别该用户搜索行为特征所属的网页类别;其中,所述第一网页分类器为依据网页类别样本的用户搜索行为特征所构造的分类器。
19.如权利要求18所述的装置,其特征在于,所述提取模块进一步包括: 检索子模块,用于依据所述待分类网页的页面地址,在所述关系数据库中检索所述待分类网页对应的搜索关键词及相应的关系频率,得到相应的用户搜索行为特征;所述关系数据库中记录有搜索关键词和搜索跳转访问页面之间的映射关系及相应的关系频率,所述关系频率为对用户搜索行为数据和用户访问行为数据进行分析得到,所述搜索跳转访问页面为来源于搜索结果页面的访问页面。
20.如权利要求18所述 的装置,其特征在于,所述提取模块进一步包括: 第一查询子模块,用于依据所述待分类网页的页面地址,在用户访问行为数据中查询得到所述待分类网页对应的用户物理地址和搜索跳转信息;所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时其包括有搜索结果页面的页面地址; 第二查询子模块,用于依据所述待分类网页对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到所述待分类网页对应的搜索关键词,作为用户搜索行为特征;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址。 在本申请的一种优选实施例中,所述装置还可以包括:用于对所述用户搜索行为数据和用户访问行为数据进行分析得到所述关系频率的关系频率分析模块;所述关系频率分析模块具体可以包括: 第一查询获取子模块,用于通过查询用户访问行为数据,获取搜索跳转访问页面的页面地址及对应的用户物理地址和搜索跳转信息;所述用户访问行为数据记录有访问页面的页面地址及对应的用户物理地址和搜索跳转信息,所述搜索跳转信息用于表示当前访问页面是否来源于搜索结果页面,并且,在来源于搜索结果页面时,其包括有搜索结果页面的页面地址;所述搜索跳转访问页面为来源于搜索结果页面的访问页面; 第二查询获取子模块,用于针对搜索跳转访问页面,依据其对应的用户物理地址和搜索跳转信息,在用户搜索行为数据中查询得到其对应的搜索关键词,并记录查询命中的搜索跳转访问页面和搜索关键词的次数;所述用户搜索行为数据记录有搜索关键词及对应的用户物理地址和搜索结果,其中,所述搜索结果中包括依据搜索关键词得到的多个页面地址; 映射关系建立子模块,用于建立查询命中的搜索关键词和搜索跳转访问页面之间的映射关系,并将查询命中的搜索跳转访问页面和搜索关键词的次数作为相应的关系频率。
21.—种网页分类器的训练装置,其特征在于,包括: 样本获取模块,用于获取网页类别样本; 特征提取模块,用于提取所述网页类别样本的用户搜索行为特征; 训练模块,用于依据所述用户搜索行为特征对所述网页类别样本进行训练,得到网页分类器。
【文档编号】G06F17/30GK103678422SQ201210362603
【公开日】2014年3月26日 申请日期:2012年9月25日 优先权日:2012年9月25日
【发明者】张中峰, 刘书良, 赵琴琴, 张一凡, 罗峰, 黄苏支, 李娜 申请人:北京亿赞普网络技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1