网页类型识别方法及装置制造方法

文档序号：6515256阅读：128来源：国知局

网页类型识别方法及装置制造方法
【专利摘要】本发明公开了一种网页类型识别方法及装置，该方法包括：在多个已知网页类型的样本网页中分别统计是否包含多个目的页面特征，得到统计结果；利用决策树算法对多个样本网页的已知网页类型和统计结果进行分析，得到目的页面特征的优先级排序，以及目的页面特征与网页类型之间的对应关系；按照所述优先级排序在待识别网页中依次查找所述目的页面特征，根据查找结果和所述对应关系确定待识别网页的网页类型。与现有技术相比，该方法可以利用样本网页对多个目的页面特征的有效性进行排序，在识别待识别网页时，按照排序先查找有效性较高的目的页面特征，然后查找有效性较低的目的页面特征，缩短了识别耗费的时间，提高了识别效率。
【专利说明】网页类型识别方法及装置
【技术领域】
[0001]本发明涉及移动通信领域，特别是涉及一种网页类型识别方法及装置。
【背景技术】
[0002]小说阅读器是一种提供小说下载阅读功能的软件，不仅能够提供本地小说阅读下载，一般还支持网络小说的下载、阅读、搜索等功能。网络小说下载或阅读，是以互联网上的各个小说类的网页为基础，通过将这些网页上的小说进行抽取，再重新整合成合适的格式呈现给用户。由于网页小说的目录页面和内容页面采用的抽取算法不同，通常需要首先判断小说的网页类型，然后根据网页类型再采用相应的抽取算法进行抽取。
[0003]目前识别网页类型的方法有:基于白名单识别和基于页面关键字识别。基于白名单识别的方法是指将互联网上的各个目标网页归入白名单中，针对白名单中不同网页的页面特征采用不同的识别算法，如起点网、吾读网等小说网页分别有各自的排版布局方法，预先根据其排版特征设计出每个网站对应的识别算法来区分这些网站的小说的网页类型。基于页面关键字方法根据页面是否包含区分目录页面和内容页面的关键字来识别网页类型，例如某一网页包含“设置字体”，则认为当前网页类型为内容页面。
[0004]上述基于白名单和页面关键字识别的方法都存在一定的缺点。基于白名单识别的方法，对于未加入到白名单中网页的网页类型往往无法准确识别，而随着互联网网页数量巨大且网站不断增加，白名单中的网页的数目也在不断增多，导致维护成本非常高；而基于页面关键字识别的方法，由于网络页面差别很大，用于区分网页类型的关键字可能不适用所有的网页，因此页面关键字方法往往无法准确识别网页类型。

【发明内容】

[0005]本发明实施例提供了一种网页类型识别方法及装置，以解决现有技术中存在无法对网页类型进行准确识别的问题。
[0006]为了解决上述技术问题，第一方面，本发明实施例公开了一种网页类型识别方法，包括:在多个已知网页类型的样本网页中分别统计是否包含多个目的页面特征，得到统计结果；利用决策树算法对多个样本网页的已知网页类型和统计结果进行分析，得到目的页面特征的优先级排序，以及目的页面特征与网页类型之间的对应关系；按照所述优先级排序在待识别网页中依次查找所述目的页面特征，根据查找结果和所述对应关系确定待识别网页的网页类型。
[0007]第一方面第一种可能的实施方式中，所述在多个已知网页类型的样本网页中分别统计是否包含多个目的页面特征，得到统计结果的步骤包括:逐一判断所述样本网页是否包含目的页面特征；当所述样本网页包含所述目的页面特征时，记录为第一特征；当所述样本网页不包含所述目的页面特征时，记录为第二特征；构建包含所有样本网页对应第一特征、第二特征的表格，将所述表格作为统计结果。
[0008]结合第一方面第一种可能的实施方式，第一方面第二种可能的实施方式中，所述利用决策树算法对多个样本网页的已知网页类型和统计结果进行分析，得到目的页面特征的优先级排序，以及目的页面特征与网页类型之间的对应关系的步骤包括:根据所述表格计算多个所述目的页面特征的信息增益；将多个所述目的页面特征按照信息增益由大到小进行排序，得到目的页面特征的优先级排序；根据多个样本网页的已知网页类型和所述目的页面特征的优先级排序生成目的页面特征与网页类型的对应关系。
[0009]结合第一方面第二种可能的实施方式，第一方面第三种可能的实施方式中，按以下方式计算每个所述目的页面特征的信息增益:根据所述表格计算目的页面特征的相对应第一特征的比值和第二特征的比值；分别计算第一特征和第二特征的信息熵；根据所述第一特征和第二特征的信息熵计算目的页面特征的条件熵；根据所述表格计算目的页面特征的信息熵；将目的页面特征的信息熵减去目的页面特征的条件熵得到目的页面特征的信息增益。
[0010]结合第一方面、第一方面第一种可能的实施方式、第一方面第二种可能的实施方式或第一方面第三种可能的实施方式，所述在待识别网页中按照所述优先级排序依次查找所述目的页面特征，根据查找结果和所述对应关系确定待识别网页的网页类型的步骤包括:在待识别网页中查找优先级排序最大的目的页面特征；判断所述待识别网页中是否存在优先级排序最大的目的页面特征；当所述待识别网页中存在优先级排序最大的目的页面特征时，在所述对应关系中查找与存在的目的页面特征相对应的网页类型，将查找到的网页类型作为待识别网页的网页类型；当所述待识别网页中不存在优先级排序最大的目的页面特征时，按照优先级排序由大到小在待识别网页中依次查找其它目的页面特征，直至查找到待识别网页的网页类型，或者，直至将对应关系表中所有目的页面特征查找完成。
[0011]第二方面，本发明实施例公开了一种网页类型识别装置，包括:统计单元，用于在多个已知网页类型的样本网页中分别统计是否包含多个目的页面特征，得到统计结果；分析单元，用于利用决策树算法对对多个样本网页的已知网页类型和统计结果进行分析，得到目的页面特征的优先级排序，以及目的页面特征与网页类型之间的对应关系；网页类型确定单元，用于按照所述优先级排序在待识别网页中依次查找所述目的页面特征，根据查找结果和所述对应关系确定待识别网页的网页类型。
[0012]第二方面第一种可能的实施方式中，所述统计单元包括:第一判断单元，用于逐一判断所述样本网页是否包含目的页面特征；记录单元，用于当所述样本网页包含所述目的页面特征时，记录为第一特征；当所述样本网页不包含所述目的页面特征时，记录为第二特征；表格构建单兀，用于构建包含所有样本网页对应第一特征、第二特征的表格，将所述表格作为统计结果。
[0013]结合第二方面第一种可能的实施方式，第二方面第二种可能的实施方式中，所述分析单元包括:信息增益计算单元，用于根据所述表格计算多个所述目的页面特征的信息增益；排序单元，用于将多个所述目的页面特征按照信息增益由大到小进行排序，得到目的页面特征的优先级排序；对应关系生成单元，用于根据多个样本网页的已知网页类型和所述目的页面特征的优先级排序生成目的页面特征与网页类型的对应关系。
[0014]结合第二方面第二种可能的实施方式，第二方面第三种可能的实施方式中，所述信息增益计算单元包括:比值计算单元，用于根据所述表格计算目的页面特征的相对应第一特征的比值和第二特征的比值；第一信息熵计算单元，用于分别计算第一特征和第二特征的信息熵；条件熵计算单元，用于根据所述第一特征和第二特征的信息熵计算目的页面特征的条件熵；第二信息熵计算单元，用于根据所述表格计算目的页面特征的信息熵；信息增益计算子单元，用于将目的页面特征的信息熵减去目的页面特征的条件熵得到目的页面特征的信息增益。
[0015]结合第二方面、第二方面第一种可能的实施方式、第二方面第二种可能的实施方式或第二方面第三种可能的实施方式，第二方面第四种可能的实施方式中所述网页类型确定单元包括:目的页面特征查找单元，在待识别网页中查找优先级排序最大的目的页面特征；第二判断单元，用于判断所述待识别网页中是否存在优先级排序最大的目的页面特征；网页类型查找单元，用于当所述待识别网页中存在优先级排序最大的目的页面特征时，在所述对应关系中查找与存在的目的页面特征相对应的网页类型，将查找到的网页类型作为待识别网页的网页类型；当所述待识别网页中不存在优先级排序最大的目的页面特征时，所述目的页面特征查找单元还按照优先级排序由大到小在待识别网页中依次查找其它目的页面特征，直至查找到待识别网页的网页类型，或者，直至查找完对应关系表中所有目的页面特征。
[0016]由以上技术方案可见，本申请实施例提供的该网页类型识别方法，首先统计多个已知网页类型的样本网页对多个目的网页特征的包含情况，得到样本网页对多个目的页面特征的统计结果，然后利用决策树算法进行分析，得到目的页面特征的优先级排序，以及目的页面特征与网页类型之间的对应关系，目的页面特征的优先级排序就是目的页面特征识别网页类型的有效性排序，最后按照优先级排序在待识别网页中依次查找多个目的页面特征，并根据查找结果和目的页面特征与网页类型之间的对应关系确定待识别网页的网页类型。
[0017]与现有技术相比，该方法可以利用样本网页对多个目的页面特征的有效性进行排序，在识别待识别网页时，按照排序先查找有效性较高的目的页面特征，然后查找有效性较低的目的页面特征，提高了识别准确率，并且缩短了识别耗费的时间，提高了识别效率。
【专利附图】

【附图说明】
[0018]为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0019]图1为本申请实施例提供的一种网页类型识别方法的流程示意图；
[0020]图2为本申请实施例提供的SlOO的详细流程示意图；
[0021]图3为本申请实施例提供的S200的详细流程示意图；
[0022]图4为本申请实施例提供的S201的详细流程示意图；
[0023]图5为本申请实施例中得到页面特征与网页类型的对应关系的最终结果的可视化示意图；
[0024]图6为本申请实施例提供的S300的详细流程示意图；
[0025]图7为本申请实施例提供的一种网页类型识别装置的结构示意图；
[0026]图8为本申请实施例提供的统计单元的结构示意图；
[0027]图9为本申请实施例提供的分析单元的结构示意图；[0028]图10为本申请实施例提供的信息增益计算单元的结构示意图；
[0029]图11为本申请实施例提供的网页类型确定单元的结构示意图。
【具体实施方式】
[0030]为了使本【技术领域】的人员更好地理解本发明实施例中的技术方案，并使本发明实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明实施例中技术方案作进一步详细的说明。
[0031]参见图1，为本申请实施例提供的一种网页类型识别方法的流程示意图，所述方法包括以下步骤:
[0032]SlOO:在多个已知网页类型的样本网页中分别统计是否包含多个目的页面特征，得到统计结果。
[0033]已知网页类型的样本网页可以随机选取小说网站的网页，样本网页的网页类型可以包括:小说内容页和小说目录页等。目的页面特征是指样本网页中包含的特征，可以根据网页中的字数、特征关键字或者网页字数与特征关键字从样本网页中提取多个目的页面特征，另外，还可以接收用户输入的多个页面特征。在本申请其他实施例中，还可以根据其它参数来选取目的页面特征，在此不再一一列举，并且可以采用其他方式获取目的页面特征。
[0034]在本申请实施例中，如图2所示，该步骤可以包括以下步骤:
[0035]SlOl:逐一判断所述样本网页是否包含目的页面特征。
[0036]对于每个样本网页，判断该样本网页包含每个目的页面特征的情况，当样本网页包含某一个目的页面特征时，进行S102，当样本网页不包含某一个目的页面特征时，进行S103。
[0037]S102:记录为第一特征。
[0038]S103:记录为第二特征。
[0039]第一特征与第二特征是用于区分样本网页是否包含某一目的页面特征，所以要求第一特征与第二特征不同。在本申请实施例中，第一特征可以为1，第二特征可以为0，这里数值来区分样本网页是否包含某一目的页面特征仅是本申请的一个优选实施例，在本申请其他实施例中，还可以采用其它方式来区分样本网页是否包含某一个目的网页特征，例如:第一特征和第二特征用选用不同的字母，或者，第一特征和第二特征选用不同的高低电平信号。
[0040]S104:构建包含所有样本网页对应第一特征、第二特征的表格,将所述表格作为统计结果。
[0041]参见表1，为本申请实施例提供的24个样本网页的统计结果的示例，在本申请实施例中，在最后一栏中关于样本网页的网页类型增加到样本网页的统计结果中，并且样本网页的网页类型为内容页时用I表示，样本网页的网页类型为目录页时用O表示。
[0042]
【权利要求】
1.一种网页类型识别方法，其特征在于，包括: 在多个已知网页类型的样本网页中分别统计是否包含多个目的页面特征，得到统计结果; 利用决策树算法对多个样本网页的已知网页类型和统计结果进行分析，得到目的页面特征的优先级排序，以及目的页面特征与网页类型之间的对应关系；按照所述优先级排序在待识别网页中依次查找所述目的页面特征，根据查找结果和所述对应关系确定待识别网页的网页类型。
2.根据权利要求1所述的方法，其特征在于，所述在多个已知网页类型的样本网页中分别统计是否包含多个目的页面特征，得到统计结果的步骤包括: 逐一判断所述样本网页是否包含目的页面特征；当所述样本网页包含所述目的页面特征时，记录为第一特征；当所述样本网页不包含所述目的页面特征时，记录为第二特征；构建包含所有样本网页对应第一特征、第二特征的表格，将所述表格作为统计结果。
3.根据权利要求2所述的方法，其特征在于，所述利用决策树算法对多个样本网页的已知网页类型和统计结果进行分析，得到目的页面特征的优先级排序，以及目的页面特征与网页类型之间的对应关系的步骤包括: 根据所述表格计算多个所述目的页面特征的信息增益；将多个所述目的页面特征按照信息增益由大到小进行排序，得到目的页面特征的优先级排序；根据多个样本网页的已知网页类型和所述目的页面特征的优先级排序生成目的页面特征与网页类型的对应关系。
4.根据权利要求3所述的方法，其特征在于，按以下方式计算每个所述目的页面特征的信息增益: 根据所述表格计算目的页面特征的相对应第一特征的比值和第二特征的比值；分别计算第一特征和第二特征的信息熵；根据所述第一特征和第二特征的信息熵计算目的页面特征的条件熵；根据所述表格计算目的页面特征的信息熵；将目的页面特征的信息熵减去目的页面特征的条件熵得到目的页面特征的信息增益。
5.根据权利要求1-4任一项所述的方法，其特征在于，所述在待识别网页中按照所述优先级排序依次查找所述目的页面特征，根据查找结果和所述对应关系确定待识别网页的网页类型的步骤包括: 在待识别网页中查找优先级排序最大的目的页面特征；判断所述待识别网页中是否存在优先级排序最大的目的页面特征；当所述待识别网页中存在优先级排序最大的目的页面特征时，在所述对应关系中查找与存在的目的页面特征相对应的网页类型，将查找到的网页类型作为待识别网页的网页类型；当所述待识别网页中不存在优先级排序最大的目的页面特征时，按照优先级排序由大到小在待识别网页中依次查找其它目的页面特征，直至查找到待识别网页的网页类型，或者，直至将对应关系表中所有目的页面特征查找完成。
6.一种网页类型识别装置，其特征在于，包括: 统计单元，用于在多个已知网页类型的样本网页中分别统计是否包含多个目的页面特征，得到统计结果；分析单元，用于利用决策树算法对对多个样本网页的已知网页类型和统计结果进行分析，得到目的页面特征的优先级排序，以及目的页面特征与网页类型之间的对应关系；网页类型确定单元，用于按照所述优先级排序在待识别网页中依次查找所述目的页面特征，根据查找结果和所述对应关系确定待识别网页的网页类型。
7.根据权利要求6所述的装置，其特征在于，所述统计单元包括: 第一判断单元，用于逐一判断所述样本网页是否包含目的页面特征；记录单元，用于当所述样本网页包含所述目的页面特征时，记录为第一特征；当所述样本网页不包含所述目的页面特征时，记录为第二特征；表格构建单兀，用于构建包含所有样本网页对应第一特征、第二特征的表格，将所述表格作为统计结果。
8.根据权利要求7所述的装置，其特征在于，所述分析单元包括: 信息增益计算单元，用于根据所述表格计算多个所述目的页面特征的信息增益；排序单元，用于将多个所述目的页面特征按照信息增益由大到小进行排序，得到目的页面特征的优先级排序；对应关系生成单元，用于根据多个样本网页的已知网页类型和所述目的页面特征的优先级排序生成目的页面特征与网页类型的对应关系。
9.根据权利要求8所述的装置，其特征在于，所述信息增益计算单元包括: 比值计算单元，用于根据所述表格计算目的页面特征的相对应第一特征的比值和第二特征的比值；第一信息熵计算单元，用于分别计算第一特征和第二特征的信息熵；条件熵计算单元，用于根据所述第一特征和第二特征的信息熵计算目的页面特征的条件熵；第二信息熵计算单元，用于根据所述表格计算目的页面特征的信息熵；信息增益计算子单元，用于将目的页面特征的信息熵减去目的页面特征的条件熵得到目的页面特征的信息增益。
10.根据权利要求6-9任一项所述的装置，其特征在于，所述网页类型确定单元包括: 目的页面特征查找单元，在待识别网页中查找优先级排序最大的目的页面特征；第二判断单元，用于判断所述待识别网页中是否存在优先级排序最大的目的页面特征；网页类型查找单元，用于当所述待识别网页中存在优先级排序最大的目的页面特征时，在所述对应关系中查找与存在的目的页面特征相对应的网页类型，将查找到的网页类型作为待识别网页的网页类型；当所述待识别网页中不存在优先级排序最大的目的页面特征时，所述目的页面特征查找单元还按照优先级排序由大到小在待识别网页中依次查找其它目的页面特征，直至查找到待识别网页的网页类型，或者，直至查找完对应关系表中所有目的页面特征。
【文档编号】G06F17/30GK103577547SQ201310476416
【公开日】2014年2月12日申请日期:2013年10月12日优先权日:2013年10月12日
【发明者】梁捷, 王磊申请人:优视科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：梁捷;王磊
技术所有人：优视科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。