一种电商网站的页面信息获取方法

文档序号：9453061阅读：1623来源：国知局

一种电商网站的页面信息获取方法
【技术领域】
[0001] 本发明涉及互联网信息技术，并且尤其涉及一种电商网站的页面信息获取方法。
【背景技术】
[0002] 电商网站(诸如淘宝、亚马逊）的网站页面包含诸如商品和用户评论等信息。这些信息可以被收集以用于数据分析，例如被用于个性化推荐、商品营销分析、情感分析等。
[0003] 现有技术中，网络爬虫作为遍历下载网络资源的程序常常被用于收集网站页面信息。网络爬虫根据页面抓取策略确定页面抓取的次序和更新策略等。主流开源网络爬虫诸如Nutch、Heritrix和Crawler4J采用广度优先搜索策略或者宽度优先搜索策略分析已抓取页面中的链接发现新页面；同时，在固定时间重新遍历整个网站页面，然后更新已抓取的页面内容。对于电商网站而言，这种页面信息获取方案不能稳定地抓取页面信息，消耗较大的计算资源来更新已抓取的内容将，并且难以控制抓取过程。

【发明内容】

[0004] 根据本发明的一个目的公开一种电商网站的页面信息获取方法，该电商网站包括主页面、导航页面、商品页面，其中，主页面具有导航页面URL，导航页面具有商品页面URL，一个导航页面对应一个类别的商品，该方法包括：从主页面提取导航页面URL，从导航页面提取商品页面URL，根据商品页面URL下载商品页面信息，其中，每隔预定的时间间隔从导航页面重新下载商品页面URL，其中下载的商品页面URL按上架时间被排序，其中，通过以下过程对商品页面信息进行更新：按顺序比较最新下载的导航页面的商品页面URL与对应序位历史下载的该导航页面的商品页面URL，当比较结果不相同时，将历史下载的该导航页面的商品页面URL更新为对应序位的最新下载的导航页面的商品页面URL，并下载该最新下载的导航页面的商品页面 URL的商品信息。
[0005] 在一个实施例中，通过以下过程对商品页面信息进行更新：按顺序比较最新下载的导航页面的商品页面URL与对应序位历史下载的该导航页面的商品页面URL,以及比较该最新下载的导航页面的商品页面URL的商品页面的SimHash特征码与对应序位历史下载的该导航页面的商品页面URL所分别对应的商品页面的SimHash 特征码，当该最新下载的导航页面的商品页面URL与对应序位历史下载的该导航页面的商品页面URL不相同并且该最新下载的导航页面的商品页面URL的商品页面的SimHash特征码与对应序位历史下载的该导航页面的商品页面的URL商品页面的SimHash特征码差异小于设定值时，将历史下载的该导航页面的商品页面URL更新为对应序位的最新下载的导航页面的向品页面URL，并下载该最新下载的导航页面的向品页面URL的向品彳目息。
[0006] 在一个实施例中，通过导航页面URL模式从主页面提取导航页面URL，其中，导航页面URL模式以正则表达式形式表示。
[0007] 在一个实施例中，从导航页面提取商品页面URL包括以下过程：根据商品页面XPath模式从导航页面提取匹配XPath模式的URL作为商品页面URL，其中，通过以下过程获得对应一个导航页面的一类商品页面的XPath模式：创建该导航页面的所有URL所在节点的XPath集合，对该XPath集合利用KNN聚类算法进行聚类，其中使用XPath距离作为该KNN聚类算法的距离度量参数，选择成员数目最大的类作为商品页面URL的模板区域，将上述选择的类中的商品页面URL进行模式化得到该导航页面的该类商品页面的XPath模式，其中，所述XPath距离dis()指示XPathp,和XPathp2的差异程度，其计算公式如下：
其中，TL()是将XPath分解成一组序偶的函数，每个序偶由该XPath中的标签名称和该标签在该XPath中的位置序号组成。
[0008] 本发明的优势包括以下的一个或多个：在进行页面更新时，无需遍历整个网站页面，避免无意义的页面重复下载。通过无监督的模板区识别技术，无需人工标注的训练数据，自动化程度高。利用商品类别进行分块下载。相比于广度优先策略和深度优先策略，页面搜索顺序清晰明了，方便用户了解网络爬虫的爬取进度。
【附图说明】
[0009] 在参照附图阅读了本发明的【具体实施方式】以后，本领域技术人员将会更清楚地了解本发明的各个方面。本领域技术人员应当理解的是，这些附图仅仅用于配合具体实施方式说明本发明的技术方案，而并非意在对本发明的保护范围构成限制。
[0010] 图1是根据本发明实施例的电商网站的页面信息获取方法的示意图。
[0011] 图2示出根据本发明实施例的电商网站的页面组织示意图。
[0012] 图3是根据本发明实施例的历史下载索引示例。
[0013] 图4是根据本发明实施例的导航页面示例。
【具体实施方式】
[0014] 下面参照附图，对本发明的【具体实施方式】作进一步的详细描述。在下面的描述中，为了解释的目的，陈述许多具体细节以便提供对本发明的一个或多个方面的透彻理解。然而，对于本领域技术人员可以显而易见的是，可以这些具体细节的较少程度来实践各本发明的一个或多个方面。
[0015] 电商网站的页面组织具有层次结构，通常包括主页面、导航页面、包含商品信息的商品页面。这三类的页面中含有URL(统一资源定位符）链接，逐一指向下一类页面。商品页面信息是电子商务应用（例如个性化推荐、比价等）的重要的数据来源，下文将描述从电商网站获取商品页面信息的方法。
[0016] 图1是根据本发明实施例的电商网站的页面信息获取方法的示意图。这里，电商网站包括主页面、导航页面、商品页面，其中，主页面具有导航页面URL，导航页面具有商品页面URL，一个导航页面对应一个类别的商品。
[0017] 如图1所示，在步骤101中从主页面提取导航页面URL，在步骤102中从导航页面提取商品页面URL，在步骤103中根据商品页面URL下载商品页面信息。图2示出根据本发明实施例的电商网站的页面组织示意图。
[0018] 在一个实施例中，每隔预定的时间间隔从导航页面重新下载(提取)商品页面URL，其中下载的商品页面URL按上架时间被排序。在实际操作过程中，可以利用导航页的"上架时间"排序功能，将导航页设置为按照上架时间排序显示商品，商品页URL列表中的成员因而可以按照商品的上架时间顺序存储在历史下载索引中。
[0019] 图3是根据本发明实施例的历史下载索引示例。如图所示，历史下载索引的数据结构是三元组向量列表，包括指示商品类别的类别名，对应的导航页的URL，以及指向商品页URL列表的指针。商品页URL列表是二元组向量列表，包括商品页URL和可选的该商品页的特征码。
[0020] 在一个实施例中，通过以下过程对商品页面信息进行更新：按顺序比较最新下载的导航页面的商品页面URL与对应序位历史下载的该导航页面的商品页面URL，当比较结果不相同时，将历史下载的该导航页面的商品页面URL更新为对应序位的最新下载的导航页面的商品页面URL，并下载该最新下载的导航页面的商品页面 URL的商品信息。例如，历史下载的该导航页面的商品页面URL包括a、b、c、d，而最新下载的导航页面的商品页面URL包括b、a、c、d，则更新历史下载的该导航页面的商品页面URL 列表中的a和b，以及下载相应的页面信息。
[0021] 在另一个实施例中，其中，通过以下过程对商品页面信息进行更新：按顺序比较最新下载的导航页面的商品页面URL与对应序位历史下载的该导航页面的商品页面URL,以及比较该最新下载的导航页面的商品页面URL的商品页面的SimHash特征码与对应序位历史下载的该导航页面的商品页面URL所分别对应的商品页面的SimHash 特征码，例如页面P的SimHash值等于121938123. 当该最新下载的导航页面的商品页面URL与对应序位历史下载的该导航页面的商品页面URL不相同并且该最新下载的导航页面的商品页面URL的商品页面的SimHash特征码与对应序位历史下载的该导航页面的商品页面的URL商品页面的SimHash特征码差异小于设定值时，将历史下载的该导航页面的商品页面URL更新为对应序位的最新下载的导航页面的向品页面URL，并下载该最新下载的导航页面的向品页面URL的向品彳目息

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯亮;尹亚伟;费志军;
技术所有人：中国银联股份有限公司;
我是此专利的发明人

上一篇：数据存储方法、数据读取方法和装置的制造方法
上一篇：一种生成word文档的数据库字典的方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。