一种电商网站的页面信息获取方法

文档序号:9453061阅读:1623来源:国知局
一种电商网站的页面信息获取方法
【技术领域】
[0001] 本发明涉及互联网信息技术,并且尤其涉及一种电商网站的页面信息获取方法。
【背景技术】
[0002] 电商网站(诸如淘宝、亚马逊)的网站页面包含诸如商品和用户评论等信息。这些 信息可以被收集以用于数据分析,例如被用于个性化推荐、商品营销分析、情感分析等。
[0003] 现有技术中,网络爬虫作为遍历下载网络资源的程序常常被用于收集网站页面信 息。网络爬虫根据页面抓取策略确定页面抓取的次序和更新策略等。主流开源网络爬虫诸 如Nutch、Heritrix和Crawler4J采用广度优先搜索策略或者宽度优先搜索策略分析已抓 取页面中的链接发现新页面;同时,在固定时间重新遍历整个网站页面,然后更新已抓取的 页面内容。对于电商网站而言,这种页面信息获取方案不能稳定地抓取页面信息,消耗较大 的计算资源来更新已抓取的内容将,并且难以控制抓取过程。

【发明内容】

[0004] 根据本发明的一个目的公开一种电商网站的页面信息获取方法,该电商网站包括 主页面、导航页面、商品页面,其中,主页面具有导航页面URL,导航页面具有商品页面URL, 一个导航页面对应一个类别的商品,该方法包括: 从主页面提取导航页面URL, 从导航页面提取商品页面URL, 根据商品页面URL下载商品页面信息, 其中,每隔预定的时间间隔从导航页面重新下载商品页面URL,其中下载的商品页面URL按上架时间被排序, 其中,通过以下过程对商品页面信息进行更新: 按顺序比较最新下载的导航页面的商品页面URL与对应序位历史下载的该导航页面 的商品页面URL,当比较结果不相同时,将历史下载的该导航页面的商品页面URL更新为对 应序位的最新下载的导航页面的商品页面URL,并下载该最新下载的导航页面的商品页面 URL的商品信息。
[0005] 在一个实施例中,通过以下过程对商品页面信息进行更新: 按顺序比较最新下载的导航页面的商品页面URL与对应序位历史下载的该导航页面 的商品页面URL,以及比较该最新下载的导航页面的商品页面URL的商品页面的SimHash特 征码与对应序位历史下载的该导航页面的商品页面URL所分别对应的商品页面的SimHash 特征码, 当该最新下载的导航页面的商品页面URL与对应序位历史下载的该导航页面的商品 页面URL不相同并且该最新下载的导航页面的商品页面URL的商品页面的SimHash特征码 与对应序位历史下载的该导航页面的商品页面的URL商品页面的SimHash特征码差异小于 设定值时,将历史下载的该导航页面的商品页面URL更新为对应序位的最新下载的导航页 面的向品页面URL,并下载该最新下载的导航页面的向品页面URL的向品彳目息。
[0006] 在一个实施例中,通过导航页面URL模式从主页面提取导航页面URL,其中,导航 页面URL模式以正则表达式形式表示。
[0007] 在一个实施例中,从导航页面提取商品页面URL包括以下过程: 根据商品页面XPath模式从导航页面提取匹配XPath模式的URL作为商品页面URL,其 中,通过以下过程获得对应一个导航页面的一类商品页面的XPath模式: 创建该导航页面的所有URL所在节点的XPath集合, 对该XPath集合利用KNN聚类算法进行聚类,其中使用XPath距离作为该KNN聚类算 法的距离度量参数, 选择成员数目最大的类作为商品页面URL的模板区域, 将上述选择的类中的商品页面URL进行模式化得到该导航页面的该类商品页面的XPath模式, 其中,所述XPath距离dis()指示XPathp,和XPathp2的差异程度,其计算公式如下:
其中,TL()是将XPath分解成一组序偶的函数,每个序偶由该XPath中的标签名称和 该标签在该XPath中的位置序号组成。
[0008] 本发明的优势包括以下的一个或多个:在进行页面更新时,无需遍历整个网站页 面,避免无意义的页面重复下载。通过无监督的模板区识别技术,无需人工标注的训练数 据,自动化程度高。利用商品类别进行分块下载。相比于广度优先策略和深度优先策略,页 面搜索顺序清晰明了,方便用户了解网络爬虫的爬取进度。
【附图说明】
[0009] 在参照附图阅读了本发明的【具体实施方式】以后,本领域技术人员将会更清楚地了 解本发明的各个方面。本领域技术人员应当理解的是,这些附图仅仅用于配合具体实施方 式说明本发明的技术方案,而并非意在对本发明的保护范围构成限制。
[0010] 图1是根据本发明实施例的电商网站的页面信息获取方法的示意图。
[0011] 图2示出根据本发明实施例的电商网站的页面组织示意图。
[0012] 图3是根据本发明实施例的历史下载索引示例。
[0013] 图4是根据本发明实施例的导航页面示例。
【具体实施方式】
[0014] 下面参照附图,对本发明的【具体实施方式】作进一步的详细描述。在下面的描述中, 为了解释的目的,陈述许多具体细节以便提供对本发明的一个或多个方面的透彻理解。然 而,对于本领域技术人员可以显而易见的是,可以这些具体细节的较少程度来实践各本发 明的一个或多个方面。
[0015] 电商网站的页面组织具有层次结构,通常包括主页面、导航页面、包含商品信息的 商品页面。这三类的页面中含有URL(统一资源定位符)链接,逐一指向下一类页面。商品 页面信息是电子商务应用(例如个性化推荐、比价等)的重要的数据来源,下文将描述从电 商网站获取商品页面信息的方法。
[0016] 图1是根据本发明实施例的电商网站的页面信息获取方法的示意图。这里,电商 网站包括主页面、导航页面、商品页面,其中,主页面具有导航页面URL,导航页面具有商品 页面URL,一个导航页面对应一个类别的商品。
[0017] 如图1所示,在步骤101中从主页面提取导航页面URL,在步骤102中从导航页面 提取商品页面URL,在步骤103中根据商品页面URL下载商品页面信息。图2示出根据本发 明实施例的电商网站的页面组织示意图。
[0018] 在一个实施例中,每隔预定的时间间隔从导航页面重新下载(提取)商品页面URL, 其中下载的商品页面URL按上架时间被排序。在实际操作过程中,可以利用导航页的"上架 时间"排序功能,将导航页设置为按照上架时间排序显示商品,商品页URL列表中的成员因 而可以按照商品的上架时间顺序存储在历史下载索引中。
[0019] 图3是根据本发明实施例的历史下载索引示例。如图所示,历史下载索引的数据 结构是三元组向量列表,包括指示商品类别的类别名,对应的导航页的URL,以及指向商品 页URL列表的指针。商品页URL列表是二元组向量列表,包括商品页URL和可选的该商品 页的特征码。
[0020] 在一个实施例中,通过以下过程对商品页面信息进行更新: 按顺序比较最新下载的导航页面的商品页面URL与对应序位历史下载的该导航页面 的商品页面URL,当比较结果不相同时,将历史下载的该导航页面的商品页面URL更新为对 应序位的最新下载的导航页面的商品页面URL,并下载该最新下载的导航页面的商品页面 URL的商品信息。例如,历史下载的该导航页面的商品页面URL包括a、b、c、d,而最新下载 的导航页面的商品页面URL包括b、a、c、d,则更新历史下载的该导航页面的商品页面URL 列表中的a和b,以及下载相应的页面信息。
[0021] 在另一个实施例中,其中,通过以下过程对商品页面信息进行更新: 按顺序比较最新下载的导航页面的商品页面URL与对应序位历史下载的该导航页面 的商品页面URL,以及比较该最新下载的导航页面的商品页面URL的商品页面的SimHash特 征码与对应序位历史下载的该导航页面的商品页面URL所分别对应的商品页面的SimHash 特征码,例如页面P的SimHash值等于121938123. 当该最新下载的导航页面的商品页面URL与对应序位历史下载的该导航页面的商品 页面URL不相同并且该最新下载的导航页面的商品页面URL的商品页面的SimHash特征码 与对应序位历史下载的该导航页面的商品页面的URL商品页面的SimHash特征码差异小于 设定值时,将历史下载的该导航页面的商品页面URL更新为对应序位的最新下载的导航页 面的向品页面URL,并下载该最新下载的导航页面的向品页面URL的向品彳目息
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1