基于多平台、多供应商的搜索比价方法

文档序号:6424064阅读:143来源:国知局
专利名称:基于多平台、多供应商的搜索比价方法
技术领域
本发明涉及一种能够与网络和软件相结合的搜索比价方法,尤其涉及一种基于多平台、多供应商的搜索比价方法。
背景技术
随着中国电子商务的不断的飞速发展,各种各样的电子商务网站也因时而生。与此同时,越来越多的消费者也渐渐的接受、渐渐的喜欢上了网上购物。网上购物不仅代表着可以购买到经济实惠的商品,更重要的是它代表了一种新的潮流、新的消费方式。网上购物,在为消费者节省成本的同时,也给消费者带来了新的“成本”一花费大量的时间浏览大量的网站,学习怎样提交查询和管理自己的订单。另外,每个网站都含有 大量的不同种类的商品,用户要选购商品就不得不在大量网站内进行复杂的搜索,比较每种商品的报价、折扣和其它优惠措施。因此,用户很希望电子商务系统具有这样一种功能来帮助他们完成对商品的选购,这种功能可以发现大量网络上的购物网站,帮助用户获取大量的商品信息以选购商品。08年以前,当中国大陆的电子商务还在C2C时代,绝大部分人想到网上购物除了当当卓越之外就是淘宝。所以大部分人的行为,会先上淘宝去看一下,想要购买的商品一般行情是多少。简单的搜索一下,买家很快就对该商品的市场行情有心里有数了。在这种情况下,独立的购物比价引擎是没有生存空间的。然而,09年的B2C购物网站大量兴起,这种格局即将改变。网民开始涌向大量出现的网店,而这些网店的商品价格资料在淘宝却无法取得。什么是搜索比价系统搜索比价系统属于行业垂直搜索引擎。行业垂直搜索是传统门户类搜索引擎的补充与深入,可以更专注于为不同行业市场用户提供信息搜索的深度服务,在数据搜索量、搜索范围、反应速度、价格实时性、数据详细程度、过滤排序功能的易用性等诸多方面确立了深度服务的优势。技术角度而言,行业垂直类搜索也易于实现。只需要抓取同行业内的网站、论坛、社区的相关信息,定期抓取和更新数据。数据量不大,开发成本比起传统门户类搜索引擎小很多。

发明内容
旅游类搜索比价系统是搜索比价系统中发展比较迅猛的行业垂直类搜索之一,包括机票、酒店、度假等多个搜索产品。其中又以机票比价搜索竞争最为激烈,机票搜索范围可以涵盖中国国际航空公司、南方航空公司、春秋航空公司、同程网、艺龙旅行网、快乐E行、上海不夜城、芒果网、携程旅行网等100多家航空公司和各大在线订票网站。本发明的目的就是为了解决现有技术中存在的上述问题,提供一种基于多平台、多供应商的搜索比价方法
技术领域
本发明的目的通过以下技术方案来实现基于多平台、多供应商的搜索比价方法,其中根据用户指定的商品信息,通过爬虫系统比较各个大型网站的价格信息,将各个网站的价格信息按照参考条件进行排序,或是用户指定排序的条件进行排序;之后,汇入数据库建立索引系统;当用户发出某个查询条件时,前台系统调用数据索引系统提供的数据查询接口进行数据查询,同时将用户查询的条件提交给爬虫系统进行抓取最新的数据;当用户看到搜索结果之后,通过点击单条结果既可引导至本价格原本所在的目标网站中,用户在目标网站上用户能看到该商品更为详细的相关信息。上述的基于多平台、多供应商的搜索比价方法,其中所述的爬虫系统采用基于数据抽取器的分布式系统结构;爬虫系统通过管理员提供的Web接口作为管理门户,实现的功能包括查看中心和子服务器的日志、设置添加主题、更新某个主题的URL种子、配置主题的抓取频率参量,控制爬虫状态。 进一步地,上述的基于多平台、多供应商的搜索比价方法,其中所述的爬虫系统采用主体中心节点模块和分布爬虫模块,完成主题操作、数据抽取、页面分析以及目标页面数据的存储;所述主体中心节点模块是控制中枢,包括有主题控制模块,所述主题控制模块的主输出端连接有URL控制器;所述主题控制模块的副输出端连接抽取器学习模块;所述的分布爬虫模块是爬取的具体实施者,包括URL控制器;所述URL控制器的主输入端连接有数据抽取器;所述数据抽取器的数据输入端连接有搜索控制器;所述的搜索控制器输入端设置有网页抓取器;所述网页抓取器的输出端设置有日志模块。更进一步地,上述的基于多平台、多供应商的搜索比价方法,其中所述的建立索引为采用Lucene建立索引,将倒转的索引存储在定制的文件格式中;所述文件格式被高度优化以确保能被搜索器快速的加载以及有效的搜索。更进一步地,上述的基于多平台、多供应商的搜索比价方法,其中所述的前台系统通过J2EE实现,对索引返回的搜索结果进行时间过滤,并通过ajax方式获取爬虫系统最新更新的价格数据,纠正更新索引中的数据,从而保证了数据的及时准确性。更进一步地,上述的基于多平台、多供应商的搜索比价方法,其中再进一步地,上述的基于多平台、多供应商的搜索比价方法,其中所述的照参考条件包括价格、网站信誉度。本发明技术方案的优点主要体现在采用本发明后能够构建一套完整的搜索比较系统,且该系统可以在广泛的领域使用。更为重要的是,用户可以通过与本方法相结合的系统,可以购买到同一商品在不同网站上的最低价格,而且省去了人工比较价格所带来的时间消耗。由此,增强了各个电子商务网站的竞争,促使一个更透明的价格体系的形成,使得各供应商的商品在网络上保持一定的廉价水平。


本发明的目的、优点和特点,将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例,凡采取等同替换或者等效变换而形成的技术方案,均落在本发明要求保护的范围之内。这些附图当中,图I是爬虫系统整体架构示意图2是爬虫子节点架构示意图;图3是用户搜索航班流程示意图;图4是搜索入口页面示意具体实施例方式基于多平台、多供应商的搜索比价方法,其特别之处在于根据用户指定的商品信息,通过爬虫系统比较各个大型网站(同程网、艺龙旅行网、芒果网、携程旅行网、快乐E行等)的价格信息,将各个网站的价格信息按照参考条件进行排序,或是用户指定排序的条件进行排序。考虑到用户的顺利排序,采用的照参考条件包括价格、网站信誉度。之后,汇入数据库建立索引系统。当用户发出某个查询条件时,前台系统调用数据索引系统提供的数据查询接口进行数据查询,同时将用户查询的条件提交给爬虫系统进行抓取最新的数据。当用户看到搜索结果之后,通过点击单条结果既可引导至本价格原本所在的目标网站中,用户在目标网站上用户能看到该商品更为详细的相关信息。就本发明一较佳的实施方式来看,所采用的爬虫系统采用基于数据抽取器的分布式系统结构。爬虫系统通过管理员提供的Web接口作为管理门户,实现的功能包括查看中心和子服务器的日志、设置添加主题、更新某个主题的URL种子、配置主题的抓取频率参量,控制爬虫状态。具体来说,如图I所示本发明所采用的爬虫系统拥有主体中心节点模块和分布爬虫模块,以此来完成主题操作、数据抽取、页面分析以及目标页面数据的存储。进一步来看,主体中心节点模块是控制中枢,包括有主题控制模块,主题控制模块的主输出端连接有URL控制器。所述主题控制模块的副输出端连接抽取器学习模块。与之对应的是,分布爬虫模块是爬取的具体实施者,包括URL控制器1,该URL控制器的主输入端连接有数据抽取器2。据抽取器的数据输入端连接有搜索控制器3,搜索控制器输入端设置有网页抓取器4,网页抓取器的输出端设置有日志模块5,其构造与数据传输方式如图2所示。 为了提升索引的效果,本发明所采用的建立索引为采用Lucene建立索引,具体来说将倒转的索引存储在定制的文件格式中。文件格式被高度优化以确保能被搜索器快速的加载以及有效的搜索。并且,Lucene产生这些结构以致索引几乎完全的被预先计算好,加速了数据的访问速度,在大数据量情况下性能优点格外的突出。当然,为了便于前台系统的顺畅运行,前台系统通过J2EE实现,对索引返回的搜索结果进行时间过滤。同时,可以并通过ajax方式获取爬虫系统最新更新的价格数据,纠正更新索引中的数据,从而保证了数据的及时准确性。用户发出查询指令后,后台搜索引擎立即被激活,同步抓取目标网站信息,反馈给网站处理模块,最终呈现结果。用户可以随时查询国内各城市之间所有最新航线的最低价格和特惠服务,使得用户能够对旅行产品轻松的进行充分比较。极大程度的方便了用户选择和购买机票的过程,对于时时变化的机票信息和价格,用户是信息的弱势接受者。用户不可能在有限时间内穷尽各方机票信息,只能在接触的范围内做出选择,这样往往买不到最便宜、最划算的机票。机票比价搜索就为用户提供了这样一个价格比较平台,个人认为是非常有价值的。小的方面讲,因为抓取网站的数量和资源非常多,可以为用户提供充分的机票价格比较,帮助用户买到便宜机票;大的方面讲,更多低价机票被发现,可以促使用户更多的选择乘坐飞机,促进飞机这种交通工具的普及。以用户搜索2010-12-05日北京飞上海的航班处理流程来看,其本发明的工作状态的简单流程示意图如图3所示。具体来说,如图4所示,用户进入搜索入口页面,选取与填写相关的信息。之后通过调用本发明的方法,在页面上显示相关的搜索结果,便于用户选择和进行下一步的操作。通过上述的文字表述可以看出,采用本发明后能够构建一套完整的搜索比较系统,且该系统可以在广泛的领域使用。更为重要的是,用户可以通过与本方法相结合的系 统,可以购买到同一商品在不同网站上的最低价格,而且省去了人工比较价格所带来的时间消耗。由此,增强了各个电子商务网站的竞争,促使一个更透明的价格体系的形成,使得各供应商的商品在网络上保持一定的廉价水平。
权利要求
1.基于多平台、多供应商的搜索比价方法,其特征在于根据用户指定的商品信息,通过爬虫系统比较各个大型网站的价格信息,将各个网站的价格信息按照参考条件进行排序,或是用户指定排序的条件进行排序;之后,汇入数据库建立索引系统;当用户发出某个查询条件时,前台系统调用数据索引系统提供的数据查询接口进行数据查询,同时将用户查询的条件提交给爬虫系统进行抓取最新的数据;当用户看到搜索结果之后,通过点击单条结果既可引导至本价格原本所在的目标网站中,用户在目标网站上用户能看到该商品更为详细的相关信息。
2.根据权利要求I所述的基于多平台、多供应商的搜索比价方法,其特征在于所述的爬虫系统采用基于数据抽取器的分布式系统结构;爬虫系统通过管理员提供的Web接口作为管理门户,实现的功能包括查看中心和子服务器的日志、设置添加主题、更新某个主题的URL种子、配置主题的抓取频率参量,控制爬虫状态。
3.根据权利要求I所述的基于多平台、多供应商的搜索比价方法,其特征在于所述的爬虫系统采用主体中心节点模块和分布爬虫模块,完成主题操作、数据抽取、页面分析以及目标页面数据的存储;所述主体中心节点模块是控制中枢,包括有主题控制模块,所述主题控制模块的主输出端连接有URL控制器;所述主题控制模块的副输出端连接抽取器学习模块;所述的分布爬虫模块是爬取的具体实施者,包括URL控制器;所述URL控制器的主输入端连接有数据抽取器;所述数据抽取器的数据输入端连接有搜索控制器;所述的搜索控制器输入端设置有网页抓取器;所述网页抓取器的输出端设置有日志模块。
4.根据权利要求I所述的基于多平台、多供应商的搜索比价方法,其特征在于所述的建立索引为采用Lucene建立索引,将倒转的索引存储在定制的文件格式中;所述文件格式被高度优化以确保能被搜索器快速的加载以及有效的搜索。
5.根据权利要求I所述的基于多平台、多供应商的搜索比价方法,其特征在于所述的前台系统通过J2EE实现,对索引返回的搜索结果进行时间过滤,并通过a jax方式获取爬虫系统最新更新的价格数据,纠正更新索引中的数据,从而保证了数据的及时准确性。
6.根据权利要求I所述的基于多平台、多供应商的搜索比价方法,其特征在于所述的照参考条件包括价格、网站信誉度。
全文摘要
本发明涉及一种基于多平台、多供应商的搜索比价方法,其特点是根据用户指定的商品信息,通过爬虫系统比较各个大型网站的价格信息,将各个网站的价格信息按照参考条件进行排序,或是用户指定排序的条件进行排序;之后,汇入数据库建立索引系统;当用户发出某个查询条件时,前台系统调用数据索引系统提供的数据查询接口进行数据查询,同时将用户查询的条件提交给爬虫系统进行抓取最新的数据;当用户看到搜索结果之后,通过点击单条结果既可引导至本价格原本所在的目标网站中,用户在目标网站上用户能看到该商品更为详细的相关信息。用户可以通过与本方法相结合的系统,可以购买到同一商品在不同网站上的最低价格。
文档编号G06Q30/02GK102779133SQ20111012260
公开日2012年11月14日 申请日期2011年5月12日 优先权日2011年5月12日
发明者吴剑, 吴志祥, 庞绍进, 张海龙, 王专, 王晓钟, 郭凤林, 马和平 申请人:苏州同程旅游网络科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1