一种线路类旅游产品的实时比价方法

文档序号:9598388阅读:689来源:国知局
一种线路类旅游产品的实时比价方法
【技术领域】
[0001] 本发明属于数据处理分析技术领域,具体涉及一种线路类旅游产品的实时比价方 法。
【背景技术】
[0002] 旅游产品是旅游业者通过开发、利用旅游资源提供给旅游者的旅游吸引物与服务 或其组合。其中,旅游线路产品因其结构完整,服务满意度高,更为受到大众的欢迎。旅游 线路产品一般以线路为分类,包括与相关地点有关的几种产品的组合,如交通、景点门票、 住宿、游玩项目等等。近年来,由于网络技术的普及,人们习惯于在网络上搜寻各类信息,目 前各种旅游网站会在页面上展示各种旅游线路的产品内容和价格,便于浏览和对比。如果 能够采用自动手段迅速地获取同类旅游线路产品数据并进行准确地对比,能够大大提升数 据分析和调整效率,具有重要的意义。但现在的旅游线路产品由于标准化程度较低,产品描 述多为非结构化文本,来自不同数据源的产品描述可能千差万别,因此比价时无法简单的 根据线路的名称判断两条旅游线路是否为同一线路,导致无法正确对线路产品进行匹配和 关联,进而无法进行正确的比价,因此目前大多数情况下是通过人工的方法进行线路产品 的匹配,但这种方法无法自动化,重复性劳动过多,效率较低,而且由于旅游产品价格变动 比较频繁,无法满足当前快速高效的网络数据应用需求。

【发明内容】

[0003] 为解决上述问题,本发明公开了一种线路类旅游产品的自动实时比价方法,从线 路行程信息,价格信息,团期信息等多个维度对线路类旅游产品进行相似度计算,获得相似 线路产品,并实时抓取最新价格,保证比价的准确性和实时性。
[0004] 为了达到上述目的,本发明提供如下技术方案: 一种线路类旅游产品的实时比价方法,包括如下步骤: 步骤A,获取旅游网站上的线路产品并从中抽取旅游相关数据,所述旅游相关数据至少 包括出发地、目的地、行程信息、团期信息、价格信息中的一种或几种的组合; 步骤B,筛选出与基准产品具有相同出发地,相同目的地,相同出游天数的旅游线路产 品作为候选的相似产品,计算行程相似度、团期相似度和价格相似度,并通过以下公式计算 基准旅游产品和候选相似产品的总和相似度: 行程相似度*行程权重+团期相似度*团期权重+价格相似度*价格权重; 所述行程相似度通过以下步骤进行计算:将候选相似线路产品的行程信息作为输入文 本,对文本进行分词后对词语进行词性标注,将行程中出现的地名的名词提取出来,利用名 词和其词频组成该线路产品的特征向量,采用以下公式计算行程相似度:
其中,Ap 为线路产品的特征向量; 所述团期相似度=A η B / A U B,其中A和B分别为两条线路所有团期的集合; 所述价格相似度根据根据下式进行计算: price = 1- (abs (averageA - averageB)/averageA+abs(averageA-averageB) / averageB)/2 其中averageA和averageB跟别为线路A和线路B的平均价格; 通过以下公式计算总和相似度: 总和相似度=行程相似度*行程权重+团期相似度*团期权重+价格相似度*价格权 重, 当总和相似度达到或超过设定好的比对阈值时,则认为候选产品与基准产品相同,将 候选产品加入基准产品相同列表; 步骤C,将步骤B中已经完成匹配的相同产品列表中的各线路产品链接放置在全量抓 取队列中,采用爬虫系统持续依次抓取全量队列中各线路产品链接的价格信息,并计算各 个线路产品的更新周期;定时进行周期性抓取,当周期性抓取时间达到线路产品更新周期 的整数倍时,则获取这些线路产品链接中的价格信息并存入缓存中;当用户请求比价时,判 断缓存是否存在未过期的价格信息,当存在未过期的价格信息时从缓存中获得页面产品列 表中各个产品对应的价格,否则实时获取价格数据。
[0005] 进一步的,所述步骤C中进行周期性抓取时将需要进行抓取的线路产品链接放入 周期队列中。
[0006] 进一步的,所述周期队列为多个,一个周期队列用于放置同一更新周期的产品链 接。
[0007] 进一步的,所述步骤C中进行周期性抓取时计算各个线路产品的更新周期。
[0008] 进一步的,所述实时获取价格数据的过程包括以下过程:将需要实时获取价格的 线路产品链接发送到实时队列中,爬虫系统从实时队列中取得链接后去相应网站抓取价格 信息。
[0009] 进一步的,所述实时获取的价格数据存入缓存中。
[0010] 与现有技术相比,本发明具有如下优点和有益效果: 本发明针对线路类旅游产品从多种维度进行相似性比对,比对结果精确,能够筛选出 相似度极高的线路产品;且能够根据各线路产品的更新周期差异,动态调整抓取频率,在保 证实时抓取产品的最新价格进行比价的基础上充分节约服务器和网络资源。
【附图说明】
[0011] 图1为本发明流程图; 图2为主动请求比价流程图; 图3为周期性价格抓取流程图。
【具体实施方式】
[0012] 以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体 实施方式仅用于说明本发明而不用于限制本发明的范围。
[0013] 本发明旨在以公司自身旅游产品作为比较基准,搜寻其他网站上的相同旅游线路 产品进行比价,并将这些信息在页面上进行展示,本发明步骤流程如图1所示,包括以下步 骤: 步骤A,需要获取其他不同旅游网站上的线路产品并从中抽取旅游相关数据,这里的不 同旅游网站应除去作为比较基准的自身旅游产品所在的公司本网。本例利用开源爬虫软件 Nutch将不同旅游网站的所有线路及价格信息爬取到本地,采用XPath或者正则表达式等 技术,将线路产品的各种数据,抽取出来并且进行格式化,抽取的数据至少应包括出发地、 目的地、行程信息、团期及价格信息、交通信息等。本例抓取了不同旅游网站上的俄罗斯旅 游产品进行比对,抽取出的出发地包括杭州、南京、上海、北京,目的地为莫斯科、圣彼得堡, 团期包括出发时间和行程持续天数,持续天数为6至9天不等,交通工具包括飞机、火车,价 格由6000-13000元不等,行程信息通常包括大段的行程内容描述,本例抽取行程中的一段 行程信息描述以作示例: "早餐后,漫步于俄罗斯的精神中心一一红场(克里姆林宫墙外就是红场,面积9. 1万 平方米,地面全部由条石铺成,显得古老而神圣。红场15世纪就已出现。当时,沙皇伊凡三 世下令拆除克里姆林宫外围的木墙,改为市场,从而得名〃托尔格",即〃集市广场"。1662 年改为〃红场",古俄语意为〃美丽的广场"),参观列宁墓一瞻仰世界伟大的革命导师列 宁,瓦西里大教堂,无名烈士墓、亚历山大花园(3个景点共约1小时),世界著名的商场一古 姆百货商店(入内游览约30分钟)。
[0014] 游览莫斯科的心脏和历史发源地一克里姆林宫(入内参观,游览时间约1小时),它 由迷人的宫殿、官邸、教堂和珍藏着各种无价之宝的宝库构成,您可以看到15-17世纪的俄 罗斯建筑杰作圣母升天大教堂,报喜大教堂,天使长大教堂,金顶的伊凡大帝钟楼,16世纪 的炮王和18世纪的钟王。
[0015] 下午乘高铁赴圣彼得堡,抵达后入住酒店休息。" 步骤B,对于抓取的来自不同网站的线路产品进行相似度计算,基于前序步骤中抽取的 数据,根据条件(即作为比较基准的旅游线路
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1