OTA的民宿客栈挖掘方法与流程

文档序号:12721931阅读:425来源:国知局

本发明涉及一种信息挖掘领域,特别是涉及一种OTA的民宿客栈挖掘方法。



背景技术:

当前,在旅游出行中选择入住民宿和客栈的游客数量不断增长。为了满足用户的需求,在线旅游公司(OTA)需要从现有售卖酒店中挖掘出尽可能多的民宿和客栈供用户选择。然而OTA售卖的酒店数量往往数以十万计,数量已远远超过人工挖掘的限度。因此,利用计算机对酒店的相关信息进行分析和判断,挖掘出其中的民宿和客栈成为了迫切的需求。民宿客栈挖掘的关键是判断酒店是属于传统酒店类型还是属于民宿客栈类型。当前,关于OTA的民宿客栈挖掘的相关研究尚未深入展开,鲜有利用计算机自动从OTA售卖的海量酒店中挖掘出民宿和客栈的方法,实现民宿客栈的快速而准确的挖掘成为了一项具有挑战性的任务。



技术实现要素:

本发明要解决的技术问题是为了克服现有技术中无法对OTA售卖酒店中的民宿客栈进行快速而准确挖掘的缺陷,提供一种实用性强、准确率高、速度快的OTA的民宿客栈挖掘方法。

本发明是通过下述技术方案来解决上述技术问题的:

本发明提供了一种OTA的民宿客栈挖掘方法,其特点在于,包括以下步骤:

S1、建立基于酒店文本信息的民宿客栈粗粒度挖掘模型;

S2、建立基于酒店图像信息的民宿客栈细粒度挖掘模型;

S3、结合所述粗粒度挖掘模型和所述细粒度挖掘模型对OTA酒店中的民宿客栈进行挖掘。

较佳地,步骤S1包括:

S11、建立一系列关键字集合,包括:

包含集团酒店关键字的第一集合;包含传统酒店的酒店名称关键字的第二集合;包含传统酒店的房型名称关键字的第三集合;包含民宿客栈的酒店名称关键字的第四集合;包含古镇、景区和商业区关键字的第五集合;包含民宿客栈的用户点评关键字的第六集合;

S12、对于待挖掘的OTA酒店,若属于步骤S11建立的第一集合中的集团酒店关键字对应的集团酒店,或酒店名称中出现步骤S11建立的第二集合中的关键字,或房型名称中出现步骤S11建立的第三集合中的关键字,则所述待挖掘的OTA酒店被判为属于传统酒店;若酒店名称中出现步骤S11建立的第四集合中的关键字,则所述待挖掘的OTA酒店被判为属于民宿客栈;若不满足上述两种情况,则执行S13;

S13、利用步骤S11建立的第五集合,结合所述待挖掘的OTA酒店的位置信息进行进一步挖掘,若酒店位于所述第五集合中的古镇和商业区关键字对应的古镇和商业区,或位于所述第五集合中的景区关键字对应的景区附近第一距离阈值范围内,则所述待挖掘的OTA酒店被判为待定酒店,若不满足,则执行S14;

S14、将步骤S11建立的第六集合中的关键字在所述待挖掘的OTA酒店的用户点评中进行搜索,若包括所述关键字的用户点评数量大于等于第一阈值并且所述用户点评数量占所有用户点评的比例大于等于第二阈值,则所述酒店被判为待定酒店,否则被判为传统酒店。

较佳地,步骤S2包括:

S21、收集多个图像,并生成第一图像训练集;

S22、利用所述第一图像训练集训练基于深度神经网络的图像特征提取模型;

S23、收集传统酒店和民宿客栈两个类别的外观图像,生成第二图像训练集;

S24、利用所述第二图像训练集训练基于外观图像的传统酒店和民宿客栈的二分类模型,通过判断酒店外观图像是否属于民宿客栈,实现民宿客栈的细粒度挖掘。

较佳地,步骤S22中所训练的图像特征提取模型使用的深度神经网络为8层的卷积神经网络。

较佳地,步骤S22中所述的图像特征提取模型,将待提取特征的图像作为所述网络的输入,将所述待提取特征的图像在所述网络的特定层的输出值作为特征表达。

较佳地,步骤S24包括:

S241、将通过步骤S23生成的所述第二图像训练集中的所有图像,利用步骤S22训练得到的所述图像特征提取模型进行特征提取,获取相应的图像特征表达;

S242、利用通过步骤S241提取到的所述第二图像训练集中的图像对应的图像特征表达,训练一个集成学习分类器,输入一张酒店的外观图像到所述集成学习分类器,则输出图像所属类别,类别包括传统酒店、民宿客栈。

较佳地,步骤S3包括:

S31、对于一家OTA酒店,利用步骤S1建立的民宿客栈粗粒度挖掘模型进行第一次挖掘;

S32、对于一家OTA酒店,利用步骤S2建立的民宿客栈细粒度挖掘模型进行第二次挖掘;

S33、重复执行步骤S31和S32,对OTA的所有酒店完成民宿客栈的挖掘。

较佳地,在步骤S31中,对于一家OTA酒店,若所述民宿客栈粗粒度挖掘模型将所述OTA酒店判为民宿客栈,则所述OTA酒店被认为是民宿客栈,若所述民宿客栈粗粒度挖掘模型将所述OTA酒店判为传统酒店,则所述OTA酒店被认为是传统酒店,若所述民宿客栈粗粒度挖掘模型将所述OTA酒店判为待定酒店,则执行步骤S32。

较佳地,在步骤S32中,对于一家OTA酒店,将所述OTA酒店的所有外观图像依次输入步骤S24训练的基于外观图像的传统酒店和民宿客栈的二分类模型中,综合所述二分类模型对所有外观图像判定的类别进行最终挖掘,确定所述OTA酒店是否是民宿客栈。

本发明的积极进步效果在于:本发明建立的基于酒店文本信息的民宿客栈粗粒度挖掘模型,充分利用酒店名称、房型名称、位置信息和用户点评等多方面的信息,在快速挖掘出明显属于民宿客栈的酒店的同时,也快速过滤大量不属于民宿客栈的酒店,为后续细粒度挖掘做好了准备。本发明建立的基于酒店图像信息的民宿客栈细粒度挖掘模型,根据传统酒店和民宿客栈在外观图像内容上的差异性,在图像层面上进行民宿客栈的深度挖掘,提高了挖掘的准确性。本发明有效地利用酒店的文本信息和图像信息进行综合分析和判断,快速而准确地挖掘出了大量民宿客栈,极大地减少了人力成本的投入。

附图说明

图1为本发明的较佳实施例的OTA的民宿客栈挖掘方法的流程图。

具体实施方式

下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。

如图1所示,本发明的OTA的民宿客栈挖掘方法包括以下步骤:

步骤101、建立基于酒店文本信息的民宿客栈粗粒度挖掘模型;

步骤102、建立基于酒店图像信息的民宿客栈细粒度挖掘模型;

步骤103、结合所述粗粒度挖掘模型和所述细粒度挖掘模型对OTA售卖的海量酒店中的民宿客栈进行挖掘。

其中,步骤101具体包括以下步骤:

步骤1011、建立一系列关键字集合:包含集团酒店关键字的第一集合A;包含传统酒店的酒店名称关键字的第二集合B;包含传统酒店的房型名称关键字的第三集合C;包含民宿客栈的酒店名称关键字的第四集合D;包含古镇、景区和商业区关键字的第五集合E;包含民宿客栈的用户点评关键字的第六集合F;

其中1)第一集合A包含“七天”、“如家”、“汉庭”、“万豪”、“希尔顿”等,2)第二集合B包含“快捷”、“便捷”、“商务”、“商旅”等,3)第三集合C包含“商务”、“商旅”、“标准”、“标间”、“双标”、“行政”、“普通”等,4)第四集合D包含“客栈”、“民宿”、“公寓”、“农家乐”、“小筑”、“小舍”、“驿站”等,5)第五集合E包含古镇关键字:“丽江”、“凤凰”、“周庄”等,包含商业区关键字:“西溪湿地”、“龙门古镇景区”等,包含特定4A和5A景区的关键字:“杭州西湖风景区”、“舟山普陀山风景区”等,6)第六集合F包含“院落”、“掌柜”、“古镇”、“田园”、“别院”、“老街”、“洱海”等。

步骤1012、对于待挖掘的OTA售卖酒店,若其属于步骤1011建立的第一集合A中的集团关键字对应的集团酒店,或酒店名称中出现步骤1011建立的第二集合B中的关键字,或其房型名称中出现步骤1011建立的第三集合C中的关键字,则该酒店直接被判为属于传统酒店,若其酒店名称中出现步骤S11建立的第四集合D中的关键字,则该酒店直接被判为属于民宿客栈,若不满足所述两种情况,则执行1013;

其中,判断集团名称、酒店名称和房型名称是否出现关键字的方法是完全匹配方法。

步骤1013、利用步骤S11建立的第五集合E,结合待挖掘的OTA售卖酒店的位置信息进行进一步挖掘,若酒店位于所述第五集合E中的古镇和商业区关键字对应的古镇和商业区,或位于所述第五集合E中的景区关键字对应的景区附近范围内,则该酒店被判为待定酒店,若不满足,则执行1014;

其中,景区附近范围定为3公里。

步骤1014、将步骤1011建立的第六集合F中的关键字在待挖掘的OTA售卖酒店的用户点评中进行搜索,若包括所述关键字的用户点评数量大于等于第一阈值alpha并且所述用户点评数量占所有用户点评的比例大于等于第二阈值beta,则所述酒店被判为待定酒店,否则被判为传统酒店;

其中,判断用户点评中是否出现关键字的方法是完全匹配方法,第一阈值alpha取1,第二阈值beta取5%。

步骤102具体包括以下步骤:

步骤1021、收集多个图像,并生成第一图像训练集T1;

其中,第一图像训练集T1中的图像是通过互联网批量下载得到的,下载的图像内容包括了海滩、花园、大厅等类别在内的205个类别,每个类别的图像数量为5000张,图像总数量为100万张,所有图像的尺寸被统一调整为227×227像素点大小。

步骤1022、利用所述第一图像训练集T1训练基于深度神经网络的图像特征提取模型;

其中,所训练的深度神经网络为8层的卷积神经网络,包含了5个卷积层和3个全连接层。卷积层的实现包括卷积、激活和池化3个步骤。各层激活函数为修正线性函数。各层池化方式为max pooling,池化单位区域为3×3像素点大小,池化步长为2个像素点。第1层卷积核大小为11×11×3,卷积核个数为96,步长为4。第2-5层卷积核大小分别为5×5×96、3×3×256、3×3×384和3×3×384,卷积核个数分别为256、384、384和256,卷积步长均为1。

利用所述图像特征提取模型提取图像特征表达的过程具体为:首先将一张图像的尺寸调整为227×227像素点大小,然后输入所述网络,则该张图像在所述网络中第2个全连接层的输出值被作为其特征向量,特征向量的维度为4096;

步骤1023、收集传统酒店和民宿客栈两个类别的外观图像,生成第二图像训练集T2;

其中,第二图像训练集T2中的外观图像是通过对一批OTA售卖的酒店的外观图像批量下载并线下整理获取的,人工手动对图像的内容进行是属于传统酒店类别还是属于民宿客栈类别的标注。每个类别1000张,总共2000张,所有图像的尺寸被统一调整为227×227像素点大小。

步骤1024、利用所述第二图像训练集T2训练基于外观图像的传统酒店和民宿客栈的二分类模型,通过判断酒店外观图像是否属于民宿客栈,实现民宿客栈的细粒度挖掘。

具体地,步骤1024包括以下步骤:

步骤10241、将通过步骤1023生成的所述第二图像训练集T2中的所有图像,利用步骤1022训练得到的所述图像特征提取模型进行特征提取,获取相应的图像特征表达;

步骤10242、利用通过步骤10241提取到的所述第二图像训练集T2中的图像对应的图像特征表达,训练一个集成学习分类器,输入一张酒店的外观图像到所述分类器,则输出图像所属类别(类别包括:1、传统酒店,2、民宿客栈)。

其中,集成学习分类器具体为随机森林分类器,该分类器所使用的决策树的个数为1000个。

步骤103具体包括以下步骤:

步骤1031、对于一家OTA售卖酒店,利用步骤101建立的民宿客栈粗粒度挖掘模型对其进行第一次挖掘;

其中,若所述民宿客栈粗粒度挖掘模型将该酒店判为民宿客栈,则该酒店被认为是民宿客栈,若所述模型将该酒店判为传统酒店,则该酒店被认为是传统酒店,若所述模型将其判为待定酒店,则执行步骤1032

步骤1032、对于一家OTA售卖酒店,利用步骤102建立的民宿客栈细粒度挖掘模型对其进行第二次挖掘;

其中,将该酒店的所有外观图像依次输入步骤1024训练的基于外观图像的传统酒店和民宿客栈的二分类模型中,综合所述模型对所有外观图像判定的类别进行最终挖掘,确定该酒店是否是民宿客栈。具体地,当被模型判定为属于民宿客栈类别的外观图像数量占所有外观图像数量的80%以上,则确定该酒店为民宿客栈。

然后重复执行步骤1031和1032,即可对OTA售卖的所有酒店完成民宿客栈的挖掘。

本实施例的OTA的民宿客栈挖掘方法从酒店的文本信息和图像信息两个方面出发,使民宿客栈挖掘的实用性和效果都得到较好的保障。

虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1