基于语义分析的旅游服务推荐系统、数据库和推荐方法与流程

文档序号:20356946发布日期:2020-04-10 23:25阅读:228来源:国知局
基于语义分析的旅游服务推荐系统、数据库和推荐方法与流程

本申请涉及语音分析技术领域,尤其涉及一种基于语义分析的旅游服务推荐系统、数据库和推荐方法。



背景技术:

现有的旅游服务推荐主要基于旅游平台的订单数据,和一般商品推荐做法一致。而旅游行业由于覆盖行业较多,单纯使用订单数据作为推荐依据容易效果较差。而旅游行业有着非常丰富的文本信息资源,目前旅游行业的信息源种类繁多,大致可分为:景区、目的地官方旅游平台;携程、飞猪等ota平台;马蜂窝等旅游社区网站。不同平台的信息在准确度以及时效性上存在着差异,这直接导致了游客在浏览页面的过程中,旅游服务推荐的效果较差。

为了从更丰富的维度采集游客数据,可以通过在主流ota平台以及部分目的地公众号也在建立的智能客服服务,用于采集游客的提问数据,但是目前各平台的智能客服还存在着较大的问题,使用量不高,导致推荐结果效果不佳,目前的推荐方法依然基于游客消费数据。



技术实现要素:

为了解决上述技术问题,本申请实施例提供一种。

本申请实施例第一方面提供了一种基于语义分析的旅游服务推荐系统,可包括:

数据信息采集单元,获取系统与游客之间的对话或者文本信息的第一类数据以及包含游客与系统交互时的第二类数据,其中第二类数据包括时间信息和位置信息;

标签单元,根据第一类数据内容的关键词进行类别归类;

数据库建立单元,根据标签单元-第一类数据-第二类数据的数据包形式进行模型建立,利用主成分分析法,对第二类数据或标签单元的内容进行降维,形成以位置信息为主的模型数据或者问题类型为主的模型数据。

进一步地,所述标签单元至少包括美食、住宿、交通、游玩、购物、娱乐;

所述标签单元对第一类数据比较归类时,至少标记一个上述标签项。

进一步地,所述第一类数据配置为获取游客与系统之间的沟通内容,利用音频转换文字方式获取关键词信息,其中关键词信息与标签单元中的内容对应。

本申请实施例第二方面提供了一种数据库,包括:

一组或多组第一类数据,一组或多组第二类数据,多组标签单元以及所述第一类数据、第二类数据和标签单元之间的对应关系。

第三方面,本申请实施例提供了一种基于语义分析的旅游服务推荐方法,可包括:

获取系统与游客之间的对话或者文本信息的第一类数据以及包含游客与系统交互时的第二类数据,其中第二类数据包括时间信息和位置信息;

获取第一类数据内容的关键词进行类别归类;

建立以标签单元-第一类数据-第二类数据的数据包形式的模型,利用主成分分析法,对第二类数据或标签单元的内容进行降维,形成以位置信息为主的模型数据或者问题类型为主的模型数据。

获取当前游客提问的内容,从模型中调出输出结果。

进一步地,所述获取系统与游客之间的对话或者文本信息的第一类数据以及包含游客与系统交互时的第二类数据,其中第二类数据包括时间信息和位置信息包括:

获取游客与系统之间的沟通内容,利用音频转换文字方式获取关键词信息,其中关键词信息与标签单元中的内容对应,作为第一类数据;

获取游客与系统交互时的地理位置信息和时间信息,作为第二类数据。

进一步地,所述获取第一类数据内容的关键词进行类别归类包括:

归类的类型至少包括美食、住宿、交通、游玩、购物、娱乐;

对第一类数据的内容进行归类时,至少标记一个上述标签项。

进一步地,所述建立以标签单元-第一类数据-第二类数据的数据包形式的模型,利用主成分分析法,对第二类数据或标签单元的内容进行降维,形成以位置信息为主的模型数据或者问题类型为主的模型数据包括:

获取数据包,其中数据包采用标签单元-第一类数据-第二类数据形式;

利于主成分分析法,在以标签单元为主类或者第二类数据为主类的情况下分别进行降维,并对每类的加权数进行设定;

获取降维之后的数据内容,建立数据库,并以每一种主类进行聚类分析。

进一步地,所述第二类数据作为主类时,地理位置信息以市级为单位,时间信息以周为单位。

进一步地,所述获取当前游客提问的内容,从模型中调出输出结果包括:

获取当前游客提问的语音或者文字数据;

获取数据中的关键词,在数据库中调取对应聚类结果,结合每类的加权数的数值比例进行结果的输出。

本系统能够充分了解游客需求,弥补游客需求缺乏数据的窘境,可以支撑了景区精准营销、产品开发等分析应用,提升目的地的数据分析效果以及服务销量;弥补了传统基于订单的推荐系统数据维度不足的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的推送方法的示意图;

图2是本申请实施例提供的系统结构示意图;

图3是本申请实施例提供的一种推送装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

如图1所示,是本申请涉及的一种基于语义分析的旅游服务推荐系统的结构框图,系统包括数据信息采集单元310,标签单元320,数据库建立单元330。

上述数据信息采集单元310获取系统与游客之间的对话或者文本信息的第一类数据以及包含游客与系统交互时的第二类数据,其中第一类数据配置为获取游客与系统之间的沟通内容,利用音频转换文字方式获取关键词信息,关键词信息与标签单元中的内容对应,第二类数据包括时间信息和位置信息。

上述标签单元320,根据第一类数据内容的关键词进行类别归类。本实施例中,标签单元至少包括美食、住宿、交通、游玩、购物、娱乐;标签单元对第一类数据比较归类时,至少标记一个上述标签项。

上述数据库建立单元330,根据标签单元-第一类数据-第二类数据的数据包形式进行模型建立,利用主成分分析法,对第二类数据或标签单元的内容进行降维,形成以位置信息为主的模型数据或者问题类型为主的模型数据。

在上述系统的建立过程中,形成有一种数据库,包括:一组或多组第一类数据,一组或多组第二类数据,多组标签单元以及所述第一类数据、第二类数据和标签单元之间的对应关系。

本申请还提出一种基于语义分析的旅游服务推荐方法,包括:

101:获取系统与游客之间的对话或者文本信息的第一类数据以及包含游客与系统交互时的第二类数据,其中第二类数据包括时间信息和位置信息。

可以理解的是,一般情况下,数据的获取都是通过各种app中的浏览记录,或者与智能对话机器人的聊天内容中获取,也可以通过各个网络平台中的公众号或者小程序之类的获取。

获取游客与系统之间的沟通内容,利用音频转换文字方式获取关键词信息,其中关键词信息与标签单元中的内容对应,作为第一类数据;

获取游客与系统交互时的地理位置信息和时间信息,作为第二类数据。

102:获取第一类数据内容的关键词进行类别归类。归类的类型至少包括美食、住宿、交通、游玩、购物、娱乐;对第一类数据的内容进行归类时,至少标记一个上述标签项。

103:建立以标签单元-第一类数据-第二类数据的数据包形式的模型,利用主成分分析法,对第二类数据或标签单元的内容进行降维,形成以位置信息为主的模型数据或者问题类型为主的模型数据;

具体地,

获取数据包,其中数据包采用标签单元-第一类数据-第二类数据形式;

利于主成分分析法,在以标签单元为主类或者第二类数据为主类的情况下分别进行降维,并对每类的加权数进行设定;

获取降维之后的数据内容,建立数据库,并以每一种主类进行聚类分析。

104:获取当前游客提问的内容,从模型中调出输出结果。

具体地,获取当前游客提问的语音或者文字数据;

获取数据中的关键词,在数据库中调取对应聚类结果,结合每类的加权数的数值比例进行结果的输出。

作为一个具体的实施例,

1、数据采集:

根据游客提问数据,可以采集一下数据:

1)问题内容:游客提问的内容;

2)问题类别:基于美食,住宿,交通,游玩,购物,娱乐几个大类对问题进行分类;

2)提问位置:采集提问的经纬度,用于判断游客提问位置;

提问时间:提问的时间,用于生成游客的提问顺序以及提问路径,形成第二类数据。

2、数据建模:

1)分析文本数据:

1.1)收集游客提问数据,文本数据直接入库,音频数据通过seq-to-seq模型将音频转为文字存入库中。

1.2)将文本数据向量化,通过现成文本库,将文字进行匹配,将文本内容转换为向量表示。

1.3)基于pca主成分分析,将向量化文本数据进行降维,去除无用维度。

1.4)对游客提问数据进行标签标注,对问题进行分类,标签分类从1到6区分。

1.5)将推荐的产品也通过手工标注的方式进行分类,标签分类从1到6区分。

2)构建推荐模型:

2.1)基于每个游客个体提问数据进行聚类,获得每个游客喜好占比数据。

2.2)基于游客喜好占比数据,对游客对话数据进行加权处理。

2.3)基于协同过滤算法,计算游客提问数据以及商品数据,根据结果对商品数据进行排序,排名越高的商品即为游客可能喜欢的商品,作为模型输出。

3、数据输出及应用:

1)模型结果输出:基于不同游客提问的文本数据以及商品文本数据的语义分析进行构建旅游服务推荐算法模型,输出不针对不同游客的旅游服务推荐结果。

2)模型结果应用:基于不同游客提问数据的旅游服务推荐算法模型结果,全面支撑景区精准营销、产品开发、活动促销等场景的深度应用。

图3是本申请实施例提供的一种推送设备的结构示意图。该对象检测设备4000包括处理器41,还可以包括输入装置42、输出装置43和存储器44。该输入装置42、输出装置43、存储器44和处理器41之间通过总线相互连接。

存储器包括但不限于是随机存储记忆体(randomaccessmemory,ram)、只读存储器(read至onlymemory,rom)、可擦除可编程只读存储器(erasableprogrammablereadonlymemory,eprom)、或便携式只读存储器(compactdiscread至onlymemory,cd至rom),该存储器用于相关指令及数据。

输入装置用于输入数据和/或信号,以及输出装置用于输出数据和/或信号。输出装置和输入装置可以是独立的器件,也可以是一个整体的器件。

处理器可以包括是一个或多个处理器,例如包括一个或多个中央处理器(centralprocessingunit,cpu),在处理器是一个cpu的情况下,该cpu可以是单核cpu,也可以是多核cpu。处理器还可以包括一个或多个专用处理器,专用处理器可以包括gpu、fpga等,用于进行加速处理。

存储器用于存储网络设备的程序代码和数据。

处理器用于调用该存储器中的程序代码和数据,执行上述方法实施例中的步骤。具体可参见方法实施例中的描述,在此不再赘述。

可以理解的是,图3仅仅示出了对象检测设备的简化设计。在实际应用中,动作识别装置还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出装置、处理器、控制器、存储器等,而所有可以实现本申请实施例的动作识别装置都在本申请的保护范围之内。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriberline,dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read至onlymemory,rom),或随机存储存储器(randomaccessmemory,ram),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digitalversatiledisc,dvd)、或者半导体介质,例如,固态硬盘(solidstatedisk,ssd)等。

以上详细描述了本发明的优选实施方式,但是本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换(如数量、形状、位置等),这些等同变换均属于本发明的保护。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1