一种基于关联分析算法的旅行推荐方法和系统与流程

文档序号:20839677发布日期:2020-05-22 17:20阅读:293来源:国知局
一种基于关联分析算法的旅行推荐方法和系统与流程

本申请涉及智能处理技术及旅行推荐领域,尤其涉及一种基于关联分析算法的旅行推荐方法和系统。



背景技术:

现在的旅行推荐过程中,往往是固定化的套路模式,例如,一条旅行线路都是去固定几个城市、逛固定的商店、吃固定的饭馆,并没有对旅行者的个性进行推荐。而且,旅行者进行旅行规划的时候,一般具有从众心理,大家常去的“网红”店、热门地标都一定要“打卡”。进一步地说,为了方便旅行者自己制作旅行攻略的麻烦,旅行者一般希望根据自己的需求和大众评价,自动生成图文并茂的旅行攻略。

因此,亟须一种高效、准确的方法和设备能够解决这些问题。



技术实现要素:

有鉴于此,本申请的目的在于提出一种基于关联分析算法的旅行推荐方法和系统,提高旅行推荐的效率,解决目前旅行推荐过程中,无法准确识别用户的兴趣点,并自动生成旅行推荐攻略的技术问题。

基于上述目的,本申请提出了一种基于关联分析算法的旅行推荐方法,包括:

通过命名实体识别,抽取出旅行网页中的文本信息,构建旅行文本信息集,并通过情感分析对所述旅行文本信息集进行喜好置信度计算;所述旅行文本信息集分类为作者基本信息、食宿信息、轨迹信息和商品信息;

抽取出旅行网页中的图片信息,去除与旅行无关的噪音图片,构建旅行图片集,对所述图片中的地标、品牌和菜品进行识别,得到每张图片的标签集合,建立所述图片的标签集合与所述旅行文本信息集的映射关系;

根据旅行时空关系,由所述映射关系中各分类信息形成关联规则树中的事件链,识别出旅行频繁项集;所述旅行时空关系包括时间关系和地理位置关系;

提取出所述旅行频繁项集中符合用户要求的旅行文本信息,得到推荐结果,并按照所述旅行文本信息集的标签分类,嵌入所述旅行图片集中的图片,形成推荐攻略。

在一些实施例中,所述方法还包括:

按照用户的选择条件,预测用户的兴趣点,并根据所述兴趣点对所述推荐结果进行增加、删除和排序,生成新的推荐攻略。

在一些实施例中,通过命名实体识别,抽取出旅行网页中的文本信息,构建旅行文本信息集,并通过情感分析对所述旅行文本信息集进行喜好置信度计算,包括:

对所述旅行网页进行分块预处理,根据网页视觉特征抽取出网页核心内容分块;

抽取所述网页核心内容分块中的地标、品牌、菜品和对应的情感特征词,形成旅行文本信息集;

通过情感分析计算所述旅行文本信息集进行喜好置信度,并按照地标、品牌和菜品分别进行排序。

在一些实施例中,抽取出旅行网页中的图片信息,去除与旅行无关的噪音图片,构建旅行图片集,对所述图片中的地标、品牌和菜品进行识别,得到每张图片的标签集合,建立所述图片的标签集合与所述旅行文本信息集的映射关系,包括:

对所述旅行网页进行分块预处理,根据网页视觉特征抽取出网页核心内容分块;

识别出所述网页核心内容分块中图片的焦点内容,对所述焦点内容进行地标、品牌和菜品识别,得到每张图片的标签集合;

将所述标签集合中的每个元素与所述文本信息集中的每个元素进行语义比对,在比对结果超过指定阈值的情况下,建立映射关系。

在一些实施例中,根据旅行时空关系,由所述映射关系中各分类信息形成关联规则树中的事件链,识别出旅行频繁项集,包括:

按照时间序列关系,将所述分类信息填充至所述事件链中,事件链中的每个节点对应于指定的时间和地理位置,并包含了在所述时间和地理位置的地标、品牌、菜品和对应的情感特征;

采用混合遍历的方式,通过深度优先策略识别出旅行频繁项集。

在一些实施例中,所述推荐攻略还包括:

根据所述推荐结果中各个频繁项集的支持度,结合所述情感特征,得到的推荐度。

在一些实施例中,根据所述推荐结果中各个频繁项集的支持度,结合所述情感特征,得到的推荐度,通过公式:

reci=supi+μemoi

进行,其中reci表示所述频繁项集中的第i项推荐度,supi表示所述频繁项集中的第i项支持度,emoi表示所述频繁项集中的第i项情感特征的置信度,μ为情感加权系数。

基于上述目的,本申请还提出了一种基于关联分析算法的旅行推荐系统,包括:

文本模块,用于通过命名实体识别,抽取出旅行网页中的文本信息,构建旅行文本信息集,并通过情感分析对所述旅行文本信息集进行喜好置信度计算;所述旅行文本信息集分类为作者基本信息、食宿信息、轨迹信息和商品信息。

图片模块,用于抽取出旅行网页中的图片信息,去除与旅行无关的噪音图片,构建旅行图片集,对所述图片中的地标、品牌和菜品进行识别,得到每张图片的标签集合,建立所述图片的标签集合与所述旅行文本信息集的映射关系;

识别模块,用于根据旅行时空关系,由所述映射关系中各分类信息形成关联规则树中的事件链,识别出旅行频繁项集;所述旅行时空关系包括时间关系和地理位置关系;

推荐模块,用于提取出所述旅行频繁项集中符合用户要求的旅行文本信息,得到推荐结果,并按照所述旅行文本信息集的标签分类,嵌入所述旅行图片集中的图片,形成推荐攻略。

在一些实施例中,所述系统还包括:

更新模块,用于按照用户的选择条件,预测用户的兴趣点,并根据所述兴趣点对所述推荐结果进行增加、删除和排序,生成新的推荐攻略。

在一些实施例中,所述图片模块,包括:

分块单元,用于对所述旅行网页进行分块预处理,根据网页视觉特征抽取出网页核心内容分块;

焦点单元,用于识别出所述网页核心内容分块中图片的焦点内容,对所述焦点内容进行地标、品牌和菜品识别,得到每张图片的标签集合;

映射单元,用于将所述标签集合中的每个元素与所述文本信息集中的每个元素进行语义比对,在比对结果超过指定阈值的情况下,建立映射关系。

总的来说,本申请的思路在于:网络中存在大量的旅行游记数据,通过对这些游记中的文本、图片进行分析,一方面识别出作者的个人特点,例如年龄、职业、兴趣、家庭等;另一方面,识别出这些旅行游记中的城市、商店名称、饭馆名称,甚至手信名称、佳肴名称等。然后对大量的旅行游记数据进行关联分析,推导出个人特点与旅游热点之间的频繁项集;通过这些频繁项集,对输入的待预测对象进行旅行推荐,并生成图文相间的攻略文档。这为用户的旅行提供了便利,能提高用户的使用体验。

附图说明

在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。

图1示出根据本发明实施例的基于关联分析算法的旅行推荐方法的流程图。

图2示出根据本发明实施例的基于关联分析算法的旅行推荐方法的流程图。

图3示出根据本发明实施例的基于关联分析算法的旅行推荐系统的构成图。

图4示出根据本发明实施例的基于关联分析算法的旅行推荐系统的构成图。

图5示出根据本发明实施例的图片模块的构成图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出根据本发明实施例的基于关联分析算法的旅行推荐方法的流程图。如图1所示,该基于关联分析算法的旅行推荐方法包括:

步骤s11、通过命名实体识别,抽取出旅行网页中的文本信息,构建旅行文本信息集,并通过情感分析对所述旅行文本信息集进行喜好置信度计算;所述旅行文本信息集分类为作者基本信息、食宿信息、轨迹信息和商品信息。

具体来说,可以预先设置一个自由行文本命名实体库,这个实体库中按照城市、地标、美食等进行了文本标记。在抽取旅行网页中文本信息的过程中,通过与自由行文本命名实体库的比较,可以得到网页中存在的旅行文本信息。同时,还需要对每个旅行文本信息周围一定距离内的情感词进行提取,以便计算出对该旅行文本信息的置信度。例如“埃菲尔铁塔棒极了”的置信度可以记作+1,而“埃菲尔铁塔也就那样”可以记作-0.7。

在一种实施方式中,通过命名实体识别,抽取出旅行网页中的文本信息,构建旅行文本信息集,并通过情感分析对所述旅行文本信息集进行喜好置信度计算,包括:

对所述旅行网页进行分块预处理,根据网页视觉特征抽取出网页核心内容分块;

抽取所述网页核心内容分块中的地标、品牌、菜品和对应的情感特征词,形成旅行文本信息集;

通过情感分析计算所述旅行文本信息集进行喜好置信度,并按照地标、品牌和菜品分别进行排序。

对于一个网页而言,可以从视觉上将其分解为若干分块,而对于旅行推荐网页而言,一般大家的旅行攻略文章都处于正文中间位置,占有的面积最大,拥有的图片、文字也最多,基于这些特征,可以进行网页进行预处理,去除网页中的核心内容分块,也就是包含旅行攻略文章的分块。这样,可以提高旅行文本信息集构建的效率和准确度。

步骤s12、抽取出旅行网页中的图片信息,去除与旅行无关的噪音图片,构建旅行图片集,对所述图片中的地标、品牌和菜品进行识别,得到每张图片的标签集合,建立所述图片的标签集合与所述旅行文本信息集的映射关系。

具体来说,与旅行无关的噪音图片一般都是诸如表情、图标等分辨率低、尺寸小的图片,这些图片包含的信息量小,与旅行推荐也没有关系,因此,可以通过比较图片的分辨率、尺寸去除与旅行物馆的噪音图片,从而提高图片识别的效率和准确度。

在一种实施方式中,抽取出旅行网页中的图片信息,去除与旅行无关的噪音图片,构建旅行图片集,对所述图片中的地标、品牌和菜品进行识别,得到每张图片的标签集合,建立所述图片的标签集合与所述旅行文本信息集的映射关系,包括:

对所述旅行网页进行分块预处理,根据网页视觉特征抽取出网页核心内容分块;

识别出所述网页核心内容分块中图片的焦点内容,对所述焦点内容进行地标、品牌和菜品识别,得到每张图片的标签集合;

将所述标签集合中的每个元素与所述文本信息集中的每个元素进行语义比对,在比对结果超过指定阈值的情况下,建立映射关系。

同样的,对于一个网页而言,可以从视觉上将其分解为若干分块,而对于旅行推荐网页而言,一般大家的旅行攻略图片都处于正文中间位置,占有的面积最大,拥有的图片、文字也最多,基于这些特征,可以进行网页进行预处理,去除网页中的核心内容分块,也就是包含旅行攻略图片的分块。这样,可以提高对所述图片中的地标、品牌和菜品进行识别的效率和准确度。

步骤s13、根据旅行时空关系,由所述映射关系中各分类信息形成关联规则树中的事件链,识别出旅行频繁项集;所述旅行时空关系包括时间关系和地理位置关系。

具体来说,大众旅行过程中一般具有时空规律,也就是说,对于值得去地标、值得品尝的美食、值得购买的礼品,一般都会按照既定的时间空间轨迹进行“打卡”,而这种既定的时间空间轨迹形成的规律就是数据挖掘中的频繁项集。例如,自由行攻略中,可能会频繁出现旅行顺序,通过识别出这样的时空规律,形成旅行频繁项集。

在一种实施方式中,根据旅行时空关系,由所述映射关系中各分类信息形成关联规则树中的事件链,识别出旅行频繁项集,包括:

按照时间序列关系,将所述分类信息填充至所述事件链中,事件链中的每个节点对应于指定的时间和地理位置,并包含了在所述时间和地理位置的地标、品牌、菜品和对应的情感特征;

采用混合遍历的方式,通过深度优先策略识别出旅行频繁项集。

步骤s14、提取出所述旅行频繁项集中符合用户要求的旅行文本信息,得到推荐结果,并按照所述旅行文本信息集的标签分类,嵌入所述旅行图片集中的图片,形成推荐攻略。

具体来说,可以采用一段文字配上若干图片的形式,使得提供给用户的攻略更加全面、丰富,从而让用户获得更加良好的体验。

在一种实施方式中,所述推荐攻略还包括:

根据所述推荐结果中各个频繁项集的支持度,结合所述情感特征,得到的推荐度。

在一种实施方式中,根据所述推荐结果中各个频繁项集的支持度,结合所述情感特征,得到的推荐度,通过公式:

reci=supi+μemoi

进行,其中reci表示所述频繁项集中的第i项推荐度,supi表示所述频繁项集中的第i项支持度,emoi表示所述频繁项集中的第i项情感特征的置信度,μ为情感加权系数。

通过以上公式可以看出,通过调节情感加权系数μ调整情感特征的比例,从而控制推荐度的生成方式,可以更加灵活地计算推荐度,从而提高结果推荐的适应性。

图2示出根据本发明实施例的基于关联分析算法的旅行推荐方法的流程图。如图2所示,该基于关联分析算法的旅行推荐方法还包括:

步骤s15、按照用户的选择条件,预测用户的兴趣点,并根据所述兴趣点对所述推荐结果进行增加、删除和排序,生成新的推荐攻略。

具体来说,根据用户的选择以及浏览顺序,可以预测出用户的兴趣点。根据用户的兴趣点,对推荐结果进行进一步的处理,可以得到更为准确,更适合用户的推荐攻略,从而让用户获得更好的体验。

图3示出根据本发明实施例的基于关联分析算法的旅行推荐系统的构成图。如图3所示,该基于关联分析算法的旅行推荐系统整体可以分为:

文本模块31,用于通过命名实体识别,抽取出旅行网页中的文本信息,构建旅行文本信息集,并通过情感分析对所述旅行文本信息集进行喜好置信度计算;所述旅行文本信息集分类为作者基本信息、食宿信息、轨迹信息和商品信息。

图片模块32,用于抽取出旅行网页中的图片信息,去除与旅行无关的噪音图片,构建旅行图片集,对所述图片中的地标、品牌和菜品进行识别,得到每张图片的标签集合,建立所述图片的标签集合与所述旅行文本信息集的映射关系;

识别模块33,用于根据旅行时空关系,由所述映射关系中各分类信息形成关联规则树中的事件链,识别出旅行频繁项集;所述旅行时空关系包括时间关系和地理位置关系;

推荐模块34,用于提取出所述旅行频繁项集中符合用户要求的旅行文本信息,得到推荐结果,并按照所述旅行文本信息集的标签分类,嵌入所述旅行图片集中的图片,形成推荐攻略。

图4示出根据本发明实施例的基于关联分析算法的旅行推荐系统的构成图。如图4所示,该基于关联分析算法的旅行推荐系统还包括:

更新模块35,用于按照用户的选择条件,预测用户的兴趣点,并根据所述兴趣点对所述推荐结果进行增加、删除和排序,生成新的推荐攻略。

图5示出根据本发明实施例的图片模块的构成图。如图5所示,该基于关联分析算法的旅行推荐系统的图片模块32包括:

分块单元321,用于对所述旅行网页进行分块预处理,根据网页视觉特征抽取出网页核心内容分块;

焦点单元322,用于识别出所述网页核心内容分块中图片的焦点内容,对所述焦点内容进行地标、品牌和菜品识别,得到每张图片的标签集合;

映射单元323,用于将所述标签集合中的每个元素与所述文本信息集中的每个元素进行语义比对,在比对结果超过指定阈值的情况下,建立映射关系。

本申请实施例各系统中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1