多源售票数据管理方法及系统、服务器和计算机可读介质与流程

文档序号:18704326发布日期:2019-09-17 23:25阅读:178来源:国知局
多源售票数据管理方法及系统、服务器和计算机可读介质与流程

本发明涉及数据融合领域,特别涉及多源售票数据管理方法及系统、服务器和计算机可读介质。



背景技术:

当前,电影售票信息多为各资源方单独提供的,用户可以选择某一家的购票软件查询相应的售票信息;因此,用户需要对比多家资源方的售票信息(例如,针对某个电影的票价)时,需要不断在应用(app)之间进行切换并进行对比、选择,从而用户体验较差。因此,如何实现多源售票信息的融合,成为亟需解决的技术问题。



技术实现要素:

本发明旨在至少解决现有技术中存在的技术问题之一,提出了一种多源售票数据管理方法及系统、服务器和计算机可读介质。

第一方面,本公开实施例提供了一种多源售票数据管理方法,包括:

获取多家资源方的多条原始电影售票数据;

对所述原始电影售票数据进行结构化处理,以转变为具有预定结构的结构化电影售票数据,所述结构化电影售票数据包括:电影名称、至少一项电影关联信息、资源方信息以及资源方分别在不同城市的售票信息;

针对每条所述结构化电影售票数据,以该结构化电影售票数据中的所述电影名称和所述资源方信息分别作为第一实体和第二实体,对该结构化电影售票数据进行实体化,生成对应的电影资源方实体图谱,其中,所述第二实体作为所述第一实体的附属实体,各项所述电影相关信息作为所述第一实体的属性值,各所述售票信息作为所述第二实体的属性值;

针对每个所述电影资源方实体图谱,从预定的影视剧知识图谱库中确定出与该电影资源方实体图谱中的第一实体相关联的影视实体所对应的影视图谱,以作为相似影视图谱,并分别计算该电影资源方实体图谱中的所述第一实体与各所述相似影视图谱中的影视实体之间的属性相似度,且比较所述属性相似度中的最大值是否大于预定阈值,其中,当比较出该最大值大于所述预定阈值时,则以该最大值所对应的相似影视图谱作为该电影资源方实体图谱对应的标定影视图谱,将该电影资源方实体图谱中的所述第二实体及其属性值融合至对应的所述标定影视图谱。

在一些实施例中,在完成对全部所述电影资源方实体图谱的处理之后,还包括:

针对所述影视剧知识图谱库中的每个所述标定影视图谱,在该所述标定影视图谱中,以城市为维度对各资源方分别在不同城市的所述售票信息进行分类,并建立以城市作为第三实体的节点,各资源方分别在不同城市的所述售票信息作为对应的所述第三实体的属性值。

在一些实施例中,在完成对全部所述标定影视图谱的处理之后,还包括:

接收查询请求,所述查询请求包括:待查电影名称以及待查城市;

从所述影视剧知识图谱库中定位出影视实体所对应的电影名称为所述待查电影名称的影视图谱;

从所定位到的所述影视图谱中定位出城市为所述待查城市的第三实体,并基于所定位到的第三实体,查询出该第三实体的全部属性以及属性值;

将查询结果进行反馈。

在一些实施例中,在所述获取多家资源方的多条原始电影售票数据的步骤之后,且在所述对所述原始电影售票数据进行结构化处理的步骤之前,还包括:

针对每条所述原始电影售票数据,对该原始电影售票数据进行数据有效性验证,其中,当该原始电影售票数据未通过验证时,则将该原始电影售票数据丢弃。

在一些实施例中,所述对该原始电影售票数据进行数据有效性验证的步骤具体包括:

检测该原始电影售票数据中是否包含有所述电影名称、所述资源方信息、所述资源方在不同城市的售票信息以及预定电影关联信息;

其中,当检测出该原始电影售票数据中包含有所述电影名称、所述资源方信息、所述资源方在不同城市的售票信息以及预定电影关联信息时,则该所述该原始电影售票数据通过有效性验证;

当检测出该原始电影售票数据中缺少所述电影名称、所述资源方信息、所述资源方在不同城市的售票信息以及预定电影关联信息中的至少一者时,则该所述该原始电影售票数据未通过有效性验证。

在一些实施例中,所述从预定的影视剧知识图谱库中确定出与该电影资源方实体图谱中的第一实体相关联的影视实体所对应的影视图谱,以作为相似影视图谱的步骤具体包括:

获取该电影资源方实体图谱中的第一实体所对应的电影名称以及该电影名称的别名,统称为电影可选名称;

从所述影视剧知识图谱库中筛选出影视实体所对应的电影名称为所述电影可选名称的影视图谱,筛选出的影视图谱作为该电影资源方实体图谱对应的相似影视图谱。

在一些实施例中,基于如下式子计算所述电影资源方实体图谱中的所述第一实体与所述相似影视图谱中的影视实体之间的属性相似度:

其中,qa,b表示所述电影资源方实体图谱中的所述第一实体与所述相似影视图谱中的影视实体之间的属性相似度,n表示预定用于计算属性相似度的n个属性,ai表示所述电影资源方实体图谱中的所述第一实体所对应的预定用于计算属性相似度的n个属性中的第i个属性的属性值,bi表示所述相似影视图谱中的所述影视实体所对应的预定用于计算属性相似度的n个属性中的第i个属性的属性值,s(ai,bi)表示属性值ai与属性值bi之间的相似度,pi表示s(ai,bi)所对应的权值。

在一些实施例中,所述预定用于计算属性相似度的属性包括:上映年份、导演和演员表中的至少一者。

在一些实施例中,所述获取多家资源方的多条原始电影售票数据的步骤具体包括:

从多家资源方处抓取所述原始电影售票数据;和/或,接收多家资源方所推送的所述原始电影售票数据。

第二方面,本公开实施例提供了一种多源售票数据管理系统,包括:

获取模块,用于获取多家资源方的多条原始电影售票数据;

处理模块,用于对所述原始电影售票数据进行结构化处理,以转变为具有预定结构的结构化电影售票数据,所述结构化电影售票数据包括:电影名称、至少一项电影关联信息、资源方信息以及资源方分别在不同城市的售票信息;

实体化模块,用于针对每条所述结构化电影售票数据,以该结构化电影售票数据中的所述电影名称和所述资源方信息分别作为第一实体和第二实体,对该结构化电影售票数据进行实体化,生成对应的电影资源方实体图谱,其中,所述第二实体作为所述第一实体的附属实体,各项所述电影相关信息作为所述第一实体的属性值,各所述售票信息作为所述第二实体的属性值;

确定模块,用于针对每个所述电影资源方实体图谱,从预定的影视剧知识图谱库中确定出与该电影资源方实体图谱中的第一实体相关联的影视实体所对应的影视图谱,以作为相似影视图谱;

计算比较模块,分别计算该电影资源方实体图谱中的所述第一实体与对应的各所述相似影视图谱中的影视实体之间的属性相似度,且比较所述属性相似度中的最大值是否大于预定阈值;

融合模块,用于当所述计算比较模块比较出该最大值大于所述预定阈值时,则以该最大值所对应的相似影视图谱作为该电影资源方实体图谱对应的标定影视图谱,将该电影资源方实体图谱中的所述第二实体及其属性值融合至对应的所述标定影视图谱。

在一些实施例中,该系统还包括:

转换模块,用于在所述融合模块完成对全部所述电影资源方实体图谱的处理之后,针对所述影视剧知识图谱库中的每个所述标定影视图谱,在该所述标定影视图谱中,以城市为维度对各资源方分别在不同城市的所述售票信息进行分类,并建立以城市作为第三实体的节点,各资源方分别在不同城市的所述售票信息作为对应的所述第三实体的属性值。

在一些实施例中,该系统还包括:

接收模块,用于在所述转换模块完成对所述标定影视图谱的处理之后,接收查询请求,所述查询请求包括:待查电影名称以及待查城市;

定位模块,用于从所述影视剧知识图谱库中定位出影视实体所对应的电影名称为所述待查电影名称的影视图谱;

查询模块,用于从所定位到的所述影视图谱中定位出城市为所述待查城市的第三实体,并基于所定位到的第三实体,查询出该第三实体的全部属性以及属性值;

反馈模块,用于将查询结果进行反馈。

在一些实施例中,该系统还包括:

校验模块,用于在处理模块进行处理之前,针对每条所述原始电影售票数据,对该原始电影售票数据进行数据有效性验证,其中,当该原始电影售票数据未通过验证时,则将该原始电影售票数据丢弃。

在一些实施例中,所述校验模块包括:

检测单元,用于检测该原始电影售票数据中是否包含有所述电影名称、所述资源方信息、所述资源方在不同城市的售票信息以及预定电影关联信息;

其中,当检测出该原始电影售票数据中包含有所述电影名称、所述资源方信息、所述资源方在不同城市的售票信息以及预定电影关联信息时,则该所述该原始电影售票数据通过有效性验证;

当检测出该原始电影售票数据中缺少所述电影名称、所述资源方信息、所述资源方在不同城市的售票信息以及预定电影关联信息中的至少一者时,则该所述该原始电影售票数据未通过有效性验证。

在一些实施例中,所述确定模块包括:

获取单元,用于获取该电影资源方实体图谱中的第一实体所对应的电影名称以及该电影名称的别名,统称为电影可选名称;

筛选单元,用于从所述影视剧知识图谱库中筛选出影视实体所对应的电影名称为所述电影可选名称的影视图谱,筛选出的影视图谱作为该电影资源方实体图谱对应的相似影视图谱。

在一些实施例中,所述计算比较模块包括:

计算单元,用于基于如下式子计算所述电影资源方实体图谱中的所述第一实体与所述相似影视图谱中的影视实体之间的属性相似度:

其中,qa,b表示所述电影资源方实体图谱中的所述第一实体与所述相似影视图谱中的影视实体之间的属性相似度,n表示预定用于计算属性相似度的n个属性,ai表示所述电影资源方实体图谱中的所述第一实体所对应的预定用于计算属性相似度的n个属性中的第i个属性的属性值,bi表示所述相似影视图谱中的所述影视实体所对应的预定用于计算属性相似度的n个属性中的第i个属性的属性值,s(ai,bi)表示属性值ai与属性值bi之间的相似度,pi表示s(ai,bi)所对应的权值。

在一些实施例中,所述预定用于计算属性相似度的属性包括:上映年份、导演和演员表中的至少一者。

在一些实施例中,所述获取模块包括:

抓取单元,用于从多家资源方处抓取所述原始电影售票数据;

和/或,接收单元,用于接收多家资源方所推送的所述原始电影售票数据。

第三方面,本公开实施例还提供了一种服务器,包括:

一个或多个处理器;

存储装置,其上存储有一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前述任一实施例所提供的方法。

第四方面,本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如前述任一实施例所提供的方法

本发明具有以下有益效果:

本公开实施例提供的一种多源售票数据管理方法,可实现对多源售票数据的融合以及对多源售票数据的查询。

附图说明

图1为本公开中实施例提供的一种多源售票数据管理方法的流程图;

图2为本公开中的一个电影资源方实体图谱的一种示意图;

图3为本公开中步骤s4的一种具体实现流程图;

图4为本公开中步骤s402的一种具体实现流程图;

图5为本公开中影视剧知识图谱库内的一个影视图谱的一种示意图;

图6为本公开中影视剧知识图谱库内的一个标定影视图谱的完成多次消歧融合后的示意图;

图7为本公开实施例提供的另一种多源售票数据管理方法的流程图;

图8为本公开实施例提供的又一种多源售票数据管理方法的流程图;

图9为本公开中影视剧知识图谱库内的一个标定影视图谱的完成结构转换后的示意图;

图10为本公开实施例提供的再一种多源售票数据管理方法的流程图;

图11为本公开实施例提供的一种多源售票数据管理系统的结构框图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的一种多源售票数据管理方法及系统、服务器和计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例,但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之,提供这些实施例的目的在于使本公开透彻和完整,并将使本领域技术人员充分理解本公开的范围。

本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。

除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。

为便于本领域技术人员更清楚的理解本公开的技术方案,下面将本公开中所涉及的部分术语进行详细解释。

本公开中的“原始电影售票数据”为资源方所公开的电影售票数据;一般而言,一条完整的电影售票数据中因包含:电影名称、资源方信息、资源方在不同城市的售票信息以及与电影相关联的一些电影关联信息(例如上映时间、导演、演员表等)。

本公开中的“图谱”也称为知识图谱(knowledgegraph),是一种结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系。图谱一般包含三种元素:实体、关系(relationship)和属性(attribute);其中,“关系”也可称为“边关系”,用于是连接不同的实体,指代其所连接的实体之间的联系;“属性”与实体连接,“属性”及其所携带的属性值用于描述对应的实体;知识图谱的基本单元为三元组,三元组有如下两种形式“实体-关系-实体”和“实体-属性-属性值”,知识图谱可以看作是三元组集合。

本公开中还涉及到“影视剧知识图谱库”,该“影视剧知识图谱库”是一个现有的知识图谱库,其可以根据预先采集到的一些影视信息而生成,或者直接使用其他用户所提供的影视剧知识图谱库。影视剧知识图谱库包含有多个影视图谱,每个影视图谱中存在一个影视实体(可能为电影或电视剧)以及能够用于描述该影视实体的一些属性值(与影视实体相关联的一些影视关联信息,例如上映时间、导演、演员表等)。需要说明的是,考虑到本公开的技术方案是针对电影售票数据的管理,因此可以预先将“影视剧知识图谱库”中影视实体为电视剧的影视图谱剔除,仅保留影视实体为电影的影视图谱。

图1为本公开中实施例提供的一种多源售票数据管理方法的流程图,如图1所示,包括:

步骤s1、获取多家资源方的多条原始电影售票数据。

在步骤s1中,可以通过抓取的方式从多家资源方处抓取到原始电影售票数据,也可以通过接收的方式来获取多家资源方所推送的原始电影售票数据。

步骤s2、对原始电影售票数据进行结构化处理,以转变为具有预定结构的结构化电影售票数据。

一般而言,不同资源方都有自己的数据格式以及id体系,因此来自不同资源方的原始电影售票数据无法直接进行消歧融合。

在步骤s2中,对原始电影售票数据进行结构化处理,以转变为具有预定结构的结构化电影售票数据,以使得这些电影售票数据具有统一的数据格式和id体系。结构化电影售票数据包括:电影名称、至少一项电影关联信息、资源方信息以及资源方分别在不同城市的售票信息。

需要说明的是,该“预定结构”可根据实际需要进行设计和调整。

步骤s3、针对每条结构化电影售票数据,以该结构化电影售票数据中的电影名称和资源方信息分别作为第一实体和第二实体,对该结构化电影售票数据进行实体化,生成对应的电影资源方实体图谱。

在步骤s3中,对每条结构化电影售票数据均进行实体化处理,以得到每条结构化电影售票数据各自所对应的电影资源方实体图谱。

图2为本公开中的一个电影资源方实体图谱的一种示意图,如图2所示,结构化电影售票数据中的电影名称和资源方信息分别作为第一实体和第二实体,各项电影相关信息作为第一实体的属性值,资源方在各城市的售票信息作为第二实体的属性值,第二实体作为第一实体的附属实体(两者之间为“附属”关系)。

需要说明的是,附图中仅示例性给出了第一实体的四项属性分别为导演、演员表、上映年份和评分,对应的四个属性值分别为:导演信息、演员表信息、时间信息和分值信息。上述情况仅起到示例性作用,其不会对本公开中的技术方案产生限制。

在步骤s3结束后,可根据全部的电影资源方实体图谱来建立一个图索引库,以便于后续处理。

步骤s4、针对每个电影资源方实体图谱,从预定的影视剧知识图谱库中确定出与该电影资源方实体图谱中的第一实体相关联的影视实体所对应的影视图谱,以作为相似影视图谱,并分别计算该电影资源方实体图谱中的第一实体与各相似影视图谱中的影视实体之间的属性相似度,且比较属性相似度中的最大值是否大于预定阈值,其中,当比较出该最大值大于预定阈值时,则以该最大值所对应的相似影视图谱作为该电影资源方实体图谱对应的标定影视图谱,将该电影资源方实体图谱中的第二实体及其属性值融合至对应的标定影视图谱。

在步骤s4中,假定图索引库中所包含的电影资源方实体图谱的数量为n。

图3为本公开中步骤s4的一种具体实现流程图,如图3所示,作为一种可选方案,步骤s4包括:

步骤s401、令j=1。

步骤s402、针对第j个电影资源方实体图谱,从影视剧知识图谱库中确定出与第j个电影资源方实体图谱中的第一实体相关联的影视实体所对应的影视图谱,以作为第j个电影资源方实体图谱的相似影视图谱。

图4为本公开中步骤s402的一种具体实现流程图,如图4所示,作为一种可选方案,步骤s402包括:

步骤s4021、获取第j个电影资源方实体图谱中的第一实体所对应的电影名称以及该电影名称的别名。

在步骤s4021中,首先,直接从第j个电影资源方实体图谱中获取第一实体的电影名称;然后,基于获取到的电影名称从互联网中查询出该电影名称的全部别名。该第一实体的电影名称和各别名统称为该第一实体的电影可选名称。

步骤s4022、从影视剧知识图谱库中筛选出影视实体所对应的电影名称为电影可选名称的影视图谱,筛选出的影视图谱作为该第j个电影资源方实体图谱对应的相似影视图谱。

图5为本公开中影视剧知识图谱库内的一个影视图谱的一种示意图,如图5所示,该影视图谱包含一个影视实体以及六项属性,该六项属性分别为:导演、演员表、上映年份、评分、经典台词和剧照,对应的六个属性值分别为:导演信息、演员表信息、时间信息、分值信息、台词信息、剧照信息。

需要说明的是,图5所示影视图谱中一个影视实体对应六项属性的情况仅起到示例性作用,其不会对本公开的技术方案产生限制。

前述步骤s2中所使用的“预定结构”(数据格式和id体系)可根据影视剧知识图谱库内影视图谱的数据格式和id体系来设计,仅需保证影视图谱中全部属性所构成的集合能够完全覆盖电影资源方实体图谱中第一实体的全部属性所构成的集合。

在步骤s4022中,从影视剧知识图谱库中筛选出影视实体的电影名称与第一实体的电影名称或别名相同的影视图谱,以作为第i个电影资源方实体图谱对应的相似影视图谱。

需要说明的是,一般而言,影视剧知识图谱库中的影视图谱数量足够多且覆盖范围广,因此针对每一个电影资源方实体图谱,通过步骤s402必然会确定出至少一个相似影视图谱。

步骤s403、计算第j个电影资源方实体图谱中的第一实体分别与各相似影视图谱中的影视实体之间的属性相似度。

作为一种可选方案,基于如下式子:

计算电影资源方实体图谱中的第一实体与相似影视图谱中的影视实体之间的属性相似度。

其中,qa,b表示电影资源方实体图谱中的第一实体与相似影视图谱中的影视实体之间的属性相似度,n表示预定用于计算属性相似度的n个属性,ai表示电影资源方实体图谱中的第一实体所对应的预定用于计算属性相似度的n个属性中的第i个属性的属性值,bi表示相似影视图谱中的影视实体所对应的预定用于计算属性相似度的n个属性中的第i个属性的属性值,s(ai,bi)表示属性值ai与属性值bi之间的相似度,pi表示s(ai,bi)所对应的权值。

作为一种可选方案,n的取值为3,且预定用于计算属性相似度的3个属性分别为上映年份、导演和演员表。进一步可选的,计算上映年份的相似度时所配置的权值为0.5,计算导演的相似度时所配置的权值为0.25,计算演员表的相似度时所配置的权值为0.25。各属性相似度所配置的权值可根据实际情况进行设定、调整。

在本公开中,针对不同类型属性的相似度计算时可采用不同的相似度计算算法。例如,在计算上映年份之间的相似度时,若两个上映年份不同则上映年份之间相似度取值为0,若两个上映年份相同则上映年份之间相似度取值为1;在计算导演相似度时,可根据电影资源方实体图谱中的导演信息(可能同时存在多个导演)生成一个第一导演集合,根据电影资源方实体图谱中的导演信息生成一个第二导演集合,采用现有的任一集合相似度算法来计算两个导演集合的相似度,计算结果作为最终导演相似度。在计算演员表之间的相似度时,可根据电影资源方实体图谱中演员表信息(一般存在多个演员)生成一个第一演员集合,根据电影资源方实体图谱中的演员表信息生成一个第二演员集合,第一演员集合与第二演员集合的交集中演员数量为t1,第一演员集合与第二演员集合的合集中演员数量为t2,将t1与t2的比值作为最终演员表相似度。上述示例仅起到示例性作为,其不会对本公开的技术方案产生限制。

需要说明的是,上述预定用于计算属性相似度的属性数量为3且分别为上映年份、导演和演员表的情况,仅起到示例性作用,其不会对本公开的技术方案产生限制。本公开中可根据实际要来调整用于计算属性相似度的属性数量以及对应的属性。例如,从上映年份、导演和演员表三个属性中选取至少一个,或者除上映年份、导演和演员表之前,还选取其他的属性用作属性相似度的计算;其均属于本公开的保护范围。

通过步骤s403,可计算出第j个电影资源方实体图谱中的第一实体分别与各相似影视图谱中的影视实体之间的属性相似度。

步骤s404、比较属性相似度中的最大值是否大于预定阈值。

在步骤s404中,首先,确定出第j个电影资源方实体图谱中的第一实体与各相似影视图谱中的影视实体之间的属性相似度中的最大值。然后,比较该最大值是否大于预定阈值,其中当比较出该最大值大于预定阈值时,则表明第j个电影资源方实体图谱中的第一实体与该最大值所对应的相似影视图谱中的影视实体相似,两个图谱可进行融合,此后执行步骤s405;当比较出该最大值小于或等于预定阈值时,则表明第j个电影资源方实体图谱中的第一实体与该最大值所对应的相似影视图谱中的影视实体不相似,两个图谱不可进行融合,此后执行步骤s406。

步骤s405、以该最大值所对应的相似影视图谱作为该电影资源方实体图谱对应的标定影视图谱,将该电影资源方实体图谱中的第二实体及其属性值融合至对应的标定影视图谱。

图6为本公开中影视剧知识图谱库内的一个标定影视图谱的完成多次消歧融合后的示意图,如图6所示,该标定影视图谱中包括一个影视实体以及多个第二实体(资源方信息),每个第二实体具有对应的属性值(资源方在各城市的售票信息)。

在步骤s405结束后,执行步骤s406。

步骤s406、判断j是否小于n。

在步骤s406中,当判断出j小于n时,则执行步骤s407;当判断出j大于或等于n时,则步骤s4结束。

步骤s407、执行j=j+1。

在步骤s407结束后,以更新后的j再次执行步骤s402。

在本公开中,通过上述步骤s1~步骤s4,可实现多源售票数据的融合,可方便于用户后续基于影视剧知识图谱库来查询不同资源方的售票信息。

图7为本公开实施例提供的另一种多源售票数据管理方法的流程图,如图7所示,该多源售票数据管理方法不但包括上述步骤s1~步骤s4,还包括步骤s1a,其中步骤s1a位于步骤s1和步骤s2之间执行,下面仅对步骤s1a进行详细描述。

步骤s1a、针对每条原始电影售票数据,对该原始电影售票数据进行数据有效性验证,其中,当该原始电影售票数据未通过验证时,则将该原始电影售票数据丢弃。

考虑到通过步骤s1所获取到的原始电影售票数据中可能存在一些非有效数据(原始电影售票数据中缺少后续处理的必要数据),在步骤s1a中,可基于schema校验来对原始电影售票数据进行数据有效性。

作为一种可选方案,检测该原始电影售票数据中是否包含有电影名称、资源方信息、资源方在不同城市的售票信息以及预定电影关联信息。其中,该预定电影关联信息是预先设定的一项或几项与电影相关联的信息,例如,导演、上映年份、演员表。

在进行schema校验时,将电影名称、资源方信息、资源方在不同城市的售票信息以及预定电影关联信息均作为必选数据。即,当检测出该原始电影售票数据中包含有电影名称、资源方信息、资源方在不同城市的售票信息以及预定电影关联信息时(原始电影售票数据中同时包含上述所有必选数据),则该原始电影售票数据通过有效性验证;当检测出该原始电影售票数据中缺少电影名称、资源方信息、资源方在不同城市的售票信息以及预定电影关联信息中的至少一者时(原始电影售票数据中缺少必选数据),则该原始电影售票数据未通过有效性验证。

通过步骤s1a,可从获取到全部原始电影售票数据筛选并剔除出非有效性数据,从而能减小有效减少后续处理过程的计算量。

图8为本公开实施例提供的又一种多源售票数据管理方法的流程图,如图7所示,该多源售票数据管理方法不但包括上述步骤s1~步骤s4,还包括步骤s5,步骤s5位于步骤s4之后执行。下面仅对步骤s5进行详细描述。

步骤s5、针对影视剧知识图谱库中的每个标定影视图谱,在该标定影视图谱中,以城市为维度对各资源方分别在不同城市的售票信息进行分类,并建立以城市作为第三实体的节点,各资源方分别在不同城市的售票信息作为对应的第三实体的属性值。

在实际应用中,用户购票过程中往往关注的是某一部电影在当前城市的售票信息,即用户往往选择基于“电影名称”和“城市”进行查询。为提升查询效率,本公开的技术方案对影视剧知识图谱库中的标定影视图谱的结构进行了转换。其中,影视剧知识图谱库中的“标定影视图谱”为融合了资源方信息以及资源方在不同城市的售票信息的影视图谱。

图9为本公开中影视剧知识图谱库内的一个标定影视图谱的完成结构转换后的示意图,如图9所示,在完成结构转换标定影视图谱中,以城市为维度对各资源方分别在不同城市的售票信息进行分类,并建立以“城市”作为第三实体的节点,各资源方分别在不同城市的售票信息作为对应的第三实体的属性值(资源方信息作为第三实体的属性)。

图10为本公开实施例提供的再一种多源售票数据管理方法的流程图,如图10所示,该多源售票数据管理方法不但包括图9中的步骤s1~步骤s5,还包括步骤s6~步骤s9。

步骤s6、接收查询请求。

用户可通过相应app或位于电影院门前的查询设备,输入查询请求,本公开中的多源售票数据管理系统接收查询请求;该查询请求包括:待查电影名称以及待查城市。

步骤s7、从影视剧知识图谱库中定位出影视实体所对应的电影名称为待查电影名称的影视图谱。

步骤s8、从所定位到的影视图谱中定位出城市为待查城市的第三实体,并基于所定位到的第三实体,查询出该第三实体的全部属性以及属性值。

在步骤s7和步骤s8中,通过两次定位即得到相应的查询结果。该查询结果包括各资源方关于该待查电影在该待查城市内的售票信息。

步骤s9、用于将查询结果进行反馈。

当用户通过移动终端内的app进行查询时,多源售票数据管理系统可将查询结果发送至移动终端的app,以在app中进行展示;当用户通过电影院门前的查询设备进行查询时,多源售票数据管理系统可将查询结果发送至该查询设备(具有显示屏),以在该查询设备中进行展示;展示的方式可采用列表展示、图像展示、卡片层叠展示等方式,本公开的技术方案对查询结果的展示方式不作限定。

在本公开中,通过上述步骤s6~步骤s9可实现对多源售票数据的查询。

需要说明的是,在本公开中各实施例之间可以相互组合以得到新实施方案,该新实施方案也属于本公开的保护范围。

图11为本公开实施例提供的一种多源售票数据管理系统的结构框图,如图11所示,该多源售票数据管理系统可用于实现前述各实施例所提供的多源售票数据管理方法,该多源售票数据管理系统包括:获取模块1、处理模块2、实体化模块3、确定模块4、计算比较模块5和融合模块6。

其中,获取模块1用于获取多家资源方的多条原始电影售票数据。

处理模块2用于对原始电影售票数据进行结构化处理,以转变为具有预定结构的结构化电影售票数据,结构化电影售票数据包括:电影名称、至少一项电影关联信息、资源方信息以及资源方分别在不同城市的售票信息。

实体化模块3用于针对每条结构化电影售票数据,以该结构化电影售票数据中的电影名称和资源方信息分别作为第一实体和第二实体,对该结构化电影售票数据进行实体化,生成对应的电影资源方实体图谱,其中,第二实体作为第一实体的附属实体,各项电影相关信息作为第一实体的属性值,各售票信息作为第二实体的属性值。

确定模块4用于针对每个电影资源方实体图谱,从预定的影视剧知识图谱库中确定出与该电影资源方实体图谱中的第一实体相关联的影视实体所对应的影视图谱,以作为相似影视图谱。

计算比较模块5分别计算该电影资源方实体图谱中的第一实体与对应的各相似影视图谱中的影视实体之间的属性相似度,且比较属性相似度中的最大值是否大于预定阈值。

融合模块6用于当计算比较模块比较出该最大值大于预定阈值时,则以该最大值所对应的相似影视图谱作为该电影资源方实体图谱对应的标定影视图谱,将该电影资源方实体图谱中的第二实体及其属性值融合至对应的标定影视图谱。

在一些实施例中,获取模块1包括:抓取单元和/或接收单元。其中,抓取单元用于从多家资源方处抓取原始电影售票数据;接收单元用于接收多家资源方所推送的原始电影售票数据。

在一些实施例中,该多源售票数据管理系统还包括:转换模块8;转换模块8用于在融合模块完成对全部电影资源方实体图谱的处理之后,针对影视剧知识图谱库中的每个标定影视图谱,在该标定影视图谱中,以城市为维度对各资源方分别在不同城市的售票信息进行分类,并建立以城市作为第三实体的节点,各资源方分别在不同城市的售票信息作为对应的第三实体的属性值。

在一些实施例中,该多源售票数据管理系统还包括:接收模块9、定位模块10、查询模块11和反馈模块12。

其中,接收模块9用于在转换模块8完成对标定影视图谱的处理之后,接收查询请求,查询请求包括:待查电影名称以及待查城市。

定位模块10用于从影视剧知识图谱库中定位出影视实体所对应的电影名称为待查电影名称的影视图谱。

查询模块11用于从所定位到的影视图谱中定位出城市为待查城市的第三实体,并基于所定位到的第三实体,查询出该第三实体的全部属性以及属性值。

反馈模块12用于将查询结果进行反馈。

在一些实施例中,该多源售票数据管理系统还包括:校验模块7;校验模块7用于在处理模块2进行处理之前,针对每条原始电影售票数据,对该原始电影售票数据进行数据有效性验证,其中,当该原始电影售票数据未通过验证时,则将该原始电影售票数据丢弃。

可选地,校验模块7包括检测单元;检测单元用于检测该原始电影售票数据中是否包含有电影名称、资源方信息、资源方在不同城市的售票信息以及预定电影关联信息。

其中,当检测出该原始电影售票数据中包含有电影名称、资源方信息、资源方在不同城市的售票信息以及预定电影关联信息时,则该原始电影售票数据通过有效性验证;当检测出该原始电影售票数据中缺少电影名称、资源方信息、资源方在不同城市的售票信息以及预定电影关联信息中的至少一者时,则该原始电影售票数据未通过有效性验证。

在一些实施例中,确定模块4包括:获取单元和筛选单元。

其中,获取单元用于获取该电影资源方实体图谱中的第一实体所对应的电影名称以及该电影名称的别名,统称为电影可选名称。

筛选单元用于从影视剧知识图谱库中筛选出影视实体所对应的电影名称为电影可选名称的影视图谱,筛选出的影视图谱作为该电影资源方实体图谱对应的相似影视图谱。

在一些实施例中,计算比较模块5包括:计算单元;计算单元用于基于如下式子计算电影资源方实体图谱中的第一实体与相似影视图谱中的影视实体之间的属性相似度:

其中,qa,b表示电影资源方实体图谱中的第一实体与相似影视图谱中的影视实体之间的属性相似度,n表示预定用于计算属性相似度的n个属性,ai表示电影资源方实体图谱中的第一实体所对应的预定用于计算属性相似度的n个属性中的第i个属性的属性值,bi表示相似影视图谱中的影视实体所对应的预定用于计算属性相似度的n个属性中的第i个属性的属性值,s(ai,bi)表示属性值ai与属性值bi之间的相似度,pi表示s(ai,bi)所对应的权值。

进一步地,预定用于计算属性相似度的属性包括:上映年份、导演和演员表中的至少一者。

对于上述各模块、单元的描述,可参见前述对多源售票数据管理方法内对各步骤的描述,此处不在赘述。

本公开实施例还提供了一种服务器,该服务器包括:一个或多个处理器以及存储装置;其中,存储装置上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如前述实施例所提供的多源售票数据管理方法。

本公开实施例还提供了一计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被执行时实现如前述实施例所提供的多源售票数据管理方法。

本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本公开的范围的情况下,可进行各种形式和细节上的改变。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1