一种关系网络构建方法和装置、计算机可读存储介质与流程

文档序号:17662380发布日期:2019-05-15 22:28阅读:293来源:国知局
一种关系网络构建方法和装置、计算机可读存储介质与流程

本申请涉及但不限于数据挖掘技术领域,尤其涉及一种关系网络构建方法和装置、计算机可读存储介质。



背景技术:

关系网络是指在网络挖掘、金融分析、公共安全以及相关的链接关系分析领域中,专家定义或识别抽取的一系列实体及其间的关系所构成的网络结构。这些新场景中的关系网络类似在线社交网络,但是其容纳和覆盖的实体更丰富多样。

在关系网络中,实体是指具有扩展属性的个体。例如,出行中的个人,社交中的特定人。在关系网络中,对应的实体间的关系规则可以将现实世界中的人、物等实体之间的关系抽象为链接。透过多层次、多维度的数据集实现对于某一个人、某一件事或某一种社会状态的现实态势的聚集,并在时间序列上将离散的、各不相关的数据集合关联,找到一种或多种与人的活动、事件的发展以及社会的信息的有机联系。通过对这些连续性数据分析处理,进行数据的碰撞和互联,可以找出数据背后的潜在关联。通过实体关系网络,可以将其相关联的任一实体和事件做挖掘与碰撞比对。

关系规则是指这些场景中所定义的实体间的相似、相近或相关关系的领域知识。例如,出行中的同住、同路线关系;金融中的账户交易关系;通讯工具中的联系与群组沟通等关系。这些规则知识用于建立实体之间的关系,在关系网络的构建中,关系规则大量用于甄别相近、形成网络等数据抽取任务中。关系规则常用于网络挖掘、群体分析、金融关联和公共安全等诸多涉及到关系分析的领域场景。

关系规则大多需要专家通过经验和分析等来指定。但是,很多场景下涉及到上百种通用规则,并需要一些算法功能集的辅助支持,以发现数据间联系,实现打破数据孤岛状态。传统的关系规则识别和设计大多依赖人力,无法应对复杂场景。



技术实现要素:

本发明实施例提供了一种关系网络构建方法和装置、计算机可读存储介质,能够有效实现对多源数据的处理。

本发明实施例的技术方案是这样实现的:

本发明实施例提供了一种关系网络构建方法,包括:

获取构建关系网络所需的数据;

将所述数据映射至以下至少之一的空间:绝对空间、行政区划空间、点位空间,所述绝对空间包含所述数据对应的经纬度位置信息,所述行政区划空间包含所述数据对应的行政区位置信息,所述点位空间包含所述数据对应的相对预设的参照物的位置信息;

按照预设的关系抽取算子,抽取所述映射的空间数据中的关系。

在一实施例中,在将所述数据映射至所述空间之前,所述方法还包括:

根据预先制定的规则提取模板,将所述数据中的多个字段映射至对应的特征数据上;

检测所述特征数据是否需要添加以下至少之一的位置信息:所述经纬度位置信息、所述行政区位置信息、所述相对预设的参照物的位置信息;

如果需要添加所述位置信息,则为所述特征数据添加对应的所述位置信息。

在一实施例中,所述特征数据包括以下至少之一:主体信息、时间信息、事件信息、位置信息,所述位置信息包括以下至少之一:经纬度位置信息、行政区位置信息、相对预设的参照物的位置信息。

在一实施例中,将所述数据映射至所述至少之一的空间时,每个所述空间中的数据按照所述主体信息、所述时间信息、所述位置信息的格式进行存储。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如以上任一项所述的关系网络构建方法的步骤。

本发明实施例还提供了一种关系网络构建装置,包括处理器及存储器,其中:所述处理器用于执行存储器中存储的程序,以实现如以上任一项所述的关系网络构建方法的步骤。

本发明实施例还提供了一种关系网络构建装置,包括数据获取模块、空间映射模块和关系抽取模块,其中:

数据获取模块,用于获取构建关系网络所需的数据;

空间映射模块,用于将所述数据映射至以下至少之一的空间:绝对空间、行政区划空间、点位空间,所述绝对空间包含所述数据对应的经纬度位置信息,所述行政区划空间包含所述数据对应的行政区位置信息,所述点位空间包含所述数据对应的相对预设的参照物的位置信息;

关系抽取模块,用于按照预设的关系抽取算子,抽取所述映射的空间数据中的关系。

在一实施例中,所述数据获取模块还用于:

根据预先制定的规则提取模板,将所述数据中的多个字段映射至对应的特征数据上;检测所述特征数据是否需要添加以下至少之一的位置信息:所述经纬度位置信息、所述行政区位置信息、所述相对预设的参照物的位置信息;如果需要添加所述位置信息,则为所述特征数据添加对应的所述位置信息。

在一实施例中,所述特征数据包括以下至少之一:主体信息、时间信息、事件信息、位置信息,所述位置信息包括以下至少之一:经纬度位置信息、行政区位置信息、相对预设的参照物的位置信息。

在一实施例中,所述空间映射模块将所述数据映射至所述至少之一的空间时,按照所述主体信息、所述时间信息、所述位置信息的格式存储所述数据。

本发明实施例的技术方案,具有如下有益效果:

本发明实施例提供的关系网络构建方法和装置、计算机可读存储介质,通过将数据映射至以下至少之一的空间:绝对空间、行政区划空间、点位空间,有效实现了对多源数据的处理,提高了关系构建的效率,便于构建适合多源场景的大规模关系规则系统。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为本发明实施例的一种关系网络构建方法的流程示意图;

图2为本发明实施例的一种空间划分示意图;

图3为本发明实施例的一种火车出行事件的空间映射示意图;

图4为本发明实施例的一种时空数据的结构示意图;

图5为本发明实施例的一种关系网络构建装置的结构示意图;

图6为本发明实施例的一种针对多源数据的关系抽取流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。

在关系挖掘的世界里,实体是具有扩展挖掘属性的单一个体,通过每个实体可以将其相关联的任一实体和事件做挖掘与碰撞比对。关系规则常用于网络挖掘、群体分析、金融关联和公共安全等诸多涉及到关系分析的领域场景中。

关系规则是指社交网络分析、实体关系分析等场景中的一些相似、相近、相关关系的识别领域知识。关系规则的产生大多依赖专家的历史经验和大量数据案例分析得到。关系规则可以刻画实体间的联系。在系统中主要体现物理世界中各种千丝万缕的联系,使得数据在逻辑层可以真实反映物理世界中的各种关联图谱,例如人与人之间的好友关系,同车、同住关系等。事件是在特定时空维度刻画实体间关系的一类对象,在系统中会被用来记录事物的发生,例如交通违章事件、通话事件、聊天事件等。

针对大量数据的规则技术基础在于实体关联关系发现,虽然近期已经有一些响应的探索,但是在领域适配性上仍有不足。特征提取和关联证据(属性名,数据类型,阈值、统计值、信息检索与数据挖掘的加权(termfrequency–inversedocumentfrequency,tf-idf)等),数据去重(数据绑定(databinning)算法o(n2)到o(n)),主动学习和持续训练(主要用于数据去重),聚类和记录整合、把描述同一实体的数据聚类到一起。

在多源数据关系规则发现方面,相关学术研究多侧重针对特定类型或领域的数据集成与协同。在工业界,主流公司如甲骨文(oracle)、国际商业机器公司(ibm)、谷歌(google)等推出的系统多基于元数据管理、知识图谱等技术,对规则协同考虑较少。当前数据协同方面的研究工作大多依赖于以数据模式为语义描述的基础,且假设数据模式信息已知,利用模式的描述语义或结构语义信息,在实际应用中具有一定的局限性。

在规则融合理解方面,目前主要研究实体抽取、属性识别和结构化记录,进行实体、数据源、用户等的相关性分析。微软研究院(microsoftresearch)提出面向终端用户使用手机编程(touchdevelop),从用户角度实现相对简单的数据源可视化与融合。但总体看来,目前工作还很难适应数据来源广泛、数据类型多样、应用需求差异等挑战。

关系规则的基本任务是,基于实体-链接二元理论,将现实世界中的人、物等实体之间的关系抽象为链接(连线),透过多层次、多维度的数据集实现对于某一个人、某一件事或某一种社会状态的现实态势的聚集,并在时间序列上将离散的、貌似各不相关的数据集合关联,找到一种或多种与人的活动、事件的发展以及社会的信息有机联系的连续性数据进行分析逻辑,通过数据的碰撞和互联,找出数据背后的潜在关联。

本申请中的关系网络构建方法和装置采用融合多个来源的数据特征进行构建。关系网络构建方法和装置首先构建来自不同数据源的微观特征,然后通过算子归并的方式,实现关系规则特征的融合、识别和构建。面向基于人、事、地、物、组织之间关系推演业务场景实现一整套规则定义和主题模型设计。

针对不同来源的数据描述,本申请通过多样的融合技术实现自动化的规则发现和候选规则确认。输入为已有的数据源模式和规则候选,建模和设计针对不同数据特征的规则筛选模型。系统的架构可以提升关系构建的效率。同时,留出灵活的接口供未来对关系的扩展。

本申请的关系网络构建方法和装置可以运行在现有的多节点大数据集群中,围绕成熟的平台开展。在数据整合的基础上,通过优化顶层设计,统筹底层数据库,借助智能文本分析引擎实现异构存储,引入非关系型数据库(nosql)、关系数据库以及关系引擎,并利用关系计算、特征计算、相似度计算、云计算的方式,实现实时、准实时、批量计算为上层关系规则的计算提供业务支撑。

参考图1,根据本发明实施例的一种关系网络构建方法,包括如下步骤:

步骤101:获取构建关系网络所需的数据;

在本发明的一实施例中,所述步骤101还包括:

根据预先制定的规则提取模板,将所述数据中的多个字段映射至对应的特征数据上;

检测所述特征数据是否需要添加以下至少之一的位置信息:所述经纬度位置信息、所述行政区位置信息、所述相对预设的参照物的位置信息;

如果需要添加所述位置信息,则为所述特征数据添加对应的所述位置信息。

本申请的规则提取模板主要用于通过接入不同的事件数据来源,分析不同来源的数据,抽取出关系规则特征使用的字段。

在本发明的一实施例中,所述特征数据包括以下至少之一:主体信息、时间信息、事件信息、位置信息,所述位置信息包括以下至少之一:经纬度位置信息、行政区位置信息、相对预设的参照物的位置信息。

例如,针对火车出行相关的数据中,提取的特征数据可以包括乘客姓名、乘客身份证号、发站时间、到站时间、发站位置、到站位置、车次、车厢、座位号等特征数据;在火车出行相关的数据中,发站位置、到站位置一般使用城市名,即行政区位置信息,而车次、车厢、座位号相当于以火车为参照物,得到的相对位置信息,相应地,可以为此类数据添加经纬度位置信息。

针对酒店住宿相关的数据中,提取的特征数据可以包括住客姓名、住客身份证号、入住日期、酒店名称、房间号等特征数据。在酒店住宿相关的数据中,酒店名称、房间号相当于以酒店为参照物,得到的相对位置信息,可通过地图搜索具体的酒店位置,为此类数据添加相应的经纬度位置信息和行政区位置信息。这部分需要引入外部的知识库,比如车站、酒店等的行政区划和经纬度等。

步骤102:将所述数据映射至以下至少之一的空间:绝对空间、行政区划空间、点位空间,所述绝对空间包含所述数据对应的经纬度位置信息,所述行政区划空间包含所述数据对应的行政区位置信息,所述点位空间包含所述数据对应的相对预设的参照物的位置信息;

在本发明的一实施例中,当将所述数据映射至所述至少之一的空间时,每个所述空间中的数据按照所述主体信息、所述时间信息、所述位置信息的格式进行存储。

在该实施例中,所述主体信息包括但不限于主体姓名、主体身份证号、主体护照号、主体军官证号等。

本发明实施例所述的位置信息有可能是一个固定的位置(如汽车经过卡口),也可能是在一个移动物体中相对固定的位置(如火车的座位),在时间段的事件中开始和结束的时间点我们能判断实体一定处于一个绝对位置(如火车发站时实体一定在发站位置;火车到站时实体一定在到站位置),基于上面这些情况,如图2所示,我们可以把空间分为以下三种:

绝对空间:表示地球上唯一一个位置点,只能由一对经纬度来表示;

行政区划空间:表示一个具体的行政单位,分为省、市、区/县等,通常使用一个行政区划编码来表示;

点位空间:表示一个具体的位置点,这个点可能是相对移动的(火车座位),也可能是相对重叠的(楼层)等等,使用它可以来表示一个事件发生的地点,这是一个精确的位置,是经纬度无法表示的一个位置。

示例性的,针对火车事件的特征数据,三种空间的映射过程如图3所示。针对所述三个空间,各个空间中的时空数据都按照图4所示的格式进行存储:即实体(谁)+时间(什么时候)+空间(在哪个空间)。

实体是产生事件的一个个体,是事件发生的主体,比如火车事件,它是以人为主,则这个实体就是某个人,而表示一个人的方式有多种,如:身份证,护照号,军官证等,所以有时也将一个具体表示一个人的唯一身份识别号(id)作为一个实体。

步骤103:按照预设的关系抽取算子,抽取所述映射的空间数据中的关系。

需要说明的是,实体与实体之间的显性关系表示关系已经客观存在,可以通过事实直接作出判断,比如亲属关系。而隐性关系就是无法通过简单信息就可以判断的,需要一定的计算规则从历史数据中做一些统计和计算才能够确定他们是否存在,这种关系是一种可能性也就是满足某个规则的两个实体只是有非常大的可能有这个关系。本申请抽取的关系主要指按照某些规则计算出来的隐性关系。

关系抽取算子如何抽取两个或多个实体之间的关系呢?我们的直觉一般是如果两个实体经常走在一起,就很有可能它们有关系。经常走在一起有三层意思,一是时间相近,二是空间相近,三是前两点出现了多次,于是关系规则就可以被抽象成两个实体在某个时间或者时间段内出现在相同空间中,且时间和空间距离很接近,并且以上两种情况出现过多次,就表示他们可能有关系。

针对时空数据,我们很容易通过一个规则来确定某些人在某时某个空间下的一个关系。比如:两个人周日一起坐一趟火车去南京,这是一个简单的同时空共现。根据本发明实施例的三种空间,我们可以抽取出不同的时空关系。

在本发明的一实施例中,所述步骤103,具体包括:

针对行政空间,抽取在指定的行政区划下(例如,同城市还是同街道等)的时空共现规则;

针对绝对空间,抽取在指定的地理范围内(例如,以指定点为中心,方圆x千米范围内,x为任意正实数)的时空共现规则;

针对点位空间,抽取在指定的点位空间,例如车次相同且座位相邻、同酒店或同房间等更细粒度的时空共现规则;

通过对上述各空间的时空共现规则进行组合,抽取所述映射的空间数据中的关系。

需要说明的是,针对三种空间的数据,我们能为每种空间提供各类不同的关系抽取算子,比如计算同车次发生的关系,那么不用关心是飞机、大巴还是火车事件,使用的时候只需选择自己的关系抽取算子即可。每个关系抽取算子可以添加为一个独立的模块,加入一种关系抽取算子就相当于提供了一类新的计算关系的规则。通过提供模块化、算子化的关系规则管理体系,利于对大规模数据场景的治理和分解,适应多源融合的挑战。

三种空间中来自多个数据源的特征数据是可选的,可以通过配置灵活添加和删除,比如:现在计算行政空间的规则,用户只关心酒店和火车的轨迹特征,那么在融合的时候就只关注火车和酒店的数据,其他数据不用考虑。每个规则都是一种处理算法,也就是关系抽取算子。本申请通过建立灵活的融合特征识别和处理算法,便于构建适合多源场景的大规模关系规则系统。

本申请可以根据用户使用的情况做出判断,确定一些普遍的关系规则权重,比如出行数据,大家关注的是火车多一点、什么场景关注飞机多一点。把场景和关系规则的权重相结合,总结出一个关系规则权重可以灵活控制的设计,从而能够灵活应对数据和场景的变动。

上述空间都可以自行设定关系规则的粒度,比如行政空间同地市还是同街道的范围划分;绝对空间按照方圆x千米来缩放关系粒度;点位空间中,比如火车可以根据车次还是座位相邻,酒店数据中是同酒店还是同房间来划分规则的粒度范围。

上述关系规则定义了基础的算法规则,在实际关系网络中我们还可以通过高级的规则组合过滤来实现复杂的业务问题。比如:在关系规则抽取方面,最终的关系网络是类似某人和某人火车同出行过3次以上,并且飞机同出行过1次以上。

针对实际使用情况需要进行大量的规则组合和条件过滤,提供用户定义组合规则的方式,一方面方便用户使用,一方面积累了实际中的规则,从而形成更有业务价值的关系规则。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如以上任一项所述的关系网络构建方法的步骤。

本发明实施例还提供了一种关系网络构建装置,包括处理器及存储器,其中:所述处理器用于执行存储器中存储的程序,以实现如以上任一项所述的关系网络构建方法的步骤。

如图5所示,本发明实施例还提供了一种关系网络构建装置,包括数据获取模块501、空间映射模块502和关系抽取模块503,其中:

数据获取模块501,用于获取构建关系网络所需的数据;

空间映射模块502,用于将所述数据映射至以下至少之一的空间:绝对空间、行政区划空间、点位空间,所述绝对空间包含所述数据对应的经纬度位置信息,所述行政区划空间包含所述数据对应的行政区位置信息,所述点位空间包含所述数据对应的相对预设的参照物的位置信息;

关系抽取模块503,用于按照预设的关系抽取算子,抽取所述映射的空间数据中的关系。

在本发明的一实施例中,所述数据获取模块501还用于:

根据预先制定的规则提取模板,将所述数据中的多个字段映射至对应的特征数据上;检测所述特征数据是否需要添加以下至少之一的位置信息:所述经纬度位置信息、所述行政区位置信息、所述相对预设的参照物的位置信息;如果需要添加所述位置信息,则为所述特征数据添加对应的所述位置信息。

在本发明的一实施例中,所述特征数据包括以下至少之一:主体信息、时间信息、事件信息、位置信息,所述位置信息包括以下至少之一:经纬度位置信息、行政区位置信息、相对预设的参照物的位置信息。

例如,针对火车出行相关的数据中,提取的特征数据可以包括乘客姓名、乘客身份证号、发站时间、到站时间、发站位置、到站位置、车次、车厢、座位号等特征数据;在火车出行相关的数据中,发站位置、到站位置一般使用城市名,即行政区位置信息,而车次、车厢、座位号相当于以火车为参照物,得到的相对位置信息,相应地,可以为此类数据添加经纬度位置信息。

针对酒店住宿相关的数据中,提取的特征数据可以包括住客姓名、住客身份证号、入住日期、酒店名称、房间号等特征数据。在酒店住宿相关的数据中,酒店名称、房间号相当于以酒店为参照物,得到的相对位置信息,可通过地图搜索具体的酒店位置,为此类数据添加相应的经纬度位置信息和行政区位置信息。这部分需要引入外部的知识库,比如车站、酒店等的行政区划和经纬度等。

在本发明的一实施例中,所述空间映射模块502将所述数据映射至所述至少之一的空间时,按照所述主体信息、所述时间信息、所述位置信息的格式存储所述数据。

在该实施例中,所述主体信息包括但不限于主体姓名、主体身份证号、主体护照号、主体军官证号等。

本发明实施例所述的位置信息有可能是一个固定的位置(如汽车经过卡口),也可能是在一个移动物体中相对固定的位置(如火车的座位),在时间段的事件中开始和结束的时间点我们能判断实体一定处于一个绝对位置(如火车发站时实体一定在发站位置;火车到站时实体一定在到站位置),基于上面这些情况,如图2所示,我们可以把空间分为以下三种:

绝对空间:表示地球上唯一一个位置点,只能由一对经纬度来表示;

行政区划空间:表示一个具体的行政单位,分为省、市、区/县等,通常使用一个行政区划编码来表示;

点位空间:表示一个具体的位置点,这个点可能是相对移动的(火车座位),也可能是相对重叠的(楼层)等等,使用它可以来表示一个事件发生的地点,这是一个精确的位置,是经纬度无法表示的一个位置。

示例性的,针对火车事件的特征数据,三种空间的映射过程如图3所示。针对所述三个空间,各个空间中的时空数据都按照图4所示的格式进行存储:即实体(谁)+时间(什么时候)+空间(在哪个空间)。

在本发明的一实施例中,所述关系抽取模块503具体用于:

针对行政空间,抽取在指定的行政区划下(例如,同城市还是同街道等)的时空共现规则;

针对绝对空间,抽取在指定的地理范围内(例如,以指定点为中心,方圆x千米范围内,x为任意正实数)的时空共现规则;

针对点位空间,抽取在指定的点位空间,例如车次相同且座位相邻、同酒店或同房间等更细粒度的时空共现规则;

通过对上述各空间的时空共现规则进行组合,抽取所述映射的空间数据中的关系。

本申请的关系网络构建方法和装置聚焦于公共安全、金融场景等涉及到多个来源数据的关系发现。本申请包含了多源特征的处理,融合算法的设计和融合结果的解析等多项技术。本申请主要分为三个部分:

第一,关系特征的抽取处理。以公共安全中的用户出行关系筛选场景中,数据来源于出行、住宿等场景中的实体候选,通过一些基本的共现关系算子进行组合匹配,以形成更为全面的增量关联关系候选。

第二,关系特征的融合算法。在多来源和跨时空的数据获取、感知处理后,对不同来源的数据进行统一化表示。这里的统一化表示,主要是针对不同数据来源的数据,比如:酒店住宿的数据,火车出行数据,网吧上网数据等等,把多个来源的数据统一抽取成三个空间的表示:点位空间、行政空间、绝对空间,如图6所示。同时,借助外源信息的知识化(行政空间中需要使用一个统一行政区划表,目的是把火车站、酒店地址、网吧地址等等转换成统一的行政区划编码。同理绝对空间是考虑地点的经纬度问题,需要提供车站、酒店、网吧的一个经纬度信息)提高数据概况、索引设计、数据分发等重要操作的效率,实现快速的规则特征融合。

第三,关系规则的结果确认。通过比对、结合权重模型和赋值等,评判融合规则的候选。

经过统一表示后的数据,变成了三种空间的时空数据,三种空间的规则计算,又把每种空间的计算规则分成几个等级,比如行政空间中,是针对同一区县计算还是精确到同一个街道,都是一类规则引擎。同理绝对空间中是计算1公里内发生的关系还是10公里内发生的关系。通过后续评判融合规则的效果来最终确认最终的关系规则。

在真实数据上的实验表明,本申请通过三种空间挖掘数据中的关系,要比一般通过基本事件挖掘出的关系更丰富,本申请能提供多种事件关系联合查询的情况,比如:1、能查询当前同行(火车、大巴或飞机)到某地;2、能查询同行到某地且同住一个区域(方圆1公里内酒店)等等,新的融合规则生成技术可以有效实现对多源数据的处理,并显著降低系统负载和时间代价。本申请的关系网络构建方法和装置、计算机可读存储介质不局限于特定领域,适用于互联网群体挖掘、社交媒体营销、以及金融风控群体定位等类似领域中。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。

以上仅为本申请的优选实施例,当然,本申请还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本申请所附的权利要求的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1