一种群体挖掘方法及装置与流程

文档序号:17989924发布日期:2019-06-22 00:42阅读:179来源:国知局
一种群体挖掘方法及装置与流程

本申请涉及知识图谱数据挖掘领域,尤其涉及一种群体挖掘方法及装置。



背景技术:

随着互联网的发展,网络数据内容呈现爆炸式增长的态势。由于互联网内容的大规模、异质多元、组织结构松散的特点,给人们有效获取信息和知识提出了挑战。知识图谱(knowledgegraph)以其强大的语义处理能力和开放组织能力,为互联网时代的知识化组织和智能应用奠定了基础。

知识图谱被用于描述事物之间的关联关系,其中一种知识图谱的具体描述方式包括定义图谱中的实体(即图中的节点)、关系(即图中的边)和点/边相关的属性(即属性图)。其中,实体指的是现实世界中的事物比如人、地名、概念、药物、公司等,关系则用来表达不同实体之间的某种联系,实体和关系也会拥有各自的属性,比如人可以有“姓名”和“年龄”。另外,随着各垂直领域应用的不断细化、丰富,某些行业(比如公共安全领域)还会把与实体相关的时间序列数据或者空间轨迹数据加入到知识图谱中,结合关系网络实现复杂的分析应用。

在公共安全领域,由于案件常呈现群体性特征,并且往往无法直接确定参与案件的一、两个人(因为缺少明确的线索等),所以通过挖掘一个具有共同特征的群体并逐步缩小搜索范围成为一种切实可行的破案方法。

传统的“社区发现”方法多通过分析关联关系网络的结构(比如子图的稠密程度)实现,但关联关系网络仅仅是一方面的信息,尤其是当公共安全领域较多的信息反映在时空轨迹事件上的情况,单纯只依赖关系网络容易出现片面的分析结果或无法得到有效的社区结果。

如何弥补传统“社区发现”方法仅依赖关系网络的缺陷,更快更准确地在知识图谱中挖掘所要查找的群体,从而提高用户的体验度,是目前亟待解决的问题。



技术实现要素:

本申请的主要目的在于提出一种群体挖掘方法,弥补了传统“社区发现”方法仅依赖关系网络的缺陷,可以更快更准确地在知识图谱中挖掘所要查找的群体,从而提高了用户的体验度。

为实现上述目的,本申请实施例提供了一种群体挖掘方法,包括:

获取群体挖掘操作所要查找的目标群体的特征信息;

根据所述特征信息,确定符合所述特征信息的备选群体;

获取所述备选群体中各个个体的时空轨迹信息;

对所述时空轨迹信息进行处理,得到群体挖掘操作所要查找的目标群体。

可选地,所述根据所述特征信息,确定符合所述特征信息的备选群体,包括:

根据挖掘操作所要查找的目标群体的特征信息,设定与其对应的实体属性条件;其中,所述实体属性条件为描述所述特征信息的关键字;

从预先为数据查询系统中的实体属性构建的倒排索引库中,查询满足所述实体属性条件的索引信息,所述索引信息中包含标识所述备选群体中的个体的信息;

根据得到的索引信息,生成备选群体的信息集合;其中,所述备选群体的信息集合中包含多条索引信息。

可选地,所述个体的时空轨迹信息包括所述个体所执行的事件的时空轨迹信息和/或所述个体的从属物的时空轨迹信息。

可选地,

所述获取所述备选群体中各个个体的时空轨迹信息,包括:

依次选择所述备选群体的信息集合中的各个索引信息,根据所述索引信息中所包含的标识所述备选群体中的个体的信息,在所述数据查询系统中查找所述备选群体中的所述个体所执行的事件数据中所包含的时空轨迹信息;

和/或,

依次选择所述备选群体的信息集合中的各个索引信息,根据所述索引信息中所包含的标识所述备选群体中的个体的信息,扩展所述个体的从属关系网络,并从所述从属关系网络中获取所述个体的从属物,获取所述从属物的时空轨迹信息。

可选地,所述对所述时空轨迹信息进行处理,得到群体挖掘操作所要查找的目标群体,包括:

根据挖掘操作所要查找的目标群体的特征信息,获取所述时空轨迹信息对应的错误容忍度参数,其中所述错误容忍度参数包括时间参数、频率参数和空间参数中的至少一个;

根据所述错误容忍度参数对符合所述错误容忍度参数的范围内的时空轨迹信息进行时空伴随分析,得到群体挖掘操作所要查找的目标群体。

本申请实施例还提供了一种群体挖掘装置,包括:

备选群体获取模块,设置为获取群体挖掘操作所要查找的目标群体的特征信息;根据所述特征信息,确定符合所述特征信息的备选群体;

时空轨迹信息获取模块,设置为获取所述备选群体中各个个体的时空轨迹信息;

目标群体获取模块,设置为对所述时空轨迹信息进行处理,得到群体挖掘操作所要查找的目标群体。

可选地,其中,所述备选群体获取模块具体设置为:

根据挖掘操作所要查找的目标群体的特征信息,设定与其对应的实体属性条件;其中,所述实体属性条件为描述所述特征信息的关键字;

从预先为数据查询系统中的实体属性构建的倒排索引库中,查询满足所述实体属性条件的索引信息,所述索引信息中包含标识所述备选群体中的个体的信息;

根据得到的索引信息,生成备选群体的信息集合;其中,所述备选群体的信息集合中包含多条索引信息。

可选地,其中,所述个体的时空轨迹信息包括所述个体所执行的事件的时空轨迹信息和/或所述个体的从属物的时空轨迹信息。

可选地,所述时空轨迹信息获取模块具体设置为:

依次选择所述备选群体的信息集合中的各个索引信息,根据所述索引信息中所包含的标识所述备选群体中的个体的信息,在所述数据查询系统中查找所述备选群体中的所述个体所执行的事件数据中所包含的时空轨迹信息;

和/或,

依次选择所述备选群体的信息集合中的各个索引信息,根据所述索引信息中所包含的标识所述备选群体中的个体的信息,扩展所述个体的从属关系网络,并从所述从属关系网络中获取所述个体的从属物,获取所述从属物的时空轨迹信息。

可选地,其中,所述目标群体获取模块具体设置为:

根据挖掘操作所要查找的目标群体的特征信息,获取所述时空轨迹信息对应的错误容忍度参数,其中所述错误容忍度参数包括时间参数、频率参数和空间参数中的至少一个;

根据所述错误容忍度参数对符合所述错误容忍度参数的范围内的时空轨迹信息进行时空伴随分析,得到群体挖掘操作所要查找的目标群体。

本申请提出的技术方案包括:获取群体挖掘操作所要查找的目标群体的特征信息;根据所述特征信息,确定符合所述特征信息的备选群体;获取所述备选群体中各个个体的时空轨迹信息;对所述时空轨迹信息进行处理,得到群体挖掘操作所要查找的目标群体。

本申请提供了一种将关系网络信息和时空轨迹事件数据相结合进行群体挖掘的方法,通过结合实体人的从属关系扩展可利用的时空轨迹事件类型,利用时空轨迹事件数据在时-空上的发生顺序进行有一定错误容忍度范围内的碰撞关联计算,从而弥补了传统“社区发现”方法仅依赖关系网络的缺陷,可以更快更准确地在数据查询系统(如:知识图谱)中挖掘所要查找的群体,提高了用户的体验度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1所示为本申请实施例1的群体挖掘方法流程图;

图2所示为本申请实施例2的群体挖掘装置流程图;

图3所示为本申请实施例3的应用实施例系统结构图;

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

图1所示为本申请实施例1的群体挖掘方法流程图,包括以下步骤:

步骤101:获取群体挖掘操作所要查找的目标群体的特征信息;根据所述特征信息,确定符合所述特征信息的备选群体;

本申请中所要查找的目标群体指的是具有某一类共同特征的一群人或者物体,其中每一个人或物体为构成该目标群体的个体。在具体应用中,比如对于公共安全领域,所要查找的目标群体可以是参与案件的可疑人员。

其中,在根据所述特征信息,确定符合所述特征信息的备选群体时,具体可以如下方式进行:

首先根据挖掘操作所要查找的目标群体的特征信息,设定与其对应的实体属性条件;其中,所述实体属性条件为描述所述特征信息的关键字,比如“性别:男”+“民族:汉族”+“职业:民办教师”;

然后从预先为数据查询系统(如:知识图谱)中的实体属性构建的倒排索引库中,查询满足所述实体属性条件的索引信息,然后根据得到的索引信息,生成备选群体的信息集合;备选群体即为满足实体属性条件的人,得到了备选群体,即得到了初步的群体范围。其中,备选群体的信息集合中包含了多条从倒排索引库中查到的索引信息,该索引信息中包含标识备选群体中的个体的信息,比如:身份证号。

在本步骤中结合实体索引技术迅速缩小群体范围,从而降低了运算时间。

步骤102:获取所述备选群体中各个个体的时空轨迹信息;

其中,个体的时空轨迹信息包括所述个体所执行的事件的时空轨迹信息和/或所述个体的从属物的时空轨迹信息。

在获取所述备选群体中各个个体的时空轨迹信息时,可以以如下方式进行:

当个体的时空轨迹信息包括所述个体所执行的事件的时空轨迹信息时,则依次选择所述备选群体的信息集合中的各个索引信息,根据所述索引信息中所包含的标识所述备选群体中的个体的信息(如:身份证信息),在数据查询系统(如:知识图谱)中查找所述备选群体中的所述个体所执行的事件数据中所包含的时空轨迹信息,比如:获取每个人的事件数据中包含有“时间”+“空间”信息的轨迹信息,如住宿事件、网吧事件等。

当个体的时空轨迹信息包括所述个体的从属物的时空轨迹信息时,则依次选择所述备选群体的信息集合中的各个索引信息,根据所述索引信息中所包含的标识所述备选群体中的个体的信息(如:身份证信息),扩展所述个体的从属关系网络;通过扩展每个人的从属关系网络,从所述从属关系网络中获取所述个体的从属物(比如手机、车辆),进而获取从属物的时空轨迹数据(比如手机对应的基站轨迹、车辆的卡口轨迹)。这些从属物的时空轨迹实际上从侧面反映了属主的轨迹信息。

步骤103:对所述时空轨迹信息进行处理,得到群体挖掘操作所要查找的目标群体。

具体地,在执行本步骤时,可以以如下方式进行:

根据挖掘操作所要查找的目标群体的特征信息,获取所述时空轨迹信息对应的错误容忍度参数,其中所述错误容忍度参数包括时间参数、频率参数和空间参数中的至少一个;

根据所述错误容忍度参数对符合所述错误容忍度参数的范围内的时空轨迹信息进行时空伴随分析,得到群体挖掘操作所要查找的目标群体。

错误容忍度参数是使用者根据设计需要,根据具体情况而设定的。时间参数可以包括限定时空轨迹信息为某一段时间范围内的时空轨迹信息,比如过去一周内所产生的时空轨迹信息;另外,时间参数还包括在对某一段时间范围内的具体时空轨迹信息进行分析处理时,对于与群体中的个体所执行的事件或个体的从属物相关的时间轨迹所划定的允许出现的时间误差;空间参数包括在对某一段时间范围内的具体时空轨迹信息进行分析处理时,对于与群体中的个体所执行的事件或个体的从属物相关的空间轨迹所划定的允许出现的空间误差;频率参数指的是对于满足条件的事件为多少次的定义。举例来讲:在对步骤102中得到的时空轨迹信息的数据进行处理时,可以首先对该时空轨迹信息进行筛选,获取得到其中预定时间内(比如过去一周)的时空轨迹信息,然后再对所得到的预定时间内的时空轨迹信息进行时空伴随分析,在进行时空伴随分析时,可以结合预设的时间参数和/或频率参数和/或空间参数来进行,比如依如下条件对时空轨迹信息进行分析:a和b发生了n次在相差时间t内经过的地点在方圆m米范围内,其中n、t和m为使用者可根据具体情况设定的错误容忍度参数,n为频率参数,t为时间参数,m为空间参数。由于步骤102中获取到的轨迹数据是多种类型的,不同类型对应的地理位置多不相同(比如手机的轨迹是基站的经纬度、车辆轨迹是卡口的经纬度),使用精确比较位置的方式容易导致最终结果集为空。

这里结合多种轨迹的时间发生顺序和空间的相对位置进行比较,相比单纯比较离散的几个时间点上的轨迹(比如过去一年内有三次一起住同一家宾馆),更加显著地表明了这些人的伴随特征,通过这种方式挖掘出来的群体,有更大的可能性是期望查找的目标群体。

满足以上伴随分析条件的人两两连起来,最终会形成一个新的关联网络,该网络中包含的实体即为群体挖掘的结果。

这里需要说明的是,本申请提供了一种将关系网络信息和时空轨迹事件数据相结合进行群体挖掘的方法,通过结合实体人的从属关系扩展可利用的时空轨迹事件类型,利用时空轨迹事件数据在时-空上的发生顺序进行有一定错误容忍度范围内的碰撞关联计算,从而弥补了传统“社区发现”方法仅依赖关系网络的缺陷,可以更快更准确地在数据查询系统(如:知识图谱)中挖掘所要查找的群体,提高了用户的体验度。

图2为本申请实施例2的群体挖掘装置结构图,如图2所示,该装置包括:

备选群体获取模块,设置为获取群体挖掘操作所要查找的目标群体的特征信息;根据所述特征信息,确定符合所述特征信息的备选群体;

时空轨迹信息获取模块,设置为获取所述备选群体中各个个体的时空轨迹信息;

目标群体获取模块,设置为对所述时空轨迹信息进行处理,得到群体挖掘操作所要查找的目标群体。

其中,所述备选群体获取模块具体设置为:

根据挖掘操作所要查找的目标群体的特征信息,设定与其对应的实体属性条件;其中,所述实体属性条件为描述所述特征信息的关键字;

从预先为数据查询系统中的实体属性构建的倒排索引库中查询满足所述实体属性条件的索引信息,所述索引信息中包含标识所述备选群体中的个体的信息,根据得到的索引信息,生成备选群体的信息集合;其中,所述备选群体的信息集合中包含多条索引信息。

其中,所述个体的时空轨迹信息包括所述个体所执行的事件的时空轨迹信息和/或所述个体的从属物的时空轨迹信息。

进一步地,所述时空轨迹信息获取模块具体设置为:

依次选择所述备选群体的信息集合中的各个索引信息,根据所述索引信息中所包含的标识所述备选群体中的个体的信息,在所述数据查询系统中查找所述备选群体中的所述个体所执行的事件数据中所包含的时空轨迹信息;

和/或,

依次选择所述备选群体的信息集合中的各个索引信息,根据所述索引信息中所包含的标识所述备选群体中的个体的信息,扩展所述个体的从属关系网络,并从所述从属关系网络中获取所述个体的从属物,获取所述从属物的时空轨迹信息。

其中,所述目标群体获取模块具体设置为:

根据挖掘操作所要查找的目标群体的特征信息,获取所述时空轨迹信息对应的错误容忍度参数,其中所述错误容忍度参数包括时间参数、频率参数和空间参数中的至少一个;

根据所述错误容忍度参数对符合所述错误容忍度参数的范围内的时空轨迹信息进行时空伴随分析,得到群体挖掘操作所要查找的目标群体。

为进一步清楚地说明,以一个应用实例对本申请实施例的方法进行说明:

查找一个民族为维吾尔族的群体,符合以下特征:在2017年8月1日这一天之内依次经过至少3处相近(方圆2公里以内)的汽车卡口位置且经过每个卡口的时间相差在5分钟内。

实现步骤如下:

步骤一、在预先构建好的知识图谱实体的倒排索引库(倒排索引中包含实体的属性和实体的唯一标识)中,指定实体属性条件“民族:维吾尔族”进行索引查询,过滤出三个实体人(分别为a人、b人、c人)的信息,其中每条结果均包含了实体人的身份证号。

步骤二、利用上述步骤一中得到的三人的身份证号,在知识图谱库中查找到对应的实体数据,并分别针对这三个实体执行人-车关系扩展查询,得到三人关联的从属物实体车(分别为a车、b车、c车)

步骤三、利用以上得到的三辆车的唯一标识(车牌号)在知识图谱库中分别查询得到三辆车在2017年8月1日当天的卡口事件轨迹(对应示意图中黑色、深灰色、浅灰色的折线),查询得到的每一条卡口事件轨迹的数据记录中均包括车辆的唯一标识、事件的发生时间、本条事件经过的卡口标识、卡口的对应经纬度。

步骤四、针对设定的容忍度条件,地理位置在2公里以内,经过卡口时间相差5分钟,这一天内发生3次以上,对以上得到的事件轨迹数据进行时空伴随分析:

a)、对a和b车的卡口轨迹进行伴随分析:将a、b两辆车的卡口事件数据分别按发生时间从旧到新排列,比如t1a<t2a<t3a<t4a,t1b<t2b<t3b<t4b,从t1a开始一直遍历到t4a,对于每个a的时间点,在b轨迹的时间点中查找与a时间点相差在5分钟之内的b时间点,假设t1a与t1b在时间约束条件上匹配,则判断t1a和t1b对应的卡口事件里的卡口经纬度是否在2公里以内,如果确实在2公里以内,则累计次数加1;然后继续迭代处理下一个a时间点;遍历完所有的时间点后,如果累计匹配次数大于等于3,则可以建立a人与b人的关联关系;

b)、利用如上的方法分别对步骤一中的得到的三个人进行两两配对的判断,即判断a&b、b&c、a&c是否能建立关联关系;

c)、通过以上方法得到的实体两两之间的关联关系最终形成一个群体网络。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1