本发明实施例涉及计算机技术领域,尤其涉及一种信息处理方法、装置及计算机可读存储介质。
背景技术:
信息处理是指处理海量信息以期发掘有价值信息的过程。在公安领域建立的大数据平台中存在着多种事件信息文件,例如有网吧监控信息文件、住宿管理信息文件、卡口监控信息文件、火车出行信息文件、客运出行信息文件、飞机出行信息文件、出入境管理信息文件等,上述事件数据源记录的都是事件实体(即个人)的活动轨迹数据,信息处理就是在海量信息中找到事件实体与事件实体(即人与人)之间的潜在关系。
相关技术中,在进行信息处理的过程中,往往会将所有信息记录依次进行两两比对以期找到事件实体之间的潜在关系。
然而,由于这种方法需要基于两两信息记录依次进行比对发掘,因此十分耗费时间成本,造成事件实体之间关系的发掘效率低下。
技术实现要素:
为了解决上述技术问题,本发明实施例提供一种信息处理方法、装置及计算机可读存储介质,能够节省时间成本,提高发掘效率。
为了达到本发明实施例目的,本发明实施例提供了一种信息处理方法,包括:
服务器将事件实体按照相同的事件发生日期和相同的事件内容进行分类,得到若干个第一分类集;
在每个第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对;
获取所包含的两个事件实体同时存在于所有第一分类集中的事件实体对,作为待选择事件实体对;
在所述待选择事件实体对中获取符合预设多事件实体关联规则的事件实体对作为输出信息。
所述将事件实体按照相同的事件发生日期和相同的事件内容进行分类之前,还包括:
根据获得的事件实体与事件信息的对应关系获取事件信息中的事件发生日期和事件内容。
所述根据获得的事件实体与事件信息的对应关系获取事件信息中的事件发生日期和事件内容之前,还包括:
开启个数与预设分片数相同的线程;
控制每个线程读取相应的事件实体分片,得到事件实体;
根据获得的事件实体读取所述事件实体与事件信息的对应关系。
所述开启个数与预设分片数相同的线程之前,还包括:
读取事件信息文件,得到事件信息记录;
根据获得的事件信息记录获取并存储事件实体与事件信息的对应关系;
采用预设哈希函数对所述事件实体与事件信息的对应关系中的事件实体依次进行哈希运算,得到哈希值;
对获得的哈希值与所述预设分片数依次进行取模运算,得到结果值;
存储所述事件实体至与根据该事件实体获得的结果值对应的分片,得到事件实体分片。
所述得到第一分类集之后,且在每个第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对之前,还包括:
依次判断每个第一分类集中是否存在不存在于与该第一分类集的事件发生日期相同的第二分类中的事件实体;其中,所述第二分类是将事件实体按照相同的事件发生日期进行分类得到的;
获取所述第一分类集中不存在于与该第一分类集的事件发生日期相同的第二分类中的事件实体,作为待处理事件实体;
所述在每个第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对,包括:
在包含所述待处理事件实体的第一分类集中去除所述待处理事件实体;
在每个去除了所述待处理事件实体后的第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对。
本发明实施例提供了一种服务器,包括:
预处理模块,用于将事件实体按照相同的事件发生日期和相同的事件内容进行分类,得到第一分类集;
处理模块,用于在每个第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对;
所述处理模块,还用于获取所包含的两个事件实体同时存在于所有第一分类集中的事件实体对,作为待选择事件实体对;
所述处理模块,还用于在所述待选择事件实体对中获取符合预设多事件实体关联规则的事件实体对作为输出信息。
所述预处理模块还用于:
根据获得的事件实体与事件信息的对应关系获取事件信息中的事件发生日期和事件内容。
所述处理模块还用于:
开启个数与预设分片数相同的线程;
控制每个线程读取相应的事件实体分片,得到事件实体;
根据获得的事件实体读取所述事件实体与事件信息的对应关系。
本发明实施例提供了一种信息处理装置,包括:处理器和存储器,其中,存储器中存储有以下可被处理器执行的命令:
将事件实体按照相同的事件发生日期和相同的事件内容进行分类,得到第一分类集;
在每个第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对;
获取所包含的两个事件实体同时存在于所有第一分类集中的事件实体对,作为待选择事件实体对;
在所述待选择事件实体对中获取符合预设多事件实体关联规则的事件实体对作为输出信息。
本发明实施例提供了一种计算机可读存储介质,所述存储介质上存储有计算机可执行命令,所述计算机可执行命令用于执行以下步骤:
将事件实体按照相同的事件发生日期和相同的事件内容进行分类,得到第一分类集;
在每个第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对;
获取所包含的两个事件实体同时存在于所有第一分类集中的事件实体对,作为待选择事件实体对;
在所述待选择事件实体对中获取符合预设多事件实体关联规则的事件实体对作为输出信息。
与现有技术相比,本发明实施例至少包括:服务器将事件实体按照相同的事件发生日期和相同的事件内容进行分类,得到第一分类集;在每个第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对;获取所包含的两个事件实体同时存在于所有第一分类集中的事件实体对,作为待选择事件实体对;在待选择事件实体对中获取符合预设多事件实体关联规则的事件实体对作为输出信息。从本发明实施例提供的技术方案可见,由于先将事件实体按照事件发生日期和事件内容进行了分类,进而根据获得的分类集进行事件实体对筛选,最终得到符合预设单事件实体关联规则和预设多事件实体关联规则的事件的事件实体对,因此节省了发掘事件实体之间关系所耗费的时间成本,提高了发掘效率。
本发明实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例而了解。本发明实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明实施例技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明实施例的技术方案,并不构成对本发明实施例技术方案的限制。
图1为本发明实施例提供的一种信息处理方法的流程示意图;
图2为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明实施例的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
本发明实施例提供一种信息处理方法,如图1所示,该方法包括:
步骤101、服务器将事件实体按照相同的事件发生日期和相同的事件内容进行分类,得到若干个第一分类集。
需要说明的是,事件实体、事件发生日期和事件内容是事件信息文件的每条信息记录中所包含的内容。
具体的,事件内容是根据事件信息记录提取出来的且能够标识事件信息记录的信息。举例来说,假设事件信息记录是“张三于2019年1月5日从上海乘坐t94班次火车去往北京”,事件实体是“张三”,事件发生日期是“2019年1月6日”,事件内容是“乘坐t94班次火车”;假设事件信息记录是“李四于2019年1月6日从上海乘坐nz49005班次飞机去往北京”,事件实体是“李四”,事件发生日期是“2019年1月6日”,事件内容是“乘坐nz49005班次飞机”。
步骤102、在每个第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对。
需要说明的是,预设单事件实体关联规则是一个事件实体的一条事件信息记录与另一个事件实体的一条事件信息记录之间要使事件实体之间产生联系所应当满足的规则。举例来说,假设事件是出行事件,预设单事件实体关联规则可以是邻座,还可以是买票时间在预设时间内。
步骤103、获取所包含的两个事件实体同时存在于所有第一分类集中的事件实体对,作为待选择事件实体对。
步骤104、在待选择事件实体对中获取符合预设多事件实体关联规则的事件实体对作为输出信息。
需要说明的是,预设多事件实体关联规则是一个事件实体的多条事件信息记录与另一个事件实体的多条事件信息记录之间要使事件实体之间产生联系所应当满足的规则。举例来说,假设事件是乘坐火车出行事件和住宿事件,预设多事件实体关联规则可以是在相同日期乘坐相同车次的火车,并且在两天之内入住相同地点的相同酒店。
本发明实施例所提供的信息处理方法,服务器将事件实体按照相同的事件发生日期和相同的事件内容进行分类,得到第一分类集;在每个第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对;获取所包含的两个事件实体同时存在于所有第一分类集中的事件实体对,作为待选择事件实体对;在待选择事件实体对中获取符合预设多事件实体关联规则的事件实体对作为输出信息。从本发明实施例提供的技术方案可见,由于先将事件实体按照事件发生日期和事件内容进行了分类,进而根据获得的分类集进行事件实体对筛选,最终得到符合预设单事件实体关联规则和预设多事件实体关联规则的事件的事件实体对,因此节省了发掘事件实体之间关系所耗费的时间成本,提高了发掘效率。
可选地,将事件实体按照相同的事件发生日期和相同的事件内容进行分类之前,还包括:
步骤105、根据获得的事件实体与事件信息的对应关系获取事件信息中的事件发生日期和事件内容。
可选地,根据获得的事件实体与事件信息的对应关系获取事件信息中的事件发生日期和事件内容之前,还包括:
步骤106、开启个数与预设分片数相同的线程。
步骤107、控制每个线程读取相应的事件实体分片,得到事件实体。
步骤108、根据获得的事件实体读取事件实体与事件信息的对应关系。
可选地,开启个数与预设分片数相同的线程之前,还包括:
步骤109、读取事件信息文件,得到事件信息记录。
步骤110、根据获得的事件信息记录获取并存储事件实体与事件信息的对应关系。
步骤111、采用预设哈希函数对事件实体与事件信息的对应关系中的事件实体依次进行哈希运算,得到哈希值。
步骤112、对获得的哈希值与预设分片数依次进行取模运算,得到结果值。
步骤113、存储事件实体至与根据该事件实体获得的结果值对应的分片,得到事件实体分片。
可选地,得到第一分类集之后,且在每个第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对之前,还包括:
步骤114、依次判断每个第一分类集中是否存在不存在于与该第一分类集的事件发生日期相同的第二分类中的事件实体。
其中,第第二分类是将事件实体按照相同的事件发生日期进行分类得到的。
步骤115、获取第一分类集中不存在于与该第一分类集的事件发生日期相同的第二分类中的事件实体,作为待处理事件实体。
在每个第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对,包括:
步骤102a、在包含待处理事件实体的第一分类集中去除待处理事件实体。
步骤102b、在每个去除了待处理事件实体后的第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对。
本发明实施例还提供一种信息处理方法,该方法包括:
步骤1、读取事件信息文件中的每一条(行)记录,通过编码器将记录转换成事件实体(key)–事件实体信息(value)格式的数据并进行存储,然后将属于相同事件实体事件发生日期的事件实体(key)聚集,再对编码后的事件实体(key)进行哈希运算以得到哈希值,然后将哈希值与预设分片数取模以得到结果值,最后将编码后的事件实体存储到本机磁盘上与该结果值对应的分片中。
步骤2、根据相同日期(date)聚集事件实体(key),然后把聚集后的数据按事件实体(key)编码的哈希值与分片数取模存储到本机磁盘上与该结果值对应的分片中。
需要说明的是,构建这种数据结构的文件的目的是为了能快速检索到某个事件实体的事件发生日期。
步骤3、读取步骤1构建好的标准数据集文件,按相同事件发生日期和事件内容(事件的发生日期和事件内容合并以id进行表示)聚集事件实体,并把聚集的数据按照时间和索引(id)编码后的哈希值与分片数取模存储到本机磁盘上。在聚集相同索引(id)的事件实体(key)时候,通过读取步骤2中建立的事件实体(key)-日期(date)文件并查找该事件实体(key)是否在有效时间(date)内有事件发生为依据进行剪枝判断。
步骤4、读取步骤3建立的索引文件(id-key),计算每个索引(id)下两两事件实体(key)的事件信息(value)是否符合预设单事件实体关联规则,聚集编码后的事件实体(key)—事件实体(key)格式的数据,将数据根据第一个事件实体(key)的哈希值和分片数取模导出到本地磁盘。
步骤5、读取所有索引(id)下符合单事件实体关联规则两两事件实体(key),获取同时存在于所有索引(id)下的两两事件实体(key),判断获得的两两事件实体(key)是否满足预设多事件实体关联规则,并获取满足预设多事件实体关联规则的两两事件实体(key)作为最终输出结果。
本发明实施例提供一种服务器,如图2所示,该服务器2包括:
预处理模块21,用于将将事件实体按照相同的事件发生日期和相同的事件内容进行分类,得到若干个第一分类集。
处理模块22,用于在每个第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对。
处理模块22,还用于获取所包含的两个事件实体同时存在于所有第一分类集中的事件实体对,作为待选择事件实体对。
处理模块22,还用于在待选择事件实体对中获取符合预设多事件实体关联规则的事件实体对作为输出信息。
可选地,预处理模块21还用于:
根据获得的事件实体与事件信息的对应关系获取事件信息中的事件发生日期和事件内容。
处理模块22还用于:
开启个数与预设分片数相同的线程。
控制每个线程读取相应的事件实体分片,得到事件实体。
根据获得的事件实体读取事件实体与事件信息的对应关系。
可选地,处理模块22还用于:
读取事件信息文件,得到事件信息记录。
根据获得的事件信息记录获取并存储事件实体与事件信息的对应关系。
采用预设哈希函数对事件实体与事件信息的对应关系中的事件实体依次进行哈希运算,得到哈希值。
对获得的哈希值与预设分片数依次进行取模运算,得到结果值。
存储事件实体至与根据该事件实体获得的结果值对应的分片,得到事件实体分片。
可选地,处理模块22还用于:
依次判断每个第一分类集中是否存在不存在于与该第一分类集的事件发生日期相同的第二分类中的事件实体;其中,第二分类是将事件实体按照相同的事件发生日期进行分类得到的。
获取第一分类集中不存在于与该第一分类集的事件发生日期相同的第二分类中的事件实体,作为待处理事件实体。
在包含待处理事件实体的第一分类集中去除待处理事件实体。
在每个去除了待处理事件实体后的第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对。
本发明实施例所提供的服务器,将事件实体按照相同的事件发生日期和相同的事件内容进行分类,得到第一分类集;在每个第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对;获取所包含的两个事件实体同时存在于所有第一分类集中的事件实体对,作为待选择事件实体对;在待选择事件实体对中获取符合预设多事件实体关联规则的事件实体对作为输出信息。从本发明实施例提供的技术方案可见,由于先将事件实体按照事件发生日期和事件内容进行了分类,进而根据获得的分类集进行事件实体对筛选,最终得到符合预设单事件实体关联规则和预设多事件实体关联规则的事件的事件实体对,因此节省了发掘事件实体之间关系所耗费的时间成本,提高了发掘效率。
在实际应用中,所述预处理模块21和处理模块22位于服务器中的中央处理器(centralprocessingunit,cpu)、微处理器(microprocessorunit,mpu)、数字信号处理器(digitalsignalprocessor,dsp)或现场可编程门阵列(fieldprogrammablegatearray,fpga)等实现。
本发明实施例还提供一种信息处理装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的命令:
将事件实体按照相同的事件发生日期和相同的事件内容进行分类,得到若干个第一分类集。
在每个第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对。
获取所包含的两个事件实体同时存在于所有第一分类集中的事件实体对,作为待选择事件实体对。
在待选择事件实体对中获取符合预设多事件实体关联规则的事件实体对作为输出信息。
可选地,存储器中还存储有以下可被处理器执行的命令:
根据获得的事件实体与事件信息的对应关系获取事件信息中的事件发生日期和事件内容。
可选地,存储器中还存储有以下可被处理器执行的命令:
开启个数与预设分片数相同的线程。
控制每个线程读取相应的事件实体分片,得到事件实体。
根据获得的事件实体读取事件实体与事件信息的对应关系。
可选地,存储器中还存储有以下可被处理器执行的命令:
读取事件信息文件,得到事件信息记录。
根据获得的事件信息记录获取并存储事件实体与事件信息的对应关系。
采用预设哈希函数对事件实体与事件信息的对应关系中的事件实体依次进行哈希运算,得到哈希值。
对获得的哈希值与预设分片数依次进行取模运算,得到结果值。
存储事件实体至与根据该事件实体获得的结果值对应的分片,得到事件实体分片。
可选地,存储器中还存储有以下可被处理器执行的命令:
依次判断每个第一分类集中是否存在不存在于与该第一分类集的事件发生日期相同的第二分类中的事件实体;其中,第二分类是将事件实体按照相同的事件发生日期进行分类得到的。
获取第一分类集中不存在于与该第一分类集的事件发生日期相同的第二分类中的事件实体,作为待处理事件实体。
在包含待处理事件实体的第一分类集中去除待处理事件实体。
在每个去除了待处理事件实体后的第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对。
本发明实施例还提供一种计算机可读存储介质,存储介质上存储有计算机可执行命令,计算机可执行命令用于执行以下步骤:
将事件实体按照相同的事件发生日期和相同的事件内容进行分类,得到若干个第一分类集。
在每个第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对。
获取所包含的两个事件实体同时存在于所有第一分类集中的事件实体对,作为待选择事件实体对。
在待选择事件实体对中获取符合预设多事件实体关联规则的事件实体对作为输出信息。
可选地,计算机可执行命令还用于执行以下步骤:
根据获得的事件实体与事件信息的对应关系获取事件信息中的事件发生日期和事件内容。
可选地,存储器中还存储有以下可被处理器执行的命令:
开启个数与预设分片数相同的线程。
控制每个线程读取相应的事件实体分片,得到事件实体。
根据获得的事件实体读取事件实体与事件信息的对应关系。
可选地,计算机可执行命令还用于执行以下步骤:
读取事件信息文件,得到事件信息记录。
根据获得的事件信息记录获取并存储事件实体与事件信息的对应关系。
采用预设哈希函数对事件实体与事件信息的对应关系中的事件实体依次进行哈希运算,得到哈希值。
对获得的哈希值与预设分片数依次进行取模运算,得到结果值。
存储事件实体至与根据该事件实体获得的结果值对应的分片,得到事件实体分片。
可选地,计算机可执行命令还用于执行以下步骤:
依次判断每个第一分类集中是否存在不存在于与该第一分类集的事件发生日期相同的第二分类中的事件实体;其中,第二分类是将事件实体按照相同的事件发生日期进行分类得到的。
获取第一分类集中不存在于与该第一分类集的事件发生日期相同的第二分类中的事件实体,作为待处理事件实体。
在包含待处理事件实体的第一分类集中去除待处理事件实体。
在每个去除了待处理事件实体后的第一分类集中分别获取所有由两个事件实体组成且符合预设单事件实体关联规则的事件实体对。
虽然本发明实施例所揭露的实施方式如上,但所述的内容仅为便于理解本发明实施例而采用的实施方式,并非用以限定本发明实施例。任何本发明实施例所属领域内的技术人员,在不脱离本发明实施例所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明实施例的专利保护范围,仍须以所附的权利要求书所界定的范围为准。