数据处理方法、装置和计算机可读存储介质与流程

文档序号:20600187发布日期:2020-05-01 21:34阅读:115来源:国知局
数据处理方法、装置和计算机可读存储介质与流程

本公开涉及数据处理技术领域,特别涉及一种数据处理方法、数据处理装置和计算机可读存储介质。



背景技术:

人与人之间通过信息的传播可以形成复杂的关系网络。对关系网络进行分析可以获取大量有用信息。

在相关技术中,采用数据库的形式对数据进行关联,并存储关系网络用以分析。



技术实现要素:

本公开的发明人发现上述相关技术中存在如下问题:对海量的关联数据进行查询的程序复杂、缓慢,且存储形式无法直观反映关联关系,从而造成数据处理效率低下。

鉴于此,本公开提出了一种数据处理技术方案,能够提高数据处理的效率。

根据本公开的一些实施例,提供了一种数据处理方法,包括:获取用户身份信息的传播过程数据;以所述传播过程数据中传播所述用户身份信息的各用户为实体节点,以所述各用户之间的信息传播关系为关系线段,生成知识图谱;根据所述传播过程数据,确定所述各用户具有的信息传播关系的数量;根据所述信息传播关系的数量对所述知识图谱中的实体节点进行标注处理。

在一些实施例中,所述的数据处理方法还包括:根据所述传播过程数据,确定所述各用户之间的信息传播次数;根据所述信息传播次数对所述知识图谱中的关系线段进行标注处理。

在一些实施例中,所述的数据处理方法还包括:在所述知识图谱中确定所述用户身份信息的传播发起实体节点和传播终止实体节点;确定所述传播发起实体节点和所述传播终止实体节点之间的最短传播路径;根据所述最短传播路径中包含的实体节点个数,对所述传播发起实体节点对应的用户进行评估。

在一些实施例中,计算所述传播过程数据的哈希值;将计算结果划分为多个数据块;根据所述多个数据块,利用图形数据库生成知识图谱。

在一些实施例中,所述信息传播关系的数量越大,相应的实体节点面积越大。

在一些实施例中,所述信息传播次数越多,相应的关系线段越粗。

在一些实施例中,所述传播过程数据包括发送所述身份信息的用户id、接收所述身份信息的用户id,以及所述用户身份信息的id、来源方式、转发类型、打开时间、转发时间、转发事件id、微信id、公司id、微信昵称中的一项或多项。

根据本公开的另一些实施例,提供一种数据处理装置,包括:获取单元,用于获取用户身份信息的传播过程数据;生成单元,用于以所述传播过程数据中传播所述用户身份信息的各用户为实体节点,以所述各用户之间的信息传播关系为关系线段,生成知识图谱;确定单元,用于根据所述传播过程数据,确定所述各用户具有的信息传播关系的数量;标注单元,用于根据所述信息传播关系的数量对所述知识图谱中的实体节点进行标注处理。

在一些实施例中,所述确定单元根据所述传播过程数据,确定所述各用户之间的信息传播次数;所述标注单元根据所述信息传播次数对所述知识图谱中的关系线段进行标注处理。

在一些实施例中,所述确定单元在所述知识图谱中确定所述用户身份信息的传播发起实体节点和传播终止实体节点,并确定所述传播发起实体节点和所述传播终止实体节点之间的最短传播路径。

在一些实施例中,所述数据处理装置还包括:评估单元,用于根据所述最短传播路径中包含的实体节点个数,对所述传播发起实体节点对应的用户进行评估。

在一些实施例中,所述生成单元计算所述传播过程数据的哈希值,将计算结果划分为多个数据块,根据所述多个数据块,利用图形数据库生成知识图谱。

在一些实施例中,所述信息传播关系的数量越大,所述标注单元将相应的实体节点面积标注的越大。

在一些实施例中,所述信息传播次数越多,所述标注单元将相应的关系线段标注的越粗。

在一些实施例中,所述传播过程数据包括发送所述身份信息的用户id、接收所述身份信息的用户id,以及所述用户身份信息的id、来源方式、转发类型、打开时间、转发时间、转发事件id、微信id、公司id、微信昵称中的一项或多项。

根据本公开的又一些实施例,提供一种数据处理装置,包括:存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行上述任一个实施例中的数据处理方法。

根据本公开的再一些实施例,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的数据处理方法。

在上述实施例中,根据信息的传播过程生成知识图谱,并对知识图谱中参与传播较多的实体节点进行标注。这样,可以直观地表现用户之间的信息传播过程,快速地对参与传播的用户进行分析,从而提高了数据处理效率。

附图说明

构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。

参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:

图1示出本公开的数据处理方法的一些实施例的流程图;

图2示出图1的步骤120的一些实施例的流程图;

图3示出本公开的数据处理方法的另一些实施例的流程图;

图4示出本公开的数据处理方法的一些实施例的示意图;

图5示出本公开的数据处理方法的又一些实施例的流程图;

图6示出本公开的数据处理装置的一些实施例的框图;

图7示出本公开的数据处理装置的另一些实施例的框图;

图8示出本公开的数据处理装置的又一些实施例的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

图1示出本公开的数据处理方法的一些实施例的流程图。

如图1所示,该方法包括:步骤110,获取传播过程数据;步骤120,生成知识图谱;步骤130,确定信息传播关系数量;和步骤140,对实体节点进行标注。

在步骤110中,获取用户身份信息的传播过程数据。用户身份信息例如可以为用户的电子名片,传播过程可以包含多次转发事件。例如用户a将其电子名片转发给用户b,用户b又将电子名片转发给用户c。

传播过程数据例如可以包括发送身份信息的用户id(from_id)、接收身份信息的用户id(to_id)。传播过程数据还可以包括用户身份信息的id(card_id)、来源方式(source_type)、转发类型(trans_type)、打开时间(open_time)、转发时间(transpond_time)、转发事件id(trans_id)、微信id(open_id)、公司id(company_id)、微信昵称中的一项或多项。

在一些实施例中,根据用户a将其电子名片传播给用户b这一信息传播过程,可以生成相应的结构化数据。例如,结构化数据中可以包括用户a和b的id、名片id、用户身份信息的来源方式(如海报方式、电子名片方式、小程序方式等)、用户a向用户b转发名片的类型(如个人方式等)、用户b打开电子名片的时间、用户a转发名片的时间、用户a的微信id、用户a的公司id、用户a的微信昵称等。

在一些实施例中,可以对获取的结构化数据进行数据清洗。例如,可以通过排序的方式(如topk方式)对某用户向同一用户多次发送名片的数据进行去重处理。

在步骤120中,以传播过程数据中传播用户身份信息的各用户为实体节点,以各用户之间的信息传播关系为关系线段,生成知识图谱。例如,用户a将电子名片转发给用户b,则用户a与b之间具有信息传播关系。

在一些实施例中,可以通过图2中的实施例生成知识图谱。

图2示出图1的步骤120的一些实施例的流程图。

如图2所示,步骤120可以包括:步骤1210,计算哈希值;步骤1220,划分数据块;步骤1230,输入图形数据库。

在步骤1210中,计算传播过程数据的哈希值。

在步骤1220中,将计算结果划分为多个数据块。在一些实施例中,可以采用平均分配组合算法划分数据块。例如,可以将计算结果划分为多个同类型的(如word、txt文档等)相同大小的数据块(也可以为大小近似相同)。

在步骤1230中,根据多个数据块,利用图形数据库生成知识图谱。例如,可以将数据块输入neo4j图形数据库中生成知识图谱。这样,利用图形数据库的批量事务提交、索引和唯一性处理多个数据块来构建知识图谱,能够降低数据的导入导出时间从而提高处理效率。

生成了知识图谱后,可以根据图1中的其余步骤对知识图谱进行进一步处理。

在步骤130中,根据传播过程数据,确定各用户具有的信息传播关系的数量。例如,用户a将电子名片传播给用户b和c,则用户a具有的信息传播关系的数量为2。

在步骤140中,根据信息传播关系的数量对知识图谱中的实体节点进行标注处理。例如,信息传播关系的数量越大,相应的实体节点面积越大。也可以对实体节点进行文字标注。

在一些实施例中,还可以根据图3中的实施例对知识图谱进行标注处理。

图3示出本公开的数据处理方法的另一些实施例的流程图。

如图3所示,与图1和2的实施例相比,本实施例还包括:步骤310,获取信息传播次数;和步骤320,对关系线段进行标注。

在步骤310中,根据传播过程数据,确定各用户之间的信息传播次数。例如,用户a向用户b发送了3次电子名片,则用户a与b之间的信息传播次数为3。

在步骤320中,根据信息传播次数对知识图谱中的关系线段进行标注处理。例如,信息传播次数越多,相应的关系线段越粗。也可以对关系线段进行文字标注。

在一些实施例中,可以生成图4中的知识图谱,并对其进行标注处理。

图4示出本公开的数据处理方法的一些实施例的示意图。

如图4所示,生成的知识图谱中包含7个实体节点:节点41-47,每个实体节点代表1个用户。各实体节点之间的关系线段表示两个实体节点代表的用户发生了身份信息传播。

节点41具有4条关系线段,即节点41代表的用户传播了4次身份信息,因此,节点41的面积最大。节点43、44仅具有2条关系线段,即节点43和44代表的用户传播了2次身份信息,因此,节点43、44的面积最小。其余节点均具有3条关系线段,因此,面积中等。

节点41代表的用户向节点42代表的用户传播了3次用户身份信息,其余节点均传播了1次用户身份信息,因此节点41与节点42之间的关系线段最粗,其余关系线段粗细相同。

在一些实施例中,可以对知识图谱进行进一步分析。例如,可以通过图5中的实施例实现。

图5示出本公开的数据处理方法的又一些实施例的流程图。

如图5所示,与上述实施例相比,本实施例还包括:步骤510,确定发起节点和终止节点;步骤520,确定最短路径;和步骤530,对用户进行评估。

在步骤510中,在知识图谱中确定用户身份信息的传播发起实体节点和传播终止实体节点。例如,在图4所示的知识图谱中确定传播发起实体节点为节点41,传播终止实体节点为节点45。

在步骤520中,确定传播发起实体节点和传播终止实体节点之间的最短传播路径。例如,节点41到节点45的传播路径共有两条:路径a(节点41-节点42-节点46-节点47-节点45)和路径b(节点41-节点42-节点45)。路径a代表节点41代表的用户身份信息先后传播给了4个人,路径b代表节点41代表的用户身份信息先后传播给了2个人,则最短路径为路径b。

在步骤530中,根据最短传播路径中包含的实体节点个数,对传播发起实体节点对应的用户进行评估。例如,可以设定最短路径中实体节点个数越多,评估结果越好,即传播发起实体节点代表的用户的将信息传播给了较多的用户,对信息传播的贡献较大。

上述实施例中,根据信息的传播过程生成知识图谱,并对知识图谱中参与传播较多的实体节点进行标注。这样,可以直观地表现用户之间的信息传播过程,快速地对参与传播的用户进行分析,从而提高了数据处理效率。

图6示出本公开的数据处理装置的一些实施例的框图。

如图6所示,数据处理装置6包括获取单元61、生成单元62、确定单元63、标注单元64。

获取单元61获取用户身份信息的传播过程数据。例如,传播过程数据包括发送身份信息的用户id、接收身份信息的用户id,以及用户身份信息的id、来源方式、转发类型、打开时间、转发时间、转发事件id、微信id、公司id、微信昵称中的一项或多项。

生成单元62以传播过程数据中传播用户身份信息的各用户为实体节点,以各用户之间的信息传播关系为关系线段,生成知识图谱。例如,生成单元62计算传播过程数据的哈希值,将计算结果划分为多个数据块,根据多个数据块,利用图形数据库生成知识图谱。

确定单元63根据传播过程数据,确定各用户具有的信息传播关系的数量。标注单元64根据信息传播关系的数量对知识图谱中的实体节点进行标注处理。例如,信息传播关系的数量越大,标注单元将相应的实体节点面积标注的越大。

在一些实施例中,确定单元63根据传播过程数据,确定各用户之间的信息传播次数。标注单元64根据信息传播次数对知识图谱中的关系线段进行标注处理。例如,信息传播次数越多,标注单元将相应的关系线段标注的越粗。

在一些实施例中,确定单元63在知识图谱中确定用户身份信息的传播发起实体节点和传播终止实体节点,并确定传播发起实体节点和传播终止实体节点之间的最短传播路径。

在一些实施例中,数据处理装置6还包括评估单元65,用于根据最短传播路径中包含的实体节点个数,对传播发起实体节点对应的用户进行评估。

上述实施例中,根据信息的传播过程生成知识图谱,并对知识图谱中参与传播较多的实体节点进行标注。这样,可以直观地表现用户之间的信息传播过程,快速地对参与传播的用户进行分析,从而提高了数据处理效率。

图7示出本公开的数据处理装置的另一些实施例的框图。

如图7所示,该实施例的数据处理装置7包括:存储器71以及耦接至该存储器71的处理器72,处理器72被配置为基于存储在存储器71中的指令,执行本公开中任意一个实施例中的数据处理方法中的一个或多个步骤。

其中,存储器71例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(bootloader)、数据库以及其他程序等。

图8示出本公开的数据处理装置的又一些实施例的框图。

如图8所示,该实施例的数据处理装置8包括:存储器810以及耦接至该存储器810的处理器820,处理器820被配置为基于存储在存储器610中的指令,执行前述任意一个实施例中的数据处理方法。

存储器810例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(bootloader)以及其他程序等。

数据处理装置8还可以包括输入输出接口830、网络接口840、存储接口850等。这些接口830、840、850以及存储器810和处理器820之间例如可以通过总线860连接。其中,输入输出接口830为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口850为sd卡、u盘等外置存储设备提供连接接口。

本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

至此,已经详细描述了根据本公开的数据处理方法、数据处理装置和计算机可读存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1