一种多网络中相同人名的身份识别方法及装置制造方法

文档序号：6636875阅读：162来源：国知局

一种多网络中相同人名的身份识别方法及装置制造方法
【专利摘要】本发明公开了一种多网络中相同人名的身份识别方法和装置，包括：获取多个网络中的用户身份信息以及用户身份对应关系，将已知用户身份对应关系的用户身份信息集合作为训练集，根据训练集中的用户身份信息构建基于用户行为相似度的能量最低模型，获取能量因子和匹配关系分类器；根据匹配关系分类器将任意两个用户身份信息进行匹配，求解此能量矩阵得到单次预测的匹配结果；对多次求解的匹配结果进行集成，得到用户身份对应关系。本发明的方法及装置，能够将多个网络中具有不同身份信息但名字相同的信息进行同一性确认，能够提高统计结果的准确性，采用的算法高效，计算过程较快，随着样本库的增加，计算结果准确率也会不断提高。
【专利说明】-种多网络中相同人名的身份识别方法及装置

【技术领域】
[0001] 本发明涉及信息处理【技术领域】，特别是指一种多网络中相同人名的身份识别方法及装置。

【背景技术】
[0002] -般情况下，同一个用户在不同网络中注册有不同的身份信息，例如，电子邮箱、电话等等信息。例如，在在科学研究领域，往往会有大量科技工作者同时在多个科研团队中协同工作，由此导致在发表学术成果时同一个人所使用的个人信息，如电子信箱、单位、地址等，可能并不相同，即相同人名具有不同身份信息。在对领域内相关学术成果信息进行汇总时，由于难以判断这些相同的人名是否为同一个人，这样的冗余信息会直接影响统计结果的准确性。例如，科技工作者在不同的团队中工作，同一个科技工作者的个人信息可能在多个网络中出现，例如，某大学的网站、论文网、技术成果转让网、专利交易网等等，而此科技工作者在多个网络中的个人信息不一定完全相同。
[0003] 传统的社会网络分析方法通常仅考虑用户在单一网络（如在某高校任职）中的行为特征，忽略了用户可能会处于多个网络中的关联情况，例如一个用户可以同时活跃于高校、国企科研机构和社会性研究机构中，并且在每个社会网络中拥有不同的身份、人际圈子和研究内容，针对单一网络的行为分析方法无法应用于这种多层网络环境。在多个网络中，各网络中的节点可能具有截然不同的属性，并且网络与网络的节点之间存在相互依赖和协作等关联关系，因此，需要一种多网络中对同名个体的同一性认定的方法。

【发明内容】

[0004] 有鉴于此，本发明的目的在于提出一种多网络中相同人名的身份识别方法及装置，能够将多个网络中具有不同身份信息但名字相同的信息进行同一性确定。
[0005] 基于上述目的本发明提供一种多网络中相同人名的身份识别方法，包括：获取多个网络中的用户身份信息以及用户身份对应关系；将已知用户身份对应关系的用户身份信息集合作为训练集；根据所述训练集中的所述用户身份信息构建基于用户行为相似度的能量最低模型，获取能量因子和匹配关系分类器；根据所述匹配关系分类器将任意两个用户身份信息进行匹配，并采用能量因子进行能量填充形成能量矩阵，求解此能量矩阵得到单次预测的匹配结果；对多次求解的匹配结果进行集成，得到用户身份对应关系并确定具有相同人名用户的身份同一'丨生。
[0006] 根据本发明的一个实施例，进一步的，所述将已知用户身份对应关系的所述用户身份信息的集合作为训练集、根据所述训练集中的所述用户身份信息构建基于用户行为相似度的能量最低模型、获取能量因子和匹配关系分类器包括：对于2个网络P、Q中任意给定的节点V(i)，其网络拓扑结构特征向量为：f(i) = {f\，f2，…fd}，其中，节点代表用户身份信息，为节点基本属性特征，包括：节点出度、入度、聚类系数、邻居节点、平均度、共同邻居；建立节点对特征向量向量，对于2个网络P、Q的节点对特征向量向量为： ?=冲;_, (，) J y/)) = !/,，(1)，(2)，…，乂量向量对匹配节点对进行聚类，获得各聚类类别C中所包含的具有相似特征节点的个数，将其作为粒子特征，节点对特征的分布情况作为能量因子，将具有相似网络行为特征的用 k 户赋予等值的能量因子；构建匹配节点对能量模型：其中，I为相似特征 Z=I . 的匹配节点对集合依据特征进行聚类后的节点对个数，ε i为该类别对应的能量因子；根据所述能量模型获取每个聚类类别所对应的能量因子：ε = { ε ε 2, . . .，ε k}，并将其作为预测过程中节点对所属类别的能量因子；根据聚类类别结果建立K分类器，并赋予每个节点对类别编号。
[0007] 根据本发明的一个实施例，进一步的，所述根据所述匹配关系分类器将任意两个用户身份信息进行匹配、并采用能量因子进行能量填充形成能量矩阵、求解此能量矩阵得到单次预测的匹配结果包括：对网络P、Q中未知身份对应关系的节点分别提取其拓扑结构特征：F P(i) = {fP(l)，fP(2)，· · ·，fP(m)}和？(3(;〇 = {fQ(l)，fQ(2)，· · ·，fQ(m)};对于任意未知身份对应关系的节点i e P，j e Q，构建nXn个所有未知节点的匹配节点对特征向量：巧吨=y，xrr(/)j丨乂/+)) = (乂,⑴，义⑵，…，似〃 X石⑴ 点对特征向量进行分类，得到每个节点对类别标签，构建节点对类别矩阵；对类别矩阵进行能量因子填充，将类别矩阵中类别标签替换为该类别所对应的能量因子ε ，构建能量矩阵；计算能量矩阵的最佳匹配。
[0008] 根据本发明的一个实施例，进一步的，计算该能量矩阵的最佳匹配的算法为：

【权利要求】
1. 一种多网络中相同人名的身份识别方法，其特征在于，包括：获取多个网络中的用户身份信息以及用户身份对应关系；将已知用户身份对应关系的用户身份信息集合作为训练集；根据所述训练集中的所述用户身份信息构建基于用户行为相似度的能量最低模型，获取能量因子和匹配关系分类器；根据所述匹配关系分类器将任意两个用户身份信息进行匹配，并采用能量因子进行能量填充形成能量矩阵，求解此能量矩阵得到单次预测的匹配结果；对多次求解的匹配结果进行集成，得到用户身份对应关系并确定具有相同人名用户的身份同一'I"生。
2. 如权利要求1所述的方法，其特征在于，所述将已知用户身份对应关系的所述用户身份信息的集合作为训练集、根据所述训练集中的所述用户身份信息构建基于用户行为相似度的能量最低模型、获取能量因子和匹配关系分类器包括：对于2个网络P、Q中任意给定的节点V(i)，其网络拓扑结构特征向量为：f(i)= {f\，f2，…fd}，其中，节点代表用户身份信息，为节点基本属性特征，包括：节点出度、入度、聚类系数、邻居节点、平均度、共同邻居；建立节点对特征向量向量，对于2个网络P、Q的节点对特征向量向量为：
根据该节点对特征向量向量对匹配节点对进行聚类，获得各聚类类别C中所包含的具有相似特征节点的个数，将其作为粒子特征，节点对特征的分布情况作为能量因子，将具有相似网络行为特征的用户赋予等值的能量因子； k 构建匹配节点对能量模型：其中，1为相似特征的匹配节点对集合 i=\ . 依据特征进行聚类后的节点对个数，εi为该类别对应的能量因子；根据所述能量模型获取每个聚类类别所对应的能量因子：ε= {εε2, . ..，εk}，并将其作为预测过程中节点对所属类别的能量因子；根据聚类类别结果建立K分类器，并赋予每个节点对类别编号。
3. 如权利要求1所述的方法，其特征在于，所述根据所述匹配关系分类器将任意两个用户身份信息进行匹配、并采用能量因子进行能量填充形成能量矩阵、求解此能量矩阵得到单次预测的匹配结果包括：对网络P、Q中未知身份对应关系的节点分别提取其拓扑结构特征：Fp⑴={fP(l)，fP(2)，· ··，fP(m)}和卩々）={4(1),4(2),...,4(111)}; 对于任意未知身份对应关系的节点ieP，jeQ，构建nXn个所有未知节点的匹配节点对特征向量：
通过K分类器对匹配节点对特征向量进行分类，得到每个节点对类别标签，构建节点对类别矩阵；对类别矩阵进行能量因子填充，将类别矩阵中类别标签替换为该类别所对应的能量因子= ，构建能量矩阵；计算能量矩阵的最佳匹配。
4. 如权利要求3所述的方法，其特征在于，计算该能量矩阵的最佳匹配的算法为：
其中，Aij表示网络P中的节点i与网络G中的节点j是否存在--对应关系，若i0j的对应关系被确立则标记为1，否则标记为〇,匹配结果表述为心〇+) 〇G(./+)。
5. 如权利要求3或4所述的方法，其特征在于，所述对多次求解的匹配结果进行集成，得到用户身份信息的对应关系并确定具有相同人名的身份同一性包括：得到ξ个预测结果，将每次预测结果在节点对匹配矩阵中进行投票，得到投票矩阵V-Matrix= (Vij)；求解该投票矩阵V-Matrix的最优匹配问题，采用的算法为：
其中，k表示表示投票矩阵中第i行第j列的投票结果，λυ表示网络P中的节点i与网络G中的节点j是否存在一一对应关系，即表示节点对的最终匹配结果。
6. -种多网络中相同人名的身份识别装置，其特征在于，包括：信息获取单元，用于获取多个网络中的用户身份信息以及用户身份对应关系；训练集生成单元，用于将已知用户身份对应关系的用户身份信息集合作为训练集；根据所述训练集中的所述用户身份信息构建基于用户行为相似度的能量最低模型，获取能量因子和匹配关系分类器；匹配单元，用于根据所述匹配关系分类器将任意两个用户身份信息进行匹配，并采用能量因子进行能量填充形成能量矩阵，求解此能量矩阵得到单次预测的匹配结果；集成单元，用于对多次求解的匹配结果进行集成，得到用户身份对应关系并确定具有相同人名用户的身份同一性。
7. 如权利要求6所述的装置，其特征在于：所述训练集生成单元，包括：节点对特征建立子模块，用于对于2个网络P、Q中任意给定的节点V(i)，建立其网络拓扑结构特征向量为：f⑴={fl，f2，…fd}，其中，节点代表用户身份信息， ?·Μ为节点基本属性特征，包括：节点出度、人度、聚类系数、邻居节点、平均度、共同邻居；建立节点对特征向量向量，对于2个网络P、Q的节点对特征向量向量为：厂…=厂以/))=丨.,/;,(1)，,/;,(2),…⑷4 量向量对匹配节点对进行聚类，获得各聚类类别C中所包含的具有相似特征节点的个数，将其作为粒子特征，节点对特征的分布情况作为能量因子，将具有相似网络行为特征的用户赋予等值的能量因子； k 分类器生成子模块，用于构建匹配节点对能量模型：其中，I为相似 i=\ ; 特征的匹配节点对集合依据特征进行聚类后的节点对个数，εi为该类别对应的能量因子；根据所述能量模型获取每个聚类类别所对应的能量因子：ε= {εε2, . ..，εk}，并将其作为预测过程中节点对所属类别的能量因子；根据聚类类别结果建立K分类器，并赋予每个节点对类别编号。
8. 如权利要求6所述的装置，其特征在于：所述训练集生成单元，还包括：节点对类别建立子模块，用于对网络P、Q中未知身份对应关系的节点分别提取其拓扑结构特征：FP(i) = {fP(l)，fP(2)，· · ·，fP(m)}和？0(;〇 = {fQ(l)，fQ(2)，· · ·，fQ(m)};对于任意未知身份对应关系的节点ieP，jeQ，构建nXn个所有未知节点的匹配节点对特征向量：7，;^ = 7*'(以〇，心(刀)=(/r(l)，/r⑵，，乃⑴，乃⑵,...，/?,("七通过K分类器对匹配节点对特征向量进行分类，得到每个节点对类别标签，构建节点对类别矩阵；所述匹配单元，还用于对类别矩阵进行能量因子填充，将类别矩阵中类别标签替换为该类别所对应的能量因子εi=Mt()gOTy，构建能量矩阵，计算能量矩阵的最佳匹配。
9. 如权利要求8所述的装置，其特征在于，所述匹配单元计算该能量矩阵的最佳匹配的算法为：
其中，Aij表示网络P中的节点i与网络G中的节点j是否存在--对应关系，若i〇j的对应关系被确立则标记为1，否则标记为〇,匹配结果表述为1〉〇+)G心(./)。
10. 如权利要求8或9所述的装置，其特征在于：所述集成单元，还用得到ξ个预测结果，将每次预测结果在节点对匹配矩阵中进行投票，得到投票矩阵V-Matrix= (Vij);求解该投票矩阵V-Matrix的最优匹配问题，采用的公式为：
其中，k表示表示投票矩阵中第i行第j列的投票结果，λu表示网络P中的节点i与网络G中的节点j是否存在一一对应关系，即表示节点对的最终匹配结果。
【文档编号】G06F17/30GK104462318SQ201410719649
【公开日】2015年3月25日申请日期:2014年12月1日优先权日:2014年12月1日
【发明者】王晶华, 陈晰, 徐慧明, 郭光 , 魏明磊申请人:国家电网公司, 国网河北省电力公司, 国网河北省电力公司衡水供电分公司, 国家电网公司信息通信分公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王晶华;陈晰;徐慧明;郭光;魏明磊;
技术所有人：国家电网公司;国网河北省电力公司;国网河北省电力公司衡水供电分公司;国家电网公司信息通信分公司;
我是此专利的发明人

上一篇：光源自动调整方法与系统的制作方法
上一篇：自然语言文本关键词关联网络构建系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。