一种社交网络账号映射模型训练方法及映射方法和系统的制作方法_2

文档序号：8543756阅读：来源：国知局

跨微博的账号映射方法和系统。
[0037] 下面结合附图和实施例对本发明做进一步地描述。
[0038] 图1示出了本发明一个实施例的社交网络账号映射模型训练方法的流程图，该流程包括步骤100至300;
[0039] 步骤100;将跨微博的账号映射关系已知的微博数据集合作为训练集，账号映射关系未知的微博数据集合作为测试集（即待映射的数据集合）。在训练集和测试集的每个账号的微博数据中，对表征该账号与其邻居的关联关系的关系数据（即反映账号在本社交网络的社交关系的数据，例如互粉关系数据及回复数据等）与该账号的发言的文本数据进行统计，然后将训练集内的账号分别两两组合生成账号组合。现W基于两个微博所构建的账号集合的输入为例，说明本发明的微博账号的映射方法。
[0040]假设接收到两个微博待映射账号集合，其中包括n个微博S的账号，ID集合为 (攝,Uf…U沁m个微博t的账号，ID集合为{成...，uf…地}。在两个微博中，已知映射的账号h化ID集合为{巧，…，的}和{的,...，u'fj。通过步骤100,向微博服务器采集相关数据，并将数据按账号进行整理；训练集账号组合为已知映射的账号{11'^，...，11'^中的一个账号与中的一个账号进行组合所得到的h*h个账号组合。
[0041] 在一个实施例中，所述步骤100包括下列子步骤：
[0042] 步骤101;从微博服务器的微博数据中分离出每个账号的发言的文本数据和表征该账号与其邻居的关联关系的关系数据；
[0043] 步骤102;对文本数据按照账号进行重组（即每个账号的文本分别整理到该账号下），清除文本数据中干扰后续处理的噪声数据。噪声数据是指不是账号自身发言的数据，如转发的文本内容就属于噪声数据。
[0044] 步骤103;从文本数据中提取有效的文本特征，并按一定规则筛选、得到文本特征向量。在一个实施例中，所提取的文本特征为文本的字的二元词条化i-gram，即2-gram，可参考文献BrownPF,DesouzaPV,MercerRL,etal.Class-basedn-grammodelsof naturallanguage[J].Computationallinguistics, 1992, 18 (4) : 467-479.)，统计发言文本的字bi-gram的频数后，从中选择高频的词组作为特征，低频的词组删除。将所有特征的频数归一化，得到一组文本特征，构成账号的文本特征向量。
[0045] 上述的将统计的词频归一化使用下面的公式计算：
[0046]
【主权项】
1. 一种社交网络账号映射模型训练方法，包括下列步骤： 1) 将映射关系已知的微博S账号集合中的任一个账号与微博t账号集合中的任一个账号进行两两组合构成训练集； 2) 对于训练集中的每一个账号组合，提取账号组合特征向量，所述账号组合特征向量包括：该账号组合中两个账号各自的文本特征，两个账号在各自所属微博中的社交关系特征，以及两个账号的扩展共同邻居特征，扩展共同邻居是两个账号各自的邻居账号中，那些已知属于同一个自然人的邻居账号对； 3) 基于机器学习技术构建分类模型，根据训练集中各个账号组合特征向量，以及训练集中各账号组合已知的映射关系正负例，对分类模型进行训练得到社交网络账号映射模型。
2. 根据权利要求1所述的社交网络账号映射模型训练方法，其特征在于，所述两个账号的扩展共同邻居特征包括：两个账号的扩展共同邻居数量，反映两个账号的扩展共同邻居数量与两个账号的总邻居数量的比例的特征，以及反映扩展共同邻居的度的特征中的一项或多项。
3. 根据权利要求2所述的社交网络账号映射模型训练方法，其特征在于，反映两个账号的扩展共同邻居数量与两个账号的总邻居数量的比例的特征为扩展共同邻居的Jaccard 相似性系数。
4. 根据权利要求2所述的社交网络账号映射模型训练方法，其特征在于，所述反映扩展共同邻居的度的特征为两个账号的Adamic/AdarMeasure系数。
5. 根据权利要求1所述的社交网络账号映射模型训练方法，其特征在于，所述账号组合特征向量中的文本特征包括：账号自身的发言中的高频词组特征。
6. 根据权利要求1所述的社交网络账号映射模型训练方法，其特征在于，所述账号组合特征向量中的社交关系特征包括：以账号的互粉账号为等权值元素所构建的特征向量。
7. -种社交网络账号映射方法，包括下列步骤： a)将映射关系未知的微博s账号集合以及微博t账号集合中的账号两两配对构成测试集； b)对于测试集中的每个账号组合，提取其账号组合特征向量，所述账号组合特征向量包括：该账号组合中两个账号各自的文本特征，两个账号在各自所属微博中的社交关系特征，以及两个账号的扩展共同邻居特征，扩展共同邻居是两个账号各自的邻居账号中，那些已知属于同一个自然人的邻居账号对； c)将所提取的账号组合特征向量输入社交网络账号映射模型，得到分类结果，进而得出一个微博中的账号是否与另一微博中的账号映射，以及所映射的账号，其中所述社交网络账号映射模型按照权利要求1~6中任意一项所述的社交网络账号映射模型训练方法训练得到。
8. 根据权利要求6所述的社交网络账号映射方法，其特征在于，所述步骤c)还包括：基于预先设定的阈值，根据账号组合的分类结果判断每个账号是否与另一微博中的账号映射以及所映射的账号。
9.一种社交网络账号映射系统，包括：数据收集模块，用于将映射关系已知的微博s账号集合中的任一个账号与微博t账号集合中的任一个账号进行两两组合构成训练集；以及将映射关系未知的微博S账号集合以及微博t账号集合中的账号两两配对构成测试集；特征提取模块，用于提取训练集和测试集中的每一个账号组合的账号组合特征向量，所述账号组合特征向量包括：该账号组合中两个账号各自的文本特征，两个账号在各自所属微博中的社交关系特征，以及两个账号的扩展共同邻居特征，扩展共同邻居是两个账号各自的邻居账号中，那些已知属于同一个自然人的邻居账号对；训练及分类模块，用于基于机器学习技术构建分类模型，根据训练集中各个账号组合特征向量，以及训练集中各账号组合已知的映射关系正负例，对分类模型进行训练得到社交网络账号映射模型；以及将所提取的账号组合特征向量输入预先训练的社交网络账号映射模型，得到分类结果，进而得出一个微博中的账号是否与另一微博中的账号映射，以及所映射的账号。
【专利摘要】本发明提供一种社交网络账号映射模型训练方法，包括：1)将映射关系已知的微博s账号集合中的任一个账号与微博t账号集合中的任一个账号进行两两组合构成训练集；2)对每一个账号组合提取账号组合特征向量，包括：该账号组合中两个账号各自的文本特征，两个账号在各自所属微博中的社交关系特征，以及两个账号的扩展共同邻居特征，扩展共同邻居是两个账号各自的邻居账号中，那些已知属于同一个自然人的邻居账号对；3)基于机器学习技术进行训练得到社交网络账号映射模型。本发明还提供了相应的社交网络账号映射方法及系统。本发明能够减少关系数据稀疏性对映射结果的不利影响，有效地提高社交网络账号映射的准确率。
【IPC分类】G06K9-66, G06F17-30
【公开号】CN104866558
【申请号】CN201510252840
【发明人】许洪波, 樊茜, 梁英, 程学旗
【申请人】中国科学院计算技术研究所
【公开日】2015年8月26日
【申请日】2015年5月18日

完整全部详细技术资料下载

当前第2页1 2