一种跨平台用户识别方法和系统的制作方法

文档序号：6629230阅读：218来源：国知局

一种跨平台用户识别方法和系统的制作方法
【专利摘要】本发明公开的跨平台用户识别方法和系统，充分考虑社交平台中用户消息的重要性，通过相应时间段内不同平台的两个账户中用户消息所反映的用户见闻、兴趣、偏好以及写作风格、用词习惯等个性化信息的相似情况，来识别用户是否为同一用户，具体地，本发明方法获取不同平台的两个账户中发布时间在预设时间段内的消息内容，并对两个账户的消息内容进行分词及特征抽取处理，在此基础上，利用两个账户消息的分词特征相似度识别所述不同平台的两个账户是否属于同一用户。可见，本发明解决了不同社交平台同一用户的识别问题，进而为同一用户的跨平台数据分析提供了支持。
【专利说明】一种跨平台用户识别方法和系统

【技术领域】
[0001] 本发明属于自然语言处理技术及社交网络领域，尤其涉及一种跨平台用户识别方法和系统。

【背景技术】
[0002]近年来，随着社交网络的迅猛发展，各种类型的微博（Micro-blog)，例如新浪微博、腾讯微博、Twitter、Facebook等，日渐受到用户的青睐。
[0003] 由于微博既具有媒体传播特性，又具有社交网络特性，吸引了众多研究人员对微博数据进行分析研究。目前，同时拥有多个不同平台微博账户的用户越来越多，例如用户同时拥有新浪账户及腾讯账户等，同时对相同用户在不同平台的微博数据（例如微博消息）进行研究，更有利于对用户的兴趣、偏好等进行全面分析、深度挖掘，从而更有利于企业制定个性化的营销策略、进行精准的广告投放；同时，也更利于对同用户在不同平台的使用动机、使用习惯进行比对分析，为社交网络的运营或开发新的社交网络产品提供了更好的参考作用。
[0004] 然而，目前对于跨社交平台同一用户的识别研究几乎处于空白阶段，无法识别不同平台的账户是否属于同一用户，因此，不同社交平台同一用户的识别问题成为当前亟需解决的问题。

【发明内容】

[0005] 有鉴于此，本发明的目的在于提供一种跨平台用户识别方法和系统，以解决不同社交平台同一用户的识别问题，进而为同一用户的跨平台数据分析提供支持。
[0006] 为此，本发明公开如下技术方案：
[0007] -种跨平台用户识别方法，包括：
[0008] 获取第一平台上第一用户账户的第一消息段，获取第二平台上第二用户账户的第二消息段，其中，所述第一消息段为由所述第一用户账户内发布时间在第一预设时间段内的所有消息组成的消息段，所述第二消息段为由所述第二用户账户内发布时间在第一预设时间段内的所有消息组成的消息段；
[0009] 分别对所述第一消息段及所述第二消息段进行分词处理，得到分词形式的第一消息段及分词形式的第二消息段；
[0010] 基于预设的分词特征对所述分词形式的第一消息段及分词形式的第二消息段进行特征抽取，并在特征抽取的基础上获取所述第一消息段与所述第二消息段的特征相似度数值；
[0011] 判断所述特征相似度数值是否在预设的相似度数值参考范围内；
[0012] 若判断结果为是，则所述第一用户账户及所述第二用户账户属于同一用户。
[0013] 上述方法，优选的，所述基于预设的分词特征对所述分词形式的第一消息段及分词形式的第二消息段进行特征抽取，并在特征抽取的基础上获取所述第一消息段与所述第二消息段的特征相似度数值，包括：
[0014] 分别对分词形式的第一消息段及分词形式的第二消息段进行三元词特征抽取，并基于第一消息段及第二消息段中所包含的相同三元词的个数获取两者的词包含相似度数值；
[0015] 分别对分词形式的第一消息段及分词形式的第二消息段进行高频词特征抽取，并基于第一消息段及第二消息段中所包含的相同高频词的个数获取两者的高频词相似度数值；
[0016] 分别对分词形式的第一消息段及分词形式的第二消息段进行单字符出现概率抽取，并基于第一消息段及第二消息段中所包含的相同单字符的出现概率来获取两者的词分布相似度数值；
[0017] 分别对分词形式的第一消息段及分词形式的第二消息段的隐含主题进行抽取，并基于第一消息段及第二消息段中所包含的相同主题的个数获取两者的主题相似度数值。
[0018] 上述方法，优选的，在对分词形式的第一消息段及分词形式的第二消息段进行特征抽取之前，还包括：分别对所述分词形式的第一消息段及分词形式的第二消息段进行过滤处理，所述过滤处理包括：
[0019] 对所述分词形式的第一消息段进行去停用词和去低频词处理；
[0020] 对所述分词形式的第二消息段进行去停用词和去低频词处理。
[0021] 上述方法，优选的，还包括：
[0022] 预先利用设定个数的消息段样本对，并基于每个消息段样本对的特征相似度对最大熵分类方法进行跨平台用户识别训练，得到最大熵分类器，以实现采用所述最大熵分类器识别第一平台上第一用户账户与第二平台上第二用户账户是否属于同一用户，其中：
[0023] 所述消息段样本对中包含的两个消息段分别属于不同平台的两个账户，所述两个账户为相同用户的账户或不同用户的账户，所述消息段样本对中所包含消息的发布时间在第二预设时间段内；
[0024] 所述特征相似度包括词包含相似度、高频词相似度、词分布相似度和主题相似度。
[0025] 上述方法，优选的，通过计算第一消息段与第二消息段的相对熵D (p I I q)来获取两者的词分布相似度数值；
[0026] 其中

【权利要求】
1. 一种跨平台用户识别方法，其特征在于，包括：获取第一平台上第一用户账户的第一消息段，获取第二平台上第二用户账户的第二消息段，其中，所述第一消息段为由所述第一用户账户内发布时间在第一预设时间段内的所有消息组成的消息段，所述第二消息段为由所述第二用户账户内发布时间在第一预设时间段内的所有消息组成的消息段；分别对所述第一消息段及所述第二消息段进行分词处理，得到分词形式的第一消息段及分词形式的第二消息段；基于预设的分词特征对所述分词形式的第一消息段及分词形式的第二消息段进行特征抽取，并在特征抽取的基础上获取所述第一消息段与所述第二消息段的特征相似度数值；判断所述特征相似度数值是否在预设的相似度数值参考范围内；若判断结果为是，则所述第一用户账户及所述第二用户账户属于同一用户。
2.根据权利要去1所述的方法，其特征在于，所述基于预设的分词特征对所述分词形式的第一消息段及分词形式的第二消息段进行特征抽取，并在特征抽取的基础上获取所述第一消息段与所述第二消息段的特征相似度数值，包括：分别对分词形式的第一消息段及分词形式的第二消息段进行三元词特征抽取，并基于第一消息段及第二消息段中所包含的相同三元词的个数获取两者的词包含相似度数值；分别对分词形式的第一消息段及分词形式的第二消息段进行高频词特征抽取，并基于第一消息段及第二消息段中所包含的相同高频词的个数获取两者的高频词相似度数值；分别对分词形式的第一消息段及分词形式的第二消息段进行单字符出现概率抽取，并基于第一消息段及第二消息段中所包含的相同单字符的出现概率来获取两者的词分布相似度数值；分别对分词形式的第一消息段及分词形式的第二消息段的隐含主题进行抽取，并基于第一消息段及第二消息段中所包含的相同主题的个数获取两者的主题相似度数值。
3.根据权利要去1所述的方法，其特征在于，在对分词形式的第一消息段及分词形式的第二消息段进行特征抽取之前，还包括：分别对所述分词形式的第一消息段及分词形式的第二消息段进行过滤处理，所述过滤处理包括：对所述分词形式的第一消息段进行去停用词和去低频词处理；对所述分词形式的第二消息段进行去停用词和去低频词处理。
4.根据权利要去1所述的方法，其特征在于，还包括：预先利用设定个数的消息段样本对，并基于每个消息段样本对的特征相似度对最大熵分类方法进行跨平台用户识别训练，得到最大熵分类器，以实现采用所述最大熵分类器识别第一平台上第一用户账户与第二平台上第二用户账户是否属于同一用户，其中：所述消息段样本对中包含的两个消息段分别属于不同平台的两个账户，所述两个账户为相同用户的账户或不同用户的账户，所述消息段样本对中所包含消息的发布时间在第二预设时间段内；所述特征相似度包括词包含相似度、高频词相似度、词分布相似度和主题相似度。
5.根据权利要求2所述的方法，其特征在于，通过计算第一消息段与第二消息段的相对熵D(pIIq)来获取两者的词分布相似度数值；其中，D(p Il q)= ^>(χ)Ιο§￥_，P、q分别表示第一消息段、第二消息段，P(X)、q(X) .V^A Cj(X) 表示相同单字符X分别在第一消息段及第二消息段中出现的概率，X表示第一消息段与第二消息段中相同单字符的字符集合。
6. 根据权利要求2所述的方法，其特征在于，使用文档主题生成模型LDA对分词形式的第一消息段及分词形式的第二消息段的隐含主题进行抽取。
7. -种跨平台用户识别系统，其特征在于，包括：消息获取模块，用于获取第一平台上第一用户账户的第一消息段，获取第二平台上第二用户账户的第二消息段，其中，所述第一消息段为由所述第一用户账户内发布时间在第一预设时间段内的所有消息组成的消息段，所述第二消息段为由所述第二用户账户内发布时间在第一预设时间段内的所有消息组成的消息段；分词处理模块，用于分别对所述第一消息段及所述第二消息段进行分词处理，得到分词形式的第一消息段及分词形式的第二消息段；特征抽取模块，用于基于预设的分词特征对所述分词形式的第一消息段及分词形式的第二消息段进行特征抽取，并在特征抽取的基础上获取所述第一消息段与所述第二消息段的特征相似度数值；判断模块，用于判断所述特征相似度数值是否在预设的相似度数值参考范围内；识别模块，用于在判断结果为是时，识别出所述第一用户账户及所述第二用户账户属于同一用户。
8. 根据权利要去7所述的系统，其特征在于，所述特征抽取模块包括：第一抽取单元，用于分别对分词形式的第一消息段及分词形式的第二消息段进行三元词特征抽取，并基于第一消息段及第二消息段中所包含的相同三元词的个数获取两者的词包含相似度数值；；第二抽取单元，用于分别对分词形式的第一消息段及分词形式的第二消息段进行高频词特征抽取，并基于第一消息段及第二消息段中所包含的相同高频词的个数获取两者的高频词相似度数值；第三抽取单元，用于分别对分词形式的第一消息段及分词形式的第二消息段进行单字符出现概率抽取，并基于第一消息段及第二消息段中所包含的相同单字符的出现概率来获取两者的词分布相似度数值；第四抽取单元，用于分别对分词形式的第一消息段及分词形式的第二消息段的隐含主题进行抽取，并基于第一消息段及第二消息段中所包含的相同主题的个数获取两者的主题相似度数值。
9. 根据权利要去7所述的系统，其特征在于，还包括：用于分别对所述分词形式的第一消息段及分词形式的第二消息段进行过滤处理的过滤模块，所述过滤模块包括：第一过滤单元，用于对所述分词形式的第一消息段进行去停用词和去低频词处理；第二过滤单元，用于对所述分词形式的第二消息段进行去停用词和去低频词处理。
10. 根据权利要去7所述的系统，其特征在于，还包括：预处理模块，用于预先利用设定个数的消息段样本对，并基于每个消息段样本对的特征相似度对最大熵分类方法进行跨平台用户识别训练，得到最大熵分类器，以实现采用所述最大熵分类器识别第一平台上第一用户账户与第二平台上第二用户账户是否属于同一用户，其中：所述消息段样本对中包含的两个消息段分别属于不同平台的两个账户，所述两个账户为相同用户的账户或不同用户的账户，所述消息段样本对中所包含消息的发布时间在第二预设时间段内；所述特征相似度包括词包含相似度、高频词相似度、词分布相似度和主题相似度。
【文档编号】G06F17/27GK104317784SQ201410521299
【公开日】2015年1月28日申请日期:2014年9月30日优先权日:2014年9月30日
【发明者】李寿山, 黄磊, 周国栋, 王红玲申请人:苏州大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李寿山;黄磊;周国栋;王红玲
技术所有人：苏州大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。