一种跨平台用户识别方法和系统的制作方法

文档序号:6629230阅读:218来源:国知局
一种跨平台用户识别方法和系统的制作方法
【专利摘要】本发明公开的跨平台用户识别方法和系统,充分考虑社交平台中用户消息的重要性,通过相应时间段内不同平台的两个账户中用户消息所反映的用户见闻、兴趣、偏好以及写作风格、用词习惯等个性化信息的相似情况,来识别用户是否为同一用户,具体地,本发明方法获取不同平台的两个账户中发布时间在预设时间段内的消息内容,并对两个账户的消息内容进行分词及特征抽取处理,在此基础上,利用两个账户消息的分词特征相似度识别所述不同平台的两个账户是否属于同一用户。可见,本发明解决了不同社交平台同一用户的识别问题,进而为同一用户的跨平台数据分析提供了支持。
【专利说明】一种跨平台用户识别方法和系统

【技术领域】
[0001] 本发明属于自然语言处理技术及社交网络领域,尤其涉及一种跨平台用户识别方 法和系统。

【背景技术】
[0002]近年来,随着社交网络的迅猛发展,各种类型的微博(Micro-blog),例如新浪微 博、腾讯微博、Twitter、Facebook等,日渐受到用户的青睐。
[0003] 由于微博既具有媒体传播特性,又具有社交网络特性,吸引了众多研究人员对微 博数据进行分析研究。目前,同时拥有多个不同平台微博账户的用户越来越多,例如用户同 时拥有新浪账户及腾讯账户等,同时对相同用户在不同平台的微博数据(例如微博消息) 进行研究,更有利于对用户的兴趣、偏好等进行全面分析、深度挖掘,从而更有利于企业制 定个性化的营销策略、进行精准的广告投放;同时,也更利于对同用户在不同平台的使用动 机、使用习惯进行比对分析,为社交网络的运营或开发新的社交网络产品提供了更好的参 考作用。
[0004] 然而,目前对于跨社交平台同一用户的识别研究几乎处于空白阶段,无法识别不 同平台的账户是否属于同一用户,因此,不同社交平台同一用户的识别问题成为当前亟需 解决的问题。


【发明内容】

[0005] 有鉴于此,本发明的目的在于提供一种跨平台用户识别方法和系统,以解决不同 社交平台同一用户的识别问题,进而为同一用户的跨平台数据分析提供支持。
[0006] 为此,本发明公开如下技术方案:
[0007] -种跨平台用户识别方法,包括:
[0008] 获取第一平台上第一用户账户的第一消息段,获取第二平台上第二用户账户的第 二消息段,其中,所述第一消息段为由所述第一用户账户内发布时间在第一预设时间段内 的所有消息组成的消息段,所述第二消息段为由所述第二用户账户内发布时间在第一预设 时间段内的所有消息组成的消息段;
[0009] 分别对所述第一消息段及所述第二消息段进行分词处理,得到分词形式的第一消 息段及分词形式的第二消息段;
[0010] 基于预设的分词特征对所述分词形式的第一消息段及分词形式的第二消息段进 行特征抽取,并在特征抽取的基础上获取所述第一消息段与所述第二消息段的特征相似度 数值;
[0011] 判断所述特征相似度数值是否在预设的相似度数值参考范围内;
[0012] 若判断结果为是,则所述第一用户账户及所述第二用户账户属于同一用户。
[0013] 上述方法,优选的,所述基于预设的分词特征对所述分词形式的第一消息段及分 词形式的第二消息段进行特征抽取,并在特征抽取的基础上获取所述第一消息段与所述第 二消息段的特征相似度数值,包括:
[0014] 分别对分词形式的第一消息段及分词形式的第二消息段进行三元词特征抽取,并 基于第一消息段及第二消息段中所包含的相同三元词的个数获取两者的词包含相似度数 值;
[0015] 分别对分词形式的第一消息段及分词形式的第二消息段进行高频词特征抽取,并 基于第一消息段及第二消息段中所包含的相同高频词的个数获取两者的高频词相似度数 值;
[0016] 分别对分词形式的第一消息段及分词形式的第二消息段进行单字符出现概率抽 取,并基于第一消息段及第二消息段中所包含的相同单字符的出现概率来获取两者的词分 布相似度数值;
[0017] 分别对分词形式的第一消息段及分词形式的第二消息段的隐含主题进行抽取,并 基于第一消息段及第二消息段中所包含的相同主题的个数获取两者的主题相似度数值。
[0018] 上述方法,优选的,在对分词形式的第一消息段及分词形式的第二消息段进行特 征抽取之前,还包括:分别对所述分词形式的第一消息段及分词形式的第二消息段进行过 滤处理,所述过滤处理包括:
[0019] 对所述分词形式的第一消息段进行去停用词和去低频词处理;
[0020] 对所述分词形式的第二消息段进行去停用词和去低频词处理。
[0021] 上述方法,优选的,还包括:
[0022] 预先利用设定个数的消息段样本对,并基于每个消息段样本对的特征相似度对最 大熵分类方法进行跨平台用户识别训练,得到最大熵分类器,以实现采用所述最大熵分类 器识别第一平台上第一用户账户与第二平台上第二用户账户是否属于同一用户,其中:
[0023] 所述消息段样本对中包含的两个消息段分别属于不同平台的两个账户,所述两个 账户为相同用户的账户或不同用户的账户,所述消息段样本对中所包含消息的发布时间在 第二预设时间段内;
[0024] 所述特征相似度包括词包含相似度、高频词相似度、词分布相似度和主题相似度。
[0025] 上述方法,优选的,通过计算第一消息段与第二消息段的相对熵D (p I I q)来获取 两者的词分布相似度数值;
[0026] 其中

【权利要求】
1. 一种跨平台用户识别方法,其特征在于,包括: 获取第一平台上第一用户账户的第一消息段,获取第二平台上第二用户账户的第二消 息段,其中,所述第一消息段为由所述第一用户账户内发布时间在第一预设时间段内的所 有消息组成的消息段,所述第二消息段为由所述第二用户账户内发布时间在第一预设时间 段内的所有消息组成的消息段; 分别对所述第一消息段及所述第二消息段进行分词处理,得到分词形式的第一消息段 及分词形式的第二消息段; 基于预设的分词特征对所述分词形式的第一消息段及分词形式的第二消息段进行特 征抽取,并在特征抽取的基础上获取所述第一消息段与所述第二消息段的特征相似度数 值; 判断所述特征相似度数值是否在预设的相似度数值参考范围内; 若判断结果为是,则所述第一用户账户及所述第二用户账户属于同一用户。
2.根据权利要去1所述的方法,其特征在于,所述基于预设的分词特征对所述分词形 式的第一消息段及分词形式的第二消息段进行特征抽取,并在特征抽取的基础上获取所述 第一消息段与所述第二消息段的特征相似度数值,包括: 分别对分词形式的第一消息段及分词形式的第二消息段进行三元词特征抽取,并基于 第一消息段及第二消息段中所包含的相同三元词的个数获取两者的词包含相似度数值; 分别对分词形式的第一消息段及分词形式的第二消息段进行高频词特征抽取,并基于 第一消息段及第二消息段中所包含的相同高频词的个数获取两者的高频词相似度数值; 分别对分词形式的第一消息段及分词形式的第二消息段进行单字符出现概率抽取,并 基于第一消息段及第二消息段中所包含的相同单字符的出现概率来获取两者的词分布相 似度数值; 分别对分词形式的第一消息段及分词形式的第二消息段的隐含主题进行抽取,并基于 第一消息段及第二消息段中所包含的相同主题的个数获取两者的主题相似度数值。
3.根据权利要去1所述的方法,其特征在于,在对分词形式的第一消息段及分词形式 的第二消息段进行特征抽取之前,还包括:分别对所述分词形式的第一消息段及分词形式 的第二消息段进行过滤处理,所述过滤处理包括: 对所述分词形式的第一消息段进行去停用词和去低频词处理; 对所述分词形式的第二消息段进行去停用词和去低频词处理。
4.根据权利要去1所述的方法,其特征在于,还包括: 预先利用设定个数的消息段样本对,并基于每个消息段样本对的特征相似度对最大熵 分类方法进行跨平台用户识别训练,得到最大熵分类器,以实现采用所述最大熵分类器识 别第一平台上第一用户账户与第二平台上第二用户账户是否属于同一用户,其中: 所述消息段样本对中包含的两个消息段分别属于不同平台的两个账户,所述两个账户 为相同用户的账户或不同用户的账户,所述消息段样本对中所包含消息的发布时间在第二 预设时间段内; 所述特征相似度包括词包含相似度、高频词相似度、词分布相似度和主题相似度。
5.根据权利要求2所述的方法,其特征在于,通过计算第一消息段与第二消息段的相 对熵D(pIIq)来获取两者的词分布相似度数值; 其中,D(p Il q)= ^>(χ)Ι痢_,P、q分别表示第一消息段、第二消息段,P(X)、q(X) .V^A Cj(X) 表示相同单字符X分别在第一消息段及第二消息段中出现的概率,X表示第一消息段与第 二消息段中相同单字符的字符集合。
6. 根据权利要求2所述的方法,其特征在于,使用文档主题生成模型LDA对分词形式的 第一消息段及分词形式的第二消息段的隐含主题进行抽取。
7. -种跨平台用户识别系统,其特征在于,包括: 消息获取模块,用于获取第一平台上第一用户账户的第一消息段,获取第二平台上第 二用户账户的第二消息段,其中,所述第一消息段为由所述第一用户账户内发布时间在第 一预设时间段内的所有消息组成的消息段,所述第二消息段为由所述第二用户账户内发布 时间在第一预设时间段内的所有消息组成的消息段; 分词处理模块,用于分别对所述第一消息段及所述第二消息段进行分词处理,得到分 词形式的第一消息段及分词形式的第二消息段; 特征抽取模块,用于基于预设的分词特征对所述分词形式的第一消息段及分词形式的 第二消息段进行特征抽取,并在特征抽取的基础上获取所述第一消息段与所述第二消息段 的特征相似度数值; 判断模块,用于判断所述特征相似度数值是否在预设的相似度数值参考范围内; 识别模块,用于在判断结果为是时,识别出所述第一用户账户及所述第二用户账户属 于同一用户。
8. 根据权利要去7所述的系统,其特征在于,所述特征抽取模块包括: 第一抽取单元,用于分别对分词形式的第一消息段及分词形式的第二消息段进行三元 词特征抽取,并基于第一消息段及第二消息段中所包含的相同三元词的个数获取两者的词 包含相似度数值;; 第二抽取单元,用于分别对分词形式的第一消息段及分词形式的第二消息段进行高频 词特征抽取,并基于第一消息段及第二消息段中所包含的相同高频词的个数获取两者的高 频词相似度数值; 第三抽取单元,用于分别对分词形式的第一消息段及分词形式的第二消息段进行单字 符出现概率抽取,并基于第一消息段及第二消息段中所包含的相同单字符的出现概率来获 取两者的词分布相似度数值; 第四抽取单元,用于分别对分词形式的第一消息段及分词形式的第二消息段的隐含主 题进行抽取,并基于第一消息段及第二消息段中所包含的相同主题的个数获取两者的主题 相似度数值。
9. 根据权利要去7所述的系统,其特征在于,还包括:用于分别对所述分词形式的第一 消息段及分词形式的第二消息段进行过滤处理的过滤模块,所述过滤模块包括: 第一过滤单元,用于对所述分词形式的第一消息段进行去停用词和去低频词处理; 第二过滤单元,用于对所述分词形式的第二消息段进行去停用词和去低频词处理。
10. 根据权利要去7所述的系统,其特征在于,还包括: 预处理模块,用于预先利用设定个数的消息段样本对,并基于每个消息段样本对的特 征相似度对最大熵分类方法进行跨平台用户识别训练,得到最大熵分类器,以实现采用所 述最大熵分类器识别第一平台上第一用户账户与第二平台上第二用户账户是否属于同一 用户,其中: 所述消息段样本对中包含的两个消息段分别属于不同平台的两个账户,所述两个账户 为相同用户的账户或不同用户的账户,所述消息段样本对中所包含消息的发布时间在第二 预设时间段内; 所述特征相似度包括词包含相似度、高频词相似度、词分布相似度和主题相似度。
【文档编号】G06F17/27GK104317784SQ201410521299
【公开日】2015年1月28日 申请日期:2014年9月30日 优先权日:2014年9月30日
【发明者】李寿山, 黄磊, 周国栋, 王红玲 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1