一种不同平台间识别同一用户的方法与系统的制作方法

文档序号:9432627阅读:411来源:国知局
一种不同平台间识别同一用户的方法与系统的制作方法
【技术领域】
[0001] 本发明设及自然语言处理领域,特别是设及一种不同平台间识别同一用户的方法 与系统。
【背景技术】
[0002] 近几年来,随着互联网的飞速发展,许多联网的应用程序备受用户的青睐,联网的 应用程序一般需要用户登录,如微博即微型博客(Micro-blog),Twitter、I^acebook等,新 浪微博、腾讯微博是国内知名的微博网站,但是不同微博网站之间的账户并不通用,目前很 难判断不同微博网站的两微博是否属于同一用户。

【发明内容】

[0003] 有鉴于此,本发明的主要目的在于提供一种不同平台间识别同一用户的方法与系 统,可W有效地识别两个不同平台下的用户是否为同一用户。
[0004] 为实现上述目的,本发明提供了一种不同平台间识别同一用户的方法,包括:
[0005] 收集预设数量的第一平台与第二平台中用户发表的文本信息;
[0006] 将所述文本信息中的一部分进行标注;
[0007] 将所述文本信息中的已标注文本信息作为已标注样本,将所述文本信息中的未标 注文本信息作为待测样本;
[0008] 利用LDA模型对已标注样本与待测样本分别抽取主题特征,对所述抽取的主题特 征分别进行余弦相似度计算,并将得到的相似度值分别作为训练样本与测试样本;
[0009] 利用预设算法对所述训练样本进行训练得到分类器模型;
[0010] 利用所述分类器模型对所述测试样本进行分类,确定所述两不同平台下的测试样 本对应的用户是否为同一用户。
[0011] 优选地,收集预设数量的第一平台与第二平台中用户发表的文本信息包括: 阳〇1引构建用户队列;
[0013] 挑选一个用户作为种子用户,加入到所述用户队列中;
[0014] 从所述用户队列中取出一个用户,通过API抓取用户个人资料信息W及发表的文 本信息,所述用户个人资料信息包括关注用户W及被关注用户,并将所述关注用户和被关 注用户加入到所述用户队列中;
[0015] 重复上述抓取用户个人资料信息W及发表的文本信息的过程,直到抓取的用户数 目达到设定数值。
[0016] 优选地,将所述文本信息中的一部分进行标注包括:
[0017] 将所述第一平台的用户与所述第二平台的用户为同一用户的文本信息标注为第 一类,将所述第一平台的用户与所述第二平台的用户不为同一用户的文本信息标注为第二 类。
[001引本发明还提供了一种不同平台间识别同一用户的系统,包括:
[0019] 收集模块,用于收集预设数量的第一平台与第二平台中用户发表的文本信息;
[0020] 标注模块,用于将所述文本信息中的一部分进行标注;
[0021] 第一样本获取模块,用于将所述文本信息中的已标注文本信息作为已标注样本, 将所述文本信息中的未标注文本信息作为待测样本;
[0022] 第二样本获取模块,用于利用LDA模型对已标注样本与待测样本分别抽取主题特 征,对所述抽取的主题特征分别进行余弦相似度计算,并将得到的相似度值分别作为训练 样本与测试样本;
[0023] 分类器模型获取模块,用于利用预设算法对所述训练样本进行训练得到分类器模 型;
[0024] 分类模块,用于利用所述分类器模型对所述测试样本进行分类,确定所述两不同 平台下的测试样本对应的用户是否为同一用户。
[00巧]优选地,所述收集模块包括: 阳0%] 队列构建子模块,用于构建用户队列;
[0027] 用户挑选子模块,用于挑选一个用户作为种子用户,加入到所述用户队列中;
[0028] 信息抓取子模块,用于从所述用户队列中取出一个用户,通过API抓取用户个人 资料信息W及发表的文本信息,所述用户个人资料信息包括关注用户W及被关注用户,并 将所述关注用户和被关注用户加入到所述用户队列中;
[0029] 循环子模块,用于重复上述抓取用户个人资料信息W及发表的文本信息的过程, 直到抓取的用户数目达到设定数值。
[0030] 优选地,所述标注模块包括:
[0031] 第一类标注子模块,用于将所述第一平台的用户与所述第二平台的用户为同一用 户的文本信息标注为第一类;
[0032] 第二类标注子模块,用于将所述第一平台的用户与所述第二平台的用户不为同一 用户的文本信息标注为第二类。
[0033] 应用本发明提供的一种不同平台间识别同一用户的方法与系统,收集两不同平台 中用户发表的文本信息,将所述文本信息中的一部分进行标注,并将已标注文本信息作为 已标注样本,将未标注文本信息作为待测样本,利用LDA模型对已标注样本与待测样本分 别抽取主题特征,对抽取的主题特征分别进行余弦相似度计算,并将得到的相似度值分别 作为训练样本与测试样本;利用预设算法对所述训练样本进行训练得到分类器模型,利用 分类器模型对所述测试样本进行分类,确定所述两不同平台下的测试样本对应的用户是否 为同一用户,能够有效地通过用户发表的文本识别两个不同平台下的用户是否同一用户, 且在训练样本数量有限的情况下,达到较高的准确率。运将有利于企业制定精准的广告投 放,有助于研究同一用户使用不同社交网络的使用动机分析及其相关分析W此来帮助社交 网络运营更好的开发社交网络产品。
【附图说明】
[0034]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W根据 提供的附图获得其他的附图。
[0035] 图1为本发明一种不同平台间识别同一用户的方法实施例一的流程图;
[0036] 图2为本发明一种不同平台间识别同一用户的系统实施例二的结构示意图;
[0037] 图3为本发明一种不同平台间识别同一用户的系统实施例二的详细结构示意图;
[0038] 图4为本发明一种不同平台间识别同一用户的系统实施例二的详细结构示意图。
【具体实施方式】
[0039] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0040]实施例一;
[0041] 本实施例提供了一种不同平台间识别同一用户的方法,图1示出了本实施例的流 程图,包括:
[0042] 步骤S101:收集预设数量的第一平台与第二平台中用户发表的文本信息;
[0043] 指定两平台,如新浪微博与腾讯微博,收集预设数量的两微博平台的用户发表的 文本信息,具体收集过程如下:
[0044] 步骤S201:构建用户队列; W45] 步骤S202 :挑选一个用户作为种子用户,加入到所述用户队列中;
[0046] 步骤S203:从所述用户队列中取出一个用户,通过微博提供的API抓取用户个人 资料信息W及发表的文本信息,所述用户个人资料信息包括关注用户W及被关注用户,并 将所述关注用户和被关注用户加入到所述用户队列中;
[0047] 步骤S204 :重复上述抓取用户个人资料信息W及发表的文本信息的过程,直到抓 取的用户数目达到设定数值。
[0048] 步骤S102 :将所述文本信息中的一部分进行标注;
[0049] 将新浪微博的用户与腾讯微博的用户为同一用户的文本信息标注为正类,将新浪 微博的用户与腾讯微博的用户不为同一用户的文本信息标注为负类。
[0050] 步骤S103:将所述文本信息中的已标注文本信息作为已标注样本,将所
[0051] 述文本信息中的未标注文本信息作为待测样本;
[0052] 步骤S104:利用LDA模型对已标注样本与待测样本分别抽取主题特征,对所述抽 取的主题特征分别进行余弦相似度计算,并将得到的相似度值分别作为训练样本与测试样 本;
[0053] 利用LDA算法将用户的微博文本特征化成隐含主题的集合,即将用户不同平台下 的微博文本使用隐含主题的集合来表示,并进行余弦相似度计算,已标注样本计算得到的 相似度至作为训练样本,待测样本计算得到的相似度值作为测试样本。
[0054]LDA模型(XatentDirichletAllocation)是文本建模的一种方法,其核屯、是对参 数曰,P的估计,而估计过程用到了EM,variationalinference等方法对a,P进行逼近, 最后收敛得出学习结果。另一部分是在此基础上所做的文档生成模型,运个生成模型的核 屯、是对参数(即主题特征)0 = (01,02... 0k)化代表主题个数)的采样,利用Dirichlet 分布与Gamma分布的关系先产生k个相互独立的服从Gamma分布的随机数, 阳化5] 再利用
导出服从Dirichlet分布的 0,即抽取了每一篇文档的主题特征。
[0056] 然后利用抽取的主题特征进行相似度计算,公式如下:
[0057]
[(K)郎]其中,di_LDA=( 01,0 2, . . . 0k)即微博文本中抽取的主题特征。
[0059] 步骤S105 :利用预设算法对所述训练样本进行训练得到分类器模型,并利用所述 分类器模型对所述测试样本进行分类,确定所述两不同平台下的测试样本对应的用户是否 为同一用户。
[0060] 利用
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1