一种不同平台间识别同一用户的方法与系统的制作方法

文档序号：9432627阅读：411来源：国知局

一种不同平台间识别同一用户的方法与系统的制作方法
【技术领域】
[0001] 本发明设及自然语言处理领域，特别是设及一种不同平台间识别同一用户的方法与系统。
【背景技术】
[0002] 近几年来，随着互联网的飞速发展，许多联网的应用程序备受用户的青睐，联网的应用程序一般需要用户登录，如微博即微型博客（Micro-blog)，Twitter、I^acebook等，新浪微博、腾讯微博是国内知名的微博网站，但是不同微博网站之间的账户并不通用，目前很难判断不同微博网站的两微博是否属于同一用户。

【发明内容】

[0003] 有鉴于此，本发明的主要目的在于提供一种不同平台间识别同一用户的方法与系统，可W有效地识别两个不同平台下的用户是否为同一用户。
[0004] 为实现上述目的，本发明提供了一种不同平台间识别同一用户的方法，包括：
[0005] 收集预设数量的第一平台与第二平台中用户发表的文本信息；
[0006] 将所述文本信息中的一部分进行标注；
[0007] 将所述文本信息中的已标注文本信息作为已标注样本，将所述文本信息中的未标注文本信息作为待测样本；
[0008] 利用LDA模型对已标注样本与待测样本分别抽取主题特征，对所述抽取的主题特征分别进行余弦相似度计算，并将得到的相似度值分别作为训练样本与测试样本；
[0009] 利用预设算法对所述训练样本进行训练得到分类器模型；
[0010] 利用所述分类器模型对所述测试样本进行分类，确定所述两不同平台下的测试样本对应的用户是否为同一用户。
[0011] 优选地，收集预设数量的第一平台与第二平台中用户发表的文本信息包括：阳〇1引构建用户队列；
[0013] 挑选一个用户作为种子用户，加入到所述用户队列中；
[0014] 从所述用户队列中取出一个用户，通过API抓取用户个人资料信息W及发表的文本信息，所述用户个人资料信息包括关注用户W及被关注用户，并将所述关注用户和被关注用户加入到所述用户队列中；
[0015] 重复上述抓取用户个人资料信息W及发表的文本信息的过程，直到抓取的用户数目达到设定数值。
[0016] 优选地，将所述文本信息中的一部分进行标注包括：
[0017] 将所述第一平台的用户与所述第二平台的用户为同一用户的文本信息标注为第一类，将所述第一平台的用户与所述第二平台的用户不为同一用户的文本信息标注为第二类。
[001引本发明还提供了一种不同平台间识别同一用户的系统，包括：
[0019] 收集模块，用于收集预设数量的第一平台与第二平台中用户发表的文本信息；
[0020] 标注模块，用于将所述文本信息中的一部分进行标注；
[0021] 第一样本获取模块，用于将所述文本信息中的已标注文本信息作为已标注样本，将所述文本信息中的未标注文本信息作为待测样本；
[0022] 第二样本获取模块，用于利用LDA模型对已标注样本与待测样本分别抽取主题特征，对所述抽取的主题特征分别进行余弦相似度计算，并将得到的相似度值分别作为训练样本与测试样本；
[0023] 分类器模型获取模块，用于利用预设算法对所述训练样本进行训练得到分类器模型；
[0024] 分类模块，用于利用所述分类器模型对所述测试样本进行分类，确定所述两不同平台下的测试样本对应的用户是否为同一用户。
[00巧]优选地，所述收集模块包括：阳0%] 队列构建子模块，用于构建用户队列；
[0027] 用户挑选子模块，用于挑选一个用户作为种子用户，加入到所述用户队列中；
[0028] 信息抓取子模块，用于从所述用户队列中取出一个用户，通过API抓取用户个人资料信息W及发表的文本信息，所述用户个人资料信息包括关注用户W及被关注用户，并将所述关注用户和被关注用户加入到所述用户队列中；
[0029] 循环子模块，用于重复上述抓取用户个人资料信息W及发表的文本信息的过程，直到抓取的用户数目达到设定数值。
[0030] 优选地，所述标注模块包括：
[0031] 第一类标注子模块，用于将所述第一平台的用户与所述第二平台的用户为同一用户的文本信息标注为第一类；
[0032] 第二类标注子模块，用于将所述第一平台的用户与所述第二平台的用户不为同一用户的文本信息标注为第二类。
[0033] 应用本发明提供的一种不同平台间识别同一用户的方法与系统，收集两不同平台中用户发表的文本信息，将所述文本信息中的一部分进行标注，并将已标注文本信息作为已标注样本，将未标注文本信息作为待测样本，利用LDA模型对已标注样本与待测样本分别抽取主题特征，对抽取的主题特征分别进行余弦相似度计算，并将得到的相似度值分别作为训练样本与测试样本；利用预设算法对所述训练样本进行训练得到分类器模型，利用分类器模型对所述测试样本进行分类，确定所述两不同平台下的测试样本对应的用户是否为同一用户，能够有效地通过用户发表的文本识别两个不同平台下的用户是否同一用户，且在训练样本数量有限的情况下，达到较高的准确率。运将有利于企业制定精准的广告投放，有助于研究同一用户使用不同社交网络的使用动机分析及其相关分析W此来帮助社交网络运营更好的开发社交网络产品。
【附图说明】
[0034]为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可W根据提供的附图获得其他的附图。
[0035] 图1为本发明一种不同平台间识别同一用户的方法实施例一的流程图；
[0036] 图2为本发明一种不同平台间识别同一用户的系统实施例二的结构示意图；
[0037] 图3为本发明一种不同平台间识别同一用户的系统实施例二的详细结构示意图；
[0038] 图4为本发明一种不同平台间识别同一用户的系统实施例二的详细结构示意图。
【具体实施方式】
[0039] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0040]实施例一；
[0041] 本实施例提供了一种不同平台间识别同一用户的方法，图1示出了本实施例的流程图，包括：
[0042] 步骤S101:收集预设数量的第一平台与第二平台中用户发表的文本信息；
[0043] 指定两平台，如新浪微博与腾讯微博，收集预设数量的两微博平台的用户发表的文本信息，具体收集过程如下：
[0044] 步骤S201:构建用户队列； W45] 步骤S202 :挑选一个用户作为种子用户，加入到所述用户队列中；
[0046] 步骤S203:从所述用户队列中取出一个用户，通过微博提供的API抓取用户个人资料信息W及发表的文本信息，所述用户个人资料信息包括关注用户W及被关注用户，并将所述关注用户和被关注用户加入到所述用户队列中；
[0047] 步骤S204 :重复上述抓取用户个人资料信息W及发表的文本信息的过程，直到抓取的用户数目达到设定数值。
[0048] 步骤S102 :将所述文本信息中的一部分进行标注；
[0049] 将新浪微博的用户与腾讯微博的用户为同一用户的文本信息标注为正类，将新浪微博的用户与腾讯微博的用户不为同一用户的文本信息标注为负类。
[0050] 步骤S103:将所述文本信息中的已标注文本信息作为已标注样本，将所
[0051] 述文本信息中的未标注文本信息作为待测样本；
[0052] 步骤S104:利用LDA模型对已标注样本与待测样本分别抽取主题特征，对所述抽取的主题特征分别进行余弦相似度计算，并将得到的相似度值分别作为训练样本与测试样本；
[0053] 利用LDA算法将用户的微博文本特征化成隐含主题的集合，即将用户不同平台下的微博文本使用隐含主题的集合来表示，并进行余弦相似度计算，已标注样本计算得到的相似度至作为训练样本，待测样本计算得到的相似度值作为测试样本。
[0054]LDA模型(XatentDirichletAllocation)是文本建模的一种方法，其核屯、是对参数曰，P的估计，而估计过程用到了EM，variationalinference等方法对a，P进行逼近，最后收敛得出学习结果。另一部分是在此基础上所做的文档生成模型，运个生成模型的核屯、是对参数（即主题特征）0 = (01，02... 0k)化代表主题个数）的采样，利用Dirichlet 分布与Gamma分布的关系先产生k个相互独立的服从Gamma分布的随机数，阳化5] 再利用
导出服从Dirichlet分布的 0，即抽取了每一篇文档的主题特征。
[0056] 然后利用抽取的主题特征进行相似度计算，公式如下：
[0057]
[(K)郎]其中，di_LDA=( 01，0 2, . . . 0k)即微博文本中抽取的主题特征。
[0059] 步骤S105 :利用预设算法对所述训练样本进行训练得到分类器模型，并利用所述分类器模型对所述测试样本进行分类，确定所述两不同平台下的测试样本对应的用户是否为同一用户。
[0060] 利用

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李寿山;王晶晶;周国栋;
技术所有人：苏州大学张家港工业技术研究院;
我是此专利的发明人

上一篇：一种基于结构句法的情绪原因事件识别方法及系统的制作方法
上一篇：图像显示方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。