一种用于跨ugc网站平台的帐户关联方法_4

文档序号:8258928阅读:来源:国知局
出来, 组成用户帐户集合私。
[0119]用户帐户集合死就是通过模型相似度评估后与用户帐户gji于同一实体用户的 用户账户集合,即在用户帐户数据集h中,与用户帐户gik在性别特征,年龄特征,地理特征 和写作特征四个方面均相似的用户账户集合。在用户帐户数据集h中采用逐层过滤的方 式获得用户帐户集合忠后,将用户帐户集合忠中的用户帐户从用户帐户数据集h中删除, 将用户帐户gik从用户帐户数据集Gi中删除,并将用户帐户gik加入用户帐户数据集圮中, 则用户帐户数据集忠表示属于同一实体用户的跨UGC网站多账户。此时,判断用户帐户数 据集匕是否为空,如果非空,则表示还有未被关联的用户帐户,进入步骤S4;如果为空,则 表示用户帐户关联已经完成,将含有用户账户数量大于2的用户帐户数据集忠输出,如果 用户帐户数据集忠中仅含有一个用户账户,则表示没有与该用户相关联的跨UGC网站用户 帐户,则不用输出。
[0120] 本发明使用单类分类器的方法来判定两个用户帐户模型中的写作特征是否相似, 其优点是在不知道用户账户真实身份的情况下即可对单类分类器进行训练,相比较以往研 宄具有较高的实用性。
[0121] 尽管上面对本发明说明性的【具体实施方式】进行了描述,以便于本技术领域的技术 人员理解本发明,但应该清楚,本发明不限于【具体实施方式】的范围,对本技术领域的普通技 术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些 变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
【主权项】
1. 一种用于跨UGC网站平台的帐户关联方法,其特征在于,包括下列步骤: 51 :根据用户需求确定需要关联的UGC网站,针对每个UGC网站,利用各网站的本地数 据库或者网络爬虫获取所需要关联的用户帐户数据集匕,其中,h的下标"i"用于标识不同 的UGC网站平台所对应的用户帐户数据集;所述用户帐户数据集匕中的每个用户帐户gik 由该用户生成的文本内容组成,其中,gik的下标"i"和"k"用于标识第i个用户帐户数据 集61中第k个用户帐户。 52 :在获取用户帐户数据集匕后,需要对其中每个用户帐户gik中的文本内容进行预处 理。在UGC网站中,用户帐户gik的文本内容由一系列短文本帖子组成,以短文本帖子为单 位进行预处理。所做预处理具体为:删除文本内容中非英文语言的内容;删除各个UGC网 站自动添加而非用户生成的文本内容;删除特殊的、使用频率低的标识符和标点符号,即将 用户帐户生成的文本内容中除了 以外的标识 符和标点符号删除;若用户帐户gik的某条短文本帖子中所含有的英文字符数量小于预设 阈值M,则将该短文本帖子删除;若用户帐户gik含有短文本帖子数量小于预设阈值N,则从 用户帐户数据集匕中删除该用户帐户,其中,M值和N值的选取主要依据UGC网站中用户帐 户发布短文本帖子的数量和长度,针对现有的UGC网站,M= 10,N= 20能够取得较好的效 果。 53 :针对每个用户帐户gik,通过对预处理后的文本内容进行特征提取的方式建立用户 帐户模型,用户帐户gik的模型主要由其性别特征,年龄特征,地理位置活动特征和写作风 格特征四个方面组成,则用户账户模型可以表示为〈性别,年龄,地理位置活动,写作风格 >,其中,性别的取值范围为{:男,女},年龄的取值范围为{童年,少年,青年,中年,老年}, 地理位置活动为地点名词集合,写作风格由一系列特征向量样本点组成;同时,用户帐户模 型之间是相互独立的,即某个用户帐户文本内容的改变对其他用户帐户模型没有影响;各 个特征之间是相互独立的,且可以计算相同特征之间的相似度。 S4:基于每个用户帐户的模型,采用逐层过滤的方式实现跨UGC网站平台的帐户关联。 针对用户帐户数据集匕,从中抽取一个用户帐户gik,在用户帐户数据集h(i辛j)中,依次 利用性别特征、年龄特征、地理位置活动特征和写作风格特征,通过计算帐户模型中特征相 似度和使用分类器的方式,将与用户帐户gik不相关的用户账户过滤掉,从而逐步缩小候选 集,经过过滤筛选后的用户帐户集合即为在用户账户数据集h中与用户帐户数据集Gi中的用户帐户gik相关联的用户帐户集合。 S5:针对用户帐户数据集匕中的用户帐户gik,在用户帐户数据集h中采用逐层过滤的 方式获得用户帐户集合忠后,将用户帐户集合私中的用户帐户从用户帐户数据集h中删 除,将用户帐户gik从用户帐户数据集Gi中删除,并将其加入用户帐户集合i?,:[中,则用户帐 户集合尺丨表示属于同一实体用户的跨UGC网站多账户。判断用户帐户数据集匕是否为空, 如果非空,则表示还有未被关联的用户帐户,进入步骤S4 ;如果为空,则表示用户帐户关联 已经完成,将含有用户账户数量大于2的用户帐户集合巧输出,如果用户帐户集合忠中仅 含有一个用户账户,则表示没有与该用户帐户相关联的跨UGC网站用户帐户,则不用输出。
2. 如权利要求1所述的方法,其特征在于,所述步骤S3中的地理位置活动特征的提取 方法: 本发明中,地理位置活动特征即为从用户账户的文本内容中提取的地点名词集合,采 用自然语言处理中的实体识别技术从用户帐户预处理后的文本内容中提取地点名词,然后 将该地点名词输入到地址转换接口中进行验证,如果该地址转换接口能返回地址的经炜 度,则认为该地点名词有效;针对每个用户帐户可以提取一个地点名词集合作为该用户帐 户的地理位置活动特征。
3. 如权利要求1所述的方法,其特征在于,所述步骤S3中的写作风格特征。所述预设 写作风格特征包括: 字母特征:单个的大小写英文字母。 数字特征:从〇到9的数字符号。
由于用户帐户生成的文本内容由一系列短文本帖子组成,本发明在为用户帐户建模 时,以短文本帖子为单位抽取写作风格特征,每个短文本帖子对应一个特征向量样本点,每 个用户帐户模型中的写作风格特征由一系列特征向量样本点组成。
4. 如权利要求1所述的方法,其特征在于,所述步骤S4中的逐层过滤方法: 基于用户帐户数据集匕中用户帐户gik的数据模型,在用户帐户数据集G^i辛j)中, 首先根据性别特征进行过滤,将用户帐户数据集h中与用户账户gik性别相同的用户过滤 出来组成第一子集Sm;针对第一子集Sm中每个用户账户模型的年龄特征,将与用户账户gik 的年龄特征相同的用户账户筛选出来,组成第二子集An;然后,基于第二子集An,计算其用 户帐户与账户gik的地理位置活动特征相似度,将相似度大于阈值t的用户帐户过滤出来, 组成第三子集Lp;其中,t的取值大小决定了地理位置活动特征的过滤能力,取值过大,容 易出现漏选,取值过小,容易出现错选,针对现有的UGC网站,t的取值范围为[40%,60% ] 比较合适;最后,利用训练单类分类器的方式,对第三子集Lp中与用户帐户gik写作风格特 征相似的用户帐户进行筛选,组成用户帐户集合
5. 如权利要求1所述的方法,其特征在于,所述步骤S4中的写作风格特征过滤方法: 基于第三子集Lp中用户帐户1 5模型中的写作风格特征,其中1q的下标"q"用于标识第三 子集Lp中不同的用户帐户,分别计算用户帐户gik的自关联相似度以及其与用户帐户1 5的 互关联相似度。 用户帐户gik的自关联相似度: 在用户帐户gik中,每选取K个特征向量样本点组成一个数据点,选取两组不同数据点 组成集合Nlik和N2ik,所述集合Nlik和N2ik所包含的数据点个数均为T个,所述T大于或等 于2 ;以数据点集合Nlik作为训练集训练单类分类器,将数据点集合N2ik作为测试集,记录 当前单类分类器输出的准确率为Sg(Nlik,N2ik;)以数据点集合N2 ik#为训练集训练单类分 类器,将数据点集合Nlik作为测试集,记录当前单类分类器输出的准确率为Sg (N2ik,Nlik); 用户帐户gik的自关联相似度为所述准确率Sg(Nlik,N2ik)和准确率Sg(N2ik,Nlik)的乘积,即 Sg(gik,gik) =Sg(Nlik,N2ik)XSg(N2ik,Nlik)。 用户帐户gik与用户帐户1 5的互关联相似度: 分别从用户帐户gik与用户帐户1q中随机选取T个不同数据点,组成集合Ngik和N1 q, 以数据点集合Ngik作为训练集训练单类分类器,将数据点集合N1q作为测试集,记录当前单 类分类器输出的准确率为Sgl (Ngik,Nlq);以数据点集合Nlq作为训练集训练单类分类器,将 数据点集合Ngik作为测试集,记录当前单类分类器输出的准确率为Slg(Nlq,Ngik);用户帐户 gik关于用户帐户15的互关联相似度为所述准确率TV& &和准确率Slg(Nlq,Ngik)的 乘积,即sgl (gik,lq) =Sgl (Ngik,Nlq)XS^Nlq,Ngik) 〇 将用户帐户gik的自关联相似度同用户帐户gik与用户帐户1 5的互关联相似度进行对 比,如果两者的绝对差小于阈值e(〇<e彡5%),则认为用户帐户gik同用户帐户15相 关联。重复执行上述步骤,即可对第三子集Lp中与用户帐户gik模型中的写作风格特征相 似的用户帐户筛选出来,组成用户帐户集合忠。
6. 如权利要求3所述的方法,其特征在于标点符号特征,虚词特征,词性特征,双连词 字符特征,三连词字符特征和语法关系特征的选取方法: 所提取的标点符号特征,虚词特征,词性特征,双连词字符特征,三连词字符特征和语 法关系特征都是在用户生成的文本内容中使用频率较高的特征,本发明通过统计所有标点 符号,虚词,词性,双连词,三连词和语法关系在文本内容中出现的次数进行排名,选取排名 靠前的作为对应的特征。
【专利摘要】本发明公开了一种用于将多个UGC网站上属于同一实体用户的账户关联起来的方法,基原理是从UGC网站帐户生成的文内容中提取特征来关联不同UGC网站平台上属于同一实体用户的多个帐户。该方法数据获取、数据预处理、特征提取和逐层过滤组成。数据获取部分收集目标UGC网站用户帐户生成的文内容。数据预处理部分对文内容进行预处理。特征提取部分从文内容中提取性别特征、年龄特征、地理位置活动特征和写作风格特征。逐层过滤部分依次通过性别、年龄、地理位置活动和写作风格特征逐层过滤掉与给定用户账户不相关的账户。发明能够有效解决同一实体用户在不同UGC网站上的帐户之间不相关的问题,具有很高的实用价值。
【IPC分类】G06F17-30
【公开号】CN104573057
【申请号】CN201510032702
【发明人】罗绪成, 陈伟, 刘梦娟, 刘峤, 蓝天, 刘亚军, 汤四见, 赵鹏, 李伟铭
【申请人】电子科技大学
【公开日】2015年4月29日
【申请日】2015年1月22日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1