一种用于跨ugc网站平台的帐户关联方法_3

文档序号:8258928阅读:来源:国知局
l:adverbial clause modifier,状语从句修饰词"、
[0054] "advmod:adverbial modifier 状语"、
[0055] "agent:agent,代理,一般有by的时候出现"、
[0056] "amod:adjectival modifier 形容词"、
[0057] " appos: appositional modifier,同位词"、
[0058] "attr: attributive,属性"、
[0059] "aux: auxiliary,非主要动词和助词"、
[0060] "auxpass:passive auxiliary 被动词"
[0061] "cc: coordination,并列关系"
[0062] "ccomp: clausal complement 从句补充"
[0063] "complm: complementizer,引导从句中的补语"
[0064] "conj : conjunct,连接两个并列的词"
[0065] "cop: copula。系动词,命题主词与谓词间的连系"
[0066] "csubj : clausal sub ject,从主关系"
[0067] "csubjpass:clausal passive subject 主从被动关系"
[0068] " dep: dependent 依赖关系"
[0069] "det: determiner 决定词,如冠词等"
[0070] "dobj : direct object 直接宾语"
[0071] "expl: expletive,主要是抓取 there"
[0072] "infmod: infinitival modifier,动词不定式"
[0073] "iobj : indirect object,间接宾语"
[0074] "mark:marker,主要出现在包含 "that" "whether"
[0075] "because" "when" 的语句中"
[0076] "mwe:multi-word expression,多个词的表不
[0077] "neg:negation modifier 否定词"
[0078] "nn:noun compound modifier 名词组合形式"
[0079] "npadvmod:noun phrase as adverbial modifier 名词作状语"
[0080] "nsubj :nominal subject,名词主语"
[0081] "nsubjpass:passive nominal subject,被动的名词主语"
[0082] "num:numeric modifier,数值修饰"
[0083] "number: element of compound number,组合数字"
[0084] "parataxis:parataxis:parataxis,并列关系"
[0085] "partmod:participial modifier 动词形式的修饰"
[0086] "pcomp:prepositional complement,介词补充"
[0087] "pobj: object of a preposition,介词的宾语"
[0088] "poss:possession modifier,所有形式,所有格"
[0089] "possessive:possessive modifier,所有者修饰"
[0090] "preconj :preconjunct,结合词关系,常常是出现在
[0091] 'either' 'both','neither' 的情况下"
[0092] "predet: predeterminer,前缀决定,常常是表示所有"
[0093] "prep:prepositional modifier,前置修饰词"
[0094] "prepc:prepositional clausal modifier,介词短语修饰子句"
[0095] "prt:phrasal verb particle,动词短语"
[0096]"purpcl:purposeclausemodifier,目的从句"
[0097] "quantmod:quantifierphrasemodifier,数量短语"
[0098] "rcmod:relativeclausemodifier相关关系"
[0099] "ref:referent,指不物,指代"
[0100] "rel:relative,相对关系"
[0101] "root:root,最重要的词,根节点"
[0102] "xsubj:controllingsubject控制主题"
[0103] 通过提取用户特征对用户帐户建模,每个用户账户模型可以表示为〈性别,年龄, 地理位置活动,写作风格〉,其中性别的取值范围为{:男,女},年龄的取值范围为{童年,少 年,青年,中年,老年},地理位置活动为地点名词集合,写作风格由一系列特征向量样本点 组成。
[0104] S104 :帐户模型相似度评估
[0105] 帐户模型相似度评估主要通过逐层过滤的方式,基于用户帐户模型,对目标UGC 网站用户帐户集依次进行基于性别特征的过滤,基于年龄特征的过滤,基于地理特征的过 滤和基于写作特征的过滤,最终将帐户模型相似的用户账户,即相互关联的跨UGC网站用 户帐户,逐步过滤筛选出来。
[0106]图3是帐户模型相似度评估的工作流程图。如图3所示,基于用户帐户模型中的 各个用户特征,采用逐层过滤的方法对用户账户模型进行相似度评估包括以下步骤:
[0107] S301:基于性别特征的过滤
[0108] 各个不同的UGC网站对应不同的用户帐户数据集,对用户帐户数据集中的每个用 户帐户建模之后,从用户帐户数据集h中随机抽取一个用户帐户gik,然后将其与用户帐户 数据集h(i辛j)中的用户帐户进行关联。基于性别特征的过滤就是利用用户帐户模型中 的性别特征对用户账户数据集h进行过滤,由于性别特征的取值范围为{:男,女},将用户 账户数据集h中所有与用户帐户gik的性别特征相同的用户账户筛选出来组成第一子集 Sm,即用户帐户数据集h所对应的UGC网站中与用户账户gik性别特征相同的所有用户帐户 集合。
[0109] S302:基于年龄特征的过滤
[0110] 针对基于性别特征过滤后得到的第一子集Sm中所有用户账户,将其与用户帐户 gik模型中的年龄特征进行对比,由于年龄特征的取值范围为{童年,少年,青年,中年,老 年},筛选出与用户帐户gik具有相同年龄特征的用户帐户组成第二子集An,则第二子集An 中所有的用户账户与用户帐户gik具有相同的性别特征和年龄特征。
[0111] S303:基于地理特征的过滤
[0112] 用户账户模型中的地理特征表示为许多地点名词的集合,本发明通过利用 Jaccard相似度来计算地点名词集合之间的相似度,即用户帐户模型的地理特征相似度。针 对第二子集An中的所有用户帐户,计算其与用户账户gik之间的地理特征相似度;如果地 理特征相似度值大于预设的阈值t,则认为两个用户账户模型中的地理特征相似,否则,分 别属于不同的用户实体;其中,t的取值大小决定了地理位置活动特征的过滤能力,取值过 大,容易出现漏选,取值过小,容易出现错选,针对现有的UGC网站,t的取值范围为[40%, 60%]比较合适。将第二子集An中所有与用户帐户gik地理特征相似的用户账户过滤筛选 出来组成第三子集Lp。
[0113] S304:基于写作特征的过滤
[0114] 用户帐户模型中写作特征的表达形式为一系列特征向量样本点集合,本发明利用 单类分类器的方法来判断用户帐户模型之间的写作特征是否相似。从第三子集Lp中随机 选取一个用户账户lq,判断其与用户账户gik模型中的写作特征是否相似的方法如下:
[0115] 首先,计算用户帐户gik的自关联相似度:在用户帐户gik中,每选取K个特征 向量样本点组成一个数据点,选取两组不同数据点组成集合Nlik和N2ik,所述集合Nlik 和N2ik所包含的数据点个数均为T个,所述T大于或等于2 ;以数据点集合N1 ik作为训 练集训练单类分类器,将数据点集合N2ik作为测试集,记录当前单类分类器输出的准确 率为Sg(Nlik,N2ik);以数据点集合N2ik作为训练集训练单类分类器,将数据点集合N1ik 作为测试集,记录当前单类分类器输出的准确率为Sg(N2ik,Nlik);用户帐户gik的自关 联相似度为所述准确率38(叫1;,% 1;)和准确率58(%1;,叫1;)的乘积,即Sg(gik,gik)= Sg(Nlik,N2ik)XSg(N2ik,Nlik)。
[0116] 然后,计算用户帐户gik与用户帐户1q的互关联相似度:分别从用户帐户gik与用 户帐户lq中随机选取T个不同数据点,组成集合Ngik和N1q,以数据点集合Ngik#为训练 集训练单类分类器,将数据点集合Nlq作为测试集,记录当前单类分类器输出的准确率为 Sgl (Ngik,Nlq);以数据点集合Nlq作为训练集训练单类分类器,将数据点集合Ngik作为测试 集,记录当前单类分类器输出的准确率为Slg(Nlq,Ngik);用户帐户gik关于用户帐户15的 互关联相似度为所述准确率Sgl (Ngik,Nlq)和准确率Slg(Nlq,Ngik)的乘积,即Sgl (gik,lq)= Sgl(Ngik,Nlq)XSlg(Nlq,Ngik)。
[0117] 基于用户帐户gik的自关联相似度和其与用户帐户1 5的互关联相似度,判断两者 的绝对差值是否小于阈值e(〇<e彡5%),即|Sg(git,git) &人)。如果两者绝对 差值小于阈值e,则表示用户帐户gik与用户帐户lq的写作特征相似;如果两者绝对差值大 于阈值e,则认为分别属于不同实体用户。
[0118] 针对第三子集Lp中的所有帐户,分别对其与用户账户gik的写作特征是否相似进 行判定,将第三子集Lp中所有与用户账户gik模型中的写作特征相似的用户帐户筛选
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1