一种用于跨ugc网站平台的帐户关联方法_2

文档序号:8258928阅读:来源:国知局
成为攻 击的目标。
【附图说明】
[0019] 图1是本发明一种用于跨UGC网站平台的帐户关联方法的工作流程示意图。
[0020] 图2是帐户建模的工作流程图。
[0021] 图3是帐户模型相似度评估的工作流程图。
【具体实施方式】
[0022] 下面结合附图和实施方式对本发明作进一步地详细描述,以便本领域的技术人员 更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描 述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
[0023] 实施例
[0024] 图1是本发明一种用于跨UGC网站平台的帐户关联方法的工作流程示意图。如图 1所示,本发明一种用于跨UGC网站平台的帐户关联方法主要包括四个阶段:目标UGC网站 数据获取,数据预处理,帐户建模和帐户模型相似度输出。下面根据这四个阶段对本发明的 具体实施例进行说明。
[0025] S101 :目标UGC网站数据获取
[0026] 用户根据需求确定需要关联的UGC网站,然后在相对应的UGC网站中获取用户帐 户数据集,其中,用户帐户数据集中的数据主要以用户帐户生成的文本内容为主。
[0027] 在本实施例中,首先用户根据需求确定需要关联的目标UGC网站,然后根据用户 帐户的URL,利用各UGC网站平台的本地数据库或者网络爬虫获取相对应的用户帐户数据 集Gi。如果UGC网站本地数据库对外开放,则直接从本地数据库中获取数据,否则,制定网 络爬虫对目标UGC网站上的用户帐户信息进行爬取,从而得到用户帐户数据集匕。在各UGC 网站平台上,每个用户帐户所生成的文本内容均由一系列用户所发表的短文本帖子组成, 因此,本发明均以短文本帖子为单位对用户生成的文本内容进行处理。
[0028] S102 :数据预处理
[0029] 在获取用户帐户数据集匕后,需要Gi中的每个用户帐户gik中的文本内容进行预 处理。首先,需要将非英文语言的文本内容删除,将各个UGC网站自动添加而非用户生成 的文本内容删除;同时,将文本内容中特殊的、使用频率低的标识符和标点符号删除,在本 实施例中,将除句号、逗号、引号、问号、叹号、分号、冒号、顿号、左括号和右括号( 以外的标识符和标点符号删除。然后,若文本内容 中的短文本帖子所含有的英文字符数量小于预设阈值M,则将该短文本帖子删除;若用户 帐户文本内容含有短文本帖子数量小于预设阈值N,则从用户帐户集匕中删除该用户帐户。
[0030] 本发明将文本内容中特殊的、使用频率低的标识符和标点符号删除,主要是因为 这些字符与所提取的特征无关,并且部分字符是UGC网站平台自动生成的,非用户所写,所 以这些字符在对帐户建模时制造了噪声。删除含有英文字符数量较少的短文本帖子,主要 是因为本发明以短文本帖子为单位提取用户特征,在提取写作风格特征时,如果短文本帖 子所含英文字符数量较少,会造成所提取的特征向量样本点比较稀疏,帐户关联效果较差。 删除含有短文本帖子数量较少的用户帐户,主要是因为从这些帐户中所提取的用户特征不 能充分表达出该用户的特点,从而造成同其他用户帐户进行关联时准确率较低。
[0031] S103:帐户建模
[0032] 帐户建模主要由四部分构成:帐户性别特征提取,帐户年龄特征提取,地理活动特 征提取和写作风格特征提取,即基于用户账户生成的文本内容,通过提取用户的性别特征, 年龄特征,地理活动特征和写作风格特征对用户帐户进行建模。
[0033] 图2是帐户建模的工作流程图。如图2所示,基于用户帐户文本内容对用户帐户 进行建模包括以下步骤:
[0034] S201:帐户性别特征提取
[0035] 基于用户帐户的文本内容判断用户账户的性别。由于性别分为男、女,现有的研宄 中采用训练二类分类器的方法对用户帐户进行性别判定,并且已经训练出比较成熟的判断 用户性别的二类分类器模型。本发明调用该二类分类器模型,对用户帐户数据集中的每个 用户帐户进行性别判定。
[0036] S202:帐户年龄特征提取
[0037] 基于用户帐户的文本内容,对该用户所处于的年龄段进行判定。现有的研宄将用 户的年龄分为五个类别:童年,少年,青年,中年,老年;利用训练多类分类器的方法对用户 帐户的年龄段进行判定,本发明调用该多类分类器模型对目标UGC网站用户帐户数据集中 的用户账户进行年龄段判定。
[0038] S203:地理活动特征提取
[0039] 地理活动特征提取主要是从用户帐户的文本内容中提取地点名词集合。本发明利 用自然语言处理技术中实体识别的方法从文本内容中提取地点名词,然后对提取后的地点 名词通过输入地址转换接口中进行验证,如果该地址转换接口能返回地址的经炜度,则认 为该地点名词有效。经过验证后的地点名词形成一个集合,每个用户帐户都会提取一个地 点名词集合作为该用户账户的地理活动特征。
[0040] S204:写作风格特征提取
[0041] 写作风格特征包括词频特征,字母特征,数字特征,符号特征,虚词特征,双连词特 征,三连词特征,词性特征,语法关系特征。由于用户帐户的文本内容由一系列短文本帖子 组成,则以短文本帖子为最小单位,利用自然语言处理工具NLTK和斯坦福语法解析器等提 取用户账户的写作风格特征,每个短文本帖子对应提取出一个特征向量样本点,每个用户 帐户的写作风格特征则由一系列特征向量样本点组成。
[0042] 由于用户在使用UGC网站平台发表帖子时,很少使用一些特殊的、生僻的、标志性 的字符,具有"跨网站攻击"的帐户更是突出,基本不使用,因此本发明在选取符号特征,虚 词特征,词性特征,双连词特征,三连词特征,语法关系特征时,过滤掉在用户帐户文本内 容中使用频率较少的特征,避免了生成的特征向量样本点比较稀疏,从而提高了检测准确 率和效率。本发明所提取的双连词特征,三连词特征均由常用虚词、代词、动词组成,与文本 内容的主题无关。在本具体实施例中,所提取的写作风格特征具体包括:
[0043] 词频特征:Words count (单词词频)、Character count (字母词频)、Upperword count (首字母大写词频)、Allupperword count (首字母小写词频)、Alllowerword count (全部小写词频)。
[0044] 字母特征:A-Z、a-z。
[0045] 数字特征:〇-9。
[0046] 符号特征:S,、':,、'(,、')'。
[0047] 虚词特征:"a","I","his","that","it","you","had","with","as","for","he ^she^^but^V'him^V'in^V'not^ ^my^^have^/Vas^V'and^ ume ","he","they","from","at","this","which","there","one","to","all ","so","an","by", "of", "than"。
[0048] 双连词特征:"I' is"、"at the"、''you' 代"、'4 good"、''how to"、"have been"、"have a,,、"all of,,、"can be,,、"I woulcT^there is"、"will be"、"I,Ve"、"I was"、"thank you"、"be a"、"we're"、"it was"、"for this"。
[0049] 三连词特征:"one of m so"、"I just liked"、"am going to"、"part of the"、"if you are"、"how to make"、"I will be";
[0050] 词性特征:"CC :(表示连词)"、"CD:(表示基数词)'"DTidetenninei'(表 亦限定词)"、"EX :(存在量词)"、"FW:foreign word(外来词)"、"IN:preposition or conjunction,subordinating(介 词或从 属连词)"、"JJ:adjective or numeral,ordinal (形容词或序数词)"、"JJR: adjective,comparative (形容词比较 级)"、"JJS: adjective,superlative (形容词最高级)"、"LS: list item marker (列表 标识)"、"MD:modal auxiliary (情态助动词)"、"NN :(常用名词)"、"NNS :(常用名词复 数)"、"NNP :(专有名词单数)"、"NNPS :(专有名词复数)"、"H)T: pre-determiner (前 位限定词)"、"P0S:genitive marker (所有格标记)"、"PRP:pronoun,personal (人称 代词)"、"PRP$:(物主代词)"、"RB: adverb (副词)"、"RBR: adverb,comparative (副词 比较级)"、"RBS :(副词最高级)"、"RP :Particle (小品词)"、"SYM: symbol (符号)"、 "TO: " to" as preposition or infinitive marker ( 'to' 作为介词或不定式标记)"、 "UH :(感叹词)"、"VB :Verb,base form(动词,一般式)" "VBD :Verb,past tense (动词 过去式)"、"VBG :Verb,gerund or present participle (动词,动名词或现在分词)"、 "VBN :Verb,past participle (动词,过去分词)"、"VBP :Verb,non_3rd person singular present (动词,非第三人称单数)"、"VBZ :Verb,3rd person singular present (动词, 第三人称单数)"、"WDT:WH_determiner(WH 限定词)"、"WP:WH_pronoun(WH 代词)"、 "WP$ :WH_pronoun,possessive (WH 所有格代词)"、"WRB:Wh_adverb (WH 副词)"。
[0051] 语法关系特征:"abbrev:abbreviation modifier,缩写修饰符"、
[0052] "acomp: adjectival complement,形容词的补充"、
[0053] "advc
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1