一种用于跨ugc网站平台的帐户关联方法

文档序号:8258928阅读:392来源:国知局
一种用于跨ugc网站平台的帐户关联方法
【技术领域】
[0001] 本发明属于互联网账户分析领域,更为具体地讲,涉及一种用于跨UGC网站平台 的针对属于同一实体用户的多帐户关联方法。
【背景技术】
[0002] UGC(User Generated Content)网站主要是指基于用户生成内容的在线社交网站 和在线论坛等,目前比较著名的UGC网站有Facebook、Twitter、Google+、人人网、开心网、 豆瓣、新浪微博、腾讯微博等,它们已经成为主流分享信息的网络平台。然而,各种UGC网 站提供给网民的服务类别不同,例如Fa Ceb〇〇k、G〇〇gle+、人人网主要为用户提供社交服务, Twitter、新浪微博、腾讯微博允许用户将自己的最新动态和想法分享出来,淘宝网、京东商 城则主要用于电子商务。因此,在不同类别的网络中我们获取到的信息会有所不同,将某种 类别UGC网站的用户行为信息通过分析处理后应用到另外一种类别的UGC网站中去,可能 会收获意想不到的效果,例如我们可以将?&06130〇1^、6〇(^16+、1¥;[1^61'、人人网、大众点评网 这种含有社交属性网站的用户行为信息经过分析处理后应用到淘宝网、京东商城这种没有 社交属性的电子商务类别的网站中,可以迅速提高网站的服务质量、商品推荐质量等。由于 目前各UGC网站用户帐户之间信息相互独立,因此,对属于同一实体用户的跨UGC网站用户 账户进行关联具有重要意义和价值。
[0003] 同时,随着UGC网站迅速发展,有些人利用UGC网站平台发布虚假信息、散播不实 言论等,来达到自己不可告人的目的。这些人主要通过匿名的方式在多个UGC网站帐户上 发布消息。这些恶意行为被称为"跨网站帐户攻击",这种现象对UGC网站平台的后台管理 带来了严重的困扰,在UGC网站后台的存储、计算、传输、应用等方面都带来了额外的开销, 妨碍了网络资源的合理应用,严重影响了 UGC网站平台的性能,因此,对属于同一实体用户 的跨UGC网站多帐户进行关联更加具有研宄价值。
[0004] 在对用户帐户建模方面,传统的账户关联的研宄中,一部分研宄通过从用户在使 用UGC网站时发生的行为中抽取特征对用户帐户进行建模,这些传统研宄中定义的用户特 征包括用户使用UGC网站时进行的行为操作,包括鼠标停留时间、页面访问频次、检索词使 用习惯等。在获得UGC网站访问量基本数据的情况下,对有关数据进行统计、分析,从中发 现用户访问UGC网站的规律,从而对用户帐户进行建模,关联网站用户账户。但是,这些用 户特征在UGC网站中一般不容易获取,且UGC网站服务器所统计相关数据与用户的真实行 为误差比较大,因此帐户关联准确率比较低。另一部分研宄通过从用户帐户名字,出生日 期,教育背景等用户在注册UGC网站时所公布的个人信息中提取特征对用户帐户建模,从 而实现用户帐户关联;然而,在UGC网站中,用户帐户所公布个人信息涉及用户的个人隐 私,往往不真实、不全面,且随机性比较高,因此,使用此方法的准确性和健壮性均不高。
[0005] UGC逐渐成为社交网站用户互动的主要应用形式,用户经常把与自身相关的信息 以UGC的形式在网站上发布,Facebook、Twitter、人人网、大众点评网等网站都可以看作是 UGC的成功案例,社区网络、视频分享、博客和播客(视频分享)等都是UGC的主要应用形 式。本发明在对用户帐户进行建模时所使用的用户特征与传统研宄中定义的用户特征不 同,主要针对用户在使用UGC网站时所生成的文本内容中提取用户特征,从而对用户帐户 进行建模,实现对属于同一实体用户的跨UGC网站多帐户关联。在UGC网站中,可以从用户 的文本内容中提取多个特征,例如,地理位置活动特征、写作风格特征等,对用户帐户进行 建模,能够比较全面的表达出用户的特点,从而获得较高的用户帐户关联准确率。同时,用 户生成的文本内容比较稳定,不易被修改,具有较高的健壮性。
[0006] 在跨UGC网站用户帐户关联方法选取方面,传统的研宄大部分采用单特征关联方 法,即针对每个用户特征,对用户帐户进行关联一次,没有将多个用户特征组合起来对跨 UGC网站多账户进行关联,因而得到的关联用户账户准确率比较低。与以往研宄不同,本发 明采用逐层过滤的方法对用户帐户进行关联,即依次利用用户帐户模型中的多个用户特征 对目标用户帐户数据集进行筛选,逐步缩小候选集,最终获得的用户账户数据集即是相互 关联的跨UGC网站的多个用户帐户。由于充分利用了用户账户模型的各个特征,采用逐层 过滤方法对跨UGC网站的多个用户账户进行关联具有较高的准确率。

【发明内容】

[0007] 本发明的目的在于:针对现有技术的不足,通过在帐户建模方面和帐户关联方法 方面的改进,提出一种新的用于跨UGC网站平台的用户帐户关联方法,解决了传统帐户关 联方法中用户特征不稳定,误差比较大,不能充分有效的利用用户特征等问题,从而提高了 跨UGC网站平台的用户帐户关联的准确率和健壮性。
[0008] 为实现上述目的,本发明包括以下步骤:
[0009]S1:根据用户需求确定需要关联的UGC网站,针对每个UGC网站,利用各网站的本 地数据库或者网络爬虫获取所需要关联的用户帐户数据集匕,其中匕的下标"i"用于标识 不同的UGC网站平台所对应的用户帐户数据集;所述用户帐户数据集匕中的每个用户帐户 gik由该用户生成的文本内容组成,gik的下标"i"和"k"用于标识第i用户帐户集数据61 中第k个用户帐户。
[0010] S2:在获取用户帐户数据集匕后,需要对其中每个用户帐户gik中的文本内容进行 预处理。在UGC网站中,用户帐户gik的文本内容由一系列短文本帖子组成,以短文本帖子 为单位进行预处理。所做预处理具体为:删除文本内容中非英文语言的内容;删除各个UGC 网站自动添加而非用户生成的文本内容;删除特殊的、使用频率低的标识符和标点符号,即 将用户帐户生成的文本内容中除了 以外的标 识符和标点符号删除;若用户帐户gik的某条短文本帖子中所含有的英文字符数量小于预 设阈值M,则将该短文本帖子删除;若用户帐户gik含有短文本帖子数量小于预设阈值N,则 从用户帐户数据集h中删除该用户帐户,其中,M值和N值的选取主要依据UGC网站中用户 帐户发布短文本帖子的数量和长度,针对现有的UGC网站,M= 10,N= 20能够取得较好的 效果。
[0011] S3 :针对每个用户帐户gik,通过对预处理后的文本内容进行特征提取的方式建立 用户帐户模型,用户帐户gik的模型主要由其性别特征,年龄特征,地理位置活动特征和写 作风格特征四个方面组成,则用户账户模型可以表示为〈性别,年龄,地理位置活动,写作 风格〉,其中,性别的取值范围为{:男,女},年龄的取值范围为{童年,少年,青年,中年,老 年},地理位置活动为地点名词集合,写作风格由一系列特征向量样本点组成;同时,用户 帐户模型之间是相互独立的,即某个用户帐户文本内容的改变对其他用户帐户模型没有影 响;各个特征之间是相互独立的,且可以计算相同特征之间的相似度。
[0012] S4:基于每个用户帐户的模型,采用逐层过滤的方式实现跨UGC网站平台的帐户 关联。针对用户帐户数据集匕,从中抽取一个用户帐户g ik,在用户帐户数据集中, 依次利用性别特征、年龄特征、地理位置活动特征和写作风格特征,通过计算帐户模型中特 征相似度和使用分类器的方式,将与用户帐户g ik不相关的用户账户过滤掉,从而逐步缩小 候选集,经过过滤筛选后的用户帐户集合私即为在用户账户数据集h中与用户帐户数据 集61中的用户帐户gik相关联的用户帐户集合。
[0013] S5:针对用户帐户数据集匕中的用户帐户gik,在用户帐户数据集Gj中采用逐层过 滤的方式获得用户帐户集合<后,将用户帐户集合圮中的用户帐户从用户帐户数据集Gj 中删除,将用户帐户g ik从用户帐户数据集G ,中删除,并将其加入用户帐户集合忠中,则用 户帐户集合忠表示属于同一实体用户的跨UGC网站多账户。判断用户帐户数据集&是否 为空,如果非空,则表示还有未被关联的用户帐户,进入步骤S4;如果为空,则表示用户帐 户关联已经完成,将含有用户账户数量大于2的用户帐户集合巧输出,如果用户帐户集合 忠中仅含有一个用户账户,则表示没有与该用户帐户相关联的跨UGC网站用户帐户,则不 用输出。
[0014] 本发明一种用于跨UGC网站平台的帐户关联方法,主要由四部分组成,S卩:数据获 取,数据预处理、特征提取和逐层过滤。在上述步骤中,步骤S1属于数据获取部分,步骤S2 属于数据预处理部分,步骤S3属于特征提取部分,步骤S4, S5属于逐层过滤部分。数据获取 部分主要是根据用户需求获取目标UGC网站所对应的用户帐户数据集。数据预处理部分将 用户帐户文本内容中包含的噪声数据删除,以方便用户特征的提取,使用户特征更具代表 性,从而提高了检测准确率。特征提取部分主要从用户帐户生成的文本内容中提取特征对 用户帐户进行建模,从而使得模型能够较好的代表用户,其中主要提取了性别特征,年龄特 征,地理位置活动特征和写作风格特征;所提取的用户特征仅与用户的文本内容有关,与用 户帐户名字、时间、主题等均无关。逐层过滤部分是依次利用用户帐户模型中的性别特征、 年龄特征,地理位置活动特征和写作风格特征对目标UGC网站用户帐户数据集中的用户帐 户进行筛选过滤,最终获得相互关联的跨UGC网站用户帐户数据集。
[0015] 综上所述,本发明基于UGC网站用户帐户生成的文本内容,提取用户特征建立用 户帐户模型,然后通过逐层过滤的方法实现跨UGC网站平台的帐户关联,具有以下有益效 果:
[0016] (1)扩展了 UGC网站中用户账户的信息。目前,还没有关联不同UGC网站上属于同 一实体用户的账户的方式,因此所有账户信息仅限于其所在的UGC网站。通过本发明,能够 将这些孤立的账户关联起来,从而将这些账户所生成的信息关联起来,最终扩展了用户账 户所关联的信息。这些信息能够用于推荐系统,提高推荐算法的准确性。
[0017] (2)解决了跨UGC网站恶意账户追踪问题。如果一个账户在某个UGC网站被识别 为恶意账户,但并不能确定其所对应的实体用户在其它UGC网站是否有账户,因此无法遏 制恶意行为的继续蔓延。通过本发明,则能够发现与该恶意账户关联的其它UGC网站上的 账户,从而采取有效措施。
[0018] (3)缓解了因用户帐户数据失窃,造成的相关联账户被攻击的危险。如果一个实体 用户在某个UGC网站的口令被盗取,由于同一用户通常使用相同或者相近的口令,则其在 其它UGC网站的账户面临威胁。通过本发明,则能及时通知相关用户修改信息,以免
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1