对优质用户生成内容的数据挖掘方法和系统的制作方法

文档序号:6498902阅读:100来源:国知局
对优质用户生成内容的数据挖掘方法和系统的制作方法
【专利摘要】本申请公开了一种对优质用户生成内容(UGC)的数据挖掘方法和系统,包括:计算各个帐号所发表的历史UGC的质量分及其与各类目的相关度,依据所述质量分和相关度筛选出各类目的优质帐号;在接收到所述优质帐号新发表的UGC之后,根据该UGC的内容计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度;判断该UGC的质量分是否大于预设的质量分阈值、且该UGC与发表该UGC的优质帐号所属类目的相关度是否大于该类目的预设的相关度阈值,如果是,则将该UGC作为发表该UGC的优质帐号所属类目中的优质UGC。利用本发明,可以提高优质UGC与目标用户所关心内容和本类目的相关性,提高优质UGC的实时性。
【专利说明】对优质用户生成内容的数据挖掘方法和系统
【技术领域】
[0001 ] 本申请涉及计算机和互联网数据处理【技术领域】,尤其涉及一种对优质用户生成内容(UGC, User Generated Content)的数据挖掘方法和系统。
【背景技术】
[0002]目前,随着互联网技术的发展,网络逐渐成为人们获取信息的重要来源,特别是在互联网进入Web2.0时代后,用户既是网站内容的浏览者,也是网站内容的制造者。用户参与创造的内容被称为UGC,如用户发表的日志、照片等。在Web2.0时代,由于UGC的大量涌现,网络信息量呈几何级快速增长,形成一个多、广、专的局面,对人类知识的积累和传播起到了一个非常大的作用。
[0003]可以发表UGC的网站系统通常被称为UGC网站系统。例如目前常用的UGC网站系统包括:微博客(MicroBlog)系统、社交网络服务系统(SNS, Social NetworkService))、社区论坛系统、知识分享系统等等。其中某些UGC网站系统的功能也是相互融合的,具有多种属性。
[0004]例如,微博客(MicroBlog),简称微博,是一个基于用户关系的信息分享、传播以及获取的UGC网站系统,也属于一种SNS系统,用户可以通过有线通信网络或无线通信网络、以及各种客户端访问微博,以指定数目的文字和/或其它多媒体信息更新信息,并实现即时分享。在微博系统中,每一个用户都可以收听(或关注)其它用户,即被该用户收听(或关注)的用户所发表的微博信息(即UGC)可以及时地传输到该用户的微博中。当然所有的用户也可以被其它用户收听(或关注)。
[0005]但是需要注意的是,在UGC网站系统中,因为每一个人都可以生成内容,可能会有很多错误、虚假和片面的内容,所以出现了对优质内容进行挖掘筛选的需求。目前,出现了一种在UGC网站系统中对优质UGC的数据挖掘方法,其目的是要从大量用户所发表的大量的UGC中挖掘出最值得推荐的优质UGC,所谓优质UGC的数据挖掘技术,就是通过数据统计分析对目标用户所关心的内容进行估计,从而将与目标用户所关心的内容的相关度最高的UGC挑选出来,优先展示给目标用户,从而方便目标用户在第一时间看到所关心的优质UGC,减少目标用户为了需找优质UGC而耗费时间和精力。
[0006]例如,在目前的微博系统中,出现了一种被称为“热门微博”的优质UGC的数据挖掘方案。图1为一种“热门微博”的优质UGC的数据挖掘方案的展示效果界面图。参见图1,在这种现有的优质UGC数据挖掘技术中,微博系统对微博进行归类,形成各个类目,如图1左侧的类目列表101,并人工设置每个类目的优质帐号,对每个类目中的优质帐号所发表的微博进行数据挖掘,即在每个类目中按照一段时间内的转发数和评论数的多寡对各个微博进行排名,一个微博的转发数和评论数越多则排名越靠前,排名靠前的微博就是本类目中的“热门微博”即优质UGC。当然也可以将全部类目的优质帐号所发表的微博,按照一段时间内的转发数和评论数进行排名,从而得到全部类目的“热门微博”。
[0007]但是,现有的这种优质UGC的数据挖掘方案存在以下缺点:[0008]首先,每个类目中的优质帐号基本上是按照该帐号所拥有的“粉丝”数量来设置的,所述粉丝即收听(或关注)该帐号的用户,当一个帐号所拥有的粉丝数量大于某个阈值则该帐号就会被设置为优质帐号,但是,“粉丝”数量高的帐号所发表的UGC不见得优质,而“粉丝”数量低的帐号所发表的UGC也不见得不优质。或者所述优质帐号由网站管理人员进行人工主观设置,至于各个优质帐号的归属类目,则完全由人工主观设置。因此,现有技术所设置的优质帐号都不是基于帐号所发表的客观UGC内容得出的,而是根据其它因素如“粉丝”数量或主观设置得出,因此从这些所谓的优质帐号所发出的UGC中挑选出来的优质UGC的内容与目标用户所关心的内容的相关性较差,而且与本类目的相关性也较差,例如在微博系统中,一个“娱乐”类的优质帐号所发表的热门微博的内容不见得就属于“娱乐”类目,有可能属于其它类目。
[0009]其次,现有的这种优质UGC的数据挖掘过程中主要依据各类目优质帐号所发表的UGC的转发数和评论数进行排名挑选,也不是基于UGC的内容来挑选,导致最终挑选出来的优质UGC的内容与目标用户所关心的内容的相关性较差,而且与本类目的相关性也较差。
[0010]再次,由于现有的这种优质UGC的数据挖掘过程中主要依据各类目优质帐号所发表的UGC的转发数和评论数进行排名挑选,而转发数和评论数较高的UGC往往是发表时间较久的UGC,而最新发表的UGC的转发数和评论数往往很小,因此最新发表的UGC被挑选为优质UGC的几率很低,导致优质UGC的实时性太差,无法适应某些需要实时较高的类目如新闻类目的实时性要求。
[0011]总之,现有的这种优质UGC的数据挖掘技术所挑选出的各类目的优质UGC与目标用户所关心的内容的相关性较差,与本类目的相关性也较差,且实时性也较差。导致目标用户不便快速浏览到所关心的UGC,需要耗费过多的时间和精力去寻找其所关心的内容。同时,在用户需找其所关心的内容的过程中,需要进行大量的人机交互操作(如点击查看等操作),而每一次人机交互操作都会占用相应的机器资源和网络带宽资源,如果直接将优质UGC推荐给用户,用户则可以减少大量的人机交互操作,降低对机器资源和网络带宽资源的占用量。

【发明内容】

[0012]有鉴于此,本发明的主要目的在于提供一种优质UGC的数据挖掘方法和系统,以提闻优质UGC与目标用户所关心内容和本类目的相关性,提闻优质UGC的实时性,方便目标用户快速浏览到所关心的内容,降低用户为寻找所关心的内容而进行的人机交互操作。
[0013]本发明的技术方案是这样实现的:
[0014]一种对优质用户生成内容UGC的数据挖掘方法,包括:
[0015]对UGC网站系统的各个帐号所发表的历史UGC的内容进行分析计算,得到各UGC的质量分及其与各类目的相关度,依据所述质量分和相关度筛选出各类目的优质帐号;
[0016]在UGC网站系统接收到所述优质帐号新发表的UGC之后,根据该UGC的内容计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度;判断该UGC的质量分是否大于预设的质量分阈值、且该UGC与发表该UGC的优质帐号所属类目的相关度是否大于该类目的预设的相关度阈值,如果是,则将该UGC作为发表该UGC的优质帐号所属类目中的优质UGC。[0017]一种对优质UGC的数据挖掘系统,该系统包括:
[0018]优质帐号挖掘模块,对UGC网站系统的各个帐号所发表的历史UGC的内容进行分析计算,得到各UGC的质量分及其与各类目的相关度,依据所述质量分和相关度筛选出各类目的优质帐号;
[0019]优质UGC挖掘模块,用于在UGC系统接收到所述优质帐号新发表的UGC之后,根据该UGC的内容计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度,并判断该UGC的质量分是否大于预设的质量分阈值、且该UGC与发表该UGC的优质帐号所属类目的相关度是否大于该类目的预设的相关度阈值,如果是,则将该UGC作为发表该UGC的优质帐号所属类目中的优质UGC。
[0020]与现有技术相比,本发明在选取优质帐号的过程中,是基于帐号所发表的客观UGC内容进行分析计算得到各UGC的质量分及其与各类目的相关度,再依据所述质量分和相关度筛选出各类目的优质帐号,而不是根据其它因素如“粉丝”数量或主观设置得出,因此本发明从这些筛选出的优质帐号所发出的UGC中挑选出来的优质UGC的内容与目标用户所关心的内容的相关性较高,而且与本类目的相关性也较高。同时,本发明在选取优质UGC的过程中,也是基于UGC的客观内容计算得到该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度,并根据预设的阈值选出优质帐号所属类目中的优质UGC,因此选取方式更加客观,提高了最终挑选出来的优质UGC的内容与目标用户所关心的内容的相关性,而且提高了优质UGC与本类目的相关性。另外,由于本发明在接收到优质帐号新发表的UGC之后就进行优质UGC的筛选处理,其优质UGC的实时性也大为提高。
[0021]因此,本发明可以方便目标用户快速浏览到所关心的内容,降低用户为寻找所关心的内容而进行的人机交互操作,节省由于进行多余人机交互操作所占用的机器资源和网络带宽资源。
【专利附图】

【附图说明】
[0022]图1为一种“热门微博”的优质UGC的数据挖掘方案的展示效果界面图;
[0023]图2为本发明所述优质UGC的数据挖掘方法的流程图;
[0024]图3为本发明所述步骤201的挖掘优质帐号的一种具体流程图;
[0025]图4为本发明所述优质UGC的数据挖掘系统的一种实施例的组成示意图;
[0026]图5为本发明所述优质UGC的数据挖掘系统的又一种实施例的组成示意图;
[0027]图6为本发明所述数据挖掘系统的优质帐号挖掘模块的一种组成示意图;
[0028]图7为本发明应用在微博系统中进行优质微博的数据挖掘方法的一种流程图。
【具体实施方式】
[0029]下面结合附图及具体实施例对本发明再作进一步详细的说明
[0030]图2为本发明所述优质UGC的数据挖掘方法的流程图。参见图2,该方法主要包括:
[0031]步骤201,挖掘各类目的优质账号。即:对UGC网站系统的各个帐号所发表的历史UGC的内容进行分析计算,得到各UGC的质量分及其与各类目的相关度,依据所述质量分和相关度筛选出各类目的优质帐号。由于该步骤201的计算量巨大,因此该步骤通常离线进行。
[0032]步骤202、对优质UGC的挖掘处理。即:在UGC网站系统接收到所述优质帐号新发表的UGC之后,根据该UGC的内容计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度;判断该UGC的质量分是否大于预设的质量分阈值、且该UGC与发表该UGC的优质帐号所属类目的相关度是否大于该类目的预设的相关度阈值,如果是,则将该UGC作为发表该UGC的优质帐号所属类目中的优质UGC,否则该UGC不是优质UGC。
[0033]在一种优选的实施例中,步骤202中,在UGC网站系统接收到所述优质帐号新发表的UGC之后,在计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度之前,进一步包括数据的预处理过程,即:对于实时接收到的微博,过滤掉含有关键词黑名单中所列词的微博;即判断所述新发表的UGC的内容中是否包含关键词黑名单中所列的关键词,如果包括则排除掉该UGC,即不对该UGC进行后续的处理,否则对该UGC进行后续的处理。这样可以进一步排除掉含有黑名单内容的UGC,提闻优质UGC的内容质量,也可以精简候选UGC的数量,减少后续计算的计算量。
[0034]步骤202中,本发明所述在UGC网站系统接收到所述优质帐号新发表的UGC之后,具体可以为:在UGC网站系统实时接收到所述优质帐号新发表的每个UGC之后,或者在UGC网站系统定期接收到最近的一段时间内所述优质帐号发表的一个以上UGC之后。也就是说,本发明步骤202中的优质UGC的挖掘处理,可以是在每实时接收到一个优质帐号发表的一个UGC之后,就触发步骤202对该UGC的进行处理,如果该UGC是优质UGC则挑选出来;也可以是在定期接收到最近一段时间(例如每10分钟)内所述优质帐号发表的一个以上UGC之后,再触发步骤202对所接收的每一个UGC进行处理,从中挑选出优质UGC。
[0035]在一种具体的实施例中,如果采用定期接收到最近一段时间(例如每10分钟)内所述优质帐号发表的一个以上UGC之后再触发步骤202进行处理,则在步骤202中,在计算所述优质帐号新发表的UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度之前,进一步包括去重处理,即:
[0036]判断接收到的所述优质帐号新发表的UGC的数量是否为两个以上,如果是两个以上,则计算所述各新发表的UGC之间的文本相似度,对于相似度高于指定阈值的UGC,则排除掉其中发表时间较晚的UGC,只对其它UGC进行后续处理。通过这种去重处理,可以进一步精简候选UGC的数量,减轻后续计算的计算量。
[0037]所述计算所述各个新发表的UGC之间的文本相似度,具体包括:对所述各个新发表的UGC进行文本切词取得实词,计算所述两两UGC之间的实词重复率,所述实词重复率就是文本相似度,对于实词重复率高于指定阈值的两个UGC,说明这两个UGC的内容相似,此时只保留发表时间较早的UGC进行后续的处理。
[0038]在所述步骤201挖掘优质帐号的过程中,由于计算量巨大,因此该步骤201通常是离线进行。图3为本发明所述步骤201的挖掘优质帐号的一种具体流程图。参见图3,该过程主要包括以下步骤211至115:
[0039]步骤211、获取UGC网站系统各个帐号(通常为全量用户帐号)在指定历史时间段内(例如最近两个月)所发表的原创UGC的内容。
[0040]步骤212、针对所获取的每个原创UGC,计算每个原创UGC的质量分,以及每个原创UGC与各个类目的相关度。[0041]步骤213、根据每个帐号所发表的原创UGC的质量分及其与各类目的相关度,计算每个帐号的平均质量分及其与各类目的平均相关度。
[0042]其中:
[0043]某个帐号的平均质量分=该帐号所发表的各原创UGC质量分的总和/该帐号发表的原创UGC的数量;
[0044]某个帐号与某类目的平均相关度=该帐号所发表的各原创UGC与该类目相关度的总和/该帐号发表的原创UGC的数量;
[0045]步骤214、针对每个帐号,选取该帐号的平均相关度最高的类目作为该帐号唯一归属类目。这样可以在一定程度上保证类目质量。
[0046]步骤215、挖掘优质帐号,具体包括:针对每个帐号,判断该帐号的平均质量分是否大于预设的平均质量分阈值、且该帐号与其归属类目的平均相关度是否大于预设的平均相关度阈值,如果是,则将该帐号选为其归属类目的优质帐号,否则该帐号不是优质帐号。
[0047]如上所述,所述原创UGC的质量分以及与类目的相关度是挖掘优质帐号的重要依据,当然在进一步的实施例中可以用这两个参数衍生出其它参数,以作为挖掘优质帐号的进一步的依据。
[0048]例如在一种实施例中,在所述步骤212中,在计算出每个原创UGC的质量分、以及每个原创UGC与各类目的相关度之后,进一步将每个原创UGC的质量分乘以每个原创UGC与各类目的相关度,得到每个原创UGC针对各类目的可信度,该可信度就是一种衍生参数,可以作为挖掘优质帐号的进一步的依据。并且,在所述步骤213中进一步包括:根据每个帐号所发表的原创UGC针对各类目的可信度,计算每个帐号针对各类目的平均可信度,其中:
[0049]某个帐号针对某类目的平均可信度=该帐号发表的每个原创UGC针对该类目的可信度的总和/该帐号所发表的原创UGC的总数;
[0050]并且在所述步骤215中进一步包括:针对每个帐号,在判断出该帐号的平均质量分大于预设的平均质量分阈值、且该帐号与其归属类目的平均相关度大于预设的平均相关度阈值之后,判断该帐号针对其归属类目的平均可信度是否大于预设的平均可信度阈值,如果是,则将该帐号选为其归属类目的优质帐号,否则该帐号不是优质帐号。
[0051]在上述步骤201和步骤202中,所述计算某个UGC的质量分的具体过程包括:
[0052]获取该UGC的文本总长度、总词数、过滤词数和标点符号数,所述过滤词数为该UGC中属于预设的过滤词的词数;
[0053]确定该UGC的有效词数,该有效词数=总词数一过滤词数一标点符号数;
[0054]确定该UGC的文本基础分,该文本基础分=文本总长度+ w5X有效词数+ w6X过滤词数;所述w5和w6为对应的权重系数;
[0055]计算该UGC的词重复数,并确定词重复度,该词重复度=词重复数/总词数;
[0056]确定该UGC的文本分,该文本分=文本基础分X (有效词数/总词数)XflXCl -词重复度)/?4,其中所述f I是以标点符号数和总词数为参数的预设函数,所述《4为对应的权重系数;
[0057]获取该UGC的发表时间,确定该UGC的时间分,该时间分=(该UGC发表时间一预设的基准时间)/w7,所述《7为对应的权重系数;
[0058]确定该UGC的质量分,该质量分=wl X (w2 X文本分+w3X时间分),所述wl、w2和w3为对应的权重系数。
[0059]在上述步骤201和步骤202中,所述计算某一 UGC与某一类目的相关度,具体根据以下公式计算:
[0060]相关度=WlXFl (weight) +W2XF2 (rate) +W3XF3 (rank)
[0061]其中,所述W1、W2、W3分别是三个对应的权重系数;
[0062]所述weight是该类目的权重;
[0063]所述rate是该类目权重除以总权重的值;
[0064]所述rank是该类目在所有类目中的权重排名值;
[0065]所述Fl是将weight归约到0-1的函数;
[0066]所述F2是将rate归约到0_1的函数;
[0067]所述F3是将rank归约到0-1的函数。
[0068]与上述方法对应,本发明还公开了一种对优质UGC的数据挖掘系统,用于执行本发明的所述方法。图4为本发明所述优质UGC的数据挖掘系统的一种实施例的组成示意图。参见图4,该数据挖掘系统主要包括:
[0069]优质帐号挖掘模块401,用于挖掘各类目优质账号:即对UGC网站系统的各个帐号所发表的历史UGC的内容进行分析计算,得到各UGC的质量分及其与各类目的相关度,依据所述质量分和相关度筛选出各类目的优质帐号。
[0070]优质UGC挖掘模块402,用于在UGC系统接收到所述优质帐号新发表的UGC之后,根据该UGC的内容计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度,并判断该UGC的质量分是否大于预设的质量分阈值、且该UGC与发表该UGC的优质帐号所属类目的相关度是否大于该类目的预设的相关度阈值,如果是,则将该UGC作为发表该UGC的优质帐号所属类目中的优质UGC。
[0071]图5为本发明所述优质UGC的数据挖掘系统的又一种实施例的组成示意图。参见图5,该实施例中进一步包括:
[0072]预处理模块501,设置在所述优质UGC挖掘模块402之前,用于在UGC系统接收到所述优质帐号新发表的UGC之后,判断所述新发表的UGC的内容中是否包含关键词黑名单中所列的关键词,如果不包括则将该UGC送入后续模块处理,否则不将该UGC送入后续模块处理。
[0073]在该实施例中,该系统还进一步包括:
[0074]去重模块502,设置在所述优质UGC挖掘模块402之前,用于在UGC系统接收到所述优质帐号新发表的UGC之后,如果接收到的所述优质帐号新发表的UGC的数量为两个以上,则计算所述各新发表的UGC之间的文本相似度,对于相似度高于指定阈值的UGC,则排除掉其中发表时间较晚的UGC,只将其它UGC送入后续模块处理。
[0075]在上述实施例中,所述数据挖掘系统包括了预处理模块501和去重模块502。当然,在另外的实施例中,所述数据挖掘系统也可以在图4的基础上进一步包括预处理模块501或者进一步包括去重模块502。
[0076]图6为本发明所述数据挖掘系统的优质帐号挖掘模块的一种组成示意图。由于计算量较大,该优质帐号挖掘模块401为一种离线处理模块,具体组成参见图6,包括:
[0077]第一子模块,用于获取UGC网站系统各个帐号(通常为全量用户帐号)在指定历史时间段内(例如最近两个月)所发表的原创UGC的内容。
[0078]第二子模块,用于针对所获取的每个原创UGC,计算每个原创UGC的质量分,以及每个原创UGC与各个类目的相关度。
[0079]第三子模块,用于根据每个帐号所发表的原创UGC的质量分及其与各类目的相关度,计算每个帐号的平均质量分及其与各类目的平均相关度。
[0080]第四子模块,用于针对每个帐号,选取该帐号的平均相关度最高的类目作为该帐号唯一归属类目,这可一定程度上保证类目质量。
[0081]第五子模块,用于针对每个帐号,判断该帐号的平均质量分是否大于预设的平均质量分阈值、且该帐号与其归属类目的平均相关度是否大于预设的平均相关度阈值,如果是,则将该帐号选为其归属类目的优质帐号,否则该帐号不是优质帐号。
[0082]在进一步的实施例中,所述第二子模块还可以进一步用于:在计算出每个原创UGC的质量分、以及每个原创UGC与各类目的相关度之后,将每个原创UGC的质量分乘以每个原创UGC与各类目的相关度,得到每个原创UGC针对各类目的可信度作为衍生参数;同时,所述第三子模块进一步用于:根据每个帐号所发表的原创UGC针对各类目的可信度,计算每个帐号针对各类目的平均可信度;并且,所述第五子模块进一步用于:针对每个帐号,在判断出该帐号的平均质量分大于预设的平均质量分阈值、且该帐号与其归属类目的平均相关度大于预设的平均相关度阈值之后,判断该帐号针对其归属类目的平均可信度是否大于预设的平均可信度阈值,如果是,则将该帐号选为其归属类目的优质帐号,否则该帐号不是优质帐号。
[0083]本发明可以适用的UGC网站系统为可以发表UGC的网站系统,例如包括:微博系统、社交网络服务系统(SNS, Social Network Service))、社区论坛系统、知识分享系统等等。其中某些UGC网站系统的功能也是相互融合的,具有多种属性。下面以将本发明应用在微博系统中为例进一步说明本发明的技术方案,其中的微博就是本发明所述的UGC。
[0084]图7为本发明应用在微博系统中进行优质微博的数据挖掘方法的一种流程图。
[0085]参见图7,该流程包括:
[0086]步骤701、离线挖掘各类目的优质账号。具体包括以下步骤711至步骤715。
[0087]步骤711、获取各帐号最近一段时间(如最近两个月)所发表的原创微博,得下表I
所示例的数据:
[0088]
【权利要求】
1.一种对优质用户生成内容UGC的数据挖掘方法,其特征在于,包括: 对UGC网站系统的各个帐号所发表的历史UGC的内容进行分析计算,得到各UGC的质量分及其与各类目的相关度,依据所述质量分和相关度筛选出各类目的优质帐号; 在UGC网站系统接收到所述优质帐号新发表的UGC之后,根据该UGC的内容计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度;判断该UGC的质量分是否大于预设的质量分阈值、且该UGC与发表该UGC的优质帐号所属类目的相关度是否大于该类目的预设的相关度阈值,如果是,则将该UGC作为发表该UGC的优质帐号所属类目中的优质UGC。
2.根据权利要求1所述的方法,其特征在于,该方法在UGC网站系统接收到所述优质帐号新发表的UGC之后,在计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度之前,进一步包括: 判断所述新发表的UGC的内容中是否包含关键词黑名单中所列的关键词,如果包括则不对该UGC进行后续的处理。
3.根据权利要求1或2所述的方法,其特征在于,该方法在UGC网站系统接收到所述优质帐号新发表的UGC之后,在计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度之前,进一步包括: 如果接收到的所述优质帐号新发表的UGC的数量为两个以上,则计算所述各新发表的UGC之间的文本相似度,对于相似度高于指定阈值的UGC,则排除掉其中发表时间较晚的UGC,只对其它UGC进行后续处理。
4.根据权利要求1所述的方法,其特征在于,所述在UGC网站系统接收到所述优质帐号新发表的UGC之后,具体为:在UGC网站系统实时接收到所述优质帐号新发表的每个UGC之后,或者在UGC网站系统定期接收到最近的一段时间内所述优质帐号发表的一个以上UGC之后。
5.根据权利要求1所述的方法,其特征在于,所述对UGC网站系统的各个帐号所发表的历史UGC的内容进行分析计算,得到各UGC的质量分及其与各类目的相关度,依据所述质量分和相关度筛选出各类目的优质帐号,其具体过程为离线操作,包括: 获取UGC网站系统各个帐号在指定历史时间段内所发表的原创UGC的内容; 针对所获取的每个原创UGC,计算每个原创UGC的质量分,以及每个原创UGC与各个类目的相关度; 根据每个帐号所发表的原创UGC的质量分及其与各类目的相关度,计算每个帐号的平均质量分及其与各类目的平均相关度; 针对每个帐号,选取该帐号的平均相关度最高的类目作为该帐号唯一归属类目; 挖掘优质帐号,具体包括:针对每个帐号, 判断该帐号的平均质量分是否大于预设的平均质量分阈值、且该帐号与其归属类目的平均相关度是否大于预设的平均相关度阈值,如果是,则将该帐号选为其归属类目的优质帐号,否则该帐号不是优质帐号。
6.根据权利要求5所述的方法,其特征在于, 所述在计算出每个原创UGC的质量分、以及每个原创UGC与各类目的相关度之后,进一步包括:将每个原创UGC的质量分乘以每个原创UGC与各类目的相关度,得到每个原创UGC针对各类目的可信度;并根据每个帐号所发表的原创UGC针对各类目的可信度,计算每个帐号针对各类目的平均可信度; 在挖掘优质帐号的过程中,针对每个帐号,在判断出该帐号的平均质量分大于预设的平均质量分阈值、且该帐号与其归属类目的平均相关度大于预设的平均相关度阈值之后,进一步判断该帐号针对其归属类目的平均可信度是否大于预设的平均可信度阈值,如果是,则将该帐号选为其归属类目的优质帐号,否则该帐号不是优质帐号。
7.根据权利要求1或5所述的方法,其特征在于,所述计算UGC的质量分,具体包括: 获取该UGC的文本总长度、总词数、过滤词数和标点符号数,所述过滤词数为该UGC中属于预设的过滤词的词数; 确定该UGC的有效词数,该有效词数=总词数一过滤词数一标点符号数; 确定该UGC的文本基础分, 该文本基础分=文本总长度+ w5X有效词数+ w6X过滤词数;所述w5和w6为对应的权重系数; 计算该UGC的词重复数,并确定词重复度,该词重复度=词重复数/总词数; 确定该UGC的文本分, 该文本分=文本基础分X (有效词数/总词数)XflX (I —词重复度)/?4,其中所述fl是以标点符号数和总词数为参数的预设函数,所述《4为对应的权重系数; 获取该UGC的发表时间,确定该UGC的时间分, 该时间分=(该UGC发表时间一预设的基准时间)/?7,所述《7为对应的权重系数;确定该UGC的质量分,该质量分=wl X (w2X文本分+w3X时间分),所述wl、w2和w3为对应的权重系数。
8.根据权利要求1或5所述的方法,其特征在于,所述计算UGC与某一类目的相关度,具体根据以下公式计算:
相关度=Wl XFl (weight) +W2XF2 (rate) +W3XF3 (rank) 其中,所述W1、W2、W3分别是三个对应的权重系数; 所述weight是该类目的权重; 所述rate是该类目权重除以总权重的值; 所述rank是该类目在所有类目中的权重排名值; 所述Fl是将weight归约到0-1的函数; 所述F2是将rate归约到0_1的函数; 所述F3是将rank归约到0_1的函数。
9.一种对优质UGC的数据挖掘系统,其特征在于,该系统包括: 优质帐号挖掘模块,对UGC网站系统的各个帐号所发表的历史UGC的内容进行分析计算,得到各UGC的质量分及其与各类目的相关度,依据所述质量分和相关度筛选出各类目的优质帐号; 优质UGC挖掘模块,用于在UGC系统接收到所述优质帐号新发表的UGC之后,根据该UGC的内容计算该UGC的质量分、以及该UGC与发表该UGC的优质帐号所属类目的相关度,并判断该UGC的质量分是否大于预设的质量分阈值、且该UGC与发表该UGC的优质帐号所属类目的相关度是否大于该类目的预设的相关度阈值,如果是,则将该UGC作为发表该UGC的优质帐号所属类目中的优质UGC。
10.根据权利要求9所述的系统,其特征在于,该系统进一步包括: 预处理模块,设置在所述优质UGC挖掘模块之前,用于在UGC系统接收到所述优质帐号新发表的UGC之后,判断所述新发表的UGC的内容中是否包含关键词黑名单中所列的关键词,如果不包括则将该UGC送入后续模块处理,否则不将该UGC送入后续模块处理。
11.根据权利要求9或10所述的系统,其特征在于,该系统进一步包括: 去重模块,设置在所述优质UGC挖掘模块之前,用于在UGC系统接收到所述优质帐号新发表的UGC之后,如果接收到的所述优质帐号新发表的UGC的数量为两个以上,则计算所述各新发表的UGC之间的文本相似度,对于相似度高于指定阈值的UGC,则排除掉其中发表时间较晚的UGC,只将其它UGC送入后续模块处理。
12.根据权利要求所述的系统,其特征在于,所述优质帐号挖掘模块为离线处理模块,具体包括: 第一子模块,用于获取UGC网站系统各个帐号在指定历史时间段内所发表的原创UGC的内容; 第二子模块,用于针对所获取的每个原创UGC,计算每个原创UGC的质量分,以及每个原创UGC与各个类目的相关度; 第三子模块,用于根据每个帐号所发表的原创UGC的质量分及其与各类目的相关度,计算每个帐号的平均质量分及其与各类目的平均相关度; 第四子模块,用于针对每个帐号,选取该帐号的平均相关度最高的类目作为该帐号唯一归属类目; 第五子模块,用于针对每个帐号,判断该帐号的平均质量分是否大于预设的平均质量分阈值、且该帐号与其归属类目的平均相关度是否大于预设的平均相关度阈值,如果是,则将该帐号选为其归属类目的优质帐号,否则该帐号不是优质帐号。
13.根据权利要求12所述的系统,其特征在于, 所述第二子模块进一步用于:在计算出每个原创UGC的质量分、以及每个原创UGC与各类目的相关度之后,将每个原创UGC的质量分乘以每个原创UGC与各类目的相关度,得到每个原创UGC针对各类目的可信度; 所述第三子模块进一步用于:根据每个帐号所发表的原创UGC针对各类目的可信度,计算每个帐号针对各类目的平均可信度; 所述第五子模块进一步用于:针对每个帐号,在判断出该帐号的平均质量分大于预设的平均质量分阈值、且该帐号与其归属类目的平均相关度大于预设的平均相关度阈值之后,判断该帐号针对其归属类目的平均可信度是否大于预设的平均可信度阈值,如果是,则将该帐号选为其归属类目的优质帐号,否则该帐号不是优质帐号。
【文档编号】G06F17/30GK103914491SQ201310007061
【公开日】2014年7月9日 申请日期:2013年1月9日 优先权日:2013年1月9日
【发明者】阳云, 李维刚 申请人:腾讯科技(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1