处理信息的方法和装置的制作方法

文档序号:6423219阅读:96来源:国知局
专利名称:处理信息的方法和装置的制作方法
技术领域
本发明涉及计算机领域,特别涉及一种处理信息的方法和装置。
背景技术
随着互联网的发展,特别是Web 2. 0时代的到来,网络应用越来越深入到人们的日常生活,各种UGC(User Generated Content,用户生成内容)应用已经成为人们记录和展示自我,增进亲友间情感互动的一个重要平台,比如个人空间,包括博客、留言板、微博、相册等网络应用。但随之而来的SPAM(垃圾信息),也越来越猖獗,即恶意用户可能在UGC应用中插入广告,或是回复恶意信息。这些SPAM内容不仅耗费大量互联网资源,影响广大网民的上网体验,并且可能给安全意识不高的网民带来经济损失,甚至可能引发社会不稳定因素。目前UGC应用中对SPAM的判定方案基本都是基于待判定内容的特征,包括发帖人属性、内容中的关键字、内容重复程度等。SPAM判定系统首先建立一张特性项的权值表,当一条新UGC信息到达时,提取和计算信息中的所有特征项的值,并按各特征项的权重加权求和,得到关于这条UGC信息的是否SPAM的概率值,当概率值大于预先配置的阀值,则认为这条UGC信息是SPAM,系统自动从用户数据块中移除(或打标记),使发表UGC的用户看不到该垃圾信息。在对现有技术进行分析后,发明人发现现有技术至少具有如下缺点现有的SPAM判定方案只跟UGC内容本身有关,根据UGC的内容特征来判断其是否为垃圾信息,但是对于同一条UGC内容,虽然系统判定其为SPAM,有的用户可能也认为它是SPAM,但其他用户却可能认为它是正常信息,不是SPAM。因此现有对SPAM的判定方式,由于没有考虑到用户的想法,经常会出现误判和漏判情况,特别是误判,极大地伤害用户的情感,而漏判又让SPAM制造者存侥幸心理,继续从事这项非法工作,干扰正常的网络环境。

发明内容
为了更加精确的判定出SPAM,本发明实施例提供了一种处理信息的方法和装置。所述技术方案如下—方面,提供了一种处理信息的方法,所述方法包括接收任一用户对用户生成内容的回复信息,并判断所述回复信息是否为垃圾信息;记录所述判断结果,使看到所述回复信息的所有用户对所述回复信息进行二次判断,并记录所述所有用户的二次判断结果;根据所述所有用户的二次判断结果,将所述回复信息标记为正常信息或是垃圾信
肩、O所述判断所述回复信息是否为垃圾信息,包括提取所述回复信息的各特征项;
对所述各特征项加权求和,得到所述回复信息是否为垃圾信息的概率值;如果得到的所述概率值大于预设阀值,则所述回复信息为垃圾信息。所述记录所述判断结果,使看到所述回复信息的所有用户对所述回复信息进行二次判断,并记录所述所有用户的二次判断结果,包括如果所述判断结果为是,则将所述回复信息归到垃圾信息的分类中,使在所述垃圾信息的分类中看到所述回复信息的所有用户对所述回复信息进行二次判断,并记录所述所有用户的判断结果;相应地,所述根据所述所有用户的二次判断结果,将所述回复信息标记为正常信息,包括:统计在所述垃圾信息的分类中看到所述回复信息的所有用户对所述回复信息的 判断结果为正常信息的人数,判断对所述回复信息的判断结果为正常信息的人数是否满足预设的阈值;如果是,则将所述回复信息标记为正常信息。所述将所述回复信息标记为正常信息,之前还包括判断所述回复信息中是否有敏感信息;如果是,则对所述回复信息再次进行审核,审核通过后再继续执行步骤。所述将所述回复信息标记为正常信息,之后还包括记录看到所述回复信息的用户将所述垃圾信息判断为正常信息的结果;根据所述记录的所述用户的判断结果调整回复信息的各特征项的权重。所述记录所述判断结果,使看到所述回复信息的所有用户对所述回复信息进行二次判断,并记录所述所有用户的二次判断结果,包括如果所述回复信息不是垃圾信息,则将所述回复信息归到正常信息的分类中,使在所述正常信息的分类中看到所述回复信息的所有用户对所述回复信息进行二次判断,并记录所述所有用户的判断结果;相应地,所述根据所述所有用户的二次判断结果,将所述回复信息标记为垃圾信息,包括:统计在所述正常信息的分类中看到所述回复信息的所有用户对所述回复信息的判断结果为垃圾信息的人数,并判断对所述回复信息的判断结果为垃圾信息的人数是否满足预设的阈值;如果是,则将所述回复信息标记为垃圾信息。所述将所述回复信息标记为垃圾信息,之后还包括记录看到所述回复信息的用户将所述正常信息判断为垃圾信息的结果;根据所述记录的所述用户的判断结果调整回复信息的各特征项的权重。另一方面,提供了一种处理信息的装置,所述装置包括第一判断模块,用于接收任一用户对用户生成内容的回复信息,并判断所述回复"[目息是否为垃圾彳目息;记录模块,用于记录所述判断结果,使看到所述回复信息的所有用户对所述回复信息进行二次判断,并记录所述所有用户的二次判断结果;第二判断模块,用于根据所述所有用户的二次判断结果,将所述回复信息标记为正常"[目息或是垃圾"[目息。所述第一判断模块,包括提取单元,用于提取所述回复信息的各特征项;计算单元,用于对所述各特征项加权求和,得到所述回复信息是否为垃圾信息的概率值;判断单元,用于如果所述计算单元得到的所述概率值大于预设阀值,则所述回复信息为垃圾信息。 所述记录模块,具体用于 如果所述第一判断模块的判断结果为是,则将所述回复信息归到垃圾信息的分类中,使在所述垃圾信息的分类中看到所述回复信息的所有用户对所述回复信息进行二次判断,并记录所述所有用户的判断结果;相应地,所述第二判断模块,具体用于统计在所述垃圾信息的分类中看到所述回复信息的所有用户对所述回复信息的判断结果为正常信息的人数,判断对所述回复信息的判断结果为正常信息的人数是否满足预设的阈值;如果是,则将所述回复信息标记为正常信息。所述装置还包括第三判断模块,用于将所述回复信息标记为正常信息之前,判断所述回复信息中是否有敏感信息;如果是,则对所述回复信息再次进行审核,审核通过后再继续执行步骤。所述装置还包括第一调整模块,用于将所述回复信息标记为正常信息之后,记录看到所述回复信息的用户将所述垃圾信息判断为正常信息的结果;根据所述记录的所述用户的判断结果调整回复信息的各特征项的权重。所述记录模块,具体用于如果所述第一判断模块的判断结果为否,则将所述回复信息归到正常信息的分类中,使在所述正常信息的分类中看到所述回复信息的所有用户对所述回复信息进行二次判断,并记录所述所有用户的判断结果;相应地,所述第二判断模块,具体用于统计在所述正常信息的分类中看到所述回复信息的所有用户对所述回复信息的判断结果为垃圾信息的人数,并判断对所述回复信息的判断结果为垃圾信息的人数是否满足预设的阈值;如果是,则将所述回复信息标记为垃圾信息。所述装置还包括第二调整模块,用于将所述回复信息标记为垃圾信息之后,记录看到所述回复信息的用户将所述正常信息判断为垃圾信息的结果;根据所述记录的所述用户的判断结果调整回复信息的各特征项的权重。本发明实施例提供的技术方案,依据用户选择辅助判断UGC内容中SPAM的方法,可以让用户看到并参与到系统对SPAM的判定中,提高系统对UGC内容中SPAM判定的正确率和判定速度,且用户可以对个人空间中的所有回复提交自己的判断,有机会把系统误判、非SPAM的内容拨乱反正到正规内容分类下,也可以把自己空间的单条回复归类为SPAM,提高SPAM判定的精确率,提升用户体验。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图I是本发明实施例I提供的一种处理信息的方法的流程图;图2是本发明实施例2提供的一种处理信息的方法的流程图;图3是本发明实施例3提供的一种处理信息的装置的示意图;图4是本发明实施例3提供的另一种处理信息的装置的示意图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。实施例I参见图1,本发明实施例提供了一种处理信息的方法,包括步骤101 :接收任一用户对用户生成内容的回复信息,并判断回复信息是否为垃圾信息;步骤102 :记录判断结果,使看到回复信息的所有用户对回复信息进行二次判断,并记录所有用户的二次判断结果;步骤103 :根据所有用户的二次判断结果,将回复信息标记为正常信息或是垃圾信息。其中,判断所述回复信息是否为垃圾信息,包括提取所述回复信息的各特征项;对所述各特征项加权求和,得到所述回复信息是否为垃圾信息的概率值;如果得到的所述概率值大于预设阀值,则所述回复信息为垃圾信息。其中,根据所有用户的二次判断结果,将回复信息标记为正常信息或是垃圾信息,包括如果判断结果为是,则将回复信息归到垃圾信息的分类中,使在垃圾信息的分类中看到回复信息的所有用户对回复信息进行二次判断,并记录所有用户的判断结果;相应地,根据有用户的二次判断结果,将回复信息标记为正常信息,包括统计在垃圾信息的分类中看到回复信息的所有用户对回复信息的判断结果为正常信息的人数,判断对回复信息的判断结果为正常信息的人数是否满足预设的阈值;如果是,则将回复彳目息标记为正常彳目息。可选地,将回复信息标记为正常信息,之前还包括判断回复信息中是否有敏感信息;如果是,则对回复信息再次进行审核,审核通过后再继续执行步骤。可选地,将回复信息标记为正常信息,之后还包括记录看到回复信息的用户将垃圾信息判断为正常信息的结果;
根据记录的用户的判断结果调整回复信息的各特征项的权重。进一步地,本实施例中根据所有用户的二次判断结果,将回复信息标记为正常信息或是垃圾"[目息,包括如果回复信息不是垃圾信息,则将回复信息归到正常信息的分类中,使在正常信息的分类中看到回复信息的所有用户对回复信息进行二次判断,并记录所有用户的判断结果;相应地,根据有用户的二次判断结果,将回复信息标记为垃圾信息,包括统计在正常信息的分类中看到回复信息的所有用户对所述回复信息的判断结果为垃圾信息的人数,并判断对回复信息的判断结果为垃圾信息的人数是否满足预设的阈值; 如果是,则将回复信息标记为垃圾信息。可选地,将回复信息标记为垃圾信息,之后还包括记录看到回复信息的用户将正常信息判断为垃圾信息的结果;根据记录的所述用户的判断结果调整回复信息的各特征项的权重。本发明实施例提供的技术方案,依据用户选择辅助判断UGC内容中SPAM的方法,可以让用户看到并参与到系统对SPAM的判定中,提高系统对UGC内容中SPAM判定的正确率和判定速度,且用户可以对个人空间中的所有回复提交自己的判断,有机会把系统误判、非SPAM的内容拨乱反正到正规内容分类下,也可以把自己空间的单条回复归类为SPAM,提高SPAM判定的精确率,提升用户体验。实施例2参见图2,本发明实施例提供了一种处理信息的方法,包括步骤201 =SPAM判定系统接收UGC的回复信息。本实施例中,由于UGC发表在互联网上,互联网上的用户可以通过一定的途径看到该UGC,并进行回复,其中互联网上的用户可能有该发表用户的好友,也可能有广告商或是其他恶意用户。为了保护用户个人空间的整洁与安全,UGC的每个回复都需先经过SPAM系统进行验证,以判定其是否为垃圾信息。步骤202 :判断该回复信息是否为垃圾信息,如果是,则执行步骤203,否则执行步骤 206。其中,SPAM判定系统首先建立一张特性项的权值表,在收到UGC的回复信息后,根据该特性表项的记录提取回复信息的相关特性项,从而判定该回复信息是否为垃圾信息,具体包括I)提取和计算回复信息中的所有特征项的值;2)对各特征项的权重加权求和,得到回复信息是否为垃圾信息的概率值;3)如果得到的概率值大于预设阀值,则回复信息为垃圾信息,否则回复信息为正
常信息。本实施例中,可选地,对于判定为SPAM的内容,系统还会标记这条内容是否包含敏感信息,以便用户再次进行判定时,如果将该SPAM判为非SPAM,能对包含敏感信息的内容进行再次判定。步骤203 :将回复信息归到垃圾信息分类中,使在垃圾信息的分类中看到回复信息的所有用户对回复信息进行二次判断,并记录所有用户的判断结果。其中,系统在判断出该回复信息为SPAM或非SPAM后,可选地,将该回复信息归到垃圾信息分类中或是正常信息分类中,使用户在打开个人空间时,能够直接看到哪些是垃圾信息,哪些是非垃圾信息,在此基础上再进一步对回复信息进行验证。其中,可以为垃圾信息分类和正常信息分类分别建立不同的文件夹,也可以采用别的方式对这两种信息进行分类,对此本实施例不做具体限定。步骤204 :统计在垃圾信息的分类中看到回 复信息的所有用户对回复信息的判断结果为正常信息的人数。本实施例中,为了照顾大多数用户的感受,不会依据某个用户对回复信息的判断结果,就将回复信息重新归类,而是事先设定阈值,当持有相同判断结果的人数满足预设数值时,才将回复信息重新归类。所以,系统会记录每个用户的二次判断结果,并统计不同判断的结果的人数。步骤205 :判断对回复信息的判断结果为正常信息的人数是否满足预设的阈值,如果是,则将回复信息标记为正常信息;否则将该回复信息删除。本实施例中,在SPAM判定系统对UGC的回复信息进行判断后,将回复信息进行分类,将接收到的UGC的回复信息都存在用户的个人空间中,当用户访问空间时,在不同的分类结果中能够看到所有的回复信息,进一步地,用户对系统已经做出判定的回复信息再次进行判定,使用户不会漏掉任何一个对于该用户来说是可用的信息。如,当系统判定该回复信息为垃圾信息后,将其归为垃圾信息一类,则用户可以打开垃圾邮件,查看该回复信息,并根据自身的需求判断该回复信息是否为垃圾信息,如果是则将其移除或是打标记,否则将其归为正常信息。其中,由于大部分个人空间是公开的,任何用户对一条回复的非SPAM判定都可以让所有网民看到这条回复,而对于一些敏感信息,这一策略显然不合适,因此对于敏感信息,用户只能提交扭转申请,并不能立刻修改这条评论的状态。所以,可选地,对用户进行二次判断后的回复信息再次进行审核,审核通过后再继续执行步骤。步骤206 :将回复信息归到正常信息分类中,使在正常信息的分类中看到回复信息的所有用户对回复信息进行二次判断,并记录所有用户的判断结果。本实施例中,当系统判定回复信息为正常信息后,将该回复信息归到正常信息的分类中,用户可以在正常信息的分类中看到该回复信息,并对其再次进行判断,记录用户的判断结果,以便统计发表统一判断结果的人数。步骤207 :统计在正常信息的分类中看到回复信息的所有用户对回复信息的判断结果为垃圾信息的人数。步骤208 :判断对回复信息的判断结果为垃圾信息的人数是否满足预设的阈值,如果是,则将该回复信息删除。本实施例中,系统判定该回复信息为非垃圾信息(正常信息)后,将该回复信息归为正常信息一类,则用户查看被系统归为正常信息的回复信息,根据自身的需求判断该回复"[目息是否为垃圾"[目息,如果是则将其移除或是打标记,否则将其归为正常彳目息。由于在互联网UGC应用中,所有的内容都是用户提交,用户很珍视自己的网络空间,有意愿维护自己空间内的整洁,不希望SPAM的存在,因此本实施例中在SPAM判定中引入用户的判定因素,用户可以第一时间修正系统判定结果,则系统对SPAM判定的正确率和精确率会直接提升。而由于用户个性的不同,对同一条UGC回复,不同用户对其是否为SPAM的判定可能不一致,用户可以在个人空间内修正某条UGC回复是否为SPAM的判定,但并不会立即影响系统的判定结果发生扭转。本实施例中,用户在个人空间可以看到系统判定的SPAM内容,也可以看到正常内容(系统认为内容正常)。若用户认为其中一条被系统判定为正常的回复是SPAM,他可以在个人空间直接把这条回复标记为SPAM,这条回复会从他的空间立即消失,且可选地,用户的选择会反馈给系统,影响系统对其他类似回复的评判,及记录用户对回复信息的判断结果,根据记录的用户的判断结果调整回复信息的各特征项的权重。若用户认为其中一条被系统判定为SPAM的回复是正常内容,且这条回复不包含敏感信息,则用户可以在个人空间直接把这条回复标记为正常,这条回复会重新出现在他的空间,且可选地,用户的选择会反馈给系统,影响系统对其他类似回复的评判;若这条回复包含敏感信息,则用户的选择并不能立刻生效,需等待后台审核才能决定这条信息是否可归类为正常。 其中,步骤203-208为SPAM判定系统记录自身判断结果,使看到回复信息的所有用户对回复信息进行二次判断,并记录所有用户的二次判断结果;并根据所有用户的二次判断结果,将回复信息标记为正常信息或是垃圾信息的具体执行步骤。本发明实施例提供的技术方案的有益效果是依据用户选择辅助判断UGC内容中SPAM的方法,可以让用户看到并参与到系统对SPAM的判定中,提高系统对UGC内容中SPAM判定的正确率和判定速度,且用户可以对个人空间中的所有回复提交自己的判断,有机会把系统误判、非SPAM的内容拨乱反正到正规内容分类下,也可以把自己空间的单条回复归类为SPAM,提高SPAM判定的精确率,提升用户体验。实施例3参见图3,本发明实施例提供了一种处理信息的装置,所述装置包括第一判断模块301、记录模块302、第二判断模块303。第一判断模块301,用于接收任一用户对用户生成内容的回复信息,并判断回复信息是否为垃圾彳目息;记录模块302,用于记录判断结果,使看到回复信息的所有用户对回复信息进行二次判断,并记录所有用户的二次判断结果;第二判断模块303,根据所有用户的二次判断结果,将回复信息标记为正常信息或是垃圾/[目息。其中,参见图4,第一判断模块301,包括提取单元301a,用于提取回复信息的各特征项;计算单元301b,用于对各特征项加权求和,得到回复信息是否为垃圾信息的概率值;判断单元301c,用于如果计算单元得到的概率值大于预设阀值,则回复信息为垃圾信息。其中,记录模块302,具体用于如果第一判断模块的判断结果为是,则将回复信息归到垃圾信息的分类中,使在垃圾信息的分类中看到回复信息的所有用户对回复信息进行二次判断,并记录所有用户的判断结果;相应地,第二判断模块,具体用于统计在垃圾信息的分类中看到回复信息的所有用户对回复信息的判断结果为正常信息的人数,判断对回复信息的判断结果为正常信息的人数是否满足预设的阈值;如果是,则将回复彳目息标记为正常彳目 息。参见图4,可选地,装置还包括第三判断模块304,用于将回复信息标记为正常信息之前,判断回复信息中是否有敏感信息;如果是,则对回复信息再次进行审核,审核通过后再继续执行步骤。参见图4,可选地,装置还包括第一调整模块305,用于将回复信息标记为正常信息之后,记录看到回复信息的用户将垃圾信息判断为正常信息的结果;根据记录的用户的判断结果调整回复信息的各特征项的权重。参见图4,可选地,记录模块302,具体用于如果第一判断模块的判断结果为否,则将回复信息归到正常信息的分类中,使在正常信息的分类中看到回复信息的所有用户对回复信息进行二次判断,并记录所有用户的判断结果;相应地,第二判断模块303,具体用于统计在正常信息的分类中看到回复信息的所有用户对回复信息的判断结果为垃圾信息的人数,并判断对回复信息的判断结果为垃圾信息的人数是否满足预设的阈值;如果是,则将回复信息标记为垃圾信息。参见图4,可选地,装置还包括第二调整模块306,用于将回复信息标记为垃圾信息之后,记录看到回复信息的用户将正常信息判断为垃圾信息的结果;根据记录的用户的判断结果调整回复信息的各特征项的权重。本发明实施例提供的技术方案,依据用户选择辅助判断UGC内容中SPAM的方法,可以让用户看到并参与到系统对SPAM的判定中,提高系统对UGC内容中SPAM判定的正确率和判定速度,且用户可以对个人空间中的所有回复提交自己的判断,有机会把系统误判、非SPAM的内容拨乱反正到正规内容分类下,也可以把自己空间的单条回复归类为SPAM,提高SPAM判定的精确率,提升用户体验。本实施例提供的装置,具体可以,与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。本发明实施例提供的上述技术方案的全部或部分可以通过程序指令相关的硬件来完成,所述程序可以存储在可读取的存储介质中,该存储介质包括R0M、RAM、磁碟或者光盘等各种可以存储程序代码的介质。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种处理信息的方法,其特征在于,所述方法包括 接收任一用户对用户生成内容的回复信息,判断所述回复信息是否为垃圾信息; 记录所述判断结果,使看到所述回复信息的所有用户对所述回复信息进行二次判断,并记录所述所有用户的二次判断结果; 根据所述所有用户的二次判断结果,将所述回复信息标记为正常信息或是垃圾信息。
2.根据权利要求I所述的方法,其特征在于,所述判断所述回复信息是否为垃圾信息,包括 提取所述回复信息的各特征项; 对所述各特征项加权求和,得到所述回复信息是否为垃圾信息的概率值; 如果得到的所述概率值大于预设阀值,则所述回复信息为垃圾信息。
3.根据权利要求I所述的方法,其特征在于,所述记录所述判断结果,使看到所述回复信息的所有用户对所述回复信息进行二次判断,并记录所述所有用户的二次判断结果,包括 如果所述判断结果为是,则将所述回复信息归到垃圾信息的分类中,使在所述垃圾信息的分类中看到所述回复信息的所有用户对所述回复信息进行二次判断,并记录所述所有用户的判断结果; 相应地,所述根据所述所有用户的二次判断结果,将所述回复信息标记为正常信息,包括 统计在所述垃圾信息的分类中看到所述回复信息的所有用户对所述回复信息的判断结果为正常信息的人数,判断对所述回复信息的判断结果为正常信息的人数是否满足预设的阈值; 如果是,则将所述回复信息标记为正常信息。
4.根据权利要求3所述的方法,其特征在于,所述将所述回复信息标记为正常信息,之前还包括 判断所述回复信息中是否有敏感信息; 如果是,则对所述回复信息再次进行审核,审核通过后再继续执行步骤。
5.根据权利要求3所述的方法,其特征在于,所述将所述回复信息标记为正常信息,之后还包括 记录看到所述回复信息的用户将所述垃圾信息判断为正常信息的结果; 根据所述记录的所述用户的判断结果调整回复信息的各特征项的权重。
6.根据权利要求I所述的方法,其特征在于,所述记录所述判断结果,使看到所述回复信息的所有用户对所述回复信息进行二次判断,并记录所述所有用户的二次判断结果,包括 如果所述判断结果为否,则将所述回复信息归到正常信息的分类中,使在所述正常信息的分类中看到所述回复信息的所有用户对所述回复信息进行二次判断,并记录所述所有用户的判断结果; 相应地,所述根据所述所有用户的二次判断结果,将所述回复信息标记为垃圾信息,包括 统计在所述正常信息的分类中看到所述回复信息的所有用户对所述回复信息的判断结果为垃圾信息的人数,并判断对所述回复信息的判断结果为垃圾信息的人数是否满足预设的阈值; 如果是,则将所述回复信息标记为垃圾信息。
7.根据权利要求6所述的方法,其特征在于,所述将所述回复信息标记为垃圾信息,之后还包括 记录看到所述回复信息的用户将所述正常信息判断为垃圾信息的结果; 根据所述记录的所述用户的判断结果调整回复信息的各特征项的权重。
8.—种处理信息的装置,其特征在于,所述装置包括 第一判断模块,用于接收任一用户对用户生成内容的回复信息,并判断所述回复信息是否为垃圾彳目息; 记录模块,用于记录所述判断结果,使看到所述回复信息的所有用户对所述回复信息进行二次判断,并记录所述所有用户的二次判断结果; 第二判断模块,用于根据所述所有用户的二次判断结果,将所述回复信息标记为正常Ih息或是垃圾"[目息o
9.根据权利要求8所述的装置,其特征在于,所述第一判断模块,包括 提取单元,用于提取所述回复信息的各特征项; 计算单元,用于对所述各特征项加权求和,得到所述回复信息是否为垃圾信息的概率值; 判断单元,用于如果所述计算单元得到的所述概率值大于预设阀值,则所述回复信息为垃圾信息。
10.根据权利要求8所述的装置,其特征在于,所述记录模块,具体用于 如果所述第一判断模块的判断结果为是,则将所述回复信息归到垃圾信息的分类中,使在所述垃圾信息的分类中看到所述回复信息的所有用户对所述回复信息进行二次判断,并记录所述所有用户的判断结果; 相应地,所述第二判断模块,具体用于 统计在所述垃圾信息的分类中看到所述回复信息的所有用户对所述回复信息的判断结果为正常信息的人数,判断对所述回复信息的判断结果为正常信息的人数是否满足预设的阈值;如果是,则将所述回复信息标记为正常信息。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括 第三判断模块,用于将所述回复信息标记为正常信息之前,判断所述回复信息中是否有敏感信息;如果是,则对所述回复信息再次进行审核,审核通过后再继续执行步骤。
12.根据权利要求10所述的装置,其特征在于,所述装置还包括 第一调整模块,用于将所述回复信息标记为正常信息之后,记录看到所述回复信息的用户将所述垃圾信息判断为正常信息的结果;根据所述记录的所述用户的判断结果调整回复信息的各特征项的权重。
13.根据权利要求8所述的装置,其特征在于,所述装记录模块,具体用于 如果所述第一判断模块的判断结果为否,则将所述回复信息归到正常信息的分类中,使在所述正常信息的分类中看到所述回复信息的所有用户对所述回复信息进行二次判断,并记录所述所有用户的判断结果;相应地,所述第二判断模块,具体用于 统计在所述正常信息的分类中看到所述回复信息的所有用户对所述回复信息的判断结果为垃圾信息的人数,并判断对所述回复信息的判断结果为垃圾信息的人数是否满足预设的阈值;如果是,则将所述回复信息标记为垃圾信息。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括 第二调整模块,用于将所述回复信息标记为垃圾信息之后,记录看到所述回复信息的用户将所述正常信息判断为垃圾信息的结果;根据所述记录的所述用户的判断结果调整回复信息的各特征项的权重。
全文摘要
本发明公开了一种处理信息的方法和装置,属于计算机领域。所述方法包括接收任一用户对用户生成内容的回复信息,并判断所述回复信息是否为垃圾信息;如果是,则将所述回复信息归到垃圾信息的分类中,使在所述垃圾信息的分类中看到所述回复信息的所有用户对所述回复信息进行二次判断,并记录所述判断结果;统计在所述垃圾信息的分类中看到所述回复信息的所有用户对所述回复信息的判断结果为正常信息的人数,判断对所述回复信息的判断结果为正常信息的人数是否满足预设的阈值;如果是,则将所述回复信息标记为正常信息。
文档编号G06F17/30GK102760130SQ20111010752
公开日2012年10月31日 申请日期2011年4月27日 优先权日2011年4月27日
发明者周文江, 李勤学, 郑志昊 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1