一种对用户发布的文本内容审核处理的方法及其装置的制作方法

文档序号:6470645阅读:143来源:国知局
专利名称:一种对用户发布的文本内容审核处理的方法及其装置的制作方法
技术领域
本发明涉及通信领域, 一种对用户发布的文本内容审核处理的方法及其装置。
背景技术
目前,问问社区(网址http: 〃wenwen. soso. com)是类似于百度知道、 新浪爱问等的一项问答型服务,用户可以在页面提问题或回答其他人提出的 问题,很大程度上方便了用户对信息的获取。现在,问问社区每天大约会有 二十多万个新问题产生,问问社区中用户提交的信息全部经由人工进行审核, 需要消耗大量的人工审核时间,浪费人力资源,并且审核效率比较低。

发明内容
本发明提供了一种对用户发布的文本内容审核处理的方法及其装置,其 能够节省大量的人工审核时间,提高了审核效率。
本发明的技术方案是 一种对用户发布的文本内容审核处理的方法,包 括步骤
接收用户发布的文本内容,根据名单规则数据库判断用户信息,所述名 单规则数据库包括黑名单、黑规则、白名单和白MJ'J;
如果所述用户信息既不属于白名单或白规则,也不属于黑名单或黑规则, 则对所述用户的文本内容进行格式转换,提取所述文本内容中的实词;
计算提取的各个实词在预先建立的文档数据库中的逆文档频率权重值, 得到由所述逆文档频率权重值组成的第 一特征向量;
计算所述第一特征向量和预先建立的垃圾样本内容的第二特征向量的第一相似度,根据所述第一相似度判断所述用户发布的文本内容是否为合格内 容,如果是合格内容,则公布所述用户发布的文本内容。
本发明还公开了一种对用户发布的文本内容审核处理的装置,其包括, 审核模块,用于接收用户发布的文本内容,根据名单规则数据库判断用户信
息,所述名单规则数据库包括黑名单、黑规则、白名单和白规则;
转换模块,用于在所述用户信息既不属于白名单或白规则,也不属于黑 名单或黑规则时,对所述用户发布的文本内容进行格式转换,提取所述文本
内容中的实词;
计算模块,用于计算提取的各个实词在预先建立的文档数据库中的逆文 档频率权重值,得到由所述逆文档频率权重值组成的第一特征向量;同时计 算所述第一特征向量和预先建立的垃圾样本内容的第二特征向量的第一相似 度;
判断模块,用于根据所述第一相似度判断所述用户的文本内容是否为合 格内容,如果是合格内容,则公布所述用户发布的文本内容。
本发明的对用户发布的文本内容审核处理的方法和装置,只对既不属于 白名单或白规则,也不属于黑名单或黑规则的用户发布的文本内容进行审核 过滤处理,可以将属于黑规则和黑名单的用户发布的文本内容及将用户发布 的不合格的文本内容发送给人工进行审核,对属于白规则和白名单的用户发
息不用全部经由人工进行审核,可以省去大量的人工审核时间,节省了人力 资源,相应的也提高了审核效率。


图l是本发明对用户发布的文本内容审核处理的方法流程图2是本发明对用户发布的文本内容审核处理的装置的结构框图(一);图3是本发明对用户发布的文本内容审核处理的装置的结构框图(二); 图4是本发明对用户发布的文本内容审核处理的装置的结构框图(三)。
具体实施例方式
本发明的对用户发布的文本内容审核处理的方法和装置,只对既不属于 白名单或白规则,也不属于黑名单或黑规则的用户发布的文本内容进行审核 过滤处理,将属于黑规则和黑名单的用户发布的文本内容及将用户发布的不 合格的文本内容发送给人工进行审核,对属于白规则和白名单的用户发布的 文本内容及用户发布的合格的文本内容直接公布;这样对用户发布的信息不 用全部经由人工进行审核,可以省去大量的人工审核时间,节省了人力资源, 相应的也提高了审核效率。
下面结合附图和具体实施例对本发明做一详细的阐述。
百度知道、新浪爱问等问答型服务上。
本发明的对用户发布的文本内容审核处理的方法,包括步骤,如图l,
SIOO、接收用户发布的文本内容。SlOl、根据名单规则数据库判断用户 信息;所述名单规则数据库包括黑名单、黑规则、白名单和白规则。在一实 施例中,黑名单可以是有较大几率提供垃圾信息的用户名单,白名单是有较 大几率提供正当信息的用户名单;黑规则是根据用户的等级或信用度来设定, 其表示用户的等级比较低或信用度很低,白规则也是才艮据用户的等级或信用 度来设定,其表示用户的等级比较高或信用度很高。
S102、如果所述用户信息既不属于白名单或白规则,也不属于黑名单或 黑规则,则对所述用户发布的文本内容进行格式转换,提取所述文本内容中 的实词。在一实施例中,格式转换可以包括对所述文本内容进行繁体到简体转换、全角到半角转换、去除多余空格的转换等,实词是文本内容的核心词, 虛词不作为核心词。
S103 、计算提取的各个实词在预先建立的文档数据库中的逆文档频率 (IDF)权重值,得到由所述逆文档频率(IDF)权重值组成的第一特征向量。
取的各个实词在预先建立的文档数据库中的逆文档频率(IDF)权重值,具体
可以为根据公式w^^^xlg^计算各个实词的逆文档频率(IDF)权重值;
其中wg为逆文档频率(IDF)权重值,^为所述实词在所述用户的文本内 容中出现的频率值,"为所述文档数据库中的文档总数,F为出现所述实词 的文档数。
S104、计算所述第一特征向量和预先建立的垃圾样本内容的第二特征向 量的第一相似度。垃圾样本内容的第二特征向量可以预先得到,其得到过程 和第一特征向量一样,取出一垃圾样本内容,对其格式转换,提取实词,然 后计算各个实词在所述文档数据库中的逆文档频率权重值,有这些权重值组 成第二特征向量。在一实施例中,计算所述第一特征向量和预先建立的垃圾 样本内容的第二特征向量的第一相似度,具体为根据公式
在一实施例中,《
l计算提
Cos(x,;r)二
cos(x,:f)
计算所述第一相似度;其中
表示所述第一相似度,分别表示所述第 一特征向量和第二特征向量。
S105 、根据所述第 一相似度判断所述用户发布的文本内容是否为合格内
容。该判断方法有很多种方式,可以根据用户需要设定。在一实施例中,可 以设定一预定阈值,如果所述第一相似度的值大于该阈值,则可以判断该用 户发布的文本内容为不合格内容,否则判定该用户发布的文本内容为合格内容。
如果是合格内容,则进行步骤S107公布所述用户发布的文本内容,否则 在一实施例中可以进行步骤S106将所述用户发布的文本内容发送给人工进 行审核。
在一实施例中,步骤S101之后还可以包括步骤S102、如果用户信息属 于黑名单或黑规则,将所迷用户发布的文本内容发送给人工进行审核。S103、
如果所述用户信息属于白名单或白规则,将公布所述用户发布的文本内容。
为了进一步准确全面的判定用户发布的内容是否为合格内容,减少误判 的几率。在一实施例中,在判断用户信息既不属于白名单或白规则,又不属 于黑名单或黑规则时,还可以包括步骤,检测所述用户发布的文本内容和预
先建立的包括电话号码格式、网页格式及火星文格式等的特征库的第二相似 度,根据该第二相似度和第一相似度判断所述用户发布的文本内容是否为合 格内容。在判断用户发布的文本内容是否为合格内容时,可以为第一相似度 和第二相似度分别分配一个权值,检测权值之和是否大于一预定值,如果大 于一预定值,可以判定该用户发布的文本内容为不合格内容,否则为合格内 容。另外也可以只检测该第二相似度的值是否大于一预定值,如果大于则可 以直接判定该用户发布的文本内容为不合格内容。
为了达到同样的目的,进一步准确全面的判定用户发布的内容是否为合 格内容,减少误判的几率。在一实施例中,在判断用户信息既不属于白名单 或白规则,又不属于黑名单或黑规则时,还可以包括步骤,统计所述用户发 布的文本内容的字符数,根据该字符数、第一相似度和第二相似度判断所述用户发布的文本内容是否为合格内容。在判断用户发布的文本内容是否为合 格内容时,可以为字符数、第一相似度和第二相似度分別分配一个权值,检 测权值之和是否大于一预定值,如果大于一预定值,可以判定该用户发布的 文本内容为不合格内容,否则为合格内容。另外也可以单独就该字符数设定 一预定值,如果检测到字符数小于该预定值时,直接可以判断用户发布的文 本内容为不合格内容。
为了达到同样的目的,进一步准确全面的判定用户发布的内容是否为合 格内容,减少误判的几率。在一实施例中,在判断用户信息既不属于白名单 或白规则,又不属于黑名单或黑规则时,还可以包括步骤,检测所述用户发 布的文本内容和预先建立的不能公布字词的资料库(该资料库是针对一些特 殊的词语和短句或近期内要求屏蔽的内容或其他设定的集合)的第三相似度, 根据该第三相似度、所述字符数、第一相似度和第二相似度判断所述用户发 布的文本内容是否为合格内容。在判断用户发布的文本内容是否为合格内容 时,可以为笫三相似度、字符数、第一相似度和第二相似度分别分配一个权 值,检测权值之和是否大于预定值,如果大于一预定值,可以判定该用户发 布的文本内容为不合格内容,否则为合格内容。另外也可以单独检测该第三 相似度是否大于一预定值,如果大于,则可以判断该用户发布的文本内容为 不合格内容。
本发明还揭示了一种对用户发布的文本内容审核处理的装置,如图2,
其包括依次连接的审核模块、转换模块、计算模块和判断模块;
审核模块,用于接收用户发布的文本内容,根据名单规则数据库判断用 户信息,所述名单规则数据库包括黑名单、黑规则、白名单和白规则。在一 实施例中,黑名单可以是有较大几率提供垃圾信息的用户名单,白名单是有 较大几率提供正当信息的用户名单;黑规则是根据用户的等级或信用度来设 定,其表示用户的等级比较低或信用度很低,白规则也是根据用户的等级或 信用度来设定,其表示用户的等级比较高或信用度很高。转换模块,用于在所述用户信息既不属于白名单或白规则,也不属于黑 名单或黑规则时,对所述用户发布的文本内容进行格式转换,提取所述文本 内容中的实词。在一实施例中,格式转换可以包括对所述文本内容进行体 到简体转换、全角到半角转换、去除多余空格的转换等,实词是文本内容的 核心词,虛词不作为核心词。
计算模块,用于计算提取的各个实词在预先建立的文档数据库中的逆文
档频率(IDF)权重值,得到由所述逆文档频率(IDF) ^L重值组成的第一特 征向量;同时计算所述第 一特征向量和预先建立的垃圾样本内容的第二特征 向量的第一相似度。在一实施例中,该文档数据库可以由所有用户发布的文 本内容组成。计算提取的各个实词在预先建立的文档数据库中的逆文档频率
(IDF)权重值,具体可以为根据公式wg,二^xlg^计算各个实词的逆文
档频率(IDF)权重值;其中wg/为逆文档频率(IDF)权重值,^为所述实 词在所述用户的文本内容中出现的频率值,t/为所述文档数据库中的文档总 数,F为出现所述实词的文档数。垃圾样本内容的第二特征向量可以预先得 到,其得到过程和第一特征向量一样,取出一垃圾样本内容,对其格式转换, 提取实词,然后计算各个实词在所述文档数据库中的逆文档频率权重值,有 这些权重值组成第二特征向量。在一实施例中,计算所述第一特征向量和预 先建立的垃圾样本内容的第二特征向量的第一相似度,具体为根据公式
Cos(H0 =
计算所述第一相似度;其中
表示所述第一相似度,<formula>formula see original document page 12</formula>
分别表示所述第一特征向量和第二特征向量。
判断模块,用于根据所述第一相似度判断所述用户的文本内容是否为合 格内容,如果是合格内容,则公布所述用户发布的文本内容。在一实施例中,
如果判断出所述用户的文本内容为不合格内容,则所述判断;^莫块将所述用户 发布的文本内容发送给人工进行审核。
在一实施例中,所述审核模块,在用户信息属于黑名单或黑规则,将所 述用户发布的文本内容发送给人工进行审核;在所述用户信息属于白名单或 白规则,将公布所述用户发布的文本内容。
为了进一步准确全面的判定用户发布的内容是否为合才各内容,减少误判 的几率。如图3,在所述审核模块和所述判断模块之间还连接有检测模块, 用于在用户信息既不属于白名单或白规则,又不属于黑名单或黑规则时,检 测所述用户发布的文本内容和预先建立的包括电话号码格式、网页格式及火 星文格式的特征库的第二相似度;和/或检测所述用户的文本内容和预先建立 的不能公布字词的资料库的第三相似度,并将所述第二相似度和/或第三相似 度发送到所述判断模块,所述判断模块根据所述第一相似度、第二相似度和/ 或第三相似度判断所述用户发布的文本内容是否为合格内容。在判断用户发 布的文本内容是否为合格内容时,可以为第一相似度、第二相似度和/或第三 相似度分别分配一个权值,检测权值之和是否大于预定值,如果大于一预定 值,可以判定该用户发布的文本内容为不合格内容,否则为合格内容。
为了达到相同的目的,进一 步准确全面的判定用户发布的内容是否为合 格内容,减少误判的几率。如图4,在所述审核模块和所述判断模块之间还 连接有统计模块,用于在用户信息既不属于白名单或白规则,又不属于黑名 单或黑规则时,统计所述用户发布的文本内容的字符数,并将该字符数发送 到所述判断模块,所述判断模块根据该字符数、所述第一相似度、第二相似户发布的文本内容是否为合格内容时,可以为字符数、第一相似度、第二相 似度和/或第三相似度分别分配一个权值,检测权值之和是否大于预定值,如 果大于一预定值,可以判定该用户发布的文本内容为不合格内容,否则为合 格内容。
综上所述,本发明的对用户发布的文本内容审核处理的方法和装置,可 以对用户信息和用户发布的文本内容进行审核过滤处理,将属于黑规则和黑
文本内容直接公布;这样对用户发布的信息不用全部经由人工进行审核,可 以省去大量的人工审核时间,节省了人力资源,相应的也提高了审核效率。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何 在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本 发明的权利要求保护范围之内。
权利要求
1、一种对用户发布的文本内容审核处理的方法,其特征在于,包括步骤接收用户发布的文本内容,根据名单规则数据库判断用户信息,所述名单规则数据库包括黑名单、黑规则、白名单和白规则;如果所述用户信息既不属于白名单或白规则,也不属于黑名单或黑规则,则对所述用户发布的文本内容进行格式转换,提取所述文本内容中的实词;计算提取的各个实词在预先建立的文档数据库中的逆文档频率权重值,得到由所述逆文档频率权重值组成的第一特征向量;计算所述第一特征向量和预先建立的垃圾样本内容的第二特征向量的第一相似度,根据所述第一相似度判断所述用户发布的文本内容是否为合格内容,如果是合格内容,则公布所述用户发布的文本内容。
2、 根据权利要求1所述的对用户发布的文本内容审核处理的方法,其特征 在于在所述用户信息既不属于白名单或白规则,也不属于黑名单或黑规则时, 还包括步骤,检测所述用户发布的文本内容和预先建立的包括电话号码格式、 网页格式及火星文格式的特征库的第二相似度,根据所述第二相似度和第一相 似度判断所述用户发布的文本内容是否为合格内容。
3、 根据权利要求2所述的对用户发布的文本内容审核处理的方法,其特征 在于在所述用户信息既不属于白名单或白规则,也不属于黑名单或黑规则时, 还包括步骤,统计所述用户发布的文本内容的字符数,根据该字符数、第一相
4、 根据权利要求3所述的对用户发布的文本内容审核处理的方法,其特征 在于在所述用户信息既不属于白名单或白规则,也不属于黑名单或黑规则时, 还包括步骤,检测所述用户发布的文本内容和预先建立的包括不能公布字词的 资料库的第三相似度,根据该第三相似度、所述字符数、第一相似度和第二相 似度判断所述用户发布的文本内容是否为合格内容。
5、 根据权利要求1至4任一权利要求所述的对用户发布的文本内容审核处 理的方法,其特征在于所述计算提取的各个实词在预先建立的文档数据库中公式wg ^^xlg7计算各个实词的逆文档频率权重值;其中wg/为逆文档频率权重值,^为所述实词在所述用户的文 本内容中出现的频率值,c/为所述文档数据库中的文档总数,r为出现所述实词的文档数。
6、根据权利要求5所述的对用户信息和文本内容审核处理的方法,其特征 在于计算所述第一特征向量和预先建立的垃圾样本内容的第二特征向量的第 一相似度,具体为根据公式分别表示所述第一特征向量和第二特征向量。
7、 根据权利要求4所述的对用户信息和文本内容审核处理的方法,其特征 在于根据该第三相似度、所述字符数、第一相似度和第二相似度判断所述用 户发布的文本内容是否为合格内容,具体判断过程为分别为所述第三相似度、 所述字符数、第一相似度和第二相似度分配相应的权值,检测所述权值的和是 否大于预定值,如果是,则判定所述用户发布的文本内容为不合格内容,否贝'J, 所述用户发布的文本内容为合格内容。
8、 一种对用户发布的文本内容审核处理的装置,其特征在于包括,审核模块,用于接收用户发布的文本内容,根据名单规则数据库判断用户 信息,所述名单规则数据库包括黑名单、黑规则、白名单和白规则;Cos(义,:r)二Cos(Z,]O计算所述第一相似度;其中表示所述第一相似度,转换模块,用于在所述用户信息既不属于白名单或白规则,也不属于黑名 单或黑规则时,对所述用户发布的文本内容进行格式转换,提取所述文本内容中的实词;计算模块,用于计算提取的各个实词在预先建立的文档数据库中的逆文档 频率权重值,得到由所述逆文档频率权重值组成的第一特征向量;同时计算所 述第一特征向量和预先建立的垃圾样本内容的第二特征向量的第一相似度;判断模块,用于根据所述第一相似度判断所述用户发布的文本内容是否为 合格内容,如果是合格内容,则公布所述用户发布的文本内容。
9、 根据权利要求8所述的对用户发布的文本内容审核处理的装置,其特征 在于还包括检测模块,在所述用户信息既不属于白名单或白规则,也不属于 黑名单或黑规则时,用于检测所述用户发布的文本内容和预先建立的包括电话号码格式、网页格式及火星文格式的特征库的第二相似度;和/或检测所述用户 的文本内容和预先建立的包括不能公布字词的资料库的第三相似度,并将所述 第二相似度和/或第三相似度发送到所述判断模块,所述判断模块根据所述第一 相似度、第二相似度和/或第三相似度判断所述用户发布的文本内容是否为合格 内容。
10、 根据权利要求9所述的对用户信息和文本内容审核处理的装置,其特 征在于还包括统计模块,在所述用户信息既不属于白名单或白规则,也不属 于黑名单或黑规则时,用于统计所述文本内容的字符数,并将所述字符数发送 给所述判断模块,所述判断模块根据所述字符数、第二相似度、第三相似度和 第一相似度判断所述用户发布的文本内容是否为合格内容。
全文摘要
本发明公开了一种对用户发布的文本内容审核处理的方法及其装置,该方法包括步骤,接收用户发布的文本内容,根据名单规则数据库判断用户信息;如果用户信息既不属于白名单或白规则,也不属于黑名单或黑规则,则计算用户的文本内容的第一特征向量和预先建立的垃圾样本内容的第二特征向量的第一相似度,根据第一相似度判断用户发布的文本内容是否为合格内容,如果是合格内容,则公布用户发布的文本内容;否则将用户发布的文本内容发送给人工进行审核。本发明可以对用户信息和用户发布的文本内容进行审核过滤处理,这样对用户发布的信息不用全部经由人工进行审核,可以省去大量的人工审核时间,节省了人力资源,相应的也提高了审核效率。
文档编号G06F17/30GK101446970SQ200810220009
公开日2009年6月3日 申请日期2008年12月15日 优先权日2008年12月15日
发明者刘怀军, 刘昌毅 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1