一种内容审核方法和系统的制作方法

文档序号:6493307阅读:361来源:国知局
一种内容审核方法和系统的制作方法
【专利摘要】本发明公开了一种内容审核方法和系统,用于使用哈希审核列表审核用户发布的内容,哈希审核列表的每个存储项包括哈希值和审核参数,其中内容审核方法包括:A、读取用户发布的数据,从用户发布的数据中选取有效内容,使用哈希摘要算法计算有效内容的哈希摘要值;B、判断哈希审核列表中是否存在一个存储项,该存储项包括的哈希值等于有效内容的哈希摘要值,若判断为是,则执行步骤C,若判断为否,则执行步骤D;C、将该存储项之中的审核参数作为所述用户发布的数据的审核结果;D、使用敏感词库审核有效内容,得到所述用户发布的数据的审核结果。
【专利说明】—种内容审核方法和系统
【技术领域】
[0001]本发明涉及计算机和通信领域,特别涉及一种内容审核方法和系统。
【背景技术】
[0002]目前用户应用内容审核系统接入的用户发布内容,数据量每月都在快速增长,并且数据量呈现如下特点:
[0003]接入的内容类型虽然很多,但主要集中在有限的几个类型,可以占总量的90%;相同的内容转发频繁,转发量非常大。
[0004]现有内容审核系统的基本审核流程如下:
[0005]首先人工维护一套敏感词库,并实时生效;内容接入之后进行敏感词过滤,命中其中一条则进行人工审核,如果没有命中那么就通过。
[0006]此流程在系统最初上线,用户发布内容不是很多的时候,没有问题。但是当内容数量暴增时,人工审核经常会有积压,并且在审核时经常需要审核相同多重复出现的数据,造成人力浪费。因此,需要一种能够针对重复出现的内容,实时更新、动态调整审核基准,以提升自动审核比例的内容审核方法和系统。

【发明内容】

[0007]本发明提供一种内容审核方法和系统,以达到实时更新、动态调整审核基准,提升自动审核比例的效果。为达到上述目的,本发明采用如下技术方案:
[0008]本发明公开了一种内容审核方法,使用哈希审核列表审核用户发布的内容,哈希审核列表的每个存储项包括哈希值和审核参数,该方法包括:
[0009]A、读取用户发布的数据,从所述用户发布的数据中选取有效内容,使用哈希摘要算法计算所述有效内容的哈希摘要值;
[0010]B、判断所述哈希审核列表中是否存在一个存储项,该存储项包括的哈希值等于所述有效内容的哈希摘要值,若判断为是,则执行步骤C,若判断为否,则执行步骤D ;
[0011]C、将该存储项之中的审核参数作为所述用户发布的数据的审核结果;
[0012]D、使用敏感词库审核所述有效内容,若所述有效内容未命中敏感词库之中的敏感词,得到所述用户发布的数据的审核结果为通过,则用户发布的数据合格;若所述有效内容命中敏感词库之中的敏感词,接收管理人的审核指令,根据所述审核指令对所述命中敏感词的有效内容进行审核,得到所述用户发布的数据的审核结果。
[0013]其中,所述根据所述审核指令对所述命中敏感词的有效内容进行审核,得到所述用户发布的数据的审核结果之后,该方法进一步包括步骤E:根据所述审核结果更新记录表中的记录,其中该记录表中的每一条记录包括哈希值、审核参数和审核次数;判断所述更新后的记录的审核次数是否达到最大阈值,若判断为是,则在所述记录表中删除该条记录,并将该条记录中的哈希值和审核参数移动到所述哈希审核列表中作为存储项,实现所述哈希审核列表的更新;其中,所述每一条记录的哈希值是所述命中敏感词的有效内容的哈希摘要值,审核参数表示所述命中敏感词的有效内容对应的用户发布的数据的审核结果,审核次数为获得所述命中敏感词的有效内容对应的用户发布的数据的审核结果的次数。
[0014]其中,所述更新记录表中的记录,具体包括:判断记录表中是否存在一条记录,该记录包括的哈希值等于所述命中敏感词的有效内容的哈希摘要值,若判断为是则修改该条记录,若判断为否则新增一条记录。
[0015]其中当判断记录表中存在一条其包括的哈希值等于所述命中敏感词的有效内容的哈希摘要值的记录时,所述修改该条记录,具体包括:判断所述用户发布的数据的审核结果是否等于该条记录的审核参数,若判断为是则将该条记录的审核次数增加1,若判断为否,则将审核次数减小1,若审核次数小于预设的最小值,则删除该条记录。
[0016]其中,所述哈希审核列表的每个存储项还包括有效时间参数,该有效时间参数会随时间递减;步骤C进一步包括:将该存储项之中的有效时间参数设置为预设的最大有效时间;该方法进一步包括:当一存储项的有效时间参数随时间递减为O时,删除该存储项。
[0017]其中,所述从用户发布的数据中选取有效内容,具体包括:对用户发布的数据进行切词分析,滤除对文义没有影响的标点符号及字符。
[0018]本发明还公开了一种内容审核系统,使用哈希审核列表审核用户发布的内容,哈希审核列表的每个存储项包括哈希值和审核参数,该系统包括:数据读取分析单元、哈希审核单元和内容审核单元,数据读取分析单元,用于读取用户发布的数据,从所述用户发布的数据中选取有效内容,使用哈希摘要算法计算所述有效内容的哈希摘要值;哈希审核单元,用于判断所述哈希审核列表中是否存在一个存储项,该存储项包括的哈希值等于所述有效内容的哈希摘要值,以及若判断为是,则将该存储项之中的审核参数作为审核所述用户发布的数据的审核结果;内容审核单元,用于当哈希审核单元判断哈希审核列表中不存在哈希值等于有效内容的哈希摘要值的存储项时,使用敏感词库审核有效内容,若所述有效内容未命中敏感词库之中的敏感词,得到所述用户发布的数据的审核结果为通过,则用户发布的数据合格;若所述有效内容命中敏感词库之中的敏感词,接收管理人的审核指令,根据所述审核指令对所述命中敏感词的有效内容进行审核,得到所述用户发布的数据的审核结果O
[0019]其中,该系统还包括哈希审核列表处理单元,用于当内容审核单元根据所述审核指令对所述命中敏感词的有效内容进行审核,得到所述用户发布的数据的审核结果之后,根据所述审核结果更新记录表中的记录,其中该记录表中的每一条记录包括哈希值、审核参数和审核次数;判断所述更新后的记录的审核次数是否达到最大阈值,若判断为是,则在所述记录表中删除该条记录,并将该条记录中的哈希值和审核参数移动到所述哈希审核列表中作为存储项,实现所述哈希审核列表的更新;其中,所述每一条记录的哈希值是所述命中敏感词的有效内容的哈希摘要值,审核参数表示所述命中敏感词的有效内容对应的用户发布的数据的审核结果,审核次数为获得所述命中敏感词的有效内容对应的用户发布的数据的审核结果的次数。
[0020]其中,哈希审核列表处理单元具体用于:当判断记录表中存在一条其包括的哈希值等于所述命中敏感词的有效内容的哈希摘要值的记录时,判断所述用户发布的数据的审核结果是否等于该条记录的审核参数,若判断为是,则将该条记录的审核次数增加1,若判断为否,则将审核次数减小1,若审核次数小于预设的最小值,则删除该条记录。[0021]其中,哈希审核列表的每个存储项还包括有效时间参数,该有效时间参数会随时间递减;哈希审核单元进一步用于:当判断哈希审核列表中存在哈希值等于有效内容的哈希摘要值的存储项时,将该存储项之中的有效时间参数设置为预设的最大有效时间;哈希审核列表处理单元进一步用于:当一存储项的有效时间参数随时间递减为O时,删除该存储项;数据读取分析单元,具体用于对用户发布的数据进行切词分析,滤除对文义没有影响的标点符号及字符以选取有效内容。
[0022]本发明实施例的有益效果是:通过选取有效内容,去除无文义的字符,使得哈希运算更精准;通过设置哈希审核列表并且动态地修改哈希审核列表,提升自动审核的比例,降低人力消耗。
【专利附图】

【附图说明】
[0023]图1为本发明较佳实施例提供的一种内容审核方法的流程图;
[0024]图2为本发明较佳实施例提供的一种内容审核方法中更新哈希审核列表的详细的流程图;
[0025]图3为本发明较佳实施例提供的一种内容审核系统的框图;
[0026]图4为本
【发明内容】
审核系统的应用示意图。
【具体实施方式】
[0027]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步的详细描述。
[0028]图1为本发明较佳实施例提供的一种内容审核方法的流程图。该方法使用哈希(hash)审核列表审核用户发布的内容,哈希审核列表的每个存储项包括哈希值和审核参数,方法包括以下的步骤:
[0029]SlOO:读取用户发布的数据,从用户发布的数据中选取有效内容,使用哈希摘要算法计算有效内容的哈希摘要值。
[0030]S200:判断哈希审核列表中是否存在一个存储项,该存储项包括的哈希值等于有效内容的哈希摘要值,若判断为是,则执行步骤S300,若判断为否,则执行步骤S410。
[0031]S300:将该存储项之中的审核参数作为审核用户发布的数据的结果。
[0032]S410:判断有效内容是否命中敏感词库中的敏感词,若判断为否,得到所述用户发布的数据的审核结果为通过,则用户发布的数据合格并退出流程;若判断为是,则执行步骤S420。
[0033]S420:接收管理人的审核指令,根据所述审核指令对所述命中敏感词的有效内容进行审核,得到所述用户发布的数据的审核结果。
[0034]其中,步骤SlOO之中,从用户发布的数据中选取有效内容,具体是对用户发布的数据进行切词分析,滤除对文义没有影响的标点符号及字符,从而使得哈希运算更精准。而且提取有效内容计算哈希摘要值,可以提高匹配的准确率。例如,标点符号、空格、对文意没有影响的“啊、的”等字词会被去除,此时哈希运算更精确,含义内容相同但是格式不同的数据,也可以由哈希审核列表审核,加大了哈希审核范围。
[0035]与现有技术相比,本发明使用哈希审核列表,由系统自动审核代替了部分的人工审核,降低了人力的消耗。
[0036]图2为本发明较佳实施例提供的一种内容审核方法中更新哈希审核列表的详细的流程图。使用记录表对步骤S420中得到的有效内容及其审核结果进行汇聚、判断处理,最终生成并更新哈希审核列表,具体包括在如图1所示的步骤S420之后的如下步骤:
[0037]S510:判断记录表中是否存在一条记录,该记录包括的哈希值等于所述命中敏感词的有效内容的哈希摘要值,若判断为否,则执行步骤S 5 2 O,若判断为是,则执行步骤S530,其中该记录表的每一条记录包括哈希值、审核参数和审核次数。
[0038]S520:新增一条记录,该新增的记录的哈希值等于所述命中敏感词的有效内容的哈希摘要值,审核参数为所述命中敏感词的有效内容对应的用户发布的数据的审核结果。
[0039]S530:判断所述用户发布的数据的审核结果是否等于该条记录的审核参数,若判断为是,则执行步骤S540,若判断为否,则执行步骤S550。
[0040]S540:将该条记录的审核次数增加1,并执行步骤S560。
[0041]S550:将审核次数减小I,若审核次数小于预设的最小值,则删除该条记录。
[0042]S560:判断更新后的记录的审核次数是否达到最大阈值,若判断为是,则执行步骤S570,若判断为否,则退出流程。
[0043]S570:在所述记录表中删除该条记录,并将该条记录中的哈希值和审核参数移动到所述哈希审核列表中作为存储项,从而实现所述哈希审核列表的更新。
[0044]其中,所述每一条记录的哈希值是所述命中敏感词的有效内容的哈希摘要值,审核参数表示所述命中敏感词的有效内容对应的用户发布的数据的审核结果,审核次数为获得所述命中敏感词的有效内容对应的用户发布的数据的审核结果的次数。
[0045]通过在步骤S510-S570,可以生成并实时地更新缓存的哈希审核列表。在实际的审核中,用户发布的内容经常与时间相关,一段时间之内某些数据(例如热点内容)会被许多用户重复性地发布,不同时间段内用户发布的内容往往不同,因此实时更新哈希审核列表,可以提高自动审核的概率。
[0046]本实施例中,哈希审核列表的每个存储项还包括有效时间参数,该有效时间参数会随时间递减;步骤S300进一步包括:将该存储项之中的有效时间参数设置为预设的最大有效时间;另外,还会判断有效时间参数是否为0,当哈希审核列表的一存储项的有效时间参数随时间递减为O时,删除该存储项。本实施例中,通过设置最大有效时间参数判断是否删除存储项。当在一段时间之内接收到的一个有效内容的哈希摘要值等于哈希审核列表的一个存储项包括的哈希值时,将有效时间参数设置为最大有效时间参数,进一步地,当某一存储项的哈希值连续没有被匹配的时间达到最大有效时间参数时,删除存储项,可以将使用频率低的存储项从哈希审核列表中删除,使得哈希审核列表的容量维持在适当的规模,避免过分增加哈希值比对时的计算量。最大有效时间参数,可以根据实际的应用需要设置,最大有效时间参数越大则哈希审核列表的尺寸往往越大,最大有效时间参数越小则需要后续通过敏感词进行审核的概率往往越大。
[0047]本实施例的步骤S510-S570之中,通过设置审核次数,当对于具有同一哈希摘要值的有效内容,判断连续数次审核的结果相同时,表示同样的有效内容重复性地出现,此时将哈希摘要补充到哈希审核列表之中,可以实时更新哈希审核列表,提高自动审核的概率;通过设置记录表记录审核的结果,根据记录的审核结果修改哈希审核列表,当对于同一有效内容的审核结果不同时,不会在哈希审核列表之中新增存储项,可以避免过于频繁地修改哈希审核列表。当然,也可以进一步在记录表的各条记录中设置有效时间参数,随时间递减并在记录被修改时重置,与哈希审核列表的存储项中的有效时间参数作用相同。
[0048]本实施例之中,较佳地,审核次数预设的最小值可以是在新增记录时初始的审核次数,例如为O ;审核次数的最大阈值可以根据实际的需要预设,也可以根据哈希审核列表已有的存储项的数目动态地调整。例如当哈希审核列表已有的存储项的数目已足够大,则动态地增大最大阈值,当哈希审核列表已有的存储项的数目较小,则动态地减小最大阈值。
[0049]另外,通过分别使用敏感词和哈希审核列表来进行审核,可以分别审核通用的敏感词和时效性强的内容,与现有的审核方法相比较,不需要频繁地人工修改敏感词记录,使得对系统的维护更简单。
[0050]图3为本发明较佳实施例提供的一种内容审核系统的框图。内容审核系统使用哈希审核列表审核用户发布的内容,哈希审核列表的每个存储项包括哈希值和审核参数,包括:数据读取分析单元100、哈希审核单元200和内容审核单元300。
[0051]本实施例中,数据读取分析单元100,用于读取用户发布的数据,从用户发布的数据中选取有效内容,使用哈希摘要算法计算有效内容的哈希摘要值;哈希审核单元200,用于判断哈希审核列表中是否存在一个存储项,该存储项包括的哈希值等于有效内容的哈希摘要值,以及若判断为是,则将该存储项之中的审核参数作为所述用户发布的数据的审核结果;内容审核单元300,用于当哈希审核单元判断哈希审核列表中不存在哈希值等于有效内容的哈希摘要值的存储项时,使用敏感词库审核有效内容,若所述有效内容未命中敏感词库之中的敏感词,得到所述用户发布的数据的审核结果为通过,则用户发布的数据合格;若所述有效内容命中敏感词库之中的敏感词,接收管理人的审核指令,根据所述审核指令对所述命中敏感词的有效内容进行审核,得到所述用户发布的数据的审核结果。
[0052]本实施例的内容审核系统,还包括哈希审核列表处理单元400,用于当内容审核单元300根据所述审核指令对所述命中敏感词的有效内容进行审核,得到所述用户发布的数据的审核结果之后,根据所述审核结果更新记录表中的记录,以及根据记录表中的记录更新哈希审核列表。具体而言,若有效内容命中敏感词库中的敏感词,则得到所述用户发布的数据的审核结果之后更新一个记录表中的记录,即在记录表中新增一条记录或修改记录表中的记录,记录表的每一条记录包括哈希值、审核参数和审核次数,更新记录表中的记录之后,尤其是修改记录表中的记录之后,判断该条记录的审核次数是否达到最大阈值,若判断为是,则在记录表中删除该条记录并将该条记录中的哈希值和审核参数移动到哈希审核列表中作为存储项,从而实现哈希审核列表的更新;其中,每一条记录的哈希值是所述命中敏感词的有效内容的哈希摘要值,审核参数表示所述命中敏感词的有效内容对应的用户发布的数据的审核结果,审核次数为获得所述命中敏感词的有效内容对应的用户发布的数据的审核结果的次数。
[0053]更具体地,数据读取分析单元100读取用户发布的数据、选取有效内容并计算哈希摘要值,其中,数据读取分析单元100对用户发布的数据进行切词分析,滤除对文义没有影响的标点符号及字符以选取有效内容。
[0054]哈希审核单元200会将计算得到的哈希摘要值与哈希审核列表的各个存储项的哈希值比对,判断是否相等。[0055]内容审核单元300类似于现有的通用的审核单元:使用包括敏感词的敏感词库审核有效内容,判断有效内容是否命中敏感词库中的敏感词,以及在有效内容命中敏感词时,接收管理人的审核指令以得到审核结果。
[0056]本实施例中,哈希审核列表的每个存储项还包括有效时间参数,该有效时间参数会随时间递减;当哈希审核单元200判断哈希审核列表中存在哈希值等于有效内容的哈希摘要值的存储项时,哈希审核单元200将该存储项之中的有效时间参数设置为预设的最大有效时间;哈希审核列表处理单元400,当判断一存储项的有效时间参数随时间递减为O时,删除该存储项。
[0057]本实施例之中,哈希审核列表处理单元400,会通过使用记录表自动调整哈希审核列表,记录表的每一条记录包括哈希值、审核参数和审核次数。若内容审核单元300判断有效内容命中敏感词,则在根据所述审核指令对所述命中敏感词的有效内容进行审核,得到所述用户发布的数据的审核结果之后,哈希审核列表处理单元400会判断记录表中是否存在一条记录,该记录包括的哈希值等于有效内容的哈希摘要值,若判断为是则修改该条记录,若判断为否则新增一条记录,该新增的记录的哈希值等于有效内容的哈希摘要值,审核参数为对应的审核指令。
[0058]本实施例中,哈希审核列表处理单元400,当判断记录表中存在一条其包括的哈希值等于所述命中敏感词的有效内容的哈希摘要值的记录时,修改该条记录的操作具体包括:判断所述用户发布的数据的审核结果是否等于该条记录的审核参数,若判断为是则将该条记录的审核次数增加1,若判断为否,则将审核次数减小1,若审核次数小于预设的最小值,贝1J删除该条记录。通过修改审核次数,当对于命中敏感词的同一有效内容的审核结果不同时,不会在哈希审核列表之中新增存储项。当然,也可以进一步在记录表的各条记录中设置有效时间参数,随时间递减并在记录被修改时重置,与哈希审核列表的存储项中的有效时间参数作用相同。
[0059]图4为本
【发明内容】
审核系统的应用示意图。图4显示了本
【发明内容】
审核系统应用于审核用户发布数据的示例,由图可知,读取数据接入之后首先选取有效内容,根据选取的有效内容计算哈希摘要值。计算数据的哈希摘要值后,与缓存中的哈希审核列表进行匹配,如果命中则根据哈希审核结果直接进入审核日志库,将哈希审核结果反馈给业务线进行后续业务线处理,不再需要进一步审核。其中哈希审核结果在审核日志库中以数据反馈任务表的形式进行存储。
[0060]如果没有命中哈希审核列表则进行敏感词过滤。如果没有命中敏感词,数据审核通过,并进入审核日志库。如果命中敏感词,则进行进一步审核,例如人工审核。进一步进行审核结果汇聚,修改记录表,并根据记录表更新缓存中的哈希审核列表。
[0061]本发明的实施例具有以下的优点:
[0062](一)通过使用哈希审核列表,对于一段时间内频繁出现的数据,由系统自动审核代替了部分的人工审核,降低了人力的消耗。
[0063](二)对用户发布的数据进行切词分析,选取有效内容,滤除对文义没有影响的标点符号及字符,从而使得哈希运算更精准,加大了哈希审核范围。
[0064](三)利用哈希摘要算法计算哈希摘要值,可以实现对数据的快速审核。
[0065](四)通过动态地修改哈希审核列表,提升自动审核的比例。[0066](五)通过设置记录表记录审核的结果,根据记录的审核结果修改哈希审核列表,满足条件的哈希值才会被写入哈希审核列表,使得审核准确性高且可以避免过于频繁地修改哈希审核列表。
[0067](六)通过将使用频率低的存储项从哈希审核列表中删除,使得哈希审核列表的容量维持在适当的规模,避免过分增加对有效内容的哈希摘要值进行比对时的计算量。
[0068]需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排它性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0069]本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0070]以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保 护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
【权利要求】
1.一种内容审核方法,其特征在于,使用哈希审核列表审核用户发布的内容,哈希审核列表的每个存储项包括哈希值和审核参数,该方法包括: A、读取用户发布的数据,从所述用户发布的数据中选取有效内容,使用哈希摘要算法计算所述有效内容的哈希摘要值; B、判断所述哈希审核列表中是否存在一个存储项,该存储项包括的哈希值等于所述有效内容的哈希摘要值,若判断为是,则执行步骤C,若判断为否,则执行步骤D ; C、将该存储项之中的审核参数作为所述用户发布的数据的审核结果; D、使用敏感词库审核所述有效内容,若所述有效内容未命中敏感词库之中的敏感词,得到所述用户发布的数据的审核结果为通过,则用户发布的数据合格;若所述有效内容命中敏感词库之中的敏感词,接收管理人的审核指令,根据所述审核指令对所述命中敏感词的有效内容进行审核,得到所述用户发布的数据的审核结果。
2.根据权利要求1所述的方法,其特征在于, 所述根据所述审核指令对所述命中敏感词的有效内容进行审核,得到所述用户发布的数据的审核结果之后,该方法进一步包括步骤E:根据所述审核结果更新记录表中的记录,其中该记录表中的每一条记录包括哈希值、审核参数和审核次数;判断所述更新后的记录的审核次数是否达到最大阈值,若判断为是,则在所述记录表中删除该条记录,并将该条记录中的哈希值和审核参数移动到所述哈希审核列表中作为存储项,实现所述哈希审核列表的更新;其中,所述每一条记录的哈希值是所述命中敏感词的有效内容的哈希摘要值,审核参数表示所述命中敏感词的有效内容对应的用户发布的数据的审核结果,审核次数为获得所述命中敏感词的有效内容对应的用户发布的数据的审核结果的次数。
3.根据 权利要求2所述的方法,其特征在于, 所述更新记录表中的记录,具体包括: 判断记录表中是否存在一条记录,该记录包括的哈希值等于所述命中敏感词的有效内容的哈希摘要值,若判断为是则修改该条记录,若判断为否则新增一条记录。
4.根据权利要求3所述的方法,其特征在于, 当判断记录表中存在一条其包括的哈希值等于所述命中敏感词的有效内容的哈希摘要值的记录时,所述修改该条记录,具体包括: 判断所述用户发布的数据的审核结果是否等于该条记录的审核参数,若判断为是则将该条记录的审核次数增加1,若判断为否,则将审核次数减小1,若审核次数小于预设的最小值,则删除该条记录。
5.根据权利要求1所述的方法,其特征在于, 所述哈希审核列表的每个存储项还包括有效时间参数,该有效时间参数会随时间递减; 步骤C进一步包括:将该存储项之中的有效时间参数设置为预设的最大有效时间; 该方法进一步包括:当一存储项的有效时间参数随时间递减为O时,删除该存储项。
6.根据权利要求1至5任一权利要求所述的方法,其特征在于, 所述从用户发布的数据中选取有效内容,具体包括:对用户发布的数据进行切词分析,滤除对文义没有影响的标点符号及字符。
7.一种内容审核系统,其特征在于,使用哈希审核列表审核用户发布的内容,哈希审核列表的每个存储项包括哈希值和审核参数,该系统包括:数据读取分析单元、哈希审核单元和内容审核单元, 数据读取分析单元,用于读取用户发布的数据,从所述用户发布的数据中选取有效内容,使用哈希摘要算法计算所述有效内容的哈希摘要值; 哈希审核单元,用于判断所述哈希审核列表中是否存在一个存储项,该存储项包括的哈希值等于所述有效内容的哈希摘要值,以及若判断为是,则将该存储项之中的审核参数作为所述用户发布的数据的审核结果; 内容审核单元,用于当哈希审核单元判断哈希审核列表中不存在哈希值等于有效内容的哈希摘要值的存储项时,使用敏感词库审核有效内容,若所述有效内容未命中敏感词库之中的敏感词,得到所述用户发布的数据的审核结果为通过,则用户发布的数据合格;若所述有效内容命中敏感词库之中的敏感词,接收管理人的审核指令,根据所述审核指令对所述命中敏感词的有效内容进行审核,得到所述用户发布的数据的审核结果。
8.根据权利要求7所述的系统,其特征在于, 该系统还包括哈希审核列表处理单元,用于当内容审核单元根据所述审核指令对所述命中敏感词的有效内容进行审核,得到所述用户发布的数据的审核结果之后,根据所述审核结果更新记录表中的记录,其中该记录表中的每一条记录包括哈希值、审核参数和审核次数;判断所述更新后的记录的审核次数是否达到最大阈值,若判断为是,则在所述记录表中删除该条记录,并将该条记录中的哈希值和审核参数移动到所述哈希审核列表中作为存储项,实现所述哈希审核列表的更新;其中,所述每一条记录的哈希值是所述命中敏感词的有效内容的哈希摘要值,审核参数表示所述命中敏感词的有效内容对应的用户发布的数据的审核结果,审核次数为获得所述命中敏感词的有效内容对应的用户发布的数据的审核结果的次数。
9.根据权利要求8所 述的系统,其特征在于, 哈希审核列表处理单元具体用于:当判断记录表中存在一条其包括的哈希值等于所述命中敏感词的有效内容的哈希摘要值的记录时,判断所述用户发布的数据的审核结果是否等于该条记录的审核参数,若判断为是,则将该条记录的审核次数增加1,若判断为否,则将审核次数减小1,若审核次数小于预设的最小值,则删除该条记录。
10.根据权利要求7至9任一权利要求所述的系统,其特征在于,哈希审核列表的每个存储项还包括有效时间参数,该有效时间参数会随时间递减; 哈希审核单元进一步用于:当判断哈希审核列表中存在哈希值等于有效内容的哈希摘要值的存储项时,将该存储项之中的有效时间参数设置为预设的最大有效时间; 哈希审核列表处理单元进一步用于:当一存储项的有效时间参数随时间递减为O时,删除该存储项; 数据读取分析单元,具体用于对用户发布的数据进行切词分析,滤除对文义没有影响的标点符号及字符以选取有效 内容。
【文档编号】G06F17/30GK103885964SQ201210559036
【公开日】2014年6月25日 申请日期:2012年12月20日 优先权日:2012年12月20日
【发明者】石海涛, 杨刚 申请人:北京新媒传信科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1