一种用于确定目标文本的敏感度的方法与设备的制作方法

文档序号:6358166阅读:193来源:国知局
专利名称:一种用于确定目标文本的敏感度的方法与设备的制作方法
技术领域
本发明涉及信息处理技术领域,尤其涉及一种用于确定目标文本的敏感度的技术。
背景技术
现有技术中,对目标文本的敏感度的识别多通过人工方式,或者人工建立敏感词表,通过机器基于该敏感词表对目标文本进行简单的匹配查询,以确定目标文本的敏感度。
上述识别目标文本敏感度的方法,需要不断人工添加敏感词,无法自动进行敏感词表的扩展,同时,对于一些经常与敏感赋值较高的敏感词同时出现,但是其本身又不具有明显的色情、暴力、反动含义的词,上述方法无法识别,从而导致识别目标文本的敏感度的效果较差。
因此,如何提供一种确定目标文本的敏感度的方法或设备,同时提高机器识别目标文本的敏感度的准确率,成为目前急需解决的问题之一。

发明内容
本发明的目的是提供一种用于确定目标文本的敏感度的方法与设备。
根据本发明的一个方面,提供了一种用于确定目标文本的敏感度的方法,该方法包括以下步骤 a获取待确定敏感度的目标文本; b根据所述目标文本,在预设敏感词库中进行匹配查询,以获得所述目标文本中的显敏感词和隐敏感词; c根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,加权确定所述目标文本的敏感度。
根据本发明的另一个方面,还提供了一种用于确定目标文本的敏感度的设备,该设备包括 文本获取装置,用于获取待确定敏感度的目标文本; 敏感词获取装置,用于根据所述目标文本,在预设敏感词库中进行匹配查询,以获得所述目标文本中的显敏感词和隐敏感词; 敏感度确定装置,用于根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,加权确定所述目标文本的敏感度。
与现有技术相比,本发明通过识别目标文本中的显敏感词和隐敏感词,提高了机器确定目标文本的敏感度的准确率,并且减少了后期可能需要的人工复核成本,进一步提高了目标文本的审核效率,使得本发明的应用范围得到了较大的扩展。


通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显 图1示出根据本发明一个方面的用于确定目标文本的敏感度的设备的示意图; 图2示出根据本发明一个优选实施例的用于确定目标文本的敏感度的设备的示意图; 图3示出根据本发明另一个方面的用于确定目标文本的敏感度的方法流程图; 图4示出根据本发明一个优选实施例的用于确定目标文本的敏感度的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施例方式下面结合附图对本发明作进一步详细描述。
图1为根据本发明一个方面的设备示意图,示出一种用于确定目标文本的敏感度的设备。其中,敏感度确定设备1包括文本获取装置11、敏感词获取装置12和敏感度确定装置13。具体地,文本获取装置11获取待确定敏感度的目标文本;随后,敏感词获取装置 12根据所述目标文本,在预设敏感词库中进行匹配查询,以获得所述目标文本中的显敏感词和隐敏感词;接着,敏感度确定装置13根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,加权确定所述目标文本的敏感度。在此,敏感度确定设备1包括但不限于网络设备,或者与文档提交设备经由网络相连的专用设备;其中,网络设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合,在此,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机;网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)、GSM、WCDMA、 CDMA2000、TD-SCDMA、GSM、CDMA lx、WIFI、WAPI、WiMax 等。本领域技术人员应能理解上述敏感度确定设备、网络设备以及网络仅为举例,其他现有的或今后可能出现的敏感度确定设备、网络设备或者网络如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更具体地,文本获取装置11获取待确定敏感度的目标文本。具体地,文本获取装置11通过诸如敏感度确定设备1向其他设备提供的应用程序接口(API)接收文档、或者按照约定的通信协议,如http、https等,接收来自其他设备的文档等方式获取待确定敏感度的目标文本,诸如用户提交的论坛帖、其他设备传输的文档、来自web服务器的网页等。例如,文本获取装置11通过敏感度确定设备1向用户设备提供的应用程序接口(API),接收用户经由用户设备提交的论坛贴,在此,该论坛帖即为待确定敏感度的目标文本。又如,假设敏感度确定设备1为确定目标文本敏感度的专用设备,文本获取装置11按照约定的通信协议,如http、https等,接收来自其他设备的文档,在此,该文档即为待确定敏感度的目标文本。本领域技术人员应能理解上述获取目标文本的方式以及目标文本仅为举例,其他现有的或今后可能出现的获取目标文本的方式或者目标文本如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
随后,敏感词获取装置12根据所述目标文本,在预设敏感词库中进行匹配查询, 以获得所述目标文本中的显敏感词和隐敏感词。具体地,敏感词获取装置12根据文本获取装置11获取的目标文本,在预设敏感词库中进行匹配查询,以获得该目标文本中的显敏感词和隐敏感词。在此,显敏感词包括具有确定的色情、暴力、反动等含义的词;隐敏感词包括具有色情、暴力、反动等倾向含义的词,以及经常与显敏感词同时出现在敏感度较高的文本中的词;如脱衣为隐敏感词,脱衣舞为显敏感词,并且当隐敏感词出现在敏感度较高的文本中的次数达到一定值时,该隐敏感词将被标注为显敏感词。例如,文本获取装置11接收用户提交的论坛帖,敏感词获取装置12直接将该论坛贴在预设敏感词库中进行匹配查询, 以获得该论坛贴中的显敏感词和隐敏感词。又如,文本获取装置11接收自其他设备发送的待确定敏感度的目标文本,敏感词获取装置12对该目标文本进行分词处理,获得相应的关键词,并对这些关键词在预设敏感词库中进行匹配查询,以获得与该目标文本相对应的显敏感词和隐敏感词。本领域技术人员应能理解上述获取显敏感词和隐敏感词的方式仅为举例,其他现有的或今后可能出现的获取显敏感词或隐敏感词的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,敏感度确定装置13根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,加权确定所述目标文本的敏感度。具体地,敏感度确定装置13根据敏感词获取装置 12获取的目标文本中的显敏感词和隐敏感词,以及该(等)显敏感词的敏感赋值和该(等) 隐敏感词的敏感赋值,加权确定该目标文本的敏感度。在此,显敏感词的敏感赋值和隐敏感词的敏感赋值可以由预设敏感词库获取,也可以由第三方设备的专用词库获取。例如,文本获取装置11接收用户提交的论坛帖,敏感词获取装置12根据预设敏感词库获取该论坛贴中的显敏感词和隐敏感词,敏感度确定装置13根据该预设敏感词库中这些显敏感词的敏感赋值和隐敏感词的敏感赋值,将这些敏感赋值叠加获取该论坛贴的敏感度,或者根据各显敏感词和各隐敏感词的权重,加权确定该论坛贴的敏感度。又如,文本获取装置11接收用户提交的博客内容,敏感词获取装置12根据预设敏感词库获取该博客内容中的显敏感词和隐敏感词,第三方设备的专用词库中存储有显敏感词的敏感赋值和隐敏感词的敏感赋值,敏感度确定装置13根据该博客内容中的显敏感词和隐敏感词向该第三方设备发送获取相应的敏感赋值的请求,并接收该第三方设备返回的基于该专用词库的这些显敏感词的敏感赋值和隐敏感词的敏感赋值,并根据各显敏感词和各隐敏感词的权重,加权确定该博客内容的敏感度。本领域技术人员应能理解上述确定目标文本的敏感度的方式仅为举例, 其他现有的或今后可能出现的确定目标文本的敏感度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,文本获取装置11、敏感词获取装置12和敏感度确定装置13是持续不断工作的。具体地,文本获取装置11获取待确定敏感度的目标文本;随后,敏感词获取装置 12根据所述目标文本,在预设敏感词库中进行匹配查询,以获得所述目标文本中的显敏感词和隐敏感词;接着,敏感度确定装置13根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,加权确定所述目标文本的敏感度。在此,本领域技术人员应理解“持续”是指本获取装置11、敏感词获取装置12和敏感度确定装置13分别按照设定的或实时调整的工作模式要求进行目标文本的获取、敏感词的获取、以及目标文本敏感度的确定,直至敏感度确定设备1在较长时间内停止获取待确定敏感度的目标文本。
图2为根据本发明一个优选实施例的设备示意图,示出一种用于确定目标文本的敏感度的设备。其中,敏感词获取装置12’包括分词单元121’和敏感词获取单元122’。具体地,分词单元121’对所述目标文本进行分词处理,以获得所述目标文本中的关键词;敏感词获取单元122’根据所述关键词,在所述预设敏感词库中进行匹配查询,以获得所述显敏感词和所述隐敏感词。
分词单元121’对所述目标文本进行分词处理,以获得所述目标文本中的关键词。 具体地,分词单元121’通过诸如最大正向匹配法、最大反向匹配法、最大字概率法等分词技术,对目标文本进行分词处理,以获得目标文本中的关键词。例如,假设目标文本为用户经由用户设备提交的论坛贴,分词单元121’通过诸如最大字概率法对该论坛贴进行分词处理,获得该论坛贴中的关键词。本领域技术人员应能理解上述分词技术仅为举例,其他现有的或今后可能出现的分词技术如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
敏感词获取单元122’根据所述关键词,在所述预设敏感词库中进行匹配查询,以获得所述显敏感词和所述隐敏感词。具体地,敏感词获取单元122’根据分词单元121’分词获得的关键词,在预设敏感词库中进行匹配查询,以获得目标文本中的显敏感词和隐敏感词。例如,假设目标文本为用户经由用户设备提交的论坛贴,分词单元121’对该论坛贴进行分词处理,获得相应的关键词,敏感词获取单元122’根据这些关键词在在预设敏感词库中进行匹配查询,以获得该论坛贴中的显敏感词和隐敏感词。本领域技术人员应能理解上述获取显敏感词和隐敏感词的方式仅为举例,其他现有的或今后可能出现的获取显敏感词或隐敏感词的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在一个优选实施例中(参照图1),敏感度确定装置13还根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,以及所述显敏感词和所述隐敏感词分别在所述目标文本中的出现频次,加权确定所述敏感度。以下参照图1对该优选实施例进行详细描述,其中, 文本获取装置11获取待确定敏感度的目标文本;随后,敏感词获取装置12根据所述目标文本,在预设敏感词库中进行匹配查询,以获得所述目标文本中的显敏感词和隐敏感词;其具体过程与前述参照图1所描述的实施例中文本获取装置11和敏感词获取装置12所执行的过程相同,为简明起见,以引用方式包含于此,而不再赘述。
具体地,敏感度确定装置13还根据敏感词获取装置12获取的显敏感词的敏感赋值和敏感词获取装置12获取的隐敏感词的敏感赋值,以及该(等)显敏感词和该(等)隐敏感词分别在目标文本中的出现频次,加权确定该目标文本的敏感度。在此,显敏感词的敏感赋值和隐敏感词的敏感赋值可以由预设敏感词库获取,也可以由第三方设备的专用词库获取。例如,文本获取装置11接收用户提交的论坛帖,敏感词获取装置12根据预设敏感词库获取该论坛贴中的显敏感词和隐敏感词,敏感度确定装置13根据这些显敏感词和隐敏感词分别在该论坛贴中的出现频次,确定各显敏感词和各隐敏感词的权重,并根据该预设敏感词库中这些显敏感词的敏感赋值和隐敏感词的敏感赋值,加权确定该论坛贴的敏感度。又如,文本获取装置11接收用户提交的博客内容,敏感词获取装置12根据预设敏感词库获取该博客内容中的显敏感词和隐敏感词,第三方设备的专用词库中存储有显敏感词的敏感赋值和隐敏感词的敏感赋值,敏感度确定装置13根据该博客内容中的显敏感词和隐敏感词向该第三方设备发送获取相应的敏感赋值的请求,并接收该第三方设备返回的基于该专用词库的这些显敏感词的敏感赋值和隐敏感词的敏感赋值,并根据该博客内容中显敏感词和隐敏感词的出现频次,增加相应显敏感词和隐敏感词的敏感赋值,如显敏感词出现一次,其相应的敏感赋值加1,隐敏感词出现一次,其相应的敏感赋值加0. 5,再根据这些显敏感词和隐敏感词的最终敏感赋值确定各显敏感词和各隐敏感词的权重,加权确定该博客内容的敏感度;在此,各显敏感词和各隐敏感词的权重,可以在其加入该预设敏感词库时预先设定,也可以根据其敏感赋值确定,还可以根据其在目标文本中的出现频次确定。本领域技术人员应能理解上述确定各显敏感词和各隐敏感词的权重的方式以及确定目标文本的敏感度的方式仅为举例,其他现有的或今后可能出现的确定各显敏感词和各隐敏感词的权重的方式或者确定目标文本的敏感度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在另一个优选实施例中(参照图1),敏感度确定设备1还包括预处理装置(未示出),该预处理装置根据预置的预处理规则,对所述目标文本进行预处理,以获得与所述目标文本相对应的预处理文本;随后,敏感词获取装置12还根据所述预处理文本,在所述预设敏感词库中进行匹配查询,以获得所述显敏感词和所述隐敏感词。以下参照图1对该另一优选实施例进行详细描述,其中,文本获取装置11获取待确定敏感度的目标文本;敏感度确定装置13根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,加权确定所述目标文本的敏感度;其具体过程与前述参照图1所描述的实施例中文本获取装置11和敏感度确定装置13所执行的过程相同,为简明起见,以引用方式包含于此,而不再赘述。
具体地,预处理装置根据预置的预处理规则,诸如删除目标文本中的异常字符、将目标文本中的异形文字串转换为正常文字串等,对文本获取装置11获取的目标文本进行预处理,以获得与该目标文本相对应的预处理文本;随后,敏感词获取装置12还根据该预处理文本,在预设敏感词库中进行匹配查询,以获得该目标文本中的显敏感词和隐敏感词。 在此,该预处理规则用于将文本获取装置11获取的初始目标文本转换为可供直接进行词库匹配或先进行分词处理再执行词库匹配操作的预处理文本。例如,文本获取装置11获取的目标文本中的字符包括多个异常字符,如“*”、“&”、“ %”、“~”、“#”、“$”等,预处理装置根据预置的预处理规则,如删除目标文本中的异常字符,基于异常字符集、正常字符集或两者的结合,识别目标文本中的异常字符,并删除这些异常字符,以获得对该目标文本预处理后的预处理文本,敏感词获取装置12根据该预处理文本,在预设敏感词库中进行匹配查询, 以获得该目标文本中的显敏感词和隐敏感词。本领域技术人员应能理解上述对目标文本进行预处理的方式仅为举例,其他现有的或今后可能出现的对目标文本进行预处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,所述预处理装置中的所述预置的预处理规则包括但不限于,以下至少任一项 1)删除所述目标文本中的异常字符; 2)将所述目标文本中的异形文字串转换为正常文字串。
具体地,预处理装置中的预置的预处理规则,用于将目标文本转换为预处理文本, 在此,预处理规则包括但不限于,以下至少任一项1)删除目标文本中的异常字符,如“*”、 “&”、“% ”、“~”、“#”、“$”等;2)将目标文本中的异形文字串,诸如竖形文字、艺术字等变形体的文字串,转换为正常文字串。当目标文本中包括多个异常字符时,这些异常字符会影响敏感词获取装置12对目标文本中显敏感词和隐敏感词的识别;例如,敏感词获取装置12按照预设敏感词库对目标文本进行匹配查询时,由于异常字符的存在,尤其是为了规避词库的匹配查询,异常字符通常会穿插在显敏感词或者隐敏感词中,使得无论是对该目标文本的直接匹配,还是对该目标文本中关键词的匹配,都无法查询获得与该目标文本相对应的显敏感词或者隐敏感词。当预置的预处理规则包括删除目标文本中的异常字符时,该预处理装置,基于异常字符集、正常字符集或两者的结合,识别目标文本中的异常字符,并删除这些异常字符,以获得对该目标文本预处理后的预处理文本。目标文本中的异形文字串,诸如竖形文字、艺术字等变形体的文字串同样会影响敏感词获取装置12对目标文本中显敏感词和隐敏感词的识别,使得异形文字串成为不良发布者逃避对文本的敏感审核的有效手段。当预置的预处理规则包括将目标文本中的异形文字串转换为正常文字串时,该预处理装置,基于异形文字集,识别目标文本中的异形文字,并根据异形文字与正常文字的映射关系,将这些异形文字转换为正常文字,以获得对该目标文本预处理后的预处理文本。本领域技术人员应能理解上述各项预处理规则不仅能够单独用于将目标文本转换为预处理文本, 还可以相互结合用于将目标文本转换为预处理文本。本领域技术人员还应能理解上述预处理规则仅为举例,其他现有的或今后可能出现的预处理规则如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在再一个优选实施例中(参照图1),敏感度确定设备1还包括更新装置(未示出),该更新装置根据敏感词在所述目标文本中的出现频次,并结合所述目标文本的敏感度,更新所述敏感词的敏感赋值;根据所述更新后敏感词的敏感赋值,更新所述预设敏感词库; 其中,所述敏感词包括但不限于,以下至少任一项 1)所述显敏感词; 2)所述隐敏感词。
以下参照图1对该再一优选实施例进行详细描述,其中,文本获取装置11获取待确定敏感度的目标文本;随后,敏感词获取装置12根据所述目标文本,在预设敏感词库中进行匹配查询,以获得所述目标文本中的显敏感词和隐敏感词;接着,敏感度确定装置13 根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,加权确定所述目标文本的敏感度;其具体过程与前述参照图1所描述的实施例中文本获取装置11、敏感词获取装置12和敏感度确定装置13所执行的过程相同,为简明起见,以引用方式包含于此,而不再赘述。
具体地,更新装置根据敏感词,如显敏感词或隐敏感词,在目标文本中的出现频次,并结合该目标文本的敏感度,更新该(等)敏感词的敏感赋值,并根据更新后该(等) 敏感词的敏感赋值,更新预设敏感词库。例如,当目标文本的敏感度超过其相应的预设阈值时,更新装置根据该目标文本中显敏感词和隐敏感词的出现频次,增加预设敏感词库中这些显敏感词和隐敏感词的敏感赋值,如显敏感词出现一次,其相应的敏感赋值加0. 1,隐敏感词出现一次,其相应的敏感赋值加0. 01,从而根据显敏感词和隐敏感词的敏感赋值的变化,更新该预设敏感词库。优选地,当隐敏感词增加后的敏感赋值达到其相应的预设阈值时,更新装置将该隐敏感词标注为显敏感词;当显敏感词增加后的敏感赋值达到其相应的预设阈值时,提高该显敏感词的敏感级别,如从1级升至2级,从而更新该预设敏感词库。优选地,该敏感级别将直接影响目标文本的处理方式,或者更改该显敏感词对应的处理方式, 如从以“*”替换该显敏感词变更为删除该目标文本。又如,更新装置累加同一显敏感词或者隐敏感词在敏感度超过其预设阈值的目标文本的出现频次,当同一显敏感词的累加出现频次超过其相应频次阈值时,将该显敏感词的敏感赋值加1 ;当同一隐敏感词的累加出现频次超过其相应频次阈值时,将该显敏感词的敏感赋值加0. 5 ;从而更新该预设敏感词库。 本领域技术人员应能理解上述更新敏感词的敏感赋值和预设敏感词库的方式仅为举例,其他现有的或今后可能出现的更新敏感词的敏感赋值或者预设敏感词库的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,敏感度确定设备1还包括候选词获取装置(未示出),该候选词获取装置根据所述敏感词,在所述目标文本中进行近似查询,以获得与所述敏感词相对应的候选敏感词;更新装置还根据所述候选敏感词在所述目标文本中的出现频次,并结合所述目标文本的敏感度,更新所述候选敏感词的敏感赋值;根据所述更新后候选敏感词的敏感赋值,更新所述预设敏感词库。具体地,候选词获取装置根据目标文本中的敏感词,包括显敏感词和隐敏感词,在该目标文本中进行近似查询,以获得与显敏感词或者隐敏感词相对应的候选敏感词;更新装置还根据该(等)候选敏感词在该目标文本中的出现频次,并结合该目标文本的敏感度,更新该候选敏感词的敏感赋值,并根据该更新后候选敏感词的敏感赋值,更新预设敏感词库。例如,敏感词获取装置12获取目标文本中的显敏感词和隐敏感词,如显敏感词“舞女”和隐敏感词“脱衣”,候选词获取装置根据这些显敏感词和隐敏感词在该目标文本中做近似查询,如通过对该目标文本做分词处理后获得的关键词与这些显敏感词和隐敏感词计算近似度,获得与其中一个或多个显敏感词或者隐敏感词相对应的候选敏感词,如 “脱衣舞”和“脱衣舞女”;更新装置还根据这些候选敏感词在该目标文本中的出现频次,并结合该目标文本的敏感度,更新该候选敏感词的敏感赋值,例如,在首次发现一个候选敏感词时,对其赋予初始敏感赋值,再如,当该候选敏感词在该目标文本中的出现频次以及该目标文本的敏感度均超过其相应阈值时,更新该候选敏感词的敏感赋值,如使其敏感赋值增加5 ;该更新装置根据该更新后候选敏感词的敏感赋值,如当该候选敏感词的增加后的敏感赋值达到一定值,则将该候选敏感词标注为隐敏感词,从而更新该预设敏感词库。本领域技术人员应能理解上述获取候选敏感词与更新预设敏感词库的方式仅为举例,其他现有的或今后可能出现的获取候选敏感词或者更新预设敏感词库的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在又一个优选实施例中(参照图1),敏感度确定设备1还包括处理装置(未示出),该处理装置根据预置的敏感文本处理规则,基于所述目标文本的敏感度,对所述目标文本做敏感处理,以获得敏感处理后的所述目标文本。以下参照图1对该又一优选实施例进行详细描述,其中,文本获取装置11获取待确定敏感度的目标文本;随后,敏感词获取装置12根据所述目标文本,在预设敏感词库中进行匹配查询,以获得所述目标文本中的显敏感词和隐敏感词;接着,敏感度确定装置13根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,加权确定所述目标文本的敏感度;其具体过程与前述参照图1所描述的实施例中文本获取装置11、敏感词获取装置12和敏感度确定装置13所执行的过程相同,为简明起见,以引用方式包含于此,而不再赘述。
具体地,处理装置根据预置的敏感文本处理规则,诸如超过设定的敏感度阈值的目标文本将被删除,或者根据不同的敏感度级别对目标文本采取不同的处理方式等,基于敏感度确定装置13确定的目标文本的敏感度,对目标文本做敏感处理,以获得敏感处理后的目标文本。在此,预置的敏感文本处理规则用于根据不同的目标应用要求,对相应的目标文本进行不同的敏感处理。例如,预置的敏感文本处理规则为设定一个敏感度阈值,超过该敏感度阈值的目标文本将被删除,低于该敏感度阈值的目标文本中的显敏感词和隐敏感词将被以“*”替代,处理装置根据该预置的敏感文本处理规则,基于目标文本的敏感度,对该目标文本进行敏感处理,如若其敏感度低于该设定的敏感度阈值,将该目标文本中的显敏感词和隐敏感词以“*”替代,以获得敏感处理后的目标文本。又如,假设敏感度确定设备 1为浏览器,预置的敏感文本处理规则为对于敏感级别为1级的网页,禁止家里的小朋友访问,对于敏感级别为2级的网页,以“*”替换其中的敏感词,对于敏感级别为3级的网页,禁止所有人访问;处理装置根据当前网页服务器返回的网页的敏感度,假设其敏感级别为3 级,按照该预置的敏感文本处理规则,禁止所有人访问该网页,如转向404错误页面。本领域技术人员应能理解上述敏感文本处理规则与对目标文本做敏感处理的方式仅为举例,其他现有的或今后可能出现的敏感文本处理规则或者对目标文本做敏感处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,敏感度确定设备1还包括提供装置(未示出),文本获取装置11还获取与用户通过用户设备提交的访问请求相对应的所述目标文本;提供装置将所述敏感处理后的目标文本提供给所述用户设备。具体地, 文本获取装置11还通过诸如接收用户经由用户设备发送的访问请求,并基于该访问请求获取相应的目标文本,或者接收来自第三方设备的与用户通过用户设备提交的访问请求相对应的目标文本,或者接受来自第三方设备的待提供给用户设备以供用户访问的目标文本;随后,敏感词获取装置12获取该目标文本中的显敏感词和隐敏感词,敏感度确定装置13加权确定该目标文本的敏感度,处理装置基于该敏感度对该目标文本进行敏感处理;提供装置通过诸如页面技术,如ASP、JSP、PHP等,将敏感处理后的目标文本生成新的页面提供该用户设备,或者将目标文本替换为预置页面,如404 错误页面,并将该预置页面提供给该用户设备。例如,假设敏感度确定设备1为web服务器,文本获取装置11接收用户经由用户设备发送的访问请求,并基于该访问请求获取相应的网页,敏感词获取装置12按照预设敏感词库获取该网页中的显敏感词和隐敏感词,敏感度确定装置13根据这些显敏感词和隐敏感词的敏感赋值,加权确定该目标文本的敏感度, 处理装置按照预置的敏感文本处理规则,如删除超过敏感度阈值的目标文本,基于该目标文本的敏感度,如该目标文本的敏感度超过该敏感度阈值,则删除该目标文本,此时会产生一个404错误页面;提供装置将该404错误页面发送给该用户设备。本领域技术人员应能理解上述获取目标文本与提供敏感处理后的目标文本的方式仅为举例,其他现有的或今后可能出现的获取目标文本或提供敏感处理后的目标文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,提供装置还将所述敏感处理后的目标文本及其所述敏感度提供给所述用户设备。具体地,提供装置还将经处理装置敏感处理后的目标文本,以及该敏感处理后的目标文本相应的敏感度提供给该用户设备。例如,在处理装置对目标文本按照预置的敏感文本处理规则进行敏感处理后,提供装置将该敏感处理后的目标文本及其相应的敏感度提供给该用户设备,其中,该敏感度飘红显示,以使用户知道该目标文本中含有敏感内容, 并作出相应的应对措施,如将该目标文本所对应的URL,甚至是所在的站点设置为禁止访问等。本领域技术人员应能理解上述提供敏感处理后的目标文本及其相应敏感度的方式仅为举例,其他现有的或今后可能出现的提供敏感处理后的目标文本或者其相应敏感度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,敏感度确定装置13还根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,并结合所述用户的用户相关信息,加权确定所述目标文本的敏感度。具体地,敏感度确定装置13还根据目标文本中显敏感词的敏感赋值和隐敏感词的敏感赋值,并结合所述用户的用户相关信息,诸如用户的年龄、用户当前访问应用的应用类型等会对目标文本的敏感度的确定产生影响的、且与用户自身或者其行为有关的信息,加权确定该目标文本的敏感度。在此,显敏感词的敏感赋值和隐敏感词的敏感赋值可以由预设敏感词库获取, 也可以由第三方设备的专用词库获取。例如,敏感度确定装置13根据预设敏感词库中显敏感词的敏感赋值和隐敏感词的敏感赋值,并结合用户当前访问应用的应用类型,如用户当前访问的页面为医学类,加权确定该页面的敏感度,如先叠加显敏感词的敏感赋值和隐敏感词的敏感赋值,确定该页面的初始敏感度,再根据该当前访问应用的应用类型,将该初始敏感度*0. 6,得到该页面的敏感度。本领域技术人员应能理解上述确定目标文本的敏感度的方式仅为举例,其他现有的或今后可能出现的确定目标文本的敏感度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,所述用户相关信息包括但不限于,以下至少任一项 1)所述用户的基本属性; 2)所述用户所访问应用的应用类型。
具体地,用户相关信息包括但不限于,以下至少任一项1)用户的基本属性,诸如用户的年龄、职业等,例如,同一文档,对于儿童和成人来说,儿童所对应的目标文本的敏感度必须要远远高于成人所对应的目标文本的敏感度;2)用户所访问应用的应用类型,诸如用户当前访问的页面的类型、用户当前所使用的应用服务的类型,例如,医学类文档的敏感度的确定标准应当低于普通文档的敏感度的确定标准,论坛贴的敏感度的确定标准应当低于新闻网页的敏感度的确定标准。本领域技术人员应能理解上述各项用户相关信息仅为举例,其他现有的或今后可能出现的用户相关信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
此外,上述的用于确定目标文本的敏感度的设备可以与现有的浏览器相结合,构成一种新的浏览器,现有的浏览器可以是例如Microsoft公司的IE浏览器、Mozilla公司的Firefox浏览器、Google公司的Chrome浏览器、遨游公司的Maxthon浏览器、Opera公司的opera浏览器、360公司的360浏览器、搜狐公司的搜狗浏览器、腾讯公司的腾讯TT浏览嬰坐
-V^r ^t ο 上述的用于确定目标文本的敏感度的设备可以作为浏览器插件,与现有的浏览器相结合,现有的浏览器可以是例如Microsoft公司的IE浏览器、Mozilla公司的Firefox浏览器、Google公司的Chrome浏览器、遨游公司的Maxthon浏览器、Opera公司的opera浏览器、360公司的360浏览器、搜狐公司的搜狗浏览器、腾讯公司的腾讯TT浏览器等。
图3为根据本发明另一个方面的方法流程图,示出一种用于确定目标文本的敏感度的过程。具体地,在步骤Sl中,敏感度确定设备1获取待确定敏感度的目标文本;随后, 在步骤S2中,敏感度确定设备1根据所述目标文本,在预设敏感词库中进行匹配查询,以获得所述目标文本中的显敏感词和隐敏感词;接着,在步骤S3中,敏感度确定设备1根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,加权确定所述目标文本的敏感度。在此,敏感度确定设备1包括但不限于网络设备,或者与文档提交设备经由网络相连的专用设备;其中,网络设备包括但不限于网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合,在此,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机;网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc 网络)、GSM、WCDMA、CDMA2000、TD-SCDMA、GSM、CDMAlx、WIFI、WAPI、 WiMax等。本领域技术人员应能理解上述敏感度确定设备、网络设备以及网络仅为举例,其他现有的或今后可能出现的敏感度确定设备、网络设备或者网络如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更具体地,在步骤Sl中,敏感度确定设备1获取待确定敏感度的目标文本。具体地,在步骤Sl中,敏感度确定设备1通过诸如其向其他设备提供的应用程序接口(API)接收文档、或者按照约定的通信协议,如http、https等,接收来自其他设备的文档等方式获取待确定敏感度的目标文本,诸如用户提交的论坛帖、其他设备传输的文档、来自web服务器的网页等。例如,敏感度确定设备1通过其向用户设备提供的应用程序接口(API),接收用户经由用户设备提交的论坛贴,在此,该论坛帖即为待确定敏感度的目标文本。又如,假设敏感度确定设备1为确定目标文本敏感度的专用设备,其按照约定的通信协议,如http、 https等,接收来自其他设备的文档,在此,该文档即为待确定敏感度的目标文本。本领域技术人员应能理解上述获取目标文本的方式以及目标文本仅为举例,其他现有的或今后可能出现的获取目标文本的方式或者目标文本如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
随后,在步骤S2中,敏感度确定设备1根据所述目标文本,在预设敏感词库中进行匹配查询,以获得所述目标文本中的显敏感词和隐敏感词。具体地,在步骤S2中,敏感度确定设备1根据其在步骤Sl中获取的目标文本,在预设敏感词库中进行匹配查询,以获得该目标文本中的显敏感词和隐敏感词。在此,显敏感词包括具有确定的色情、暴力、反动等含义的词;隐敏感词包括具有色情、暴力、反动等倾向含义的词,以及经常与显敏感词同时出现在敏感度较高的文本中的词;如脱衣为隐敏感词,脱衣舞为显敏感词,并且当隐敏感词出现在敏感度较高的文本中的次数达到一定值时,该隐敏感词将被标注为显敏感词。例如,在步骤Sl中,敏感度确定设备1接收用户提交的论坛帖,在步骤S2中,该敏感度确定设备1 直接将该论坛贴在预设敏感词库中进行匹配查询,以获得该论坛贴中的显敏感词和隐敏感词。又如,在步骤Sl中,敏感度确定设备1接收自其他设备发送的待确定敏感度的目标文本,在步骤S2中,该敏感度确定设备1对该目标文本进行分词处理,获得相应的关键词,并对这些关键词在预设敏感词库中进行匹配查询,以获得与该目标文本相对应的显敏感词和隐敏感词。本领域技术人员应能理解上述获取显敏感词和隐敏感词的方式仅为举例,其他现有的或今后可能出现的获取显敏感词或隐敏感词的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S3中,敏感度确定设备1根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,加权确定所述目标文本的敏感度。具体地,在步骤S3中,敏感度确定设备 1根据其在步骤S2中获取的目标文本中的显敏感词和隐敏感词,以及该(等)显敏感词的敏感赋值和该(等)隐敏感词的敏感赋值,加权确定该目标文本的敏感度。在此,显敏感词的敏感赋值和隐敏感词的敏感赋值可以由预设敏感词库获取,也可以由第三方设备的专用词库获取。例如,在步骤Sl中,敏感度确定设备1接收用户提交的论坛帖;在步骤S2中, 该敏感度确定设备1根据预设敏感词库获取该论坛贴中的显敏感词和隐敏感词;在步骤S3 中,该敏感度确定设备1根据该预设敏感词库中这些显敏感词的敏感赋值和隐敏感词的敏感赋值,将这些敏感赋值叠加获取该论坛贴的敏感度,或者根据各显敏感词和各隐敏感词的权重,加权确定该论坛贴的敏感度。又如,在步骤Sl中,敏感度确定设备1接收用户提交的博客内容;在步骤S2中,该敏感度确定设备1根据预设敏感词库获取该博客内容中的显敏感词和隐敏感词,第三方设备的专用词库中存储有显敏感词的敏感赋值和隐敏感词的敏感赋值;在步骤S3中,该敏感度确定设备1根据该博客内容中的显敏感词和隐敏感词向该第三方设备发送获取相应的敏感赋值的请求,并接收该第三方设备返回的基于该专用词库的这些显敏感词的敏感赋值和隐敏感词的敏感赋值,并根据各显敏感词和各隐敏感词的权重,加权确定该博客内容的敏感度。本领域技术人员应能理解上述确定目标文本的敏感度的方式仅为举例,其他现有的或今后可能出现的确定目标文本的敏感度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。优选地,敏感度确定设备1在步骤Si、步骤S2和步骤S3中是持续不断工作的。具体地,在步骤Sl中,敏感度确定设备1获取待确定敏感度的目标文本;随后,在步骤S2中, 该敏感度确定设备1根据所述目标文本,在预设敏感词库中进行匹配查询,以获得所述目标文本中的显敏感词和隐敏感词;接着,在步骤S3中,该敏感度确定设备1根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,加权确定所述目标文本的敏感度。在此,本领域技术人员应理解“持续”是指敏感度确定设备1在步骤Si、步骤S2和步骤S3中分别按照设定的或实时调整的工作模式要求进行目标文本的获取、敏感词的获取、以及目标文本敏感度的确定,直至敏感度确定设备1在较长时间内停止获取待确定敏感度的目标文本。
图4为根据本发明一个优选实施例的方法流程图,示出一种用于确定目标文本的敏感度的过程。具体地,在步骤S21’中,敏感度确定设备1对所述目标文本进行分词处理, 以获得所述目标文本中的关键词;在步骤S22’中,敏感度确定设备1根据所述关键词,在所述预设敏感词库中进行匹配查询,以获得所述显敏感词和所述隐敏感词。其中,图4中步骤 Si’、步骤S3’的内容与图3中步骤Si、步骤S3的内容相同,为简明起见,以引用方式包含于此,不再赘述。
在步骤S21’中,敏感度确定设备1对所述目标文本进行分词处理,以获得所述目标文本中的关键词。具体地,在步骤S21’中,敏感度确定设备1通过诸如最大正向匹配法、 最大反向匹配法、最大字概率法等分词技术,对目标文本进行分词处理,以获得目标文本中的关键词。例如,假设目标文本为用户经由用户设备提交的论坛贴,在步骤S21’中,敏感度确定设备1通过诸如最大字概率法对该论坛贴进行分词处理,获得该论坛贴中的关键词。 本领域技术人员应能理解上述分词技术仅为举例,其他现有的或今后可能出现的分词技术如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S22’中,敏感度确定设备1根据所述关键词,在所述预设敏感词库中进行匹配查询,以获得所述显敏感词和所述隐敏感词。具体地,在步骤S22’中,敏感度确定设备 1根据其在步骤S21’中分词获得的关键词,在预设敏感词库中进行匹配查询,以获得目标文本中的显敏感词和隐敏感词。例如,假设目标文本为用户经由用户设备提交的论坛贴,在步骤S21’中,敏感度确定设备1对该论坛贴进行分词处理,获得相应的关键词;在步骤S22’中,该敏感度确定设备1根据这些关键词在在预设敏感词库中进行匹配查询,以获得该论坛贴中的显敏感词和隐敏感词。本领域技术人员应能理解上述获取显敏感词和隐敏感词的方式仅为举例,其他现有的或今后可能出现的获取显敏感词或隐敏感词的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在一个优选实施例中(参照图3),在步骤S3中,敏感度确定设备1还根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,以及所述显敏感词和所述隐敏感词分别在所述目标文本中的出现频次,加权确定所述敏感度。以下参照图3对该优选实施例进行详细描述,其中,在步骤Sl中,敏感度确定设备1获取待确定敏感度的目标文本;随后,在步骤S2中,该敏感度确定设备1根据所述目标文本,在预设敏感词库中进行匹配查询,以获得所述目标文本中的显敏感词和隐敏感词;其具体过程与前述参照图3所描述的实施例中敏感度确定设备1在步骤Sl和步骤S2中所执行的过程相同,为简明起见,以引用方式包含于此,而不再赘述。
具体地,在步骤S3中,敏感度确定设备1还根据其在步骤S2中获取的显敏感词的敏感赋值和隐敏感词的敏感赋值,以及该(等)显敏感词和该(等)隐敏感词分别在目标文本中的出现频次,加权确定该目标文本的敏感度。在此,显敏感词的敏感赋值和隐敏感词的敏感赋值可以由预设敏感词库获取,也可以由第三方设备的专用词库获取。例如,在步骤 Sl中,敏感度确定设备1接收用户提交的论坛帖;在步骤S2中,该敏感度确定设备1根据预设敏感词库获取该论坛贴中的显敏感词和隐敏感词;在步骤S3中,该敏感度确定设备1根据这些显敏感词和隐敏感词分别在该论坛贴中的出现频次,确定各显敏感词和各隐敏感词的权重,并根据该预设敏感词库中这些显敏感词的敏感赋值和隐敏感词的敏感赋值,加权确定该论坛贴的敏感度。又如,在步骤Sl中,敏感度确定设备1接收用户提交的博客内容; 在步骤S2中,该敏感度确定设备1根据预设敏感词库获取该博客内容中的显敏感词和隐敏感词,第三方设备的专用词库中存储有显敏感词的敏感赋值和隐敏感词的敏感赋值;在步骤S3中,该敏感度确定设备1根据该博客内容中的显敏感词和隐敏感词向该第三方设备发送获取相应的敏感赋值的请求,并接收该第三方设备返回的基于该专用词库的这些显敏感词的敏感赋值和隐敏感词的敏感赋值,并根据该博客内容中显敏感词和隐敏感词的出现频次,增加相应显敏感词和隐敏感词的敏感赋值,如显敏感词出现一次,其相应的敏感赋值加 1,隐敏感词出现一次,其相应的敏感赋值加0.5,再根据这些显敏感词和隐敏感词的最终敏感赋值确定各显敏感词和各隐敏感词的权重,加权确定该博客内容的敏感度;在此,各显敏感词和各隐敏感词的权重,可以在其加入该预设敏感词库时预先设定,也可以根据其敏感赋值确定,还可以根据其在目标文本中的出现频次确定。本领域技术人员应能理解上述确定各显敏感词和各隐敏感词的权重的方式以及确定目标文本的敏感度的方式仅为举例,其他现有的或今后可能出现的确定各显敏感词和各隐敏感词的权重的方式或者确定目标文本的敏感度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在另一个优选实施例中(参照图3),该过程还包括步骤S4(未示出),在步骤S4 中,敏感度确定设备1根据预置的预处理规则,对所述目标文本进行预处理,以获得与所述目标文本相对应的预处理文本;随后,在步骤S2中,敏感度确定设备1还根据所述预处理文本,在所述预设敏感词库中进行匹配查询,以获得所述显敏感词和所述隐敏感词。以下参照图3对该另一优选实施例进行详细描述,其中,在步骤Sl中,敏感度确定设备1获取待确定敏感度的目标文本;在步骤S3中,敏感度确定设备1根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,加权确定所述目标文本的敏感度;其具体过程与前述参照图3所描述的实施例中敏感度确定设备1在步骤Sl和中步骤S3中所执行的过程相同,为简明起见, 以引用方式包含于此,而不再赘述。
具体地,在步骤S4中,敏感度确定设备1根据预置的预处理规则,诸如删除目标文本中的异常字符、将目标文本中的异形文字串转换为正常文字串等,对其在步骤Sl中获取的目标文本进行预处理,以获得与该目标文本相对应的预处理文本;随后,在步骤S2中,该敏感度确定设备1还根据该预处理文本,在预设敏感词库中进行匹配查询,以获得该目标文本中的显敏感词和隐敏感词。在此,该预处理规则用于将敏感度确定设备1在步骤Sl中获取的初始目标文本转换为可供直接进行词库匹配或先进行分词处理再执行词库匹配操作的预处理文本。例如,在步骤Sl中,敏感度确定设备1获取的目标文本中的字符包括多个异常字符,如“*”、“&”、“ % ”、“ “ ”、“#”、“$”等;在步骤S4中,该敏感度确定设备1根据预置的预处理规则,如删除目标文本中的异常字符,基于异常字符集、正常字符集或两者的结合,识别目标文本中的异常字符,并删除这些异常字符,以获得对该目标文本预处理后的预处理文本;在步骤S2中,该敏感度确定设备1根据该预处理文本,在预设敏感词库中进行匹配查询,以获得该目标文本中的显敏感词和隐敏感词。本领域技术人员应能理解上述对目标文本进行预处理的方式仅为举例,其他现有的或今后可能出现的对目标文本进行预处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,敏感度确定设备1在步骤S4中的所述预置的预处理规则包括但不限于, 以下至少任一项 1)删除所述目标文本中的异常字符; 2)将所述目标文本中的异形文字串转换为正常文字串。
具体地,在步骤S4中,敏感度确定设备1预置的的预处理规则,用于将目标文本转换为预处理文本,在此,预处理规则包括但不限于,以下至少任一项1)删除目标文本中的异常字符,如“*”、“&”、“ % ”、“"”、“#”、“$”等;2)将目标文本中的异形文字串,诸如竖形文字、艺术字等变形体的文字串,转换为正常文字串。当目标文本中包括多个异常字符时,这些异常字符会影响敏感度确定设备1在步骤S2中对目标文本中显敏感词和隐敏感词的识别;例如,在步骤S2中,敏感度确定设备1按照预设敏感词库对目标文本进行匹配查询时, 由于异常字符的存在,尤其是为了规避词库的匹配查询,异常字符通常会穿插在显敏感词或者隐敏感词中,使得无论是对该目标文本的直接匹配,还是对该目标文本中关键词的匹配,都无法查询获得与该目标文本相对应的显敏感词或者隐敏感词。当预置的预处理规则包括删除目标文本中的异常字符时,在步骤S4中,该敏感度确定设备1基于异常字符集、正常字符集或两者的结合,识别目标文本中的异常字符,并删除这些异常字符,以获得对该目标文本预处理后的预处理文本。目标文本中的异形文字串,诸如竖形文字、艺术字等变形体的文字串同样会影响敏感度确定设备1在步骤S2中对目标文本中显敏感词和隐敏感词的识别,使得异形文字串成为不良发布者逃避对文本的敏感审核的有效手段。当预置的预处理规则包括将目标文本中的异形文字串转换为正常文字串时,在步骤S4中,敏感度确定设备1基于异形文字集,识别目标文本中的异形文字,并根据异形文字与正常文字的映射关系,将这些异形文字转换为正常文字,以获得对该目标文本预处理后的预处理文本。本领域技术人员应能理解上述各项预处理规则不仅能够单独用于将目标文本转换为预处理文本, 还可以相互结合用于将目标文本转换为预处理文本。本领域技术人员还应能理解上述预处理规则仅为举例,其他现有的或今后可能出现的预处理规则如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在再一个优选实施例中(参照图3),该过程还包括步骤S5(未示出),在步骤S5 中,敏感度确定设备1根据敏感词在所述目标文本中的出现频次,并结合所述目标文本的敏感度,更新所述敏感词的敏感赋值;根据所述更新后敏感词的敏感赋值,更新所述预设敏感词库; 其中,所述敏感词包括但不限于,以下至少任一项 1)所述显敏感词; 2)所述隐敏感词。
以下参照图3对该再一优选实施例进行详细描述,其中,在步骤S 1中,敏感度确定设备1获取待确定敏感度的目标文本;随后,在步骤S2中,敏感度确定设备1根据所述目标文本,在预设敏感词库中进行匹配查询,以获得所述目标文本中的显敏感词和隐敏感词; 接着,在步骤S3中,敏感度确定设备1根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,加权确定所述目标文本的敏感度;其具体过程与前述参照图3所描述的实施例中敏感度确定设备1在步骤Si、步骤S2和步骤S3中所执行的过程相同,为简明起见,以引用方式包含于此,而不再赘述。
具体地,在步骤S5中,敏感度确定设备1根据敏感词,如显敏感词或隐敏感词,在目标文本中的出现频次,并结合该目标文本的敏感度,更新该(等)敏感词的敏感赋值,并根据更新后该(等)敏感词的敏感赋值,更新预设敏感词库。例如,当目标文本的敏感度超过其相应的预设阈值时,在步骤S5中,敏感度确定设备1根据该目标文本中显敏感词和隐敏感词的出现频次,增加预设敏感词库中这些显敏感词和隐敏感词的敏感赋值,如显敏感词出现一次,其相应的敏感赋值加0. 1,隐敏感词出现一次,其相应的敏感赋值加0. 01,从而根据显敏感词和隐敏感词的敏感赋值的变化,更新该预设敏感词库。优选地,当隐敏感词增加后的敏感赋值达到其相应的预设阈值时,在步骤S5中,敏感度确定设备1将该隐敏感词标注为显敏感词;当显敏感词增加后的敏感赋值达到其相应的预设阈值时,提高该显敏感词的敏感级别,如从1级升至2级,从而更新该预设敏感词库。优选地,该敏感级别将直接影响目标文本的处理方式,或者更改该显敏感词对应的处理方式,如从以“*”替换该显敏感词变更为删除该目标文本。又如,在步骤S5中,敏感度确定设备1累加同一显敏感词或者隐敏感词在敏感度超过其预设阈值的目标文本的出现频次,当同一显敏感词的累加出现频次超过其相应频次阈值时,将该显敏感词的敏感赋值加1 ;当同一隐敏感词的累加出现频次超过其相应频次阈值时,将该显敏感词的敏感赋值加0. 5 ;从而更新该预设敏感词库。 本领域技术人员应能理解上述更新敏感词的敏感赋值和预设敏感词库的方式仅为举例,其他现有的或今后可能出现的更新敏感词的敏感赋值或者预设敏感词库的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,该过程还包括步骤S6(未示出),在步骤S6中,敏感度确定设备1根据所述敏感词,在所述目标文本中进行近似查询,以获得与所述敏感词相对应的候选敏感词;在步骤S5中,该敏感度确定设备1还根据所述候选敏感词在所述目标文本中的出现频次,并结合所述目标文本的敏感度,更新所述候选敏感词的敏感赋值;根据所述更新后候选敏感词的敏感赋值,更新所述预设敏感词库。具体地,在步骤S6中,敏感度确定设备1根据目标文本中的敏感词,包括显敏感词和隐敏感词,在该目标文本中进行近似查询,以获得与显敏感词或者隐敏感词相对应的候选敏感词;在步骤S5中,该敏感度确定设备1还根据该(等) 候选敏感词在该目标文本中的出现频次,并结合该目标文本的敏感度,更新该候选敏感词的敏感赋值,并根据该更新后候选敏感词的敏感赋值,更新预设敏感词库。例如,在步骤S2 中,敏感度确定设备1获取目标文本中的显敏感词和隐敏感词,如显敏感词“舞女”和隐敏感词“脱衣”;在步骤S6中,该敏感度确定设备1根据这些显敏感词和隐敏感词在该目标文本中做近似查询,如通过对该目标文本做分词处理后获得的关键词与这些显敏感词和隐敏感词计算近似度,获得与其中一个或多个显敏感词或者隐敏感词相对应的候选敏感词,如 “脱衣舞”和“脱衣舞女”;在步骤S5中,该敏感度确定设备1还根据这些候选敏感词在该目标文本中的出现频次,并结合该目标文本的敏感度,更新该候选敏感词的敏感赋值,例如, 在首次发现一个候选敏感词时,对其赋予初始敏感赋值,再如,当该候选敏感词在该目标文本中的出现频次以及该目标文本的敏感度均超过其相应阈值时,更新该候选敏感词的敏感赋值,如使其敏感赋值增加5 ;在步骤S5中,敏感度确定设备1根据该更新后候选敏感词的敏感赋值,如当该候选敏感词的增加后的敏感赋值达到一定值,则将该候选敏感词标注为隐敏感词,从而更新该预设敏感词库。本领域技术人员应能理解上述获取候选敏感词与更新预设敏感词库的方式仅为举例,其他现有的或今后可能出现的获取候选敏感词或者更新预设敏感词库的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在又一个优选实施例中(参照图3),该过程还包括步骤S7(未示出),在步骤S7 中,敏感度确定设备1根据预置的敏感文本处理规则,基于所述目标文本的敏感度,对所述目标文本做敏感处理,以获得敏感处理后的所述目标文本。以下参照图3对该又一优选实施例进行详细描述,其中,在步骤Sl中,敏感度确定设备1获取待确定敏感度的目标文本; 随后,在步骤S2中,该敏感度确定设备1根据所述目标文本,在预设敏感词库中进行匹配查询,以获得所述目标文本中的显敏感词和隐敏感词;接着,在步骤S3中,该敏感度确定设备 1根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,加权确定所述目标文本的敏感度;其具体过程与前述参照图3所描述的实施例中敏感度确定设备1在步骤Si、步骤S2 和步骤S3中所执行的过程相同,为简明起见,以引用方式包含于此,而不再赘述。
具体地,在步骤S7中,敏感度确定设备1根据预置的敏感文本处理规则,诸如超过设定的敏感度阈值的目标文本将被删除,或者根据不同的敏感度级别对目标文本采取不同的处理方式等,基于其在步骤S3中确定的目标文本的敏感度,对目标文本做敏感处理,以获得敏感处理后的目标文本。在此,预置的敏感文本处理规则用于根据不同的目标应用要求,对相应的目标文本进行不同的敏感处理。例如,预置的敏感文本处理规则为设定一个敏感度阈值,超过该敏感度阈值的目标文本将被删除,低于该敏感度阈值的目标文本中的显敏感词和隐敏感词将被以“*”替代,在步骤S7中,该敏感度确定设备1根据该预置的敏感文本处理规则,基于目标文本的敏感度,对该目标文本进行敏感处理,如若其敏感度低于该设定的敏感度阈值,将该目标文本中的显敏感词和隐敏感词以“*”替代,以获得敏感处理后的目标文本。又如,假设敏感度确定设备1为浏览器,预置的敏感文本处理规则为对于敏感级别为1级的网页,禁止家里的小朋友访问,对于敏感级别为2级的网页,以“*”替换其中的敏感词,对于敏感级别为3级的网页,禁止所有人访问;在步骤S7中,该敏感度确定设备 1根据当前网页服务器返回的网页的敏感度,假设其敏感级别为3级,按照该预置的敏感文本处理规则,禁止所有人访问该网页,如转向404错误页面。本领域技术人员应能理解上述敏感文本处理规则与对目标文本做敏感处理的方式仅为举例,其他现有的或今后可能出现的敏感文本处理规则或者对目标文本做敏感处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,该过程还包括步骤S8(未示出),在步骤Sl中,敏感度确定设备1获取与用户通过用户设备提交的访问请求相对应的所述目标文本;在步骤S8中,该敏感度确定设备1将所述敏感处理后的目标文本提供给所述用户设备。具体地,在步骤Sl中,敏感度确定设备1还通过诸如接收用户经由用户设备发送的访问请求,并基于该访问请求获取相应的目标文本,或者接收来自第三方设备的与用户通过用户设备提交的访问请求相对应的目标文本,或者接受来自第三方设备的待提供给用户设备以供用户访问的目标文本;随后,在步骤S2中,该敏感度确定设备1获取该目标文本中的显敏感词和隐敏感词,在步骤S3中,该敏感度确定设备1加权确定该目标文本的敏感度,处理装置基于该敏感度对该目标文本进行敏感处理;在步骤S8中,该敏感度确定设备1通过诸如页面技术,如ASP、JSP、PHP等,将敏感处理后的目标文本生成新的页面提供该用户设备,或者将目标文本替换为预置页面, 如404错误页面,并将该预置页面提供给该用户设备。例如,假设敏感度确定设备1为web 服务器,在步骤Sl中,该敏感度确定设备1接收用户经由用户设备发送的访问请求,并基于该访问请求获取相应的网页;在步骤S2中,该敏感度确定设备1按照预设敏感词库获取该网页中的显敏感词和隐敏感词;在步骤S3中,该敏感度确定设备1根据这些显敏感词和隐敏感词的敏感赋值,加权确定该目标文本的敏感度;在步骤S7中,该敏感度确定设备1按照预置的敏感文本处理规则,如删除超过敏感度阈值的目标文本,基于该目标文本的敏感度, 如该目标文本的敏感度超过该敏感度阈值,则删除该目标文本,此时会产生一个404错误页面;在步骤S8中,敏感度确定设备1将该404错误页面发送给该用户设备。本领域技术人员应能理解上述获取目标文本与提供敏感处理后的目标文本的方式仅为举例,其他现有的或今后可能出现的获取目标文本或提供敏感处理后的目标文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,在步骤S8中,敏感度确定设备1还将所述敏感处理后的目标文本及其所述敏感度提供给所述用户设备。具体地,在步骤S8中,敏感度确定设备1还将经其在步骤S7中敏感处理后的目标文本,以及该敏感处理后的目标文本相应的敏感度提供给该用户设备。例如,在步骤S7中,敏感度确定设备1对目标文本按照预置的敏感文本处理规则进行敏感处理;在步骤S8中,该敏感度确定设备1将该敏感处理后的目标文本及其相应的敏感度提供给该用户设备,其中,该敏感度飘红显示,以使用户知道该目标文本中含有敏感内容,并作出相应的应对措施,如将该目标文本所对应的URL,甚至是所在的站点设置为禁止访问等。本领域技术人员应能理解上述提供敏感处理后的目标文本及其相应敏感度的方式仅为举例,其他现有的或今后可能出现的提供敏感处理后的目标文本或者其相应敏感度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,在步骤S3中,敏感度确定设备1还根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,并结合所述用户的用户相关信息,加权确定所述目标文本的敏感度。 具体地,在步骤S3中,敏感度确定设备1还根据目标文本中显敏感词的敏感赋值和隐敏感词的敏感赋值,并结合所述用户的用户相关信息,诸如用户的年龄、用户当前访问应用的应用类型等会对目标文本的敏感度的确定产生影响的、且与用户自身或者其行为有关的信息,加权确定该目标文本的敏感度。在此,显敏感词的敏感赋值和隐敏感词的敏感赋值可以由预设敏感词库获取,也可以由第三方设备的专用词库获取。例如,在步骤S3中,敏感度确定设备1根据预设敏感词库中显敏感词的敏感赋值和隐敏感词的敏感赋值,并结合用户当前访问应用的应用类型,如用户当前访问的页面为医学类,加权确定该页面的敏感度,如先叠加显敏感词的敏感赋值和隐敏感词的敏感赋值,确定该页面的初始敏感度,再根据该当前访问应用的应用类型,将该初始敏感度*0. 6,得到该页面的敏感度。本领域技术人员应能理解上述确定目标文本的敏感度的方式仅为举例,其他现有的或今后可能出现的确定目标文本的敏感度的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,所述用户相关信息包括但不限于,以下至少任一项 1)所述用户的基本属性; 2)所述用户所访问应用的应用类型。
具体地,用户相关信息包括但不限于,以下至少任一项1)用户的基本属性,诸如用户的年龄、职业等,例如,同一文档,对于儿童和成人来说,儿童所对应的目标文本的敏感度必须要远远高于成人所对应的目标文本的敏感度;2)用户所访问应用的应用类型,诸如用户当前访问的页面的类型、用户当前所使用的应用服务的类型,例如,医学类文档的敏感度的确定标准应当低于普通文档的敏感度的确定标准,论坛贴的敏感度的确定标准应当低于新闻网页的敏感度的确定标准。本领域技术人员应能理解上述各项用户相关信息仅为举例,其他现有的或今后可能出现的用户相关信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此夕卜,显然“包括” 一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
权利要求
1.一种由计算机实现的用于确定目标文本的敏感度的方法,其中,该方法包括以下步骤a获取待确定敏感度的目标文本;b根据所述目标文本,在预设敏感词库中进行匹配查询,以获得所述目标文本中的显敏感词和隐敏感词;c根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,加权确定所述目标文本的敏感度。
2.根据权利要求1所述的方法,其中,所述步骤b还包括bl对所述目标文本进行分词处理,以获得所述目标文本中的关键词; b2根据所述关键词,在所述预设敏感词库中进行匹配查询,以获得所述显敏感词和所述隐敏感词。
3.根据权利要求1或2所述的方法,其中,所述步骤c还包括-根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,以及所述显敏感词和所述隐敏感词分别在所述目标文本中的出现频次,加权确定所述敏感度。
4.根据权利要求1至3中任一项所述的方法,其中,该方法还包括r根据预置的预处理规则,对所述目标文本进行预处理,以获得与所述目标文本相对应的预处理文本;其中,所述步骤b还包括-根据所述预处理文本,在所述预设敏感词库中进行匹配查询,以获得所述显敏感词和所述隐敏感词。
5.根据权利要求4所述的方法,其中,所述步骤r中所述预置的预处理规则包括以下至少任一项-删除所述目标文本中的异常字符;-将所述目标文本中的异形文字串转换为正常文字串。
6.根据权利要求1至5中任一项所述的方法,其中,该方法还包括步骤i-根据敏感词在所述目标文本中的出现频次,并结合所述目标文本的敏感度,更新所述敏感词的敏感赋值;-根据所述更新后敏感词的敏感赋值,更新所述预设敏感词库; 其中,所述敏感词包括以下至少任一项 -所述显敏感词; -所述隐敏感词。
7.根据权利要求6所述的方法,其中,该方法还包括-根据所述敏感词,在所述目标文本中进行近似查询,以获得与所述敏感词相对应的候选敏感词;其中,所述步骤i还包括-根据所述候选敏感词在所述目标文本中的出现频次,并结合所述目标文本的敏感度, 更新所述候选敏感词的敏感赋值;-根据所述更新后候选敏感词的敏感赋值,更新所述预设敏感词库。
8.根据权利要求1至7中任一项所述的方法,其中,该方法还包括X根据预置的敏感文本处理规则,基于所述目标文本的敏感度,对所述目标文本做敏感处理,以获得敏感处理后的所述目标文本。
9.根据权利要求8所述的方法,其中,所述步骤a还包括-获取与用户通过用户设备提交的访问请求相对应的所述目标文本; 其中,该方法还包括y将所述敏感处理后的目标文本提供给所述用户设备。
10.根据权利要求9所述的方法,其中,所述步骤y还包括-将所述敏感处理后的目标文本及其所述敏感度提供给所述用户设备。
11.根据权利要求9或10所述的方法,其中,所述步骤C还包括-根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,并结合所述用户的用户相关信息,加权确定所述目标文本的敏感度。
12.根据权利要求11所述的方法,其中,所述用户相关信息包括以下至少任一项 -所述用户的基本属性;-所述用户所访问应用的应用类型。
13.一种用于确定目标文本的敏感度的设备,其中,该设备包括 文本获取装置,用于获取待确定敏感度的目标文本;敏感词获取装置,用于根据所述目标文本,在预设敏感词库中进行匹配查询,以获得所述目标文本中的显敏感词和隐敏感词;敏感度确定装置,用于根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,加权确定所述目标文本的敏感度。
14.根据权利要求13所述的设备,其中,所述敏感词获取装置还包括分词单元,用于对所述目标文本进行分词处理,以获得所述目标文本中的关键词; 敏感词获取单元,用于根据所述关键词,在所述预设敏感词库中进行匹配查询,以获得所述显敏感词和所述隐敏感词。
15.根据权利要求13或14所述的设备,其中,所述敏感度确定装置还用于-根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,以及所述显敏感词和所述隐敏感词分别在所述目标文本中的出现频次,加权确定所述敏感度。
16.根据权利要求13至15中任一项所述的设备,其中,该设备还包括预处理装置,用于根据预置的预处理规则,对所述目标文本进行预处理,以获得与所述目标文本相对应的预处理文本;其中,所述敏感词获取装置还用于-根据所述预处理文本,在所述预设敏感词库中进行匹配查询,以获得所述显敏感词和所述隐敏感词。
17.根据权利要求16所述的设备,其中,所述预处理装置中的所述预置的预处理规则包括以下至少任一项-删除所述目标文本中的异常字符; -将所述目标文本中的异形文字串转换为正常文字串。
18.根据权利要求13至17中任一项所述的设备,其中,该设备还包括更新装置,所述更新装置用于-根据敏感词在所述目标文本中的出现频次,并结合所述目标文本的敏感度,更新所述敏感词的敏感赋值;-根据所述更新后敏感词的敏感赋值,更新所述预设敏感词库; 其中,所述敏感词包括以下至少任一项 -所述显敏感词; -所述隐敏感词。
19.根据权利要求18所述的设备,其中,该设备还包括候选词获取装置,用于根据所述敏感词,在所述目标文本中进行近似查询,以获得与所述敏感词相对应的候选敏感词; 其中,所述更新装置还用于-根据所述候选敏感词在所述目标文本中的出现频次,并结合所述目标文本的敏感度, 更新所述候选敏感词的敏感赋值;-根据所述更新后候选敏感词的敏感赋值,更新所述预设敏感词库。
20.根据权利要求13至19中任一项所述的设备,其中,该设备还包括处理装置,用于根据预置的敏感文本处理规则,基于所述目标文本的敏感度,对所述目标文本做敏感处理,以获得敏感处理后的所述目标文本。
21.根据权利要求20所述的设备,其中,所述文本获取装置还用于 -获取与用户通过用户设备提交的访问请求相对应的所述目标文本; 其中,该设备还包括提供装置,用于将所述敏感处理后的目标文本提供给所述用户设备。
22.根据权利要求21所述的设备,其中,所述提供装置还用于-将所述敏感处理后的目标文本及其所述敏感度提供给所述用户设备。
23.根据权利要求21或22所述的设备,其中,所述敏感度确定装置还用于-根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,并结合所述用户的用户相关信息,加权确定所述目标文本的敏感度。
24.根据权利要求23所述的设备,其中,所述用户相关信息包括以下至少任一项 -所述用户的基本属性;-所述用户所访问应用的应用类型。
25.一种用于确定目标文本的敏感度的浏览器,其中,该浏览器包括如权利要求13至 24中任一项所述的装置。
26.一种用于确定目标文本的敏感度的浏览器插件,其中,该浏览器插件包括如权利要求13至M中任一项所述的装置。
全文摘要
本发明的目的是提供一种用于确定目标文本的敏感度的方法与设备。其中,敏感度确定设备获取待确定敏感度的目标文本;根据所述目标文本,在预设敏感词库中进行匹配查询,以获得所述目标文本中的显敏感词和隐敏感词;根据所述显敏感词的敏感赋值和所述隐敏感词的敏感赋值,加权确定所述目标文本的敏感度。与现有技术相比,本发明通过识别目标文本中的显敏感词和隐敏感词,提高了机器确定目标文本的敏感度的准确率,并且减少了后期可能需要的人工复核成本,进一步提高了目标文本的审核效率,使得本发明的应用范围得到了较大的扩展。
文档编号G06F17/30GK102184188SQ20111009598
公开日2011年9月14日 申请日期2011年4月15日 优先权日2011年4月15日
发明者李彦宏, 舒迅, 袁聃, 帅帅, 李岩 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1