敏感词替换方法和装置的制造方法_4

文档序号:9432582阅读:来源:国知局
敏感词对应的数字字母集合。
[0135]在步骤S720中,将所述数字字母集合确定为所述非敏感词。
[0136]如上所述,拼写是对文字符号的字母和/或数字直接表示,正是由于这样,可以无需任何预置的词汇库,而是直接对敏感词进行数字和/或字母的表示。
[0137]在一个示例中,可以全部采用字母的集合来表示敏感词。
[0138]具体地,在该步骤S710中,可以首先确定所述敏感词中的每个文字的拼音字母中的首字母;然后,按照每个文字在敏感词中的顺序来将每个文字的拼音中的首字母依次组合为首字母集合,作为所述数字字母集合。
[0139]例如,假设在步骤S210中接收到的目标文本是“这个人太变态了”。显然,该目标文本中包括一个敏感词“变态”。通过对该敏感词进行拼音分析,可以发现与敏感词“变态”对应的首字母集合是“BT”。这样,就可以在后续步骤中将上述目标文本转换为“这个人太BT 了”。
[0140]在另一示例中,当在敏感词中包括中文数字的情况下,可以采用字母和数字的集合来表示敏感词。
[0141]具体地,在该步骤S710中,可以首先判断在所述敏感词中是否包括中文数字;然后响应于在所述敏感词中包括中文数字,确定所述敏感词中的每个中文数字所对应的阿拉伯数字,并且确定所述敏感词中的每个非中文数字的拼音字母中的首字母;最后,按照每个文字在敏感词中的顺序来将每个中文数字所对应的阿拉伯数字和每个字的拼音中的首字母依次组合为所述数字字母集合。
[0142]例如,假设在步骤S210中接收到的目标文本是“这个人真是一个二傻”。显然,该目标文本中包括一个敏感词“二傻”,其中包含一个中文数字“二”。通过对该敏感词进行拼音和数字分析,可以发现与敏感词“二傻”对应的数字字母集合是“2S”。这样,就可以在后续步骤中将上述目标文本转换为“这个人真是一个2S”。
[0143]在步骤S240中,将所述敏感词替换为所述非敏感词。
[0144]最后,可以使用通过上述任一方式所确定的非敏感词来替换敏感词。
[0145]在本发明的一个实施方式中,由于可以存在多个敏感词替换规则,所以优选地,可以进一步向用户提供不同的选项,使得用户根据需要来选择不同的敏感词替换规则,以满足用户的定制化需求。
[0146]为此,在该步骤S230之前,本实施例的敏感词替换方法如具体还可以包括:
[0147]在步骤S250中,向用户提供多个替换候选规则。
[0148]在步骤S260中,接收用户在所述多个替换候选规则之中选择的一个替换候选规则。
[0149]在步骤S270中,将用户所选择的替换候选规则确定为所述敏感词替换规则。
[0150]例如,可以在用户界面交互设备(例如,客户端102)通过图形用户界面来向用户提供诸如基于语义判断的语义替换规则、基于拼写处理的拼写替换规则、基于区域匹配的方言替换规则等之类的多个敏感词替换规则。并且,根据用户利用输入设备所执行的选择操作来确定用户期望在步骤S230中使用的敏感词替换规则。
[0151]需要说明的是,尽量在上文中以步骤S250到S270在步骤S230之前执行为例进行了说明。然而,本发明不限于此。显然,该步骤S250到S270也可以位于步骤S220之前,甚至位于步骤S210之前。
[0152]通过本实施例的技术方案,可以对文本中的敏感词进行有意思的处理,以对该敏感词去敏感化。这样做的好处是:在用户方面,降低了用户的负能量,有利于社会和谐;在系统方面,降低了“人工审核”这类工作的工作量;在文化方面,体现了软件的人文关怀和社会和谐。因此,本发明的方法使得用户在向互联网发布内容的时候,即使在文本中夹杂了敏感词,也能通过对敏感词进行适当的处理来充分保护用户的发布积极性,提升用户的参与感。
[0153]示例件设备
[0154]在介绍了本发明示例性实施方式的方法之后,接下来,介绍根据本发明的另一示例性实施方式的敏感词替换装置。
[0155]图8示意性地示出了根据本发明实施方式的敏感词替换装置的示意图。如图8所示,该装置800可以包括:
[0156]目标文本接收单元810,用于接收目标文本;
[0157]敏感词查找单元820,用于根据敏感词库在所述目标文本中查找敏感词;
[0158]非敏感词确定单元830,用于根据敏感词替换规则来确定与所述敏感词对应的非敏感词,所述非敏感词具有比所述敏感词更低的敏感度并且用于表达与所述敏感词相同或相近的含义;以及
[0159]非敏感词替换单元840,用于将所述敏感词替换为所述非敏感词。
[0160]在本发明的一个实施例中,为了根据敏感词替换规则来确定与所述敏感词对应的非敏感词,该非敏感词确定单元830可以根据所述敏感词替换规则来获取替换词汇库;以及根据所述敏感词在所述替换词汇库中查找所述非敏感词。
[0161]在一个具体示例中,为了根据所述敏感词替换规则来获取替换词汇库,该非敏感词确定单元830可以响应于所述敏感词替换规则是语义替换规则,获取语义词汇库,所述语义词汇库定义了敏感词和非敏感词之间的对应关系,其中,相互对应的敏感词与非敏感词构成句子中相同的句子成分;以及将所述语义词汇库确定为所述替换词汇库。
[0162]在该具体示例中,为了根据所述敏感词在所述替换词汇库中查找所述非敏感词,该非敏感词确定单元830可以对所述目标文本进行语义分析;根据所述语义分析的结果来确定所述敏感词自身的句子成分;以及根据所述敏感词自身的句子成分来在所述语义词汇库中选择所述非敏感词。
[0163]具体地,为了根据所述敏感词自身的句子成分来在所述语义词汇库中选择所述非敏感词,该非敏感词确定单元830可以根据所述语义分析的结果来确定所述敏感词在所述目标文本中所作用的文字对象;以及根据所述敏感词自身的句子成分和所述文字对象的含义来在所述语义词汇库中选择所述非敏感词。
[0164]在另一具体示例中,为了根据所述敏感词替换规则来获取替换词汇库,该非敏感词确定单元830可以响应于所述敏感词替换规则是拼写替换规则,获取拼写词汇库,所述拼写词汇库定义了敏感词和非敏感词之间的对应关系,其中,非敏感词是与敏感词对应的数字字母集合;以及将所述拼写词汇库确定为所述替换词汇库。
[0165]在该具体示例中,为了根据所述敏感词在所述替换词汇库中查找所述非敏感词,该非敏感词确定单元830可以根据所述敏感词在所述拼写词汇库中查找特定的数字字母集合;以及将所述特定的数字字母集合确定为所述非敏感词
[0166]在又一具体示例中,为了根据所述敏感词替换规则来获取替换词汇库,该非敏感词确定单元830可以响应于所述敏感词替换规则是方言替换规则,获取用户设备的因特网协议(IP)地址;根据所述因特网协议地址来确定所述用户所在的地理区域;获取与所述地理区域对应的第一方言词汇库,所述第一方言词汇库定义了敏感词和方言同义词之间的对应关系,其中,所述方言同义词具有比所述敏感词更低的敏感度并且是在所述用户所在的地理区域中用于表达与所述敏感词相同或相近含义的方言词汇;以及将所述第一方言词汇库确定为所述替换词汇库。
[0167]在该具体示例中,为了根据所述敏感词在所述替换词汇库中查找所述非敏感词,该非敏感词确定单元830可以根据所述敏感词在所述第一方言词汇库中查找方言同义词,作为所述非敏感词。
[0168]替换地,为了根据所述敏感词在所述替换词汇库中查找所述非敏感词,该非敏感词确定单元830可以根据所述敏感词在所述第一方言词汇库中查找方言同义词;获取与所述地理区域对应的第二方言词汇库,所述第二方言词汇库定义了方言同义词和方言非敏感词之间的对应关系,其中,所述方言非敏感词具有比所述方言同义词更低的敏感度并且是在所述用户所在的地理区域中用于表达与所述方言同义词相同或相近含义的方言词汇;以及根据所述方言同义词在所述第二方言词汇库中查找方言非敏感词,作为要替换所述敏感词的所述非敏感词。
[0169]在本发明的一个实施例中,为了根据敏感词替换规则来确定与所述敏感词对应的非敏感词,该非敏感词确定单元830可以响应于所述敏感词替换规则是拼写替换规则,确定与所述敏感词对应的数字字母集合;以及将所述数字字母集合确定为所述非敏感词。
[0170]在一个具体示例中,为了确定与所述敏感词对应的数字字母集合,该非敏感词确定单元830可以确定所述敏感词中的每个文字的拼音字母中的首字母;以及按照每个文字在敏感词中的顺序来将每个文字的拼音中的首字母依次组合为首字母集合,作为所述数字字母集合。
[0171]在另一具体示例中,为了确定与所述敏感词对应的数字字母集合,该非敏感词确定单元830可以判断在所述敏感词中是否包括中文数字;响应于在所述敏感词中包括中文数字,确定所述敏感词中的每个中文数字所对应的阿拉伯数字,并且确定所述敏感词中的每个非中文数字的拼音字母中的首字母;以及按照每个文字在敏感词中的顺序来将每个中文数字所对应的阿拉伯数字和每个字的拼音中的首字母依次组合为所述数字字母集合。
[0172]继续参考图8,该装置800还可以包括:
[0173]候选规则提供单元850,用于向用户提供多个替换候选规则;
[0174]用户选择接收单元860,用于接收用户在所述多个替换候选规则之中选择的一个替换候选规则;以及
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1