敏感词替换方法和装置的制造方法_3

文档序号:9432582阅读:来源:国知局
用于形容吃到地沟油就会导致适应程度没有那么强,使得受众无法准确地理解用户所要表达的意思。为此,可以继续在语义词汇库中选择一个用于形容吃到地沟油的非敏感的名词或名词性短语,例如,“活着艰难啊”。这样,就可以在后续步骤中将上述目标文本分别转换为“怎么航班又延误了,苍天啊”和“怎么又吃到地沟油了,活着艰难啊”。
[0088]通过更进一步对比上述两个例子,可以发现,在第一例子中的语义分析更接近于是一种基于句子结构本身的语义分析,而在第二例子中的语义分析更接近于一种基于用户情景的语义分析。两者之间存在一定的区别,这是由于语义分析的结果所决定的。
[0089]显然,在本示例中,通过语义替换,可以将原有的敏感词处理为具有相同或相近含义的非敏感词,从而在去除了敏感度的情况下充分保留了原始的目标文本的原有含义,在没有负面影响的情况下,保证用户很好地表达了自己的意思。
[0090]在第二示例中,可以假设该所述敏感词替换规则是基于拼写处理的拼写替换规则。
[0091]拼写是对语言文字的字母和数字表示。字母表示主要是指拼音,其是拼读音节的过程,就是按照普通话音节的构成规律,把声母、介母、韵母急速连续拼合并加上声调而成为一个音节。数字表示主要是指当语义文字中包括中文数字的时候,可以直接使用阿拉伯数字来表示该中文数字。
[0092]在本示例中,可以通过寻找与敏感词对应的字母和/或数字组合,来对该敏感词进行去敏感化处理。
[0093]图5示意性地示出了本发明的实施方式中确定非敏感词步骤的第二示例的流程图。
[0094]如图5所示的,该步骤S310可以包括:
[0095]在步骤S510中,响应于所述敏感词替换规则是拼写替换规则,获取拼写词汇库,所述拼写词汇库定义了敏感词和非敏感词之间的对应关系,其中,非敏感词是与敏感词对应的数字字母集合。
[0096]例如,在拼写词汇库中定义了敏感词和非敏感词之间的对应关系,在每一对敏感词和非敏感词的对应关系中,非敏感词可以通过字母和数字的集合来表示出敏感词的含义。
[0097]例如,非敏感词可以采用以下方式构成:其包括敏感词中每个文字的拼音字母中的首字母,并且按照每个文字在敏感词中的顺序来将每个文字的拼音中的首字母依次组合为首字母集合。
[0098]替换地,非敏感词也可以采用以下方式构成:其包括敏感词中每个非中文数字的拼音字母中的首字母,并且包括敏感词中每个中文数字的阿拉伯数字,并且按照每个文字在敏感词中的顺序来将这些首字母和阿拉伯数字依次组合为数字字母集合。
[0099]在步骤S520中,将所述拼写词汇库确定为所述替换词汇库。
[0100]继续参考图5,该步骤S320可以包括:
[0101]在步骤S530中,根据所述敏感词在所述拼写词汇库中查找特定的数字字母集合。
[0102]在步骤S540中,将所述特定的数字字母集合确定为所述非敏感词。
[0103]下面,将举一个例子来具体说明本示例。
[0104]例如,假设在步骤S210中接收到的目标文本是“这个人太变态了”。显然,该目标文本中包括一个敏感词“变态”。通过在拼写词汇库中查找,可以发现与敏感词“变态”对应的非敏感数字字母集合是“BT”。这样,就可以在后续步骤中将上述目标文本转换为“这个人太BT 了”。
[0105]显然,在本示例中,通过拼写替换,可以将原有的敏感词处理为能够表达相同或相近含义的非敏感词,从而在去除了敏感度的情况下充分保留了原始的目标文本的原有含义。
[0106]在第三示例中,可以假设该所述敏感词替换规则是方言替换规则。
[0107]方言即地域方言,其是语言因地域方面的差别而形成的变体,是全民语言的不同地域上的分支,是语言发展不平衡性而在地域上的反映。从同一语言分化出来的地域分支,如果处于不完全分化的社会条件和同一语言的心理认同之下,就叫做“方言”。
[0108]在本示例中,可以通过寻找与敏感词对应的方言,来弱化与用户处于不同地域的大多数公众对于该敏感词的敏感程度。此外,还可以进一步查找与该敏感方言对应的非敏感方言,以便使得与用户处于相同地域的其他公众也可以不受负面影响并且更亲切地感受到用户所表达的文字含义。
[0109]图6示意性地示出了本发明的实施方式中确定非敏感词步骤的第三示例的流程图。
[0110]如图6所示的,该步骤S310可以包括:
[0111]在步骤S610中,响应于所述敏感词替换规则是方言替换规则,获取用户设备的因特网协议(IP)地址。
[0112]互联网上的每台主机(Host)都必须有一个唯一的IP地址。IP协议就是使用这个地址在主机之间传递信息,这是互联网能够运行的基础。IP地址的长度为32位(共有2~32个IP地址),分为4段,每段8位,用十进制数字表示,每段数字范围为O?255,段与段之间用句点隔开。例如,159.226.1.10 IP地址可以视为网络标识号码与主机标识号码两部分,也就是说,IP地址可以由两部分组成,一部分为网络地址,另一部分为主机地址。
[0113]在步骤S620中,根据所述因特网协议地址来确定所述用户所在的地理区域。
[0114]在获得客户端的IP地址之后,可以很容易地根据信息数据库等工具来定位到该客户端的大致或详细地址。根据该大致或详细地址可以判断出该用户处于哪个省市自治区、甚至是哪个市、区、县等。
[0115]在步骤S630中,获取与所述地理区域对应的第一方言词汇库,所述第一方言词汇库定义了敏感词和方言同义词之间的对应关系,其中,所述方言同义词具有比所述敏感词更低的敏感度并且是在所述用户所在的地理区域中用于表达与所述敏感词相同或相近含义的方言词汇。
[0116]例如,预先地可以为不同的地理区域定义出不同的方言词汇库。当然,为了节省存储空间,可以使得使用相同方言的地理区域对应于一个方言词汇库。从而,在确定出用户的地理区域之后,可以进而查找与该地理区域对应的方言词汇库。
[0117]在步骤S640中,将所述第一方言词汇库确定为所述替换词汇库。
[0118]继续参考图6,该步骤S320可以包括:
[0119]在步骤S650中,根据所述敏感词在所述第一方言词汇库中查找方言同义词,作为所述非敏感词。
[0120]下面,将举一个例子来具体说明本示例。
[0121 ] 例如,假设在步骤S210中接收到的目标文本是“这个人太弱智了 ”,并且相应的客户端IP地址指示出该客户端位于四川省。显然,该目标文本中包括一个敏感词“弱智”。通过在方言词汇库中查找,可以发现与敏感词“弱智”对应的非敏感方言是“哈儿”。这样,就可以在后续步骤中将上述目标文本转换为“这个人太哈儿了”。
[0122]显然,在本示例中,通过简单的方言替换,可以弱化与该四川用户处于不同地域的大多数公众对于该敏感词的敏感程度。
[0123]替换地,由于即使弱化后的方言词汇在一定程度上仍然可能具有敏感性,所以还可以进一步查找与该敏感方言对应的非敏感方言,以便可以进一步消除该敏感方言对于与用户处于相同地域的其他公众的负面影响。
[0124]为此,继续参考图6,该步骤S320也可以包括:
[0125]在步骤S660中,根据所述敏感词在所述第一方言词汇库中查找方言同义词;
[0126]在步骤S670中,获取与所述地理区域对应的第二方言词汇库,所述第二方言词汇库定义了方言同义词和方言非敏感词之间的对应关系,其中,所述方言非敏感词具有比所述方言同义词更低的敏感度并且是在所述用户所在的地理区域中用于表达与所述方言同义词相同或相近含义的方言词汇;以及
[0127]在步骤S680中,根据所述方言同义词在所述第二方言词汇库中查找方言非敏感词,作为要替换所述敏感词的所述非敏感词。
[0128]下面,将举一个例子来具体说明本示例。
[0129]例如,假设在步骤S210中接收到的目标文本是“这个人太弱智了”,并且相应的客户端IP地址指示出该客户端位于四川省。显然,该目标文本中包括一个敏感词“弱智”。通过在方言词汇库中查找,可以发现与敏感词“弱智”对应的非敏感词是“哈儿”。然而,由于“哈儿”仍然具有一定的侮辱性含义,所以可以在方言词汇库中进一步查找与该敏感方言“哈儿”对应的另一非敏感方言“憨脑壳”。这样,就可以在后续步骤中将上述目标文本转换为“这个人太憨脑壳了”。
[0130]显然,与前一例子相比,在本例子中,不但弱化了与该四川用户处于不同地域的大多数公众对于该敏感词的敏感程度,更是进一步将该仍然具有一定敏感程度的方言词汇进一步转换为不敏感的方言词汇,使得与该四川用户处于相同地域的其他公众能够正面且有意思地理解到该四川用户要表达的意思。
[0131]尽管在确定敏感词步骤的上述实施例中以获取替换词汇库为例进行了说明,但是,本发明不限于此。例如,在本发明的又一实施例中,当敏感词替换规则是基于拼写处理的拼写替换规则时,也可以无需获取替换词汇库,而是直接进行非敏感词的确定。
[0132]图7示意性地示出了本发明的实施方式中确定非敏感词步骤的又一实施例的流程图。
[0133]如图7所示,该步骤S230可以包括:
[0134]在步骤S710中,响应于所述敏感词替换规则是拼写替换规则,确定与所述
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1