敏感词替换方法和装置的制造方法_2

文档序号:9432582阅读:来源:国知局
43]下面结合图1的应用场景,参考图2来描述根据本发明示例性实施方式的敏感词替换方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
[0044]图2示意性地示出了本发明的实施方式中敏感词替换方法的一实施例的流程图。
[0045]如图2所示,本实施例的敏感词替换方法如具体可以包括:
[0046]在步骤S210中,接收目标文本。
[0047]在一个示例中,可以假设本实施例的敏感词替换方法的执行主体是图1所示的客户端102。
[0048]例如,该目标文本可以是用户通过在用户设备上配备的输入单元(例如,键盘、鼠标、轨迹球、触摸板、触摸屏、麦克风等)输入的文本内容。接下来,用户可以例如通过相同的或不同的输入单元发起向互联网发布该目标文本的命令(例如,通过键盘按下快捷键Ctrl+Enter或通过鼠标点击“发送”或“确认”按钮等),使得客户端102能够接收到该目标文本,并且开始执行本实施例的敏感词替换方法。
[0049]此外,在另一个示例中,也可以假设本实施例的敏感词替换方法的执行主体是图1所示的服务器101。
[0050]这时,在客户端102接收到用户输入的目标文本之后,客户端102可以继而通过有线或无线连接与服务器101进行交互,将用户输入的目标文本传送到服务器101上,使得服务器101能够接收到该目标文本,并且开始执行本实施例的敏感词替换方法。
[0051]在步骤S220中,根据敏感词库在所述目标文本中查找敏感词。
[0052]例如,可以在本实施例的敏感词替换方法的执行主体中预置一敏感词库。
[0053]为此,可以预先地通过对大量信息的分析,总结信息中常用到的一些敏感词,组成敏感词库,存储到客户端102或服务器101中。例如,敏感词可以包括不文明词汇、涉及到国家安全等的敏感词汇、乃至以宣传、广告等为目的的词汇等。
[0054]当然,对上述敏感词库进行预置仅仅出于示例的目的,本发明实施例并不限于此。例如,该敏感词库也可以预设在云端服务器中,并且仅仅在使用时才下载到客户端102或内容服务器101中。此外,在客户端102或内容服务器101中,还可以通过云端服务器对敏感词库进行不断更新。由云端服务器进行更新可以实现对敏感词汇列表的动态维护,从而保证敏感词汇的丰富、正确和实时性。此外,该词敏感库还可以具有自我学习的能力,这样可以更加优化“敏感词”的识别能力。
[0055]接下来,本方法的执行主体可以在目标文本中提取信息内容,以供查验。然后,该执行主体可以对照敏感词库,查验信息内容中是否含有敏感词库内存储的敏感词。
[0056]一旦判断出在所述目标文本中存在敏感词,则本方法将前进到步骤S230中,继续执行。相反地,如果判断出在所述目标文本中不存在敏感词,则执行主体将允许将该目标文本发布到互联网上,并且本方法结束。
[0057]在步骤S230中,根据敏感词替换规则来确定与所述敏感词对应的非敏感词,所述非敏感词具有比所述敏感词更低的敏感度并且用于表达与所述敏感词相同或相近的含义。
[0058]响应于判断出在所述目标文本中存在敏感词,本方法的执行主体可以根据系统默认的或用户自定义的敏感词替换规则来确定与所述敏感词对应的非敏感词。
[0059]图3示意性地示出了本发明的实施方式中确定非敏感词步骤的一实施例的流程图。
[0060]如图3所示,该步骤S230可以包括:
[0061]在步骤S310中,根据所述敏感词替换规则来获取替换词汇库。
[0062]在本发明的实施方式中,可以向本方法的执行主体提供多个敏感词替换规则。例如,所述敏感词替换规则可以包括基于语义判断的语义替换规则、基于拼写处理的拼写替换规则、基于区域匹配的方言替换规则等。
[0063]相应地,不同的敏感词替换规则可以对应于不同的替换词汇库。然而,本发明的实施方式在此方面不受任何限制。例如,也可以为多个敏感词替换规则定义一个或多个不同的替换词汇库。并且,进一步地还可以在该替换词汇库中进行去重等处理,以节省系统的存储空间。
[0064]有利地,在本发明的实施例中,可以存在很合理的替换词汇库来支持上述的语义判断、拼写处理和区域匹配等替换规则。此外,该替换词汇库还可以具有自我学习的能力,这样可以更加优化“敏感词”的处理结果。
[0065]在步骤S320中,根据所述敏感词在所述替换词汇库中查找所述非敏感词。
[0066]在获得替换词汇库之后,就可以利用该替换词汇库来查找与所述敏感词对应的非敏感词。
[0067]显然,该敏感词与该非敏感词之间可以一一对应的,也可以是一对多或多对一对应的。当对于一个敏感词存在多个非敏感词时,可以根据用户的使用习惯来自动选择一个使用的非敏感词,也可以随机地选择所使用的非敏感词,或者将所有候选项提供给用户并由用户自行选择。
[0068]下面,将在三个不同的示例中更加详细地描述根据本发明实施方式的敏感词替换方法中的确定非敏感词步骤。
[0069]在第一示例中,可以假设该所述敏感词替换规则是基于语义判断的语义替换规则。
[0070]文字符号的含义就是语义(semantic)。语义可以简单地看作是文字符号所对应的现实世界中的事物所代表的概念的含义、以及这些含义之间的关系,是文字符号在某个领域上的解释和逻辑表示。
[0071 ] 在本示例中,可以通过对敏感词进行语义分析来寻找与其具有相同或相近语义的非敏感词,以对该敏感词进行替换处理。
[0072]图4示意性地示出了本发明的实施方式中确定非敏感词步骤的第一示例的流程图。
[0073]如图4所示的,该步骤S310可以包括:
[0074]在步骤S410中,响应于所述敏感词替换规则是语义替换规则,获取语义词汇库,所述语义词汇库定义了敏感词和非敏感词之间的对应关系,其中,相互对应的敏感词与非敏感词构成句子中相同的句子成分。
[0075]例如,在语义词汇库中定义了敏感词和非敏感词之间的对应关系,并且在每一对敏感词和非敏感词的对应关系中,两者在语义上具有相同或相近的含义。
[0076]在步骤S420中,将所述语义词汇库确定为所述替换词汇库。
[0077]继续参考图4,该步骤S320可以包括:
[0078]在步骤S430中,对所述目标文本进行语义分析。
[0079]例如,可以在执行主体的设备中预先设置或存储语义模型,以使其可以根据该语义模型来判断目标文本的语义。具体而言,执行主体可以根据当前话题的应用场景等,进行学习并训练语义模型,接着将语义模型预存储于本地和/或云端。接着,在接收到目标文本之后,执行主体可以从本地和/或云端中查找对应的语义模型,根据语义模型来判断该目标文本中文字符号之间的组织规则和结构关系的定义。
[0080]在步骤S440中,根据所述语义分析的结果来确定所述敏感词自身的句子成分。
[0081]接下来,可以根据该目标文本中文字符号之间的组织规则和结构关系的定义来确定敏感词在目标文本中的句子成分。例如,该句子成分可以包括:主语、谓语、宾语、定语、状语、和补语等。
[0082]在步骤S450中,根据所述敏感词自身的句子成分来在所述语义词汇库中选择所述非敏感词。
[0083]—旦判断出所述敏感词构成目标文本中的什么句子成分之后,可以相应地在语义词汇库中查找合适的非敏感词。
[0084]具体地,可以首先根据所述语义分析的结果来确定所述敏感词在所述目标文本中所作用的文字对象;然后根据所述敏感词自身的句子成分和所述文字对象的含义来在所述语义词汇库中选择所述非敏感词。
[0085]下面,将举两个例子来具体说明本示例。
[0086]在第一例子中,假设在步骤S210中接收到的目标文本是“今天的交通太白痴了,有关部门太白痴了”。显然,该目标文本中包括两个敏感词“白痴”。通过执行语义分析,可以知道第一个敏感词“白痴”是形容词,用作句子的谓语,用于形容主语“交通”,而第二个敏感词“白痴”也是形容词,用作句子的谓语,用于形容主语“部门”。在得到上述分析结果之后,针对第一个敏感词,可以首先在语义词汇库中选择一个用于形容名词“交通”的非敏感的形容词,例如,“恐怖”。然而,如果将用于形容名词“交通”该形容词“恐怖”继续用于形容名词“部门”就会导致句子不够通顺,使得受众无法理解用户所要表达的意思。为此,可以继续在语义词汇库中选择一个用于形容名词“部门”的非敏感的形容词,例如,“无能”。这样,就可以在后续步骤中将上述目标文本转换为“今天的交通太恐怖了,有关部门太无能了”。
[0087]在第二例子中,假设在步骤S210中接收到的目标文本是“怎么航班又延误了,混球”和“怎么又吃到地沟油了,混球”。显然,该目标文本中分别包括两个敏感词“混球”。通过执行语义分析,可以知道第一个敏感词“混球”是名词,用作句子的独立语,用于形容用户对于航班延误的感受,而第二个敏感词“混球”也是名词,用作句子的独立语,用于形容用户对于吃到地沟油的感受。在得到上述分析结果之后,针对第一个敏感词,可以首先在语义词汇库中选择一个用于形容航班延误的非敏感的名词,例如,“苍天啊”。然而,如果将该形容词“苍天啊”继续
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1