一种过滤屏蔽词的方法及装置与流程

文档序号:17090655发布日期:2019-03-13 23:25阅读:683来源:国知局
一种过滤屏蔽词的方法及装置与流程

本发明属于网络语言环境净化技术领域,尤其涉及一种过滤屏蔽词的方法及装置。



背景技术:

现阶段,人们已经越来越依靠网络语言来方便的发出自己的声音,然而,语言的双面性在于,当暴力化的脏词大肆入侵语言系统时,它会对文化肌体产生严重腐蚀,令其走向活力的反面,最终成为汉语的罩门和死穴。在这方面,互联网已向我们出示了恶化的征兆,“脏词”的蔓延和流行需要警惕。如何改善网络环境,净化互联网语言空间,令汉语以更加阳光的方式生长,这是当代汉语和文化需要直面的难题。

另外,现有的网络脏词或敏感词屏蔽方法中,很难对于进行了平翘舌音或前后鼻音变化的词组进行识别,用户可以通过极其近似的谐音来绕过预先设定的屏蔽词库,从而并不能很好的达到改善、净化网络语言环境的效果。

因此,如何对进行了平翘舌音或前后鼻音变化的词组进行识别,以提高屏蔽效果成为亟待解决的技术问题。



技术实现要素:

本发明目的在于提供一种过滤屏蔽词的方法及装置,以解决现有的网络词语屏蔽方法中可以通过平翘舌音或前后鼻音变化的词组进行识别的技术问题。

本发明其中一个目的是提供一种过滤屏蔽词的方法。

一种过滤屏蔽词的方法,包括如下步骤:

接收用户输入的候选词;将候选词转化为词拼音;根据词拼音获得相应的平翘舌音和/或前后鼻音的多个拼音词组;判断多个拼音词组与预设的静态屏蔽词库匹配是否成功,静态屏蔽词库为相应的拼音词库;如果多个拼音词组其中的至少一个拼音词组与静态屏蔽词库匹配成功时,则屏蔽输入的候选词;如果多个拼音词组的全部拼音与静态屏蔽词库匹配不成功时,则正常展示输入的候选词。

优选为,接收用户输入的候选词步骤之后还包括以下步骤:剔除候选词中的特殊字符及空格。

优选为,判断多个拼音词组与预设的静态屏蔽词库匹配是否成功步骤后还包括以下步骤:对匹配到的政治敏感相关的候选词进行上报,并形成舆情报告。

优选为,候选词可以为英文。

本发明另一个目的是提供一种过滤屏蔽词的装置。

一种过滤屏蔽词的装置,包括:接收模块,用于接收用户输入的候选词;拼音转化模块,用于将候选词转化为词拼音;拼音词组模块,用于根据词拼音获得相应的平翘舌音和/或前后鼻音的多个拼音词组;判断模块,用于判断多个拼音词组与预设的静态屏蔽词库匹配是否成功;屏蔽模块,用于当多个拼音词组其中的至少一个拼音词组与静态屏蔽词库匹配成功时,则屏蔽输入的候选词;展示模块,用于当多个拼音词组的全部拼音与静态屏蔽词库匹配不成功时,则正常展示输入的候选词。

优选为,还包括:调整模块,用于剔除候选词中的特殊字符及空格。

优选为,还包括:筛选模块,用于筛选被屏蔽的与政治敏感相关的候选词;上传模块,用于对筛选模块筛选的候选词进行上传给相关后台;统计模块,用于统计被屏蔽的候选词,并形成舆情报告。

本发明的另一个目的是提供一种计算机装置和计算机可读存储介质。

一种计算机装置,包括处理器,处理器用于执行存储器中存储的计算机程序实现如上述过滤屏蔽词步骤所述的过滤屏蔽词方法。

一种计算机可读存储介质,其上存储有计算机程序,处理器用于执行存储介质中存储的计算机程序实现如上述过滤屏蔽词步骤所述的过滤屏蔽词方法。

本发明具有如下有益效果:通过将用户输入的候选词转化为词拼音,再根据词拼音自动获取相关的平翘舌音和/或前后鼻音的多个拼音词组,将多个拼音词组与预设的转化为相应拼音的屏蔽词库进行匹配,当多个拼音词组只要其中一个与预设的屏蔽词库匹配成功时,则屏蔽该候选词。

作为优选的实施例,可剔除候选词中的特殊符号或空格,防止通过各种不正常的词组来绕过屏蔽,进一步提高屏蔽效果。因此,本发明可以有效的屏蔽脏词、敏感词及与之近似的谐音词,达到了很好的净化改善网络语言环境的效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的过滤屏蔽词方法的流程示意图;

图2为本发明提供的过滤屏蔽词装置的架构图;

图3为本发明提供的过滤屏蔽词系装置优选实施例的架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明目的在于提供一种过滤屏蔽词的方法及装置,以解决现有的网络词语屏蔽方法中可以通过谐音词来绕过屏蔽的技术问题。

本发明其中一个目的是提供一种过滤屏蔽词的方法。

一种过滤屏蔽词的方法,参见图1,包括如下步骤:s10,s20,s30,s40,(s510、s520)。

步骤s10:接收用户输入的候选词。

用户通过各类输入法在各类网络平台中进行输出候选词。候选词中包括汉字词组、拼音词组、英文单词、英文短句或汉语短句。

其中,汉字词组的候选词包括简体中文与繁体中文的形式。

步骤s20:将候选词转化为词拼音。

其中,不论是通过五笔输入、手写输入、语言输入还是拼音输入的候选词,将该候选词转化为词拼音形式。

更进一步的是,步骤s20还包括步骤:剔除候选词中的特殊字符及空格。

应该容易理解的是,为了应付现有的词屏蔽方法,网民们通过在脏词、敏感词中插入不影响理解内容的特殊字符或空格来绕过,本步骤通过将特殊字符或空格进行剔除,转化为纯拼音,从而再继续后续步骤。本步骤可以有效的防止用户通过插入特殊字符或空格的方式来绕过现有的词屏蔽方法,达到更好的屏蔽效果。

另外,需要说明的是,因为字符编码集极多,因此汉字与特殊字符的识别不受各类编码体系的影响。

步骤s30:根据词拼音获得相应的平翘舌音和/或前后鼻音的多个拼音词组。

需要说明的是,当候选词的词拼音声母有“z”、“c”、“s”、“zh”、“ch”、“sh”等时,再自动生成一组对应平舌音或翘舌音的拼音词组,例如:“zhichi”会自动生成相应的“zichi”、“zhici”、“zici”多个拼音词组。当词拼音中的声母为平舌音时,则生成相应的翘舌音拼音词组;当声母为翘舌音时,则生成相应的平舌音拼音词组。当具有多个有平翘舌音区别的声母的拼音时,则依次改变其中一个、两个乃至全部声母的平翘舌音变化,遍历所有的变化可能。

同理,当候选词的词拼音韵母具有前后鼻音的区别时,例如:“an”与“ang”、“en”与“eng”等,也会自动生成相应的前后鼻音拼音词组。当词拼音中的韵母为前鼻音时则生成后鼻音拼音词组;当词拼音中的韵母为后鼻音时则生成前鼻音拼音词组。与平翘舌音的变化方式相同,当具有多个有前后鼻音区别的韵母的拼音时,遍历所有的变化可能。

当候选词的拼音词组中既包括可进行平翘舌音变化又包括可进行前后鼻音变化的拼音时,平翘舌音与前后鼻音的变化将组成一个整体,来依次的改变一个、两个乃至全部的变化,遍历所有的变化可能。

步骤s40:判断多个拼音词组与预设的静态屏蔽词库匹配是否成功,其中静态屏蔽词库为相应的拼音词库。

其中,预设的静态屏蔽词库已经将事先设定的屏蔽词转化为拼音形式,利于与候选词转化的词拼音进行匹配比对。

另外,多个拼音词组既包括平翘舌音和/或前后鼻音变化后的拼音词组,也包括候选词直接转化的词拼音。

步骤s510:当多个拼音词组其中的一个或多个拼音与静态屏蔽词库匹配成功时,则屏蔽输入的候选词;

步骤s520:当多个拼音词组的全部拼音与静态屏蔽词库匹配不成功时,则正常展示输入的候选词。

其中,只要所有拼音词组的至少一个拼音与静态屏蔽词库匹配比对成功时,则屏蔽该候选词。只有拼音词组中的全部拼音与静态屏蔽词库匹配不成功时,该候选词才会正常展示出来。

另外,在某些情况中,可对屏蔽词进行分级,即可将屏蔽词分为特别敏感词与一般敏感词等。当候选词属于特别敏感词时,可按上述的步骤进行屏蔽;当候选词属于一般敏感词时,候选词的词拼音不执行s310及s320步骤,即不屏蔽平翘舌音和/或前后鼻音的谐音词。

需要说明的是,屏蔽后的候选词可以使用任何预设形式予以呈现,比如以“*”代替被屏蔽后的候选词,或提示输入中有需被屏蔽的词汇等。

因此,上述步骤可以很好的屏蔽脏词及敏感词,还包括与之相关的谐音词。达到净化改善网络语言环境的效果。

更进一步的是,步骤s40还包括步骤:对匹配到的政治敏感相关的候选词进行上报,并形成舆情报告。

其中,因为某些特殊的情况,静态屏蔽词库中预设有若干政治敏感相关的候选词,当匹配成功到了政治敏感相关的候选词,除了进行屏蔽之外,还会向网络平台的后台或相关单位、机关进行上报,并统计形成舆情报告。

更进一步的是,结合上述任一个实施例中,候选词可以为英文。

其中,静态屏蔽词库中可能预设有英文相关的屏蔽词,当英文候选词与静态屏蔽词库匹配成功时,则屏蔽相关的英文候选词。

另外,将中文候选词转换为词拼音也是以英文字符集的形式存在,在转换的字符集之间增加空格或特殊字符的也可以进行识别,以达到在英文中增加空格或特殊字符也能得到识别和屏蔽的结果。

本发明的另一个目的是提供一种过滤屏蔽词的装置。

参见图2,一种过滤屏蔽词的装置,包括:接收模块10,用于接收用户输入的候选词;拼音转化模块11,用于将候选词转化为词拼音。拼音词组模块(12,13),用于根据词拼音获得相应的平翘舌音和/或前后鼻音的多个拼音词组,其中拼音词组模块(12,13)包括平翘舌音模块12和前后鼻音模块13;平翘舌音模块12,用于获取词拼音的平翘舌音拼音词组;前后鼻音模块13,用于获取词拼音的前后鼻音拼音词组;判断模块14,用于判断多个拼音词组与预设的静态屏蔽词库匹配是否成功;屏蔽模块15,用于当多个拼音词组其中的至少一个拼音词组与静态屏蔽词库匹配成功时,则屏蔽输入的候选词;展示模块16,用于当多个拼音词组的全部拼音与静态屏蔽词库匹配不成功时,则正常展示输入的候选词;

更进一步的是,参见图3,结合上述过滤屏蔽词的装置,还包括:

调整模块30,用于剔除候选词中的特殊字符及空格。

更进一步的是,参见图3,结合上述过滤屏蔽词的装置,还包括:

筛选模块20,用于筛选被屏蔽的与政治敏感相关的候选词;上传模块21,用于对筛选模块20筛选的候选词进行上传给相关后台;统计模块22,用于统计被屏蔽的候选词,并形成舆情报告。

本发明的另一个目的是提供一种计算机装置和计算机可读存储介质。

一种计算机装置,包括处理器,处理器用于执行存储器中存储的计算机程序实现如上述过滤屏蔽词步骤所述的过滤屏蔽词方法。

一种计算机可读存储介质,其上存储有计算机程序,处理器用于执行存储介质中存储的计算机程序实现如上述过滤屏蔽词步骤所述的过滤屏蔽词方法。

本发明提供的实施例通过将用户输入的候选词转化为词拼音,再根据词拼音自动获取相关的平翘舌音和/或前后鼻音的多个拼音词组,将多个拼音词组与预设的转化为相应拼音的屏蔽词库进行匹配,当多个拼音词组只要其中一个与预设的屏蔽词库匹配成功时,则屏蔽该候选词。

作为优选的实施例,可剔除候选词中的特殊符号或空格,防止通过各种不正常的词组来绕过屏蔽,进一步提高屏蔽效果。因此,本发明可以有效的屏蔽脏词、敏感词及与之近似的谐音词,达到了很好的净化改善网络语言环境的效果。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1