敏感词检测方法、装置、电子设备和计算机可读存储介质与流程

文档序号:37463012发布日期:2024-03-28 18:46阅读:10来源:国知局
敏感词检测方法、装置、电子设备和计算机可读存储介质与流程

本发明涉及数据处理,尤其是涉及一种敏感词检测方法、装置、电子设备和计算机可读存储介质。


背景技术:

1、在信息爆炸时代,充斥着大量的敏感信息,会产生很多负面影响。为了应对这一挑战,就需要能够及时发现并处理这些问题。

2、现有敏感词检测技术中,通常是对语音数据转换的文本数据直接进行检测,但是工作量比较大,检测时间较长,检测时效性大打折扣,影响用户体验。


技术实现思路

1、本发明的目的在于提供一种敏感词检测方法、装置、电子设备和计算机可读存储介质,通过将语音数据转化为文本数据,进一步做分词和预处理后,再进行敏感词检测,减少了敏感词检测的工作量,从而降低了检测时间,提高了检测的时效性,提升了用户体验。

2、第一方面,本发明实施例提供了一种敏感词检测方法,包括:获取语音数据;将语音数据转化为文本数据;基于预设的分词算法将文本数据分词,得到分词后的文本数据;将分词后的文本数据进行预处理,将预处理后的数据确定为目标数据;其中预处理至少包括以下之一:停用词表过滤处理和提取关键词处理;基于预设的敏感词库抽取目标数据中的敏感词;基于敏感词发送警报信息。

3、在本发明一些较佳的实施例中,停用词表过滤处理的步骤包括:基于预设的停用词表过滤分词后的文本数据,得到第一文本数据;将第一文本数据确定为目标数据。

4、在本发明一些较佳的实施例中,提取关键词处理的步骤包括:基于预设的关键词提取模型提取分词后的文本数据中的关键词,得到第二文本数据;将第二文本数据确定为目标数据。

5、在本发明一些较佳的实施例中,敏感词库内包括多个敏感词组,每个敏感词组中均包括多个敏感词,敏感词组均对应唯一等级标识;警报信息包括多条预设的警报文本;警报文本与等级标识一一对应;基于敏感词发送警报信息的步骤包括:确定敏感词对应的等级标识;输出等级标识对应的警报文本。

6、在本发明一些较佳的实施例中,确定敏感词对应的等级标识的步骤之后,方法还包括:统计等级标识对应的敏感词的数量;如果敏感词的数量大于预设的数量阈值,输出等级标识对应的警报文本。

7、在本发明一些较佳的实施例中,方法还包括:获取新的敏感词;将新的敏感词与敏感词库中的敏感词比较,剔除相同的内容;将剔除相同的内容之后的新的敏感词剩余的内容添加到敏感词库中,并为新的敏感词剩余的内容赋予等级标识。

8、第二方面,本发明实施例提供了一种敏感词检测转置,包括:数据获取模块,用于获取语音数据;文本转化模块,用于将语音数据转化为文本数据;文本分词模块,用于基于预设的分词算法将文本数据分词,得到分词后的文本数据;预处理模块,用于将分词后的文本数据进行预处理,将预处理后的数据确定为目标数据;其中预处理至少包括以下之一:停用词表过滤处理和提取关键词处理;敏感词提取模块,用于基于预设的敏感词库抽取目标数据中的敏感词;警报模块,用于基于敏感词发送警报信息。

9、在本发明一些较佳的实施例中,预处理模块,用于:基于预设的停用词表过滤分词后的文本数据,得到第一文本数据;将第一文本数据确定为目标数据。

10、第三方面,本发明实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述的敏感词检测方法。

11、第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述的敏感词检测方法。

12、本发明实施例提供了一种敏感词检测方法、装置、电子设备和计算机可读存储介质。该方法包括:获取语音数据;将语音数据转化为文本数据;基于预设的分词算法将文本数据分词,得到分词后的文本数据;将分词后的文本数据进行预处理,将预处理后的数据确定为目标数据;其中预处理至少包括以下之一:停用词表过滤处理和提取关键词处理;基于预设的敏感词库抽取目标数据中的敏感词;基于敏感词发送警报信息;通过将语音数据转化为文本数据,进一步做分词和预处理后,再进行敏感词检测,减少了敏感词检测的工作量,从而降低了检测时间,提高了检测的时效性,提升了用户体验。



技术特征:

1.一种敏感词检测方法,其特征在于,包括:

2.根据权利要求1所述的敏感词检测方法,其特征在于,所述停用词表过滤处理的步骤包括:

3.根据权利要求1所述的敏感词检测方法,其特征在于,所述提取关键词处理的步骤包括:

4.根据权利要求1所述的敏感词检测方法,其特征在于,所述敏感词库内包括多个敏感词组,每个所述敏感词组中均包括多个所述敏感词,所述敏感词组均对应唯一等级标识;所述警报信息包括多条预设的警报文本;所述警报文本与所述等级标识一一对应;基于所述敏感词发送警报信息的步骤包括:

5.根据权利要求4所述的敏感词检测方法,其特征在于,确定所述敏感词对应的等级标识的步骤之后,所述方法还包括:

6.根据权利要求5所述的敏感词检测方法,其特征在于,所述方法还包括:

7.一种敏感词检测转置,其特征在于,包括:

8.根据权利要求7所述的敏感词检测方法,其特征在于,预处理模块,用于:

9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现上述权利要求1至6任一项所述的敏感词检测方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至6任一项所述的敏感词检测方法。


技术总结
本发明实施例提供了一种敏感词检测方法、装置、电子设备和计算机可读存储介质。其中,该方法包括:获取语音数据;将语音数据转化为文本数据;基于预设的分词算法将文本数据分词,得到分词后的文本数据;将分词后的文本数据进行预处理,将预处理后的数据确定为目标数据;其中预处理至少包括以下之一:停用词表过滤处理和提取关键词处理;基于预设的敏感词库抽取目标数据中的敏感词;基于敏感词发送警报信息;通过将语音数据转化为文本数据,进一步做分词和预处理后,再进行敏感词检测,减少了敏感词检测的工作量,从而降低了检测时间,提高了检测的时效性,提升了用户体验。

技术研发人员:史会贤
受保护的技术使用者:深圳市易甲文技术有限公司
技术研发日:
技术公布日:2024/3/27
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1