敏感词检测方法、装置、设备及计算机可读存储介质与流程

文档序号:37731866发布日期:2024-04-23 12:18阅读:8来源:国知局
敏感词检测方法、装置、设备及计算机可读存储介质与流程

本技术涉及数据处理的,尤其是涉及一种敏感词检测方法、装置、设备及计算机可读存储介质。


背景技术:

1、随着用户财富的积累,用户的投资方式也逐渐多样化,购买上市公司发行的股票就是一种投资方式。

2、一些新手用户往往用通过股票财经平台的视频、直播以及与工作人员沟通进行学习,对于股票财经平台来说,需要对视频、直播以及与工作人员沟通内容进行审核,以减小视频、直播以及与工作人员沟通内容出现敏感词汇而造成平台被封禁的可能性。因此,本技术提供一种敏感词检测方法。


技术实现思路

1、为了实现对敏感词汇进行检测,本技术提供一种敏感词检测方法、装置、设备及计算机可读存储介质。

2、第一方面,本技术提供一种敏感词检测方法,采用如下的技术方案:

3、一种敏感词检测方法,包括:

4、获取待检测信息;

5、判断所述待检测信息中是否包含待转化信息,所述待转化信息包括语音信息和视频信息;

6、若包含待转化信息,则提取所述待转化信息,将所述待转化信息转化为文字信息;

7、判断所述文字信息中是否存在敏感词汇;

8、若存在敏感词汇,则对所述敏感词汇进行标注。

9、通过采用上述技术方案,当待检测信息中包含语音信息和视频信息时,将语音信息和视频信息转化为文字信息,从而更准确地识别和检测敏感词汇,将敏感词汇进行标注,便于工作人员直观查看待检测信息中包含哪些敏感词汇,便于后续的处理和审查。

10、可选的,在所述判断所述文字信息中是否存在敏感词汇之前,还包括:

11、对所述文字信息进行分词处理,得到多个目标词汇;

12、将所述目标词汇转化第一拼音;

13、提取所述目标词汇中每个字的第一拼音首字母;

14、将每个所述目标词汇的所有第一拼音首字母组成一个第一字母序列。

15、通过采用上述技术方案,通过对文字信息进行分词处理,可以得到更精确的目标词汇,有助于提高敏感词检测的准确性,提取目标词汇中每个字的第一拼音首字母,并将它们组成一个第一字母序列,利用第一字母序列反应目标词汇的特点,提高敏感词汇检测的效率。

16、可选的,在所述获取待检测信息之前,还包括:

17、获取敏感词汇;

18、将每个所述敏感词汇转换为第二拼音;

19、提取所述敏感词汇中每个字的第二拼音首字母;

20、将每个所述敏感词汇的所有第二拼音首字母组成一个第二字母序列;

21、获取每个所述敏感词汇的字数;

22、基于所述第二字母序列和所述字数将所述敏感词汇划分多个敏感词组;

23、基于所述敏感词组生成敏感词词库。

24、通过采用上述技术方案,通过生成敏感词词库,可以对待检测信息进行更精确的匹配和检测,从而提高敏感词检测的精度,通过将敏感词汇划分为多个敏感词组,可以更准确地识别敏感词汇的边界,降低误报率,通过将敏感词汇转换为第二拼音并提取首字母,可以处理不同形式和语言的敏感词汇,增强适应性。

25、可选的,所述判断所述文字信息中是否存在敏感词汇,包括:

26、获取所述第一字母序列中的首字母;

27、基于所述首字母确定对应的敏感词组;

28、判断所述敏感词组中是否存在与所述第一字母序列相同的第二字母序列;

29、若存在,则提取与所述第一字母序列相同的第二字母序列对应的敏感词汇;

30、判断所述目标词汇是否与提取的敏感词汇匹配;

31、若目标词汇与提取的敏感词汇匹配,则判定所述文字信息中存在敏感词汇。

32、通过采用上述技术方案,通过判断敏感词组中是否存在与第一字母序列相同的第二字母序列,并提取与第二字母序列对应的敏感词汇,可以更准确地匹配目标词汇与敏感词汇,在一定程度上提高了敏感词检测的准确性和准确性。

33、可选的,若目标词汇与提取的敏感词汇不匹配,则所述方法还包括:

34、获取所述目标词汇对应的语句;

35、基于所述语句判断所述目标词汇中是否包含错别字;

36、若包含错别字,则将所述错别字进行更正,得到标准目标词汇;

37、判断所述标准目标词汇是否与提取的敏感词汇匹配;

38、若匹配,则判定所述文字信息中存在敏感词汇。

39、通过采用上述技术方案,通过获取目标词汇对应的语句,并基于语句判断目标词汇中是否包含错别字,通过将包含错别字的目标词汇进行更正,得到标准目标词汇,通过判断标准目标词汇是否与提取的敏感词汇匹配,可以更准确地判断文字信息中是否存在敏感词汇,从而提高敏感词检测的准确性。

40、可选的,在所述判定所述文字信息中存在敏感词汇之后,还包括:

41、获取所述错别字的出现次数;

42、判断所述出现次数是否大于预设次数;

43、若是,则将所述错别字添加至对应的敏感词组中。

44、通过采用上述技术方案,通过获取错别字的出现次数,并判断出现次数是否大于预设次数,可以将频繁出现的错别字添加到对应的敏感词组中,从而增强敏感词库的完整性和准确性,进而提高敏感词检测的效率和准确性。

45、可选的,获取每个所述待检测信息包含的敏感词汇的个数以及每个敏感词汇对应的敏感等级;

46、基于所述敏感词汇的个数和所述敏感等级确定每个所述待检测信息的评分;

47、判断所述评分是否大于预设值;

48、若是,则将生成告警信息,将所述告警信息发送至对应的工作人员的移动终端。

49、通过采用上述技术方案,通过获取敏感词汇的个数和对应的敏感等级确定待检测信息的评分,通过判断评分是否大于预设值,并在评分大于预设值时生成告警信息,将告警信息发送至对应的工作人员的移动终端,可以确保工作人员能够及时接收到告警信息并采取相应的措施。

50、第二方面,本技术提供一种敏感词检测装置,采用如下的技术方案:

51、一种敏感词检测装置,包括:

52、获取模块,用于获取待检测信息;

53、第一判断模块,用于判断所述待检测信息是否包含待转化信息,所述待转化信息包括语音信息和视频信息;若包含待转化信息,则提取所述待转化信息,将所述待转化信息转化为文字信息;

54、第二判断模块,用于判断所述文字信息中是否存在敏感词汇;若存在敏感词汇,则对所述敏感词汇进行标注。

55、通过采用上述技术方案,当待检测信息中包含语音信息和视频信息时,将语音信息和视频信息转化为文字信息,从而更准确地识别和检测敏感词汇,将敏感词汇进行标注,便于工作人员直观查看待检测信息中包含哪些敏感词汇,便于后续的处理和审查。

56、第三方面,本技术提供一种电子设备,采用如下的技术方案:

57、一种电子设备,包括处理器和存储器,所述处理器与所述存储器耦合;

58、所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行如第一方面任一项所述的方法。

59、第四方面,本技术提供一种计算机可读存储介质,采用如下的技术方案:

60、一种计算机可读存储介质,包括计算机程序或指令,当所述计算机程序或指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1