基于特征提取的反垃圾方法、装置、存储介质及电子设备与流程

文档序号:35916632发布日期:2023-10-30 09:22阅读:45来源:国知局
基于特征提取的反垃圾方法、装置、存储介质及电子设备与流程

本公开的实施方式涉及数据安全,更具体地,本公开的实施方式涉及一种基于特征提取的反垃圾方法、基于特征提取的反垃圾装置、计算机可读存储介质及电子设备。


背景技术:

1、本部分旨在为本公开的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术。

2、反垃圾(anti-spam)是指通过人工智能、内容识别等技术,结合业务风控策略和国家法律法规,对数据内容的安全性和合规性进行检测,识别出风险,为资源打上标签,比如:内容涉政、内容涉黄等。接入反垃圾的业务根据标签对资源进行相应的处置,比如:资源下架或屏蔽等,很大程度避免了风险内容的暴露,保障了内容平台的生态安全。


技术实现思路

1、然而,现有的反垃圾方法主要通过机器学习建立庞大的样本库识别风险内容,如此,存在需要定期更新训练集且训练所需的时间较长,无法及时调整策略模型,大规模训练的算力成本较高,对企业而言成本较高,中小型企业一般没有能力建立自己的内容识别平台,依赖第三方服务,企业的风控策略无法第一时间干预,导致策略滞后的问题。

2、为此,非常需要一种改进的反垃圾方法,以至少在一定程度上解决内容识别的成本高和策略滞后的问题。

3、在本上下文中,本公开的实施方式期望提供一种基于特征提取的反垃圾方法、基于特征提取的反垃圾装置、计算机可读存储介质及电子设备。

4、根据本公开的第一方面,提供一种基于特征提取的反垃圾方法,包括:获取待检测数据;提取所述待检测数据的特征,得到待检测特征向量;通过搜索引擎确定所述待检测特征向量与垃圾特征数据之间的相似度;所述垃圾特征数据为垃圾特征数据库中任一数据;根据所述待检测特征向量与所述垃圾特征数据之间的相似度,确定最大相似度;确定所述最大相似度所属的预设相似度区间,并将所述预设相似度区间对应的预设标签确定为所述待检测数据的检测结果。

5、在一种实施方式中,所述待检测数据至少包括图像、音频、视频中的一者,所述垃圾特征数据库至少包括图像垃圾特征数据库、音频垃圾特征数据库和视频垃圾特征数据库中的一者,所述确定所述待检测特征向量与垃圾特征数据之间的相似度,包括:确定所述待检测特征向量与所述图像垃圾特征数据库中图像垃圾特征数据的相似度;和/或确定所述待检测特征向量与所述音频垃圾特征数据库中音频垃圾特征数据的相似度;和/或确定所述待检测特征向量与所述视频垃圾特征数据库中视频垃圾特征数据的相似度。

6、在一种实施方式中,所述根据所述待检测特征向量与所述垃圾特征数据之间的相似度,确定最大相似度,包括:根据所述待检测特征向量与所述图像垃圾特征数据库中图像垃圾特征数据的相似度,确定第一最大相似度;和/或根据所述待检测特征向量与所述音频垃圾特征数据库中音频垃圾特征数据的相似度,确定第二最大相似度;和/或根据所述待检测特征向量与所述视频垃圾特征数据库中视频垃圾特征数据的相似度,确定第三最大相似度;所述最大相似度至少包括所述第一最大相似度、所述第二最大相似度、所述第三最大相似度中的一者。

7、在一种实施方式中,所述确定所述最大相似度所属的预设相似度区间,并将所述预设相似度区间对应的预设标签确定为所述待检测数据的检测结果,包括:确定所述第一最大相似度所属的第一预设相似度区间;和/或确定所述第二最大相似度所属的第二预设相似度区间;和/或确定所述第三最大相似度所属的第三预设相似度区间;确定所述第一预设相似度区间、所述第二预设相似度区间、和/或所述第三预设相似度区间中是否存在优先级相同的预设相似度区间;在不存在优先级相同的预设相似度区间的情况下,将所述第一预设相似度区间、所述第二预设相似度区间、和/或所述第三预设相似度区间中优先级最高的预设相似度区间对应的预设标签确定为所述待检测数据的检测结果。

8、在一种实施方式中,所述方法还包括:在存在优先级相同的预设相似度区间的情况下,确定优先级相同的预设相似度区间对应的垃圾特征数据库的优先级,将优先级最高的垃圾特征数据库对应的预设相似度区间的预设标签确定为所述待检测数据的检测结果。

9、在一种实施方式中,所述视频垃圾特征数据库的优先级高于音频垃圾特征数据库的优先级,所述音频垃圾特征数据库的优先级高于图像垃圾特征数据库的优先级。

10、在一种实施方式中,在获取待检测数据之前,所述方法还包括:获取原始垃圾数据,并确定所述原始垃圾数据的类型;根据所述原始垃圾数据的类型,确定对应的特征提取方法;根据所述原始垃圾数据的类型和对应的特征提取方法,得到不同类型原始垃圾数据的特征向量;基于不同类型原始垃圾数据的特征向量构建不同类型的垃圾特征数据库。

11、在一种实施方式中,所述原始垃圾数据的类型包括音频垃圾数据或视频垃圾数据,所述根据所述原始垃圾数据的类型和对应的特征提取方法,得到不同类型原始垃圾数据的特征向量,包括:对所述原始垃圾数据进行切片,得到若干切片;对每一切片提取预设维度的特征向量,得到切片特征向量;将若干个切片的切片特征向量进行合并,得到所述原始垃圾数据的特征矩阵;基于所述原始垃圾数据的特征矩阵构建对应的垃圾特征数据库。

12、根据本公开的第二方面,提供一种基于特征提取的反垃圾装置,包括:数据获取模块,被配置为获取待检测数据;特征提取模块,被配置为提取所述待检测数据的特征,得到待检测特征向量;相似度确定模块,被配置为通过搜索引擎确定所述待检测特征向量与垃圾特征数据之间的相似度;所述垃圾特征数据为垃圾特征数据库中任一数据;最大相似度确定模块,被配置为根据所述待检测特征向量与所述垃圾特征数据之间的相似度,确定最大相似度;检测模块,被配置为确定所述最大相似度所属的预设相似度区间,并将所述预设相似度区间对应的预设标签确定为所述待检测数据的检测结果。

13、在一种实施方式中,所述待检测数据至少包括图像、音频、视频中的一者,所述垃圾特征数据库至少包括图像垃圾特征数据库、音频垃圾特征数据库和视频垃圾特征数据库中的一者,所述相似度确定模块被配置为确定所述待检测特征向量与所述图像垃圾特征数据库中图像垃圾特征数据的相似度;和/或确定所述待检测特征向量与所述音频垃圾特征数据库中音频垃圾特征数据的相似度;和/或确定所述待检测特征向量与所述视频垃圾特征数据库中视频垃圾特征数据的相似度。

14、在一种实施方式中,所述最大相似度确定模块被配置为根据所述待检测特征向量与所述图像垃圾特征数据库中图像垃圾特征数据的相似度,确定第一最大相似度;和/或根据所述待检测特征向量与所述音频垃圾特征数据库中音频垃圾特征数据的相似度,确定第二最大相似度;和/或根据所述待检测特征向量与所述视频垃圾特征数据库中视频垃圾特征数据的相似度,确定第三最大相似度;所述最大相似度至少包括所述第一最大相似度、所述第二最大相似度、所述第三最大相似度中的一者。

15、在一种实施方式中,所述检测模块被配置为确定所述第一最大相似度所属的第一预设相似度区间;和/或确定所述第二最大相似度所属的第二预设相似度区间;和/或确定所述第三最大相似度所属的第三预设相似度区间;确定所述第一预设相似度区间、所述第二预设相似度区间、和/或所述第三预设相似度区间中是否存在优先级相同的预设相似度区间;在不存在优先级相同的预设相似度区间的情况下,将所述第一预设相似度区间、所述第二预设相似度区间、和/或所述第三预设相似度区间中优先级最高的预设相似度区间对应的预设标签确定为所述待检测数据的检测结果。

16、在一种实施方式中,所述检测模块还被配置为在存在优先级相同的预设相似度区间的情况下,确定优先级相同的预设相似度区间对应的垃圾特征数据库的优先级,将优先级最高的垃圾特征数据库对应的预设相似度区间的预设标签确定为所述待检测数据的检测结果。

17、在一种实施方式中,所述视频垃圾特征数据库的优先级高于音频垃圾特征数据库的优先级,所述音频垃圾特征数据库的优先级高于图像垃圾特征数据库的优先级。

18、在一种实施方式中,所述基于特征提取的反垃圾装置还包括数据库构建模块,所述数据库构建模块被配置为获取原始垃圾数据,并确定所述原始垃圾数据的类型;根据所述原始垃圾数据的类型,确定对应的特征提取方法;根据所述原始垃圾数据的类型和对应的特征提取方法,得到不同类型原始垃圾数据的特征向量;基于不同类型原始垃圾数据的特征向量构建不同类型的垃圾特征数据库。

19、在一种实施方式中,所述原始垃圾数据的类型包括音频垃圾数据或视频垃圾数据,所述数据库构建模块被配置为对所述原始垃圾数据进行切片,得到若干切片;对每一切片提取预设维度的特征向量,得到切片特征向量;将若干个切片的切片特征向量进行合并,得到所述原始垃圾数据的特征矩阵;基于所述原始垃圾数据的特征矩阵构建对应的垃圾特征数据库。

20、根据本公开实施方式的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一种方法。

21、根据本公开实施方式的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一种方法。

22、根据本公开实施方式的基于特征提取的反垃圾方法、基于特征提取的反垃圾装置、计算机可读存储介质及电子设备,通过计算将检测数据的特征向量与垃圾特征数据库中垃圾特征数据之间的相似度,将相似度中最大相似度所属的预设相似度区间的标签作为待检测数据的检测结果。一方面,不需要训练模型,通过模型实现反垃圾检测,降低了成本;另一方面,实现了轻量化的反垃圾检测,具有检测响应速度快,风控实时性高的特点。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1