一种基于人工智能挖掘的网络内容风控管理系统的制作方法

文档序号:35793669发布日期:2023-10-21 21:47阅读:29来源:国知局
一种基于人工智能挖掘的网络内容风控管理系统的制作方法

本技术涉及人工智能,尤其涉及一种基于人工智能挖掘的网络内容风控管理系统。


背景技术:

1、上世纪后期开始的互联网时代,极大的便利了人们的信息传输、提升了工作效率,产生了多种多样的经济模式。然而,由于互联网的自由性,世界范围内都存在着有些不法分子往往依靠网络进行一些公开或者隐蔽的不法活动,或者是虽然不违法但是违反社会公德的行为。

2、对于网络内容的风险控制和管理,是互联网监管部门面临的棘手而必须要做的重要任务。目前的网络内容风控管理,往往需要大量的人工现场阅读、登录来进行监管。这种监管效率低,而且容易导致漏检。


技术实现思路

1、有鉴于此,本技术的目的在于提出一种基于人工智能挖掘的网络内容风控管理系统,本技术能够针对性的解决现有的问题。

2、基于上述目的,本技术还提出了一种基于人工智能挖掘的网络内容风控管理系统,包括:

3、新业务内容检测模块,用于通过工具自动获取新业务内容,并对所述新业务内容进行基于人工智能挖掘的审核、分类,所述新业务内容至少包括app、公众号、微博、微信;

4、网站内容监管模块,对预设网站库内的网站内容、暗链、外链、篡改、漏洞、可用性多个维度进行检测;

5、企业内容安全治理模块,基于主动拨测、旁路检测、文件共享的内容采集技术,自动化获取文本、视频、图片、音频、复杂文档内容,并进行基于人工智能挖掘的内容审核;

6、ugc内容审核模块,用于对用户原创内容进行审核,所述用户原创内容至少包括视频直播、婚恋交友、社区论坛、电商网站、和在线教育。

7、进一步地,所述通过工具自动获取新业务内容,并对所述新业务内容进行基于人工智能挖掘的审核、分类,包括:

8、通过爬取、流量还原、识别内容主动送检中的一种或多种自动获取所述新业务内容的历史挖掘数据;

9、根据合规数据库,对所述历史挖掘数据进行标注,得到标注后的历史挖掘数据集;

10、构建特征向量空间网络,并使用所述历史挖掘数据集输入所述特征向量空间网络进行训练,得到训练好的特征向量空间网络;

11、将实时获取的待挖掘数据输入所述训练好的特征向量空间网络,以判断所述待挖掘数据中是否包含违规内容。

12、进一步地,所述对预设网站库内的网站内容、暗链、外链、篡改、漏洞、可用性多个维度进行检测,包括:

13、提取待检测网页的网页内容;对网页内容进行关键词匹配,判断网页内容中是否存在一个或多个预设关键词;若存在一个或多个预设关键词,发出匹配提示;

14、提取待检测网页的网页内容;对网页内容进行暗词匹配,判断网页内容中是否存在一个或多个预设暗词;若存在一个或多个预设暗词,则将一个或多个预设暗词确定为一个或多个目标暗词,并根据一个或多个目标暗词在合法网页中出现的目标概率得到网页异常参数;若网页异常参数大于标准参数,则确定检测到暗链;

15、获取待检测网站的外部链接信息以及外部链接所属网站域名信息;根据外部链接信息获取外部链接的页面内容信息,获取外部链接所属网站域名的特征信息;对外部链接的页面内容信息进行敏感内容识别,确定外部链接的页面内容的敏感内容分数;将外部链接所属网站域名的特征信息、相似度值和敏感内容分数对应的向量输入检测模型,获得外部链接的检测结果;

16、收集待监测网站的网页原始数据;从所述网页原始数据中提取页面元数据特征;将所述页面元数据特征输入到训练后的神经网络中进行篡改检测;根据篡改检测结果判断待监测网站是否存在篡改;

17、获取预设网站库里网站的每个网页的url;基于每个网页的url,确定所述预设网站库里网站的登录网页;检测所述登录网页是否存在验证码,得到第一检测结果;基于所述第一检测结果,检测所述目标网站是否存在漏洞;

18、获取待检测的网站的站点ip,并建立待检测的站点ip对应的人工智能模型;提取日常web业务访问的目的ip,判断目的ip与人工智能模型的建模ip是否一致;若目的ip与人工智能模型的建模ip一致,则对符合建模ip的web请求信息做关键信息统计,判断关键信息是否在预设的正常范围内;若关键信息不在预设的正常范围内,该网站不可用,若关键信息在预设的正常范围内,该网站可用。

19、进一步地,所述基于主动拨测、旁路检测、文件共享的内容采集技术,自动化获取文本、视频、图片、音频、复杂文档内容,并进行基于人工智能挖掘的内容审核,包括:

20、建立拨测任务;选择拨测目标企业;对拨测目标企业进行验证访问;执行拨测任务,在每一次拨测任务的执行周期中,对选择的拨测目标企业进行主动测试获得文本、视频、图片、音频、复杂文档内容的各项指标;提取所述指标大于预设阈值的文本、视频、图片、音频、复杂文档内容;

21、将旁路检测设备的检测接口设置为二层接口,并将检测接口与交换机相连;交换机通过镜像将流量上送到所述旁路检测设备上检测;在检测接口上配置旁路检测功能,使旁路检测设备只检测而不转发流量;配置安全策略,引用需要的安全配置文件,对流量进行对应的内容安全检测;

22、通过预设文件共享端口获取待检测企业的文本、视频、图片、音频、复杂文档内容;

23、将所述文本、视频、图片、音频、复杂文档内容与基于人工智能构建的预设匹配数据库进行匹配度计算,将匹配度高于预设阈值的数据提取并给出预警提示。

24、进一步地,当所述旁路检测设备只有一个接口接收镜像流量或者多个接口接收镜像流量但针对各个接口接收的流量配置相同的安全策略时,将接口加入任何安全区域,将安全策略的源安全区域和目的安全区域配置成any;当所述旁路检测设备有多个接口接收镜像流量,且要针对各个接口接收的流量配置不同的安全策略时,将接口加入不同的安全区域,将安全策略的源安全区域和目的安全区域配置成检测接口所在的安全区域。

25、进一步地,所述对用户原创内容进行审核,包括:

26、文本识别:对所述用户原创内容中的文本进行语义识别、语境分析;

27、图像识别:建立图片md5指纹库,对所述用户原创内容中的图像进行图像识别;

28、视频识别:通过解码器对视频数据解码,提取视频特征,对所述用户原创内容中的视频进行识别;

29、音频识别:采用语言识别算法、关键词检索、声纹识别对所述用户原创内容中的音频进行识别;

30、将所述文本识别、图像识别、视频识别、音频识别得到的数据输入训练好的特征向量空间网络,以判断所述数据中是否包含违规内容。

31、进一步地,所述图像识别具体包括以下步骤:获取所述用户原创内容中的图像的向量矩阵;对所述用户原创内容中的图像的向量矩阵进行字符串转换处理,得到所述用户原创内容中的图像的字符串;对所述用户原创内容中的图像的字符串进行加密,得到所述用户原创内容中的图像的加密字符串;对所述用户原创内容中的图像的加密字符串,与所述用户原创内容中的图像的md5值进行拼接操作,得到所述用户原创内容中的图像的组合数据;将所述用户原创内容中的图像的组合数据,发送至云端服务器;接收云端服务器根据组合数据反馈的图像识别结果。

32、进一步地,所述对所述用户原创内容中的文本进行语义识别、语境分析,包括以下步骤:

33、基于长窗口构建语义模型,基于短窗口构建语境模型;使用用户原创内容历史语料库基于所述语义模型和语境模型训练得到所述用户原创内容的中文词向量模型;使用所述用户原创内容的中文词向量模型对实时输入的所述用户原创内容的文本进行识别并输出识别结果。

34、总的来说,本技术的优势及给用户带来的体验在于:

35、1、本技术实现了对网络内容风控的及时、准确、高效处理,不需要大量的人工现场阅读、登录来进行监管网站、app、微博微信等新兴业务内容,实现了对各种门户网站、企业内容、ugc用户原创内容的实时监管,监管效率高,而且不容易漏检。

36、2、高效的采集能力:海量数据采集能力,支持web、app、短视频等类型的数据采集;文本识别:语义识别、语境分析,文本识别率达到98%以上;图像识别:精准识别图片中不良内容。建立图片md5指纹库,图片识别率达到93%以上;视频识别:解码器对视频数据解码,提取视频特征,视频识别率达到95%以上;音频识别:采用语言识别算法、关键词检索、声纹识别,业内领先的语音识别能力。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1