一种网站不良信息监测系统及其监测方法与流程

文档序号:21398823发布日期:2020-07-07 14:31阅读:576来源:国知局
一种网站不良信息监测系统及其监测方法与流程

本发明涉及网络信息安全技术领域,尤其是一种网站不良信息监测系统及其监测方法。



背景技术:

虚拟的网络世界与现实世界是对等的,现实世界中有美与丑、善与恶,网络世界里同样也有美与丑、善与恶。在互联网刚刚兴起的年代,人们上网主要为了查询资料和信息,彼时不良信息还非常有限。然而,随着互联网的不断发展,人们开始在网络上追求娱乐、寻找商机、阅读新闻,此时不良信息开始逐渐扩散。近几年,不良信息甚至发展成为一种产业,并开始从单纯的“知识型”信息向“谋利型”转变,而且手段多样、形式复杂,其中不乏很多违反法律、违反道德的不良信息,其中以色情类内容为主,还参杂着赌博、诈骗、枪械贩卖等违法内容。打击发布不良信息的网站,一直是我国有关单位的重要职责。如何快速从数量庞大的众多网站中查找出含有不良信息的,是网络信息安全的主要研究方向之一。

国家知识产权局于2018年1月5日公开的发明专利申请cn107547555a公开了一种网站安全监测方法,将提取的网页内容信息按照文本、图片、视频进行分类鉴别,并通过设置多重阈值防止误判。此监测方案存在两大问题:第一,忽略了音频数据在不良信息鉴别中的作用;第二,通过阈值防止误判,仍然存在误判的可能性,不仅可能将不包含不良信息的网站误判成不良信息网站,还有可能将不良信息网站误判成正规网站,简而言之,就是监测准确率不足。



技术实现要素:

针对上述问题,本发明提供一种网站不良信息监测系统及其监测方法。

本发明保护一种网站不良信息监测系统,包括监测设备、与所述监测设备交互的语音识别服务器和人工监听核查终端。

所述监测设备获取目标网站各个网页的网页内容信息,网页内容信息至少包含文本、图片、音频、视频中的一种;对于该网站网页中包含的视频信息,监测设备提取其中的音频数据,作为视-音频信息。

所述监测设备将该网站网页中包含的将视-音频信息和音频信息按照自然句对音频流进行切割,并将切割后的音频段按序发送至所述语音识别服务器。

所述语音识别服务器将音频段内容转换成文本并返回至所述监测设备,所述监测设备对文本进行不良关键词检索,并将匹配到不良关键词的文本及其对应音频段、日志文件发送至所述人工监听核查终端,所述人工监听核查终端根据所述日志文件将音频段和文本进行一一对应并显示,以供人工核查;所述日志文件包括但不限于来源网页链接、音频段的开始时间、音频段的结束时间、音频段对应的音频代码和音频段对应的文本。

所述监测设备对该网站网页中包含的文本、图片和视频进行鉴别,若鉴别出存在不良信息,则将包含不良信息的网页链接发送至所述人工监听核查终端,以供人工核查。

进一步的,所述监测设备与自然语言处理服务器交互,所述语音识别服务器将音频段内容转换成一次文本并返回至所述监测设备,所述监测设备再将所述语音识别服务器返回的一次文本发送至所述自然语言处理服务器,所述自然语言处理服务器将一次文本按照自然语言进行自动修正,并将修正后的二次文本返回至所述监测设备。

所述监测设备对二次文本进行不良关键词检索,并将匹配到不良关键词的二次文本及其对应音频段、日志文件发送至所述人工监听核查终端,所述人工监听核查终端根据所述日志文件将音频段和二次文本进行一一对应并显示,以供人工核查。

本发明还保护一种上述网站不良信息监测系统的监测方法,包括步骤:

1、监测设备利用网路爬虫获取目标网站各个网页的网页内容信息,网页内容信息至少包含文本、图片、音频、视频中的一种。

2、对于该网站网页中包含的视频信息,监测设备提取其中的音频数据,作为视-音频信息。

3、监测设备将该网站网页中包含的将视-音频信息和音频信息按照自然句对音频流进行切割,并将切割后的音频段按序发送至语音识别服务器。

4、语音识别服务器将音频段内容转换成文本并返回至监测设备,监测设备再将语音识别服务器返回的一次文本发送至自然语言处理服务器。

5、自然语言处理服务器将一次文本按照自然语言进行自动修正,并将修正后的二次文本返回至监测设备。

6、监测设备对二次文本进行不良关键词检索,并将匹配到不良关键词的二次文本及其对应音频段、日志文件发送至所述人工监听核查终端。

7、人工监听核查终端根据日志文件将音频段和二次文本进行一一对应并显示,以供人工核查;日志文件包括但不限于来源网页链接、音频段的开始时间、音频段的结束时间、音频段对应的音频代码和音频段对应的文本。

8、监测设备对该网站网页中包含的文本、图片和视频进行鉴别,若鉴别出存在不良信息,则将包含不良信息的网页链接发送至所述人工监听核查终端,以供人工核查。

9、人工核查过程中,首先判断不良信息是否为纯误判,若不是,则根据不良信息情况对该网站性质分类,判断其是属于正规网站包含了些许不良信息,还是其本身就是不良网站。

优选的,监测设备对二次文本进行不良关键词检索之后,通过语义理解分析包含不良关键词语句的语义,判定为不良信息之后,再将判定为不良信息的二次文本及其对应音频段、日志文件发送至人工监听核查终端。

优选的,监测设备对每一段音频和文本进行编号;若音频段没有对应文本,监测设备在日志文件中予以标记。

优选的,音频段时长限制在60s以内。

优选的,对于文本中的不良关键词进行突出显示。

优选的,监测设备对一定区域内的所有网站循环并发处理。

本发明将音频信息和视频信息中的音频数据也纳入网站不良信息监测范围,但是由于音频数据现有的监测手段主要是人工监听和语音识别两种,人工监听存在工作量大的问题,语音识别存在准确率低的问题,本发明通过将这两种音频数据监测手段有机结合,克服结合过程中存在的各种难题,在保证监测准确性的同时,极大缩减了人工监听的工作量,具有很好的推广价值;同时系统智能鉴别和人工核查结合的方式,同样可以用于文本、图片(包含视频帧截图)的核查,提高网站不良信息鉴别的准确性。

附图说明

图1为网站不良信息监测系统的结构框图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

实施例

一种网站不良信息监测系统,如图1所示,包括监测设备、与所述监测设备交互的语音识别服务器和人工监听核查终端,具体监测方法,包括以下步骤:

1、监测设备利用网路爬虫获取目标网站各个网页的网页内容信息,网页内容信息至少包含文本、图片、音频、视频中的一种。

2、对于该网站网页中包含的视频信息,监测设备提取其中的音频数据,作为视-音频信息。

音频信息以及视频信息中的音频数据也包含了大量信息,在不良信息监测中不应当被忽略。忽略这些信息将使得监测系统产生巨大漏洞,存在被不法分子钻空子的可能性,造成不良信息的大量漏监。

3、监测设备将该网站网页中包含的将视-音频信息和音频信息按照自然句对音频流进行切割,并将切割后的音频段按序发送至语音识别服务器。

人在正常说话时是有停顿的,按照自然句进行音频流切割,一是可以保证音频信息地完整性,防止音频数据丢失的情况发生;二是减少音频发送过程中占用的带宽,便于音频快速到达语音识别服务器,减少因网络塞车导致音频堵塞于发往语音识别服务器的路途当中,这就好比在一条拥堵的马路上,自行车、电瓶车,尤其是行人,可以从汽车缝隙中穿梭,网络传输同理。

如果在60s内都没有检测到足够长时间的停顿,那么强行对音频流进行切割,避免音频段过长,影响音频段的传输速度以及语音识别服务器的响应速度,确保系统时效性。

此外,当音频流被切割形成音频段时,它与正在生成的音频流就独立开来,意味着这段音频的结束,也意味着可以对这段音频进行回放,便于人工监听核查。

4、语音识别服务器为既有的第三方服务器,语音识别服务器将音频段内容转换成文本并返回至监测设备。

5、监测设备对文本进行不良关键词检索,并将匹配到不良关键词的文本及其对应音频段、日志文件发送至人工监听核查终端;其中,日志文件包括但不限于来源网页链接、音频段的开始时间、音频段的结束时间、音频段对应的音频代码和音频段对应的文本。

音频段的开始时间、结束时间均以北京时间为准。音频段的开始时间、结束时间、及其对应的音频代码是监测设备在音频切割过程中就能够获取的信息,音频段对应的文本是语音识别服务器返回的文本。

至于不良关键词库,这来自于多年打击非法网络信息的积累,也可以基于现有不良关键词库和深度学习技术,搭建不良关键词深度学习模型,提高文本中不良信息的监测速率和准确率。对于图片(包含视频帧截图)中不良信息的鉴别,亦可通过基于深度学习技术的图像识别模型来处理。

6、人工监听核查终端根据日志文件将音频段和文本进行一一对应并显示,以供人工核查。

7、监测设备对该网站网页中包含的文本、图片和视频进行鉴别,若鉴别出存在不良信息,则将包含不良信息的网页链接发送至所述人工监听核查终端,以供人工核查。

人工监听核查终端可以与监测设备通过网络连接,摆脱局域限制,仅需在固定场所设置监听核查办公室,即可对全国各处的监测设备进行有序地核查监听。与此同时,发送至人工监听核查终端的可疑不良信息是经过语音识别筛选过的,这极大地缩减了传统人工监听的工作量,从盲目被动监听核查,变成了积极主动查找监听核查。

为进一步提高音频监听核查效率上,可以对于文本中的不良关键词进行突出显示;还可以按照音频段对文本进行分段显示,即一个音频段对应的文本显示为一段。监听核查人员手动点击某段文本时,人工监听核查终端立即播放该段文本对应的音频。

在音频段和文本的传输过程中,音频段大而文本小,因此文本往往比音频段更早地传输到人工监听核查终端,即音频段和文本并非同时传输到人工监听核查终端,人工监听核查终端如何知晓哪一段文本要对应哪一段音频。在本实施例中,通过监测设备对每一段音频和文本进行编号来解决这一问题。

理想情况下,一段音频对应一段文字,按照顺序进行对应即可,但是可能存在一段音频没有对应文字的可能性,如现场播放歌曲等情况。这就涉及到如何将语音识别服务器返回的文本与音频段一一对应的问题。本实施例中,解决这一问题的方法是,若音频段没有与之对应的文本,监测设备在日志文件中予以标记,人工监听核查终端根据日志文件将音频段和文本进行一一对应,如果遇到某个音频段存在标记,就将其跳过,以免出现文本与音频段对应错误的问题出现。监测设备如何知晓哪一段音频段没有对应的文本,这是通过语音识别服务器返回的数据判断,例如将开始时间、结束时间、音频编号其中的一种信息或多种信息进行融合形成特征信息连通音频段一起发送给语音识别服务器,语音识别服务器返回携带该特征信息的文本,监控设备就可以知晓此音频段有没有对应文本发送过来。当然,实现方法不限于此。

语音识别技术是将人类语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列,可以认为是机械式地将音频转换为文字,其中肯定存在语义错误的问题,这降低了对于不良信息检索的准确率。自然语言处理技术研究的是如何实现人与计算机之间用自然语言进行有效通信,利用其对语音识别服务器产生的文本进行修正,能够弥补语音识别技术中存在的这一缺陷。

也就是说,如果将语音识别服务器输出的文本定义为一次文本,那么通过自然语言处理服务器将一次文本按照自然语言进行自动修正,并将修正后的二次文本返回至监测设备;监测设备对二次文本进行不良关键词检索,并将匹配到不良关键词的二次文本及其对应音频段、日志文件发送至人工监听核查终端,人工监听核查终端根据日志文件将音频段和二次文本进行一一对应并显示,以供人工核查。这样也提高了不良信息检索的准确率,减少人工核查的工作量。

此外,现如今语义理解技术也发展迅猛,基于语义理解技术的智能音箱也成为当下较为火热的产品之一。将语义理解技术用于对二次文本进行再一次筛选,可以进一步去除掉一些“虚假”不良信息,从而进一步减少人工核查的工作量。

至于文本、图片和视频的鉴别,可基于现有技术,这里不再赘述,只是在系统智能鉴别之后,辅以人工核查,提高鉴别的准确率。

8、人工核查过程中,首先判断不良信息是否为纯误判,若不是,则根据不良信息情况对该网站性质分类,判断其是属于正规网站包含了些许不良信息,还是其本身就是不良网站。前者,责令其整改;后者,严肃处理。

为了提升系统的监测效率,监测设备对一定区域内的所有网站循环并发处理,并在并发处理过程中,对于来自于同一网站同一网页的相同信息进行避重处理。

显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1