一种内容风险识别方法、系统、设备及介质与流程

文档序号:17696793发布日期:2019-05-17 21:37阅读:151来源:国知局
一种内容风险识别方法、系统、设备及介质与流程

本发明涉及网络安全技术领域,尤其涉及一种内容风险识别方法、系统、设备及介质。



背景技术:

随着网络通信及电子设备的发展,互联网的应用越来越广泛,互联网的内容越来越丰富,一些不良信息例如黄、赌、毒、诈骗等信息也随着互联网技术的发展通过网络传播越来越频繁,这些信息往往通过文字、语音、视频、图片等方式进行传播,其内容类型的多样性使得目前现有的检测技术面临很大的挑战,现有技术中常通过网络中部署内容识别设备对内容的安全性进检测以过滤不良内容信息,但对图片、视频、语音等内容的检测对终端设备的性能要求很好,同时非常消耗终端设备的内存,在终端设备上完成检测效率低成本高,并且针对识别技术的更新无法做到及时的同步更新。



技术实现要素:

(一)要解决的技术问题

本发明提供了一种内容风险识别方法、系统、设备及介质,至少解决以上问题。

(二)技术方案

第一方面,本发明提供了一种内容风险识别方法,用于识别网络中内容的安全性,网络用于终端与云端之间的信息交互,方法包括:s1,对所述内容进行分类,以使内容被分为第一类型内容以及第二类型内容;s2,将第一类型内容传输至云端;s3,所述云端对第一类型内容进行风险识别,终端对第二类型进行识别。

可选地,第一类型内容包括图片、视频以及语音,第二类型内容包括网址、文字以及文本。

可选地,步骤s3中云端对第一类型内容进行风险识别具体为云端通过ocr技术和深度学习算法对图片和视频进行内容风险识别,云端通过asr技术对语音进行内容风险识别。

可选地,步骤s2具体为通过多种隧道和/或加密的传输方式将第一类型内容传输至云端。

可选地,步骤s3还包括云端将风险识别结果传送至终端,以实现终端对第一类型内容以及第二类型内容风险的识别。

第二方面,本发明提供了一种内容风险识别系统,系统包括:分类模块,用于对内容进行分类,以使内容被分为第一类型内容以及第二类型内容;传输模块,用于将第一类型内容传输至云端;识别模块,包括第一识别模块以及第二识别模块,其中,第一识别模块,用于云端对第一类型内容进行风险识别,第二识别模块,用于终端对第二类型进行识别。

可选地,第一类型内容包括图片、视频以及语音,第二类型内容包括网址、文字以及文本。

可选地,识别模块中,云端对第一类型内容进行风险识别具体为云端通过ocr技术和深度学习算法对图片和视频进行内容风险识别,云端通过asr技术对语音进行内容风险识别。

第三方面,本发明提供了一种电子设备,设备包括:处理器;存储器,其存储有计算机可执行程序,该程序在被处理器执行时,使得处理器执行上述的内容风险识别方法。

第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的内容风险识别方法。

(三)有益效果

本发明提供了一种内容风险识别方法、系统、设备及介质,该方法将对视频、图片、语音等内容发送至云端,使云端对其安全性进行识别,极大的降低了终端设备识别内容的资源消耗,使得终端设备的性能有更多的选择性,同时,云端算法的更新更加及时,而不用对终端进行一个个更新。

附图说明

图1示意性示出了本公开实施例的内容风险识别方法步骤图;

图2示意性示出了本公开实施例的内容风险识别的详细流程图;

图3示意性示出了本公开实施例的内容风险识别系统框图;

图4示意性示出了本公开实施例的电子设备框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。

第一方面,本发明实施例提供了一种内容风险识别方法,用于识别网络中内容的安全性,该网络用于终端与云端之间的信息交互,参见图1,方法包括:s1,对内容进行分类,以使内容被分为第一类型内容以及第二类型内容;s2,将第一类型内容传输至云端;s3,云端对第一类型内容进行风险识别,终端对第二类型进行识别。

网络中信息的交互有多种形式,如图片、视频、语音、文字等,不同的形式具有不同的属性,因此在对其承载的内容进行识别时也应区别对待,现有技术中终端对图片、视频、语音等的识别需要用到复杂的识别算法,该算法非常占用内容,并且对计算机的性能要求很高,需要专业的cpu进行实现,而本发明提供了一种内容风险识别方法,能很好的解决以上问题。

具体的,参见图2,s1,对内容进行分类,以使内容被分为第一类型内容以及第二类型内容;

可以通过网络中传输内容的文件后缀名或文件头部关键信息等方式识别文件的类型,还可以通过基于内容的文件类型识别算法,如通过提取字节值频率分布作为文件类型的“指纹”来识别内容的类型,或通过基于n-gram模型分析内容的二进制信息来识别内容的类型等。通过以上方式可识别出该内容属于图片、视频、语音、文字、文件或网址中的哪一种,对不同的内容的识别采用不同的形式,其中,图片、视频以及语音称为第一类型内容,网址、文字以及文本称为第二类型内容,对第一类型内容和第二类型内容采用不同的方式进行内容识别。

s2,将第一类型内容传输至云端;

由上述步骤s1可知,第一类型内容包括图片、视频以及语音,对图片的识别可以采用ocr(opticalcharacterrecognition光学字符识别)技术和深度学习算法对其进行内容风险识别,其中,ocr技术通过检测图片中的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将其形状翻译成计算机文字,通过对图片或视频中的关键帧提取出的图片进行扫描,然后对其进行分析处理,获取文字及版面信息以实现对内容的识别,需要对图像或视频进行二值化、噪声去除、倾斜校正等处理对计算机性能要求比较高,需要专业的cpu作为硬件支撑,深度学习算法使用的是cnn神经网络,cnn神经网络针对图片的内容进行识别;采用关键帧提取技术,提取视频中的关键帧并将其转换为图片,并以识别图片的方式进行识别。对语音的识别常采用asr(automaticspeechrecognition)技术,通过将人类语音中的词汇内容转换为计算机可读的输入,如按键、二进制编码或字符序列等,是信号处理、模式识别、概率论和信息论、发声机理和听觉机理的综合,同样需要很高的终端配置。在识别技术的更新上,多个终端的更新很难统一,可能导致多个终端对内容的识别结果不同,导致识别错误等问题。因此本发明实施例中将需要辅助算法且对终端设备硬件要求较高的内容发送至云端进行内容识别,云端可以实现对多个终端的统一管控,为例保证从终端到云端之间信息传输的安全性,可以使用标准的l2tp、https、或ipsec等多种隧道和加密技术传输信息,以保证传输过程中的安全性和可靠性。

s3,云端对第一类型内容进行风险识别,终端对第二类型进行识别。

由上可知,将终端设备中的视频中的关键帧、图片以及语音提取后传输至云端进行对图片、视频以及语音等的内容的风险识别,云端接收图片、视频或语音后,可以通过ocr技术以及深度学习算法,通过对图片或视频中的关键帧提取出的图片进行扫描,然后对其进行分析处理,获取文字及版面信息以实现对内容的识别,生成第一识别结果,采用asr等技术实现对语音内容的识别,通过将人类语音中的词汇内容转换为计算机可读的输入,生成第二识别结果,将第一识别结果或第二识别结果传输至终端,终端即可得知第一类型内容的安全性。同时终端本身对网址、文字以及文本等不需要复杂算法即可识别的内容进行识别,该种类型的识别对计算机硬件的要求较低,一般的终端设备都能满足,此时即可实现对第二类型内容的识别。通过以上方式即可实现对网络中的所有内容类型的内容进行识别。突破了在内容识别时对终端设备要求的限制,同时识别计算方法更新时只需更新云端中的算法即可,及时高效。

第二方面,本发明实施例提供了一种内容风险识别系统,参见图3,系统300包括:分类模块301、传输模块302以及识别模块303。

具体的,分类模块301,用于对内容进行分类,以使内容被分为第一类型内容以及第二类型内容;

分类模块301可以通过网络中传输内容的文件后缀名或文件头部关键信息等方式识别文件的类型,还可以通过基于内容的文件类型识别算法,如通过提取字节值频率分布作为文件类型的“指纹”来识别内容的类型,或通过基于n-gram模型分析内容的二进制信息来识别内容的类型等。通过以上方式可识别出该内容属于图片、视频、语音、文字、文件或网址中的哪一种,对不同的内容的识别采用不同的形式,其中,图片、视频以及语音称为第一类型内容,网址、文字以及文本称为第二类型内容,对第一类型内容和第二类型内容采用不同的方式进行内容识别。

传输模块302,用于将第一类型内容传输至云端;

第一类型内容包括图片、视频以及语音,对图片以及视频的内容的识别可以采用ocr(opticalcharacterrecognition光学字符识别)技术和深度学习算法对其进行内容风险识别,其中,ocr技术通过检测图片中的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将其形状翻译成计算机文字,通过对图片或视频中的关键帧提取出的图片进行扫描,然后对其进行分析处理,获取文字及版面信息以实现对内容的识别,需要对图像或视频进行二值化、噪声去除、倾斜校正等处理对计算机性能要求比较高,需要专业的cpu作为硬件支撑,深度学习算法使用的是cnn神经网络,cnn神经网络针对图片的内容进行识别;采用关键帧提取技术,提取视频中的关键帧并将其转换为图片,并以识别图片的方式进行识别。对语音的识别常采用asr(automaticspeechrecognition)技术,通过将人类语音中的词汇内容转换为计算机可读的输入,如按键、二进制编码或字符序列等,是信号处理、模式识别、概率论和信息论、发声机理和听觉机理的综合,同样需要很高的终端配置。在识别技术的更新上,多个终端的更新很难统一,可能导致多个终端对内容的识别结果不同,导致识别错误等问题。因此本发明实施例中将需要辅助算法且对终端设备硬件要求较高的内容发送至云端进行内容识别,云端可以实现对多个终端的统一管控,为例保证从终端到云端之间信息传输的安全性,可以使用标准的l2tp、https、或ipsec等多种隧道和加密技术传输信息,以保证传输过程中的安全性和可靠性。

识别模块303,包括第一识别模块3031以及第二识别模块3032,其中,第一识别模块3031,用于所述云端对所述第一类型内容进行风险识别,第二识别模块3032,用于所述终端对所述第二类型进行识别。

识别模块303将终端设备中的视频、图片的关键帧以及语音提取后传输至云端进行对图片、视频以及语音等的内容的风险识别,云端接收图片、视频或语音后,第一识别模块3031可以通过ocr技术和深度学习算法,通过对图片或视频中的关键帧提取出的图片进行扫描,然后对其进行分析处理,获取文字及版面信息以实现对内容的识别,生成第一识别结果,第一识别模块3031采用asr等技术实现对语音内容的识别,通过将人类语音中的词汇内容转换为计算机可读的输入,生成第二识别结果,将第一识别结果或第二识别结果传输至终端,终端即可得知第一类型内容的安全性。同时第二识别模块3032对网址、文字以及文本等不需要复杂算法即可识别的内容进行识别,该种类型的识别对计算机硬件的要求较低,一般的终端设备都能满足,此时即可实现对第二类型内容的识别。通过以上方式即可实现对网络中的所有内容类型的内容进行识别。

第三方面,本发明实施例提供了一种电子设备,参见图4,为本发明实施例的电子设备框图,电子设备400包括:处理器401和存储器402,该电子设备400可以执行根据本发明实施例的方法。

具体的,处理器401例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器401还可以包括用于缓存用途的板载存储器。处理器401可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

存储器402,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(hdd);光存储装置,如光盘(cd-rom);存储器,如随机存取存储器(ram)或闪存;和/或有线/无线通信链路。

存储器402可以包括计算机程序4021,该计算机程序4021可以包括代码/计算机可执行指令,其在由处理器401执行时使得处理器401执行例如上面本发明实施例的方法流程及其任何变形。

计算机程序4021可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序4021中的代码可以包括一个或多个程序模块,例如包括4021a、模块4021b、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器401执行时,使得处理器401可以执行例如上面结合本发明实施例的方法流程及其任何变形。

第四方面,本发明实施例提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本申请实施例的方法。

根据本申请的实施例,计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、射频信号等等,或者上述的任意合适的组合。

本领域技术人员可以理解,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本申请的范围。

尽管已经参照本申请的特定示例性实施例示出并描述了本申请,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本申请的精神和范围的情况下,可以对本申请进行形式和细节上的多种改变。因此,本申请的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1