一种基于网络的数据处理方法及电子设备与流程

文档序号:17375986发布日期:2019-04-12 23:18阅读:149来源:国知局
一种基于网络的数据处理方法及电子设备与流程

本发明涉及与网络通信相关的数据处理领域,特别涉及一种基于网络的数据处理方法及电子设备。



背景技术:

在互联网时代下,人们日常的购物,社交,工作,生活都与网络有密切的关系。基于互联网的应用也越来越广泛,不仅包含原有的浏览网页,收发邮件,也兴起了论坛、微博、网盘等应用,并且以后还会发展出更多的互联网的应用。这些互联网应用经常为基于http协议实现的,这些应用对应的网络数据包含各自的私有信息,相应的数据格式也存在差异,这给精确的提取出网络数据的目标信息(如网络数据为论坛数据,则该目标信息包括了该论坛的发帖者、跟帖者、发帖内容等信息)带来困难,这会给准确的还原出网络数据的整个内容(如还原出原始网页的整个内容)带来了巨大的困扰。从而使得难以对网络安全进行检测,给网络安全审计带来了很大的挑战。



技术实现要素:

本发明实施例的目的在于提供一种基于网络的数据处理方法及电子设备,该方法能够将数据提取方式通用化,使之能够针对各种不同的数据源获取不同类型的网络数据,并对该网络数据进行提取操作,以精确的还原出网络数据的整个内容,极大地降低了数据提取的难度,提升了提取效率。

为了解决上述技术问题,本申请的实施例采用了如下技术方案:一种基于网络的数据处理方法,包括:

对接收到的网络数据进行解析,以获取所述网络数据的数据特征;

通过预设模板中的过滤子模板对所述数据特征进行分析,以确定所述网络数据是否为预设类型;

当所述网络数据为预设类型时,通过所述预设模板中的特征子模板确定所述网络数据的数据格式;

基于所述数据格式对所述网络数据进行解析,并通过所述预设模板中的提取子模板从解析后的网络数据中提取所述网络数据承载的目标信息。

作为优选,所述方法还包括:

当所述网络数据为预设类型时,通过所述预设模板中的特征子模板判断所述网络数据是否具有附件;

如果具有附件则基于所述网络的通信协议对所述附件进行还原操作。

作为优选,所述方法还包括:

获取还原后的所述附件的附件标识,获取所述目标信息的信息标识;

根据所述附件标识和所述信息标识对所述附件和相应的所述目标信息进行合成操作,以还原所述网络数据的整个内容。

作为优选,所述的基于所述数据格式对所述网络数据进行解析,并通过所述预设模板中的提取子模板从解析后的网络数据中提取所述网络数据承载的目标信息包括:

通过所述提取子模板解析出所述网络数据的应用信息;

将所述应用信息转化为预设标准结构数据;

基于预设提取规定,通过所述预设标准结构数据提取出所述目标信息。

作为优选,所述方法还包括:

根据所述网络数据的新增类型,对所述预设模板进行相应的修改操作,以使所述预设模板适用于所述新增类型的所述网络数据,其中,所述修改操作至少包括对所述过滤子模板的修改。

本发明实施例还提供了一种电子设备,包括:

解析模块,其配置为:对接收到的网络数据进行解析,以获取所述网络数据的数据特征;

处理模块,其配置为:通过预设模板中的过滤子模板对所述数据特征进行分析,以确定所述网络数据是否为预设类型;

当所述网络数据为预设类型时,通过所述预设模板中的特征子模板确定所述网络数据的数据格式;

基于所述数据格式对所述网络数据进行解析,并通过所述预设模板中的提取子模板从解析后的网络数据中提取所述网络数据承载的目标信息。

作为优选,处理模块进一步配置为:

当所述网络数据为预设类型时,通过所述预设模板中的特征子模板判断所述网络数据是否具有附件;

如果具有附件则基于所述网络的通信协议对所述附件进行还原操作。

作为优选,处理模块进一步配置为:

获取还原后的所述附件的附件标识,获取所述目标信息的信息标识;

根据所述附件标识和所述信息标识对所述附件和所述目标信息进行合成操作,以还原所述网络数据的整个内容。

作为优选,处理模块进一步配置为:

通过所述提取子模板解析出所述网络数据的应用信息;

将所述应用信息转化为预设标准结构数据;

基于预设提取规定,通过所述预设标准结构数据提取出所述目标信息。

作为优选,电子设备还包括预设模块,所述预设模块配置为:根据所述网络数据的新增类型,对所述预设模板进行相应的修改操作,以使所述预设模板适用于所述新增类型的所述网络数据,其中,所述修改操作至少包括对所述过滤子模板的修改。

本发明实施例的有益效果在于:该方法能够将数据提取方式通用化,使之能够针对各种不同的数据源获取不同类型的网络数据,并对该网络数据进行提取操作,以精确的还原出网络数据的整个内容,极大地降低了数据提取的难度,提升了提取效率。

附图说明

图1为本发明实施例的基于网络的数据处理方法的流程图;

图2为本发明实施例的处理方法的一个实施例的流程图;

图3为本发明实施例的处理方法的另一个实施例的流程图;

图4为本发明实施例的图1中步骤s4的流程图;

图5为本发明实施例的处理方法的又一个具体实施例的流程图;

图6为本发明实施例的电子设备的结构框图。

具体实施方式

此处参考附图描述本发明的各种方案以及特征。

应理解的是,可以对此处发明的实施例做出各种修改。因此,上述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本发明的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且与上面给出的对本发明的大致描述以及下面给出的对实施例的详细描述一起用于解释本发明的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本发明的这些和其它特性将会变得显而易见。

还应当理解,尽管已经参照一些具体实例对本发明进行了描述,但本领域技术人员能够确定地实现本发明的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时,鉴于以下详细说明,本发明的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本发明的具体实施例;然而,应当理解,所发明的实施例仅仅是本发明的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本发明模糊不清。因此,本文所发明的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本发明。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本发明的相同或不同实施例中的一个或多个。

本发明实施例的一种基于网络的数据处理方法,该方法可以对预设通信协议(如http协议)的网络数据进行处理,该网络数据为基于网络特别是http协议的互联网的应用的数据,如网页、邮件、论坛、微博、网盘等应用相对应的数据,通过分析网络数据,包括获取网络数据中的目标信息可以精确的获知上述应用的完整内容。如图1所示并结合图5,该方法包括以下步骤:

s1,对接收到的网络数据进行解析,以获取网络数据的数据特征。解析方式可以通过对网络数据的多个不同子特征进行分别解析,以获取该数据特征。如可以分别对网络数据的url,http的传输方法、hose信息等子特征进行解析,以获取该数据特征,该数据特征能够用来表征网络数据的基本信息包括多种应用类型的信息。

s2,通过预设模板中的过滤子模板对数据特征进行分析,以确定网络数据是否为预设类型。预设类型可以根据用户需要来预先设置,如在设置预设模板时考虑该需要对那些类型的网络数据进行处理,进而设置该预设模板,预设模板中的过滤子模板能够对数据特征进行分析,判断所处理的网络数据具体是那种类型,是否为预设类型,而具体分析方法可以对网络数据的各个子特征逐一进行分析,或者直接对特定的第一子特征进行分析,例如网络数据的host信息为mail.163.com,则可以至少根据第一子特征确定网络数据为邮件的相关数据,即能够判断该邮件数据是否为预设类型。

s3,当网络数据为预设类型时,通过预设模板中的特征子模板确定网络数据的数据格式。预设模板中的特征子模板能够预设规则对数据格式进行判断,包括可以分析各个子特征的相互关系以及各个子特征的格式,进而确定网络数据的数据格式。如是否为mime格式,urlparam格式,json格式,xml格式或者html格式等。此外特征子模板还可以判断网络数据是否具有附件,以便对具有附件与不具有附件的网络数据分别进行处理。

s4,基于数据格式对网络数据进行解析,并通过预设模板中的提取子模板从解析后的网络数据中提取网络数据承载的目标信息。本实施例中,目标信息是网络数据的原始内容或主要内容。例如目标信息可以是,论坛的发帖者,发帖者id,跟帖者,跟帖者id,发帖内容,跟帖内容;或者是,互联网邮件的发件者,收件者,抄送者,密送者,主题,内容,关联id;或者是,网盘应用的用户名,用户id,文件大小,文件名,关联id等信息。通过上述目标信息可以精确的获知该网络数据的主要内容,而该网络数据可以是多种不同类型,即该方法能够对不同类型的网路数据进行与之相适配的处理,以得到目标数据。

在本发明的一个实施例中,如图2所示,该方法还包括以下步骤:

s5,当网络数据为预设类型时,通过预设模板中的特征子模板判断网络数据是否具有附件。附件可以是网络数据中不同于目标数据的额外数据,当然网络数据中也可以不具有附件。举例说明,如果网络数据为邮件,目标数据可以是邮件的发件者,收件者,抄送者,密送者,主题,内容,关联id;而附件则可以是该邮件附带的附件,如图片,文档等数据。进一步来说,预设类型可以包括邮件类型、论坛类型、网盘类型等,当判断接收到的网络数据是上述预设类型之一时,便可以通过使用特征子模板来判断网络数据中是否具有附件,如是否该网络数据中是否具有图片、音频、文档等数据。

s6,如果具有附件则基于网络的通信协议对附件进行还原操作。由于网络数据是基于预设的通信协议(如http协议)的,且附件在传输过程中也是基于该通信协议进行编码后传输的,并不是以附件本身来传输,因此需要将该附件进行还原操作,才能得到附件的具体内容,如将附件还原为原始的照片、文档等。

在本发明的一个实施例中,如图3所示并结合图5,该方法还包括以下步骤:

s7,获取还原后的该附件的附件标识,获取目标信息的信息标识。信息标识(也为信息主键)是与目标信息相关联的信息,如标识的位置、内容、来源等信息,用来指示附件与目标信息的相互关系,如附件以何种形式或位置与目标信息进行合成。

s8,根据附件标识和信息标识对该附件和相应的目标信息进行合成操作,以还原网络数据的整个内容。具体来说,根据附件标识和信息标识能够将附件与目标信息相适配并以原始表现形式结合在一起,使得用户可以看到网络数据的原始内容,例如将网络数据为邮件,其中的目标数据为邮件的发件者,收件者,抄送者,密送者,主题,内容,关联id等信息,而附件则为发件者在邮件中附加的图片,通过上述合成操作后,能够将该图片与发件者,收件者,抄送者,密送者,主题,内容,关联id等信息相适配,即将该图片放置在合适位置,并以适当的形式显示出来,从而精确的还原出该邮件的原始内容,以满足查看需要。

在本发明的一个实施例中,如图4所示,所述的基于数据格式对网络数据进行解析,并通过预设模板中的提取子模板从解析后的网络数据中提取网络数据承载的目标信息的步骤包括以下步骤:

s41,通过提取子模板解析出网络数据的应用信息;

s42,将应用信息转化为预设标准结构数据;

s43,基于预设提取规定,通过预设标准结构数据提取出目标信息。

具体来说,提取子模板可以依据预设的提取规定,来对网络数据进行目标信息的提取,首先应用信息解析出来,该应用信息的内容与目标信息的内容相似,但是其更多的与网络数据的类型连关联,并不具有标准化数据结构,即由于网络数据的类型的多样性,不同的网络数据其对应的应用信息也分别具有不同的数据结构,因此本实施例中将该应用信息进行标准化操作,即将应用信息转化为预设标准结构数据,而该预设标准结构数据可以预设设定,或根据需要自定义,便于提取操作,也同时提高了提取效率。

在本发明的一个实施例中,该方法还包括以下步骤:根据网络数据的新增类型,对预设模板进行相应的修改操作,以使预设模板适用于新增类型的网络数据,其中,修改操作至少包括对过滤子模板的修改。由于网络应用多种多样,从而使得相应的网络数据多种多样,随着时间和科技的发展,还出现更多的其他类型的互联网的应用。因此,现有的模板并不能适用,需要根据网络数据的新增类型,对预设模板进行相应的修改操作,或增加该类型相对应的数据,如可以对过滤子模板、特征子模板、提取子模板分别进行相应的修改或更新,使其与新增类型的网络数据相适配,从而使得上述子模板可以对该新类型的网络数据进行识别和处理。

下面以具体的实施例来对上述方法进行详细的说明。

对基于互联网的webmail应用对应的网络数据(应用信息)进行处理:实现对基于互联网发送邮件的信息进行提取操作:

1.基于网络数据预先定义或设置该预设模板

http报文的头部特征如下:

post/jy6/xhr/compose/compose.do?action=deliver&sid=acxmqhfllyvifrsbpkllqftntfbvejurhttp/1.1

host:mail.163.com

首先提取http的头部信息,http的方法为post,url的开始部分是/jy6/xhr/compose/compose.do?action=deliver&sid=,host为mail.163.com,通过上述三项可以定义出预设模板的第一部分——过滤子模板,继续提取网络数据其他的特征,其中数据是json格式,可以定义出预设模板的第二部分——特征子模板,定义如下:

定义需要提取信息包含:邮件主题,邮件的发送者,邮件的接受者,邮件的抄送者等(以邮件主题和接受者为例),原始的json数据为:

{……

"subject":"helloworld",

"account":"\"mail_test1\"<mail_test1@163.com>",

"to":"\"mail_test2\"<mail_test2@outlook.com>",

……

}

通过上述可以定义出预设模板的第三部分——提取子模板,最终定义或设置好该预设模板如下:

2.当接收到上述的网络数据后,对网络数据进行解析(http协议解析),提取http头部的方法,url和host,定位到邮件发送数据的起始位置;

3.通过http头部方法,url和host定位到163邮件发送数据,接着使用预设模板中的163发送邮件模板的特征,利用json数据格式的处理方法,处理负载数据,形成标准的结构化数据;

4.使用提取子模板,提取标准的结构化数据中的主题和接受者,从而实现了对网络数据的处理。

本发明实施例还提供了一种电子设备,该电子设备可以对基于预设通信协议(如http协议)的网络数据进行处理,该网络数据为基于网络特别是http协议的互联网的应用的数据,如网页、邮件、论坛、微博、网盘等应用相对应的数据,通过分析网络数据,包括获取网络数据中的目标信息可以精确的获知上述应用的完整内容。如图6所示并结合图5,该电子设备包括:

解析模块,其配置为:对接收到的网络数据进行解析,以获取网络数据的数据特征。解析方式可以通过对网络数据的多个不同子特征进行分别解析,以获取该数据特征。如可以分别对网络数据的url,http的传输方法、hose信息等子特征进行解析,以获取该数据特征,该数据特征能够用来表征网络数据的基本信息包括多种应用类型的信息。

处理模块,其配置为:通过预设模板中的过滤子模板对数据特征进行分析,以确定网络数据是否为预设类型;

当网络数据为预设类型时,通过预设模板中的特征子模板确定网络数据的数据格式;

基于数据格式对网络数据进行解析,并通过预设模板中的提取子模板从解析后的网络数据中提取网络数据承载的目标信息。

预设类型可以根据用户需要来预先设置,如在设置预设模板时考虑该需要对那些类型的网络数据进行处理,进而设置该预设模板,预设模板中的过滤子模板能够对数据特征进行分析,判断所处理的网络数据具体是那种类型,是否为预设类型,而具体分析方法可以对网络数据的各个子特征逐一进行分析,或者直接对特定的第一子特征进行分析,例如网络数据的host信息为mail.163.com,则可以至少根据第一子特征确定网络数据为邮件的相关数据,即能够判断该邮件数据是否为预设类型。

预设模板中的特征子模板能够预设规则对数据格式进行判断,包括可以分析各个子特征的相互关系以及各个子特征的格式,进而确定网络数据的数据格式。如是否为mime格式,urlparam格式,json格式,xml格式或者html格式等。此外特征子模板还可以判断网络数据是否具有附件,以便对具有附件与不具有附件的网络数据分别进行处理。

本实施例中,目标信息是网络数据的原始内容或主要内容。例如目标信息可以是,论坛的发帖者,发帖者id,跟帖者,跟帖者id,发帖内容,跟帖内容;或者是,互联网邮件的发件者,收件者,抄送者,密送者,主题,内容,关联id;或者是,网盘应用的用户名,用户id,文件大小,文件名,关联id等信息。通过上述目标信息可以精确的获知该网络数据的主要内容,而该网络数据可以是多种不同类型,即该方法能够对不同类型的网路数据进行与之相适配的处理,以得到目标数据。

本发明实施例还提供了一种电子设备,处理模块进一步配置为:当网络数据为预设类型时,通过预设模板中的特征子模板判断网络数据是否具有附件;如果具有附件则基于网络的通信协议对附件进行还原操作。

附件可以是网络数据中不同于目标数据的额外数据,当然网络数据中也可以不具有附件。举例说明,如果网络数据为邮件,目标数据可以是邮件的发件者,收件者,抄送者,密送者,主题,内容,关联id;而附件则可以是该邮件附带的附件,如图片,文档等数据。进一步来说,预设类型可以包括邮件类型、论坛类型、网盘类型等,当判断接收到的网络数据是上述预设类型之一时,处理模块便可以通过使用特征子模板来判断网络数据中是否具有附件,如是否该网络数据中是否具有图片、音频、文档等数据。

由于网络数据是基于预设的通信协议(如http协议)的,且附件在传输过程中也是基于该通信协议进行编码后传输的,并不是以附件本身来传输,因此处理模块需要将该附件进行还原操作,才能得到附件的具体内容,如将附件还原为原始的照片、文档等。

在本发明的一个实施例中,处理模块进一步配置为:获取还原后的附件的附件标识,获取目标信息的信息标识;根据附件标识和信息标识对附件和目标信息进行合成操作,以还原网络数据的整个内容。

信息标识(也为信息主键)是与目标信息相关联的信息,如标识的位置、内容、来源等信息,用来指示附件与目标信息的相互关系,如附件以何种形式或位置与目标信息进行合成。

对于处理模块的合成操作具体来说,根据附件标识和信息标识能够将附件与目标信息相适配并以原始表现形式结合在一起,使得用户可以看到网络数据的原始内容,例如将网络数据为邮件,其中的目标数据为邮件的发件者,收件者,抄送者,密送者,主题,内容,关联id等信息,而附件则为发件者在邮件中附加的图片,通过上述合成操作后,能够将该图片与发件者,收件者,抄送者,密送者,主题,内容,关联id等信息相适配,即将该图片放置在合适位置,并以适当的形式显示出来,从而精确的还原出该邮件的原始内容,以满足查看需要。

在本发明的一个实施例中,处理模块进一步配置为:通过提取子模板解析出网络数据的应用信息;将应用信息转化为预设标准结构数据;基于预设提取规定,通过预设标准结构数据提取出目标信息。

具体来说,提取子模板可以依据预设的提取规定,来对网络数据进行目标信息的提取,首先应用信息解析出来,该应用信息的内容与目标信息的内容相似,但是其更多的与网络数据的类型连关联,并不具有标准化数据结构,即由于网络数据的类型的多样性,不同的网络数据其对应的应用信息也分别具有不同的数据结构,因此本实施例中将该应用信息进行标准化操作,即将应用信息转化为预设标准结构数据,而该预设标准结构数据可以预设设定,或根据需要自定义,便于提取操作,也同时提高了提取效率。

在本发明的一个实施例中,电子设备还包括预设模块,预设模块配置为:根据网络数据的新增类型,对预设模板进行相应的修改操作,以使预设模板适用于新增类型的所述网络数据,其中,修改操作至少包括对过滤子模板的修改。由于网络应用多种多样,从而使得相应的网络数据多种多样,随着时间和科技的发展,还出现更多的其他类型的互联网的应用。因此,现有的模板并不能适用,需要根据网络数据的新增类型,对预设模板进行相应的修改操作,或增加该类型相对应的数据,如可以对过滤子模板、特征子模板、提取子模板分别进行相应的修改或更新,使其与新增类型的网络数据相适配,从而使得上述子模板可以对该新类型的网络数据进行识别和处理。

以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1