一种数据提取方法及装置制造方法

文档序号:6525683阅读:205来源:国知局
一种数据提取方法及装置制造方法
【专利摘要】本申请公开了一种数据提取方法及装置,所述方法包括:获取网络数据流中与预设配置文件中的目标邮箱类型相对应的目标邮箱数据,目标邮箱数据的业务数据类型与配置文件中的目标数据类型相对应;依据配置文件中与目标邮箱类型相对应的目标数据提取规则,在目标邮箱数据中提取特征数据。本申请实施例能够通过修改配置文件中目标邮箱类型和目标数据类型即可实现对多种不同类型网页邮箱的特征数据提取,无需针对每种类型的网页邮箱编写一套分析代码,而在某一网页邮箱的特征发生变化时,只需要在配置文件中修改与该网页邮箱类型相对应的目标数据提取规则即可实现,更加无需重新编写整套分析代码,明显提高对不同类型的网页邮箱进行特征数据提取的效率。
【专利说明】一种数据提取方法及装置
【技术领域】
[0001]本申请涉及数据处理【技术领域】,特别涉及一种数据提取方法及装置。
【背景技术】
[0002]随着电子网络的发展,webmail (基于万维网的电子邮箱,网页邮箱)应用越来越广泛。各种网页邮箱由于其各自的运营商的不同而具有不同的类型特征,如网页邮箱数据的传输数据包格式、界面展示形式等。
[0003]现有技术中,为了能够对网络数据流(客户端与服务器端进行网络数据传输的数据流)中网页邮箱的业务数据如读取邮件业务数据、下载附件业务数据、发送邮件业务数据等进行分析,例如,提取网页邮箱的读取邮件业务数据中的发件人、收件人、抄送人、密送人、主题、邮件正文及附件等数据,需要对待分析的webmail编写一套对应的分析代码,通过在分析代码中固定写入该类型的网页邮箱的特征,由此实现对该类型的网页邮箱数据的分析。
[0004]上述方案中,在对多种类型网页邮箱的邮箱数据进行特征数据如发件人、收件人等提取时,不仅需要对每种类型的网页邮箱都需要编写一套分析代码,在网页邮箱的任意特征发生变化时,都需要重新编写其分析代码,重新发布代码版本,严重影响网页邮箱数据提取的效率。

【发明内容】

[0005]本申请所要解决的技术问题是提供一种数据提取方法及装置,用以解决现有技术中针对不同类型网页邮箱的邮箱数据进行特征提取时,不仅需要对每种类型的网页邮箱都需要编写一套分析代码,在网页邮箱的任意特征发生变化时,都需要重新编写其分析代码,重新发布代码版本,严重影响网页邮箱数据提取的效率的技术问题。
[0006]本申请提供了一种数据提取方法,包括:
[0007]获取网络数据流中与预设配置文件中的目标邮箱类型相对应的目标邮箱数据,所述目标邮箱数据的业务数据类型与所述配置文件中的目标数据类型相对应;
[0008]依据所述配置文件中与所述目标邮箱类型相对应的目标数据提取规则,在所述目标邮箱数据中提取特征数据。
[0009]上述方法,优选的,所述获取网络数据流中与预设配置文件中的目标邮箱类型相对应的目标邮箱数据,包括:
[0010]获取网络数据流中与所述目标邮箱类型相对应的多个目标邮箱数据包,每个所述目标邮箱数据包的业务数据类型与所述目标数据类型相对应;
[0011]分别在所述目标邮箱数据包中提取各自的邮箱业务数据;
[0012]将所述邮箱业务数据进行组合,得到目标邮箱数据。
[0013]上述方法,优选的,所述获取网络数据流中与所述目标邮箱类型相对应的多个目标邮箱数据包,包括:[0014]获取网络数据流中与所述目标邮箱类型相对应的目标邮箱数据流;
[0015]获取所述目标邮箱数据流中其业务数据类型与所述目标数据类型相对应的目标邮箱数据包。
[0016]上述方法,优选的,所述获取网络数据流中与所述目标邮箱类型相对应的目标邮箱数据流,包括:
[0017]确定网络数据流中其第一个数据包的主字段信息与所述目标邮箱类型相对应的数据流;
[0018]对确定的数据流作为目标邮箱数据流进行获取。
[0019]上述方法,优选的,所述获取所述目标邮箱数据流中其业务数据类型与所述目标数据类型相对应的目标邮箱数据包,包括:
[0020]确定所述目标邮箱数据流中起始数据包,所述起始数据包为所述目标邮箱数据流中第一个其地址关键字与所述目标数据类型相对应的数据包;
[0021]以所述起始数据包为起点,依次获取所述起始数据包及其在所在目标邮箱数据流中的后续数据包,其中,获取到的起始数据包及其后续数据包为目标邮箱数据包。
[0022]上述方法,优选的,在所述目标邮箱数据包中分别提取邮箱业务数据,包括:
[0023]在所述目标邮箱数据包中分别提取邮箱请求数据及邮箱响应数据;
[0024]将所述邮箱请求数据及所述邮箱响应数据组成邮箱业务数据。
[0025]上述方法,优选的,所述目标数据提取规则包括待提取的特征标识及其特征数据存放规则;
[0026]其中,依据所述配置文件中与所述目标邮箱类型相对应的目标数据提取规则,在所述目标邮箱数据中提取特征数据,包括:
[0027]在所述目标邮箱数据中,依据所述特征数据存放规则分别提取与所述待提取的特征标识各自相对应的特征数据。
[0028]上述方法,优选的,在所述目标邮箱数据中提取特征数据之后,所述方法还包括:
[0029]依据所述特征数据,生成邮件文件数据。
[0030]本申请还提供了一种数据提取装置,包括:
[0031]邮箱数据获取单元,用于获取网络数据流中与预设配置文件中的目标邮箱类型相对应的目标邮箱数据,所述目标邮箱数据的业务数据类型与所述配置文件中的目标数据类型相对应;
[0032]特征数据提取单元,用于依据所述配置文件中与所述目标邮箱类型相对应的目标数据提取规则,在所述目标邮箱数据中提取特征数据。
[0033]上述装置,优选的,所述邮箱数据获取单元包括:
[0034]目标数据包获取子单元,用于依次获取网络数据流中所述目标邮箱类型相对应的多个目标邮箱数据包,每个所述目标邮箱数据包的业务数据类型与所述目标数据类型相对应;
[0035]业务数据提取子单元,用于分别在所述目标邮箱数据包中提取各自的邮箱业务数据;
[0036]业务数据组合子单元,用于将所述邮箱业务数据进行组合,得到目标邮箱数据。
[0037]上述装置,优选的,所述目标数据包获取子单元包括:[0038]目标流获取模块,用于获取网络数据流中与所述目标邮箱类型相对应的目标邮箱数据流;
[0039]目标包获取模块,用于获取所述目标邮箱数据流中其业务数据类型与所述目标数据类型相对应的目标邮箱数据包。
[0040]上述装置,优选的,所述目标流获取模块包括:
[0041]流确定子模块,用于确定网络数据流中其第一个数据包的主字段信息与所述目标邮箱类型相对应的数据流;
[0042]流获取子模块,用于对确定的数据流作为目标邮箱数据流进行获取。
[0043]上述装置,优选的,所述目标包获取模块包括:
[0044]起始包确定子模块,用于确定所述目标邮箱数据流中起始数据包,所述起始数据包为所述目标邮箱数据流中第一个其地址关键字与所述目标数据类型相对应的数据包;
[0045]目标包获取子模块,用于以所述起始数据包为起点,依次获取所述起始数据包及其在所在目标邮箱数据流中的后续数据包,其中,获取到的起始数据包及其后续数据包为目标邮箱数据包。
[0046]上述装置,优选的,所述业务数据提取子单元包括:
[0047]数据分别提取模块,用于在所述目标邮箱数据包中分别提取邮箱请求数据及邮箱响应数据;
[0048]数据组合模块,用于将所述邮箱请求数据及所述邮箱响应数据组成邮箱业务数据。
[0049]上述装置,优选的,所述目标数据提取规则包括待提取的特征标识及其特征数据存放规则;
[0050]其中,所述特征数据提取单元包括:
[0051]特征数据提取子单元,用于在所述目标邮箱数据中,依据所述特征数据存放规则分别提取与所述待提取的特征标识各自相对应的特征数据。
[0052]上述装置,优选的,还包括:
[0053]邮件生成单元,用于在所述特征数据提取单元在所述目标邮箱数据中提取特征数据之后,依据所述特征数据,生成邮件文件数据。
[0054]由上述方案中可知,本申请提供的一种数据提取方法及装置,通过在预设的配置文件中设置目标邮箱类型、目标数据类型及与目标邮箱类型相对应的目标数据提取规则,利用配置文件,在网络数据流中获取与目标邮箱类型相对应的目标邮箱数据,且目标邮箱数据的业务数据类型与目标数据类型相对应,之后依据与目标邮箱类型相对应的目标数据提取规则,在目标邮箱数据中提取特征数据,实现对配置文件中设置的目标邮箱类型相对应的邮箱数据进行分析。本申请在对各自不同类型的网页邮箱数据进行特征数据提取时,只需要修改配置文件中目标邮箱类型和目标数据类型即可实现,无需针对每种类型的网页邮箱编写一套分析代码,而在某一网页邮箱的特征发生变化时,只需要在配置文件中修改与该网页邮箱类型相对应的目标数据提取规则即可实现,更加无需重新编写整套分析代码,明显提高对不同类型的网页邮箱进行特征数据提取的效率。
【专利附图】

【附图说明】[0055]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0056]图1为本申请提供的一种数据提取方法实施例一的流程图;
[0057]图2为本申请提供的一种数据提取方法实施例二的部分流程图;
[0058]图3为本申请提供的一种数据提取方法实施例三的部分流程图;
[0059]图4为本申请实施例三的另一部分流程图;
[0060]图5为本申请实施例三的又一部分流程图;
[0061]图6为本申请实施例二的流程图;
[0062]图7为本申请实施例三的应用示例图;
[0063]图8为本申请提供的一种数据提取方法实施例四的流程图;
[0064]图9为本申请实施例的另一应用示例图;
[0065]图10为本申请提供的一种数据提取装置实施例五的结构示意图;
[0066]图11为本申请提供的一种数据提取装置实施例六的部分结构示意图;
[0067]图12为本申请实施例六的另一部分结构示意图;
[0068]图13为本申请提供的一种数据提取装置实施例七的部分结构示意图;
[0069]图14为本申请实施例七的另一部分结构示意图;
[0070]图15为本申请实施例七的又一部分结构示意图;
[0071]图16为本申请提供的一种数据提取装置实施例八的部分结构示意图;
[0072]图17为本申请提供的一种数据提取装置实施例九的结构示意图。
【具体实施方式】
[0073]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0074]参考图1,为本申请提供的一种数据提取方法实施例一的流程图,其中,所述方法可以适用于对网页邮箱的邮箱数据进行特征数据提取的应用中,所述网页邮箱即为webmail邮箱,其中,所述方法可以包括以下步骤:
[0075]步骤101:获取网络数据流中与预设配置文件中的目标邮箱类型相对应的目标邮箱数据。
[0076]其中,所述目标邮箱数据的业务数据类型与所述配置文件中的目标数据类型相对应。
[0077]需要说明的是,所述配置文件为预先由用户设置,即用户依据其当前需求进行设置该配置文件,即用户当前需要对哪种邮箱类型的webmail进行特征数据提取,以及用户当前需要对该类型的webmail进行哪种类型的业务数据进行特征数据提取,以及对该类型的webmail在进行特征数据提取方式等需求,由此,所述配置文件中可以包括由目标邮箱类型、目标数据类型以及与所述目标邮箱类型相对应的目标数据提取规则。[0078]其中,所述网络数据流可以为客户端与服务器端之间的网络数据包流,例如,用户在客户端的某个端口发起请求并发送邮件,服务器端给予响应并返回数据,等等,所有进行邮箱数据操作如邮箱登陆、发送邮件、读取邮件等过程中的所有数据包组成网络数据流。本申请实施例即为在该网络数据流中与配置文件中目标邮箱类型及目标数据类型相对应的邮箱数据进行特征数据提取。
[0079]需要说明的是,所述步骤101中获取到的目标邮箱数据,不仅其邮箱类型与用户所需要的邮箱类型一致,且其业务数据类型与用户所需要的业务数据类型一致,例如,在所述网络数据流中,获取163邮箱的发送邮件的目标邮箱数据。
[0080]步骤102:依据所述配置文件中与所述目标邮箱类型相对应的目标数据提取规贝IJ,在所述目标邮箱数据中提取特征数据。
[0081]其中,所述特征数据可以包括有收件人、发件人、抄送人、密送人、主题、邮件正文、附件名称、邮件ID标识等多项特征数据,单项特征数据中可以为空。
[0082]需要说明的是,数据提取规则是指所述在所述目标邮箱数据中提取特征数据所依据的方式或方法,该数据提取规则与其特定的邮箱类型相对应,也就是说,一种类型的邮箱具有其特定的特征数据提取规则,由此,在所述配置文件中预先设置有与所述目标邮箱类型相对应的目标数据提取规则,在所述步骤102中,在所述目标邮箱数据中依据该目标数据提取规则进行特征数据的提取,实现本申请实施例目的。
[0083]由上述方案中可知,本申请提供的一种数据提取方法实施例一,通过在预设的配置文件中设置目标邮箱类型、目标数据类型及与目标邮箱类型相对应的目标数据提取规贝U,利用配置文件,在网络数据流中获取与目标邮箱类型相对应的目标邮箱数据,且目标邮箱数据的业务数据类型与目标数据类型相对应,之后依据与目标邮箱类型相对应的目标数据提取规则,在目标邮箱数据中提取特征数据,实现对配置文件中设置的目标邮箱类型相对应的邮箱数据进行分析。本申请实施例一在对各自不同类型的网页邮箱数据进行特征数据提取时,只需要修改配置文件中目标邮箱类型和目标数据类型即可实现,无需针对每种类型的网页邮箱编写一套分析代码,而在某一网页邮箱的特征发生变化时,只需要在配置文件中修改与该网页邮箱类型相对应的目标数据提取规则即可实现,更加无需重新编写整套分析代码,明显提高对不同类型的网页邮箱进行特征数据提取的效率。
[0084]具体实现中,可以参考图2,为本申请提供的一种数据提取方法实施例二中所述步骤101的流程图,其中,所述步骤101中,在获取网络数据流中与预设配置文件中的目标邮箱类型相对应的目标邮箱数据时,可以通过以下步骤实现:
[0085]步骤111:获取网络数据流中与所述目标邮箱类型相对应的多个目标邮箱数据包,其中,每个所述目标邮箱数据包的业务数据类型与所述目标数据类型相对应。
[0086]其中,在所述网络数据流中包含有各种邮箱类型的数据流,每种类型邮箱类型的数据流中包含有各种业务数据类型的数据包,这些数据包中具有其各自的业务数据类型。在所述步骤111中是指,在所述网络数据流的所有数据流的所有数据包中,获取到不仅其邮箱类型与所述目标邮箱类型相一致,且其业务数据类型与所述目标数据类型相一致的数据包,将这些数据包作为目标邮箱数据包,实现对目标邮箱数据包的获取。也可以理解为:所述步骤111是将所述网络数据流中,用户通过客户端中某一类型邮箱向服务器端进行某一业务数据请求且服务器端返回响应数据的过程中的数据包进行获取。[0087]步骤112:分别在所述目标邮箱数据包中提取各自的邮箱业务数据。
[0088]其中,所述邮箱业务数据可以理解为:用户通过客户端发起的邮箱请求数据以及服务器端对该请求数据进行响应并返回的邮箱响应数据,这些数据中能够表明用户通过客户端的某一类型邮箱进行发起的业务请求数据的类型以及各种内容,如发件人信息、收件人信息、主题信息等,这些数据以数据包中所规定的格式进行存放。
[0089]即为,所述步骤112可以通过首先在所述目标邮箱数据包中分别提取邮箱请求数据及邮箱响应数据,然后再将所述邮箱请求数据及所述邮箱响应数据组成邮箱业务数据的方式具体实现。
[0090]步骤113:将所述邮箱业务数据进行组合,得到目标邮箱数据。
[0091]需要说明的是,在所述步骤111至所述步骤113中所述的方案中,是指,通过分析网络数据流中的数据包,进而获取到网络数据流中的多个目标邮箱数据包,之后才能在各个目标邮箱数据包中提取到邮箱业务数据组合成目标邮箱数据。
[0092]参考图3,为本申请提供的一种数据提取方法实施例三中所述步骤111的流程图,其中,所述步骤111可以通过以下步骤实现:
[0093]步骤301:获取网络数据流中与所述目标邮箱类型相对应的目标邮箱数据流。
[0094]具体的,所述步骤301可以通过如图4中所示的流程图实现,所述步骤301可以包括:
[0095]步骤311:确定网络数据流中其第一个数据包的主字段信息与所述目标邮箱类型相对应的数据流。
[0096]其中,所述步骤311是指,依次对网络数据流中的数据流进行第一个数据包分析,其分析内容为:对该数据流的第一数据包的主字段信息是否与所述目标邮箱类型相对应的分析判断。
[0097]步骤312:对确定的数据流作为目标邮箱数据流进行获取。
[0098]其中,所述步骤312是指,在所述步骤311中判断出所述网络数据流中一数据流的第一个数据包的主字段信息与所述目标邮箱类型相对应,此时,将该数据流作为目标邮箱数据流进行获取。
[0099]需要说明的是,所述主字段信息可以为数据包中的host字段信息。
[0100]步骤302:获取所述目标邮箱数据流中其业务数据类型与所述目标数据类型相对应的目标邮箱数据包。
[0101]具体的,所述步骤302可以通过如图5中所示的流程图实现,所述步骤302可以包括:
[0102]步骤321:确定所述目标邮箱数据流中起始数据包,所述起始数据包为所述目标邮箱数据流中第一个其地址关键字与所述目标数据类型相对应的数据包。
[0103]其中,所述步骤321是指,由所述目标邮箱数据流中的第一数据包开始,对数据包中的地址关键字进行分析,其分析内容为:对该数据包的地址关键字是否与所述目标数据类型相对应的分析判断。在所述步骤321中判断出一数据包的地址关键字与所述目标数据类型相对应时,将该数据包确定为所述目标邮箱数据流中的起始数据包,执行步骤322,不再对该起始数据包在其所在目标邮箱数据流中的后续数据包进行地址关键字的分析判断。
[0104]步骤322:以所述起始数据包为起点,依次获取所述起始数据包及其在所在目标邮箱数据流中的后续数据包,其中,获取到的起始数据包及其后续数据包为目标邮箱数据包。
[0105]需要说明的是,在所述目标邮箱数据流中,在判断出起始数据包之后,其后续的数据包均为与该起始数据包同一业务数据类型的数据包,由此,所述步骤322中对该起始数据包及其后续数据包进行获取,此时,获取到的起始数据包及其后续数据包即为所述目标邮箱数据包,也就是满足用户需求的数据包。
[0106]其中,所述地址关键字可以为所述数据包中的URL关键字。
[0107]参考图6,为本申请实施例三在实现对webmail邮箱数据进行特征数据提取时的一流程图,其中,所述方法可以包括以下步骤:
[0108]步骤601:确定网络数据流中的一数据流中一数据包包作为当前数据包。
[0109]步骤602:判断该当前数据包的邮箱类型是否已知且与预设配置文件中的目标邮箱类型相一致,如果是,执行步骤603,否则执行步骤604。
[0110]步骤603:判断该当前数据包的业务数据类型是否已知且与所述配置文件中目标数据类型相一致,如果是,执行步骤608,否则,执行步骤606。
[0111]步骤604:在该当前数据包的邮箱类型未知时,提取该数据包中的host字段,执行步骤605。
[0112]步骤605:依据该当前数据包的host字段,确定该当前数据包的邮箱类型,在该当前数据包的邮箱类型与所述目标邮箱类型相一致时,执行步骤606,否则,结束对当前数据包所在数据流的处理。
[0113]其中,本申请实施例中在所述步骤605中判断出该当前数据包的邮箱类型与所述目标邮箱类型不一致时,也可以返回执行所述步骤601中重新确定网络数据流中当前的数据流的下一数据流的一数据包为当前数据包。
[0114]步骤606:依据该当前数据包中的URL关键字及配置文件中预先设置的URL与业务数据类型的对应关系,确定该当前数据包的业务数据类型,如发送邮件或读取邮件等类型,执行步骤607。
[0115]步骤607:判断上述步骤606中确定业务数据类型是否成功,如果成功,执行步骤608,否则,返回执行所述步骤601中确定网络数据流中该当前数据包所在数据流的下一个数据包为当前数据包,继续执行对所述当前数据包的分析判断,直到所述当前数据包的业务数据类型与所述目标数据类型相一致,执行步骤608。
[0116]步骤608:在所述当前数据包所在的数据流中,获取所述当前数据包及其后续数据包,获取这些数据包中客户端发送的邮箱请求数据和服务器端返回的响应数据作为目标邮箱数据,执行步骤609。
[0117]步骤609:在所述网络数据流中目标邮箱数据获取获取完毕,如果是,执行步骤610,否则,返回执行所述步骤601中继续获取当前数据流中的下一个数据包,直到数据获取完成,执行步骤610。
[0118]需要说明的是,在所述步骤609中判断出目标邮箱数据获取完成时,返回执行所述步骤601获取下一个数据包,此时,获取到的当前数据包无需进行邮箱类型及业务数据类型的判断,直到所述目标邮箱数据获取完成。
[0119]步骤610:依据所述配置文件中与所述目标邮箱类型相对应的目标数据提取规贝IJ,在所述目标邮箱数据中提取特征数据,实现本申请实施例目的。
[0120]例如,在本申请实施例的实现中,每种类型的Webmail都有“点击收件箱”、“读取邮件”、“发送邮件”、“下载附件”、“上传附件”等步骤业务数据类型。在这些业务数据中提取出这些共性业务,抽象出各个业务在客户端与服务端之间进行数据交互时的产生的状态节点以及相邻状态节点之间的跳转路径以及跳转条件,状态节点是指,对每个业务,都有“确定邮箱类型” “确定数据类型” “接收并保存数据” “提取数据”等等这些状态;然后提取各个状态节点的关键字,以及各个步骤对应的业务数据的特征格式;
[0121]之后,将每种类型的webmail的状态节点、跳转路径、跳转条件、关键字、特征格式以配置文件的方式进行保存;本申请实施例按照配置文件中的配置信息对这些具备共性特征的Webmail进行统一处理。即,对网络数据流中属于同一类型的webmail邮箱数据进行对应特征数据的提取。
[0122]如图7中所示,为各种类型的webmail的各个状态节点之间的变迁图,结合如表1中状态变迁说明,对本申请实施例的具体实现进行说明。
[0123]表1状态变迁说明
[0124]
【权利要求】
1.一种数据提取方法,其特征在于,包括: 获取网络数据流中与预设配置文件中的目标邮箱类型相对应的目标邮箱数据,所述目标邮箱数据的业务数据类型与所述配置文件中的目标数据类型相对应; 依据所述配置文件中与所述目标邮箱类型相对应的目标数据提取规则,在所述目标邮箱数据中提取特征数据。
2.根据权利要求1所述的方法,其特征在于,所述获取网络数据流中与预设配置文件中的目标邮箱类型相对应的目标邮箱数据,包括: 获取网络数据流中与所述目标邮箱类型相对应的多个目标邮箱数据包,每个所述目标邮箱数据包的业务数据类型与所述目标数据类型相对应; 分别在所述目标邮箱数据包中提取各自的邮箱业务数据; 将所述邮箱业务数据进行组合,得到目标邮箱数据。
3.根据权利要求2所述的方法,其特征在于,所述获取网络数据流中与所述目标邮箱类型相对应的多个目标邮箱数据包,包括: 获取网络数据流中与所述目标邮箱类型相对应的目标邮箱数据流; 获取所述目标邮箱数据流中其业务数据类型与所述目标数据类型相对应的目标邮箱数据包。
4.根据权利要求3所述的方法,其特征在于,所述获取网络数据流中与所述目标邮箱类型相对应的目标邮箱数据流,包括: 确定网络数据流中其第一个数据包的主字段信息与所述目标邮箱类型相对应的数据流; 对确定的数据流作为目标邮箱数据流进行获取。
5.根据权利要求3或4所述的方法,其特征在于,所述获取所述目标邮箱数据流中其业务数据类型与所述目标数据类型相对应的目标邮箱数据包,包括: 确定所述目标邮箱数据流中起始数据包,所述起始数据包为所述目标邮箱数据流中第一个其地址关键字与所述目标数据类型相对应的数据包; 以所述起始数据包为起点,依次获取所述起始数据包及其在所在目标邮箱数据流中的后续数据包,其中,获取到的起始数据包及其后续数据包为目标邮箱数据包。
6.根据权利要求2所述的方法,其特征在于,在所述目标邮箱数据包中分别提取邮箱业务数据,包括: 在所述目标邮箱数据包中分别提取邮箱请求数据及邮箱响应数据; 将所述邮箱请求数据及所述邮箱响应数据组成邮箱业务数据。
7.根据权利要求1所述的方法,其特征在于,所述目标数据提取规则包括待提取的特征标识及其特征数据存放规则; 其中,依据所述配置文件中与所述目标邮箱类型相对应的目标数据提取规则,在所述目标邮箱数据中提取特征数据,包括: 在所述目标邮箱数据中,依据所述特征数据存放规则分别提取与所述待提取的特征标识各自相对应的特征数据。
8.根据权利要求1或7所述的方法,其特征在于,在所述目标邮箱数据中提取特征数据之后,所述方法还包括:依据所述特征数据,生成邮件文件数据。
9.一种数据提取装置,其特征在于,包括: 邮箱数据获取单元,用于获取网络数据流中与预设配置文件中的目标邮箱类型相对应的目标邮箱数据,所述目标邮箱数据的业务数据类型与所述配置文件中的目标数据类型相对应; 特征数据提取单元,用于依据所述配置文件中与所述目标邮箱类型相对应的目标数据提取规则,在所述目标邮箱数据中提取特征数据。
10.根据权利要求9所述的装置,其特征在于,所述邮箱数据获取单元包括: 目标数据包获取子单元,用于依次获取网络数据流中所述目标邮箱类型相对应的多个目标邮箱数据包,每个所述目标邮箱数据包的业务数据类型与所述目标数据类型相对应;业务数据提取子单元,用于分别在所述目标邮箱数据包中提取各自的邮箱业务数据;业务数据组合子单元,用于将所述邮箱业务数据进行组合,得到目标邮箱数据。
11.根据权利要求10所述的装置,其特征在于,所述目标数据包获取子单元包括: 目标流获取模块,用于获取网络数据流中与所述目标邮箱类型相对应的目标邮箱数据流; 目标包获取模块,用于获取 所述目标邮箱数据流中其业务数据类型与所述目标数据类型相对应的目标邮箱数据包。
12.根据权利要求11所述的装置,其特征在于,所述目标流获取模块包括: 流确定子模块,用于确定网络数据流中其第一个数据包的主字段信息与所述目标邮箱类型相对应的数据流; 流获取子模块,用于对确定的数据流作为目标邮箱数据流进行获取。
13.根据权利要求11或12所述的装置,其特征在于,所述目标包获取模块包括: 起始包确定子模块,用于确定所述目标邮箱数据流中起始数据包,所述起始数据包为所述目标邮箱数据流中第一个其地址关键字与所述目标数据类型相对应的数据包; 目标包获取子模块,用于以所述起始数据包为起点,依次获取所述起始数据包及其在所在目标邮箱数据流中的后续数据包,其中,获取到的起始数据包及其后续数据包为目标邮箱数据包。
14.根据权利要求10所述的装置,其特征在于,所述业务数据提取子单元包括: 数据分别提取模块,用于在所述目标邮箱数据包中分别提取邮箱请求数据及邮箱响应数据; 数据组合模块,用于将所述邮箱请求数据及所述邮箱响应数据组成邮箱业务数据。
15.根据权利要求9所述的装置,其特征在于,所述目标数据提取规则包括待提取的特征标识及其特征数据存放规则; 其中,所述特征数据提取单元包括: 特征数据提取子单元,用于在所述目标邮箱数据中,依据所述特征数据存放规则分别提取与所述待提取的特征标识各自相对应的特征数据。
16.根据权利要求9或15所述的装置,其特征在于,还包括: 邮件生成单元,用于在所述特征数据提取单元在所述目标邮箱数据中提取特征数据之后,依据所述特征数据,生成邮件文件数据。
【文档编号】G06F17/30GK103631975SQ201310728545
【公开日】2014年3月12日 申请日期:2013年12月26日 优先权日:2013年12月26日
【发明者】罗鹰, 李汪洋, 林康, 侯勇军, 伍宏宁 申请人:成都科来软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1