一种全文数据的提取方法和装置的制造方法

文档序号:9547267阅读:663来源:国知局
一种全文数据的提取方法和装置的制造方法
【技术领域】
[0001]本发明实施例涉及移动及大数据处理技术领域,尤其涉及一种全文数据的提取方法和装置。
【背景技术】
[0002]互联网的高速发展,使数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素,伴随而来的是人类可以分析和处理的海量数据。在中型以上的城市如北京、上海,每天在网络行为中产生的各类数据已经超过PBS。例如手机应用程序(Applicat1n,APP)每天会有数TB的提交数据产生,这些数据中含有经玮度、手机串号、用户身份识别卡卡号、手机唯一识别码等信息,而这些信息在安全监管行业非常有用,因此海量提取这些信息成为一个重要且复杂的工作。
[0003]传统的全文提取方法主要有两种:一种是基于模板的提取方法,这种方法适用于特定网站的信息提取,但是对于多变的手机APP以及不同网站产生的数据来说,显得无能为力;另一种是基于正则表达式提取全文内容,这种方法适用于离线的、数据量较小的全文提取,一旦面对海量的APP提交数据,效率比较低。因此这两种方法在大数据量情况下,会耗费大量人力,而且效率低下,在大数据量情况下已经不能满足需要。

【发明内容】

[0004]本发明提供一种全文数据的提取方法和装置,以实现提高海量数据的全文数据提取效率。
[0005]第一方面,本发明实施例提供了一种全文数据的提取方法,包括:
[0006]将网络封包数据解析为会话数据;
[0007]判断所述会话数据的实体部分是否符合预设数据格式,若是则对所述会话数据进行数据格式标注;
[0008]对符合预设数据格式的会话数据进行多模匹配,判断是否命中预设特征串,并在命中预设特征串时获得预设特征串的命中位置;
[0009]根据所述会话数据的数据格式标注以及所述预设特征串的命中位置,确定所述会话数据的对应的提取函数,并根据所述提取函数对所述会话数据进行数据提取。
[0010]第二方面,本发明实施例还提供了一种全文数据的提取装置,包括:
[0011]解析模块,用于将网络封包数据解析为会话数据;
[0012]标注模块,用于判断所述会话数据的实体部分是否符合预设数据格式,若是则对所述会话数据进行数据格式标注;
[0013]多模匹配模块,用于对符合预设数据格式的会话数据进行多模匹配,判断是否命中预设特征串,并在命中预设特征串时获得预设特征串的命中位置;
[0014]数据提取模块,用于根据所述会话数据的数据格式标注以及所述预设特征串的命中位置,确定所述会话数据的对应的提取函数,并根据所述提取函数对所述会话数据进行数据提取。
[0015]本发明通过对解析后的会话数据进行预设数据格式的判断,可以将不符合预设数据格式的无效数据滤除,因此缩短了数据提取时间,此外,通过对符合预设数据格式的会话数据进行多模匹配,进一步减少了提取数据过程中的查找匹配时间,提高了海量数据的全文数据提取效率。
【附图说明】
[0016]图1为本发明实施例一提供的一种全文数据的提取方法的流程示意图;
[0017]图2为本发明实施例二提供的一种全文数据的提取方法的流程示意图;
[0018]图3为本发明实施例三提供的一种全文数据的提取装置;
[0019]图4是本发明实施例三提供的全文数据提取的拓扑结构示意图。
【具体实施方式】
[0020]下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
[0021]实施例一
[0022]图1为本发明实施例一提供的一种全文数据的提取方法的流程示意图,该方法可以由全文数据的提取装置来执行,该装置可以通过硬件和/或软件的方式实现,具体的所述方法包括如下操作:
[0023]S110、将网络封包数据解析为会话数据。
[0024]本实施例提供的方法可适用于多种协议通信的数据提取,下面以超文本传输协议(HyperText Transfer Protocol,HTTP)数据为例进行详细说明。首先将从数据源获取的网络封包数据解析为文本格式的会话数据。对于HTTP协议数据,采用HTTP协议栈解析为HTTPP0ST会话数据。解析后的会话数据包括HTTP头部和HTTP实体部分。按照HTTP协议桟解析还原成HTTPP0ST会话数据,需要先建传输控制协议(Transmiss1n ControlProtocol, TCP)流,然后再按HTTP会话解析,例如利用开源软件snort实现此种功能。
[0025]S120、判断所述会话数据的实体部分是否符合预设数据格式,若是则对所述会话数据进行数据格式标注。
[0026]将网络封包数据解析为会话数据后,对所述会话数据的实体部分进行识别,判断所述会话数据的实体部分是否符合预设数据格式。所述预设数据格式可根据需要个性化设置。一般情况下,根据需要选择预设数据格式,需要提取的数据一般仅包含在预设数据格式中,该操作,可以将不符合预设数据格式的会话数据滤除。因此可以避免对无效数据进行提取,节约了数据提取时间。当所述会话数据的实体部分符合预设数据格式时,对所述会话数据进行数据格式标注,以标识所述会话数据属于哪种预设数据格式。
[0027]S130、对符合预设数据格式的会话数据进行多模匹配,判断是否命中预设特征串,并在命中预设特征串时获得预设特征串的命中位置。
[0028]其中预设特征串可以通过配置文件管理,所述预设特征串的数量大于或者等于1。所述预设特征串例如可以是“phone number” (电话号码)、“MAC” (硬件地址)、和“mac”等。可选的,在对符合预设数据格式的会话数据进行多模匹配,判断是否命中预设特征串,并在命中预设特征串时获得预设特征串的命中位置之前,还包括:通过配置文件管理所述预设特征串。通过配置文件管理预设特征串,可以灵活的添加、删除,本发明中所用的多模匹配算法例如可以是AC算法,还可以使用其他开源算法。
[0029]通过读取配置文件获得预设特征串,再进行多模匹配算法状态树的生成,从而最终实现后续的多模匹配操作。
[0030]S140、根据所述会话数据的数据格式标注以及所述预设特征串的命中位置,确定所述会话数据的对应的提取函数,并根据所述提取函数对所述会话数据进行数据提取。
[0031]本发明针对不同数据格式提炼出一一对应的提取函数。根据所述会话数据的数据格式标注以及所述预设特征串的命中位置,确定所述会话数据的对应的提取函数,然后利用所述会话数据对应的提取函数进行数据提取。
[0032]本发明实施例通过对解析后的会话数据进行预设数据格式的判断,可以将不符合预设数据格式的无效数据滤除,因此缩短了数据提取时间,此外,通过对符合预设数据格式的会话数据进行多模匹配,进一步减少了提取数据过程中的查找匹配时间,提高了海量数据的全文数据提取效率。本发明实施例提供的数据提取方法不但适用于特定网站、离线的数据提取,更适用于不指定网站、大流量的数据提取,单个处理线程每秒可以处理多达10000个有效HTTP会话,达到了海量提取全文数据的目的。
[0033]实施例二
[0034]图2为本发明实施例二提供的一种全文数据的提取方法的流程示意图,如图2所示,所述方法包括:
[0035]S210、将网络封包数据解析为会话数据。
[0036]S220、判断所述会话数据的实体部分是否符合预设数据格式。
[0037]若是,则依次执行操作S230和S250,否则返回依次执行操作S240和S220。
[0038]S230、对所述会话数据进行数据格式标注。
[0039]S240、将后续网络封包数据解析为会话数据。
[0040]S250、对符合预设数据格式的会话数据进行多模匹配,判断是否命中预设特征串。
[0041]在命中预设特征串时,依次执行操作S260、S270、S280和S290,否则返回依次执行操作S240和S220。
[0042]S260、获得预设特征串的命中位置,以及命中预设特征串对应的字段标签。
[0043]其中,可通过配置文件管理预设特征串,具体的,配置文件格式可按如下所示设置:
[0044]特征串字段标签
[0045]ImsiIMSI
[0046]Phone_imsi IMSI
[0047]特征串“Imsi”和“Phone_imsi”都具有同一字段标签“頂SI”。其中頂SI表示国际移动用户识别码。
[0048]S270、根据所述会话数据的数据格式标注以及所述预设特征串的命中位置,确定所述会话数据的对应的提取函数,并根据所述提取函数对所述会话数据进行数据提取。
[0049]S280、根据命中预设特征串对应的字段标签,对提取后的数据进行归一化处理。
[0050]不同特征串对应同一字段标签时,所提取的数据是同一类。例如特征串“MAC”和“mac”的字段标签均为MAC。即通过特征串“MAC”和“mac”提取的数据都表征硬件地址。而通过特征串“MAC”和“mac”提取的数据格式是不同的。所述归一化是指将同一数据的不同格式转化为同一格式,例如:mac地址在数据中有:aa-bb-cc-dd_ee-ff,aa = bb = cc = dd=ee = ff,aa:bb:cc:dd:ee:ff0 归一化处理后,格式统一为:aa-bb-cc-dd-ee-ff0
[0051]S290、将提取数据进行结构化处理并输出。
[0052]具体的,可通过设定指定格式,将上述操作提取出的数据按指定格式组合成结构化数据,并输出,以便使用。
[0053]本发明实施例通过将网络封包数据解析成会话数据,然后判断会话数据实体的格式,同时打标,如果不是预设数据格式,则进行下
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1