一种管理非结构化数据的装置和方法_2

文档序号:9432737阅读:来源:国知局
1.NET 中的正则表达式类,“Atcachet to loginbyuser:(.*):login(.*)\.”表示所要匹配的字段为“用户名”字段以及“注册”字段;T7ORMAT = username::“$1 ”login_result::“$2”表不字段内容的限定,即“username”及“login result”格式的定义。
[0028]本发明管理非结构化数据的方法,其具体步骤为:
[0029](I)通过服务器I对用户终端所产生的数据进行综合采集,得到综合数据;
[0030](2)服务器I将综合数据发送到数据解析模块2,数据解析模块2对每一条数据进行解析,根据数据类型、数据格式,对无效数据和错误数据进行删除,并将有效数据分为结构化数据和非结构数据,放入原始数据队列,最后将结构化数据通过原始数据导入模块3导入数据库4存储,而非结构化数据通过原始数据导入模块3导入匹配规则定义模块5 ;
[0031](3)匹配规则定义模块5根据正则表达式建立若干条匹配规则,从非结构化数据中提取含有匹配字段的数据内容,并将含有匹配字段的数据内容送入到分析模块6 ;
[0032](4)分析模块6对含有匹配字段的数据内容进行分析,抓取关键字段,而分析模块6的输出接口连接数据库4,从而将非结构化数据进行储存;分析模块6连接调整模块7,调整模块7对每组数据中的关键字段进行删除、添加等修改,并通过分析模块6上传到服务器1,从而实现非结构化数据的分析。
[0033]其中,该匹配规则定义模块5是利用正则表达式,建立匹配规则,并将匹配规则发给分析模块6。
[0034]该分析模块6是利用匹配规则定义模块5发来的匹配规则,对原始数据导入模块3导入的所有非结构化数据进行分组,选出一组非结构化数据,将该组非结构化数据对应的匹配规则发送给调整模块7,以及根据调整模块7发来的调整后的匹配规则对该组非结构化数据进行调整。
[0035]该调整模块7是用于接收分析模块6发来的匹配规则,对该匹配规则进行调整,将调整后的匹配规则发给分析模块6。
[0036]本发明能够实时的采集用户的访问数据,并对数据进行分类,通过匹配规则定义模块、分析模块和调整模块能够对每条数据进行扩展,并即使的分类保存到数据库中,从而保证服务器在接受访问时能够快速的调取数据,使得非结构化数据的检索更加快捷、范围更加准确。
[0037]对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
[0038]此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
【主权项】
1.一种管理非结构化数据的装置,包括服务器、数据解析模块、原始数据导入模块、数据库、匹配规则定义模块、分析模块和调整模块,其特征在于,所述服务器连接用户终端,所述服务器的数据输出端依次连接所述数据解析模块和原始数据导入模块,所述原始数据导入模块通过一对数据输出端口分别连接所述数据库和匹配规则定义模块,所述匹配规则定义模块依次连接所述分析模块和调整模块,所述分析模块的数据输出端口连接数据库。2.一种如权利要求1所述的管理非结构化数据的装置的管理非结构化数据的方法,其特征在于,具体步骤为: (1)通过服务器对用户终端所产生的数据进行综合采集,得到综合数据; (2)再由服务器将综合数据发送到数据解析模块,数据解析模块对每一条数据进行解析,根据数据类型、数据格式,对无效数据和错误数据进行删除,并将有效数据分为结构化数据和非结构数据,放入原始数据队列,最后将非结构化数据通过原始数据导入模块导入匹配规则定义模块; (3)匹配规则定义模块根据正则表达式建立若干条匹配规则,从非结构化数据中提取含有匹配字段的数据内容,并将含有匹配字段的数据内容送入到分析模块内; (4)分析模块对含有匹配字段的数据内容进行分析,抓取数据内容内的关键字段,分析模块将关键字段进行储存;调整模块接收分析模块发来的数据内容并进行调整后,再由分析模块将调整后的数据内容上传到服务器。3.如权利要求2所述的一种管理非结构化数据的方法,其特征在于,所述步骤(2)中的结构化数据是通过原始数据导入模块直接导入数据库存储。4.如权利要求2所述的一种管理非结构化数据的方法,其特征在于,所述步骤(3)中的匹配规则包括对匹配的字段的定义以及匹配的字段对应的格式的定义。5.如权利要求2所述的一种管理非结构化数据的方法,其特征在于,所述步骤(3)中匹配规则定义模块是利用正则表达式建立匹配规则,并将匹配规则发给分析模块。6.如权利要求2所述的一种管理非结构化数据的方法,其特征在于,所述步骤(4)中的调整模块用于接收分析模块发来的匹配规则,对该匹配规则进行调整,将调整后的匹配规则发给分析模块。7.如权利要求6所述的一种管理非结构化数据的装置的方法,其特征在于,所述分析模块利用匹配规则定义模块发来的匹配规则,对原始数据导入模块导入的所有非结构化数据进行分组,选出一组非结构化数据,将该组非结构化数据对应的匹配规则发送给调整模块,以及根据调整模块发来的调整后的匹配规则对该组非结构化数据进行调整。
【专利摘要】本发明涉及一种管理非结构化数据的装置,其包括服务器、数据解析模块、原始数据导入模块、数据库、匹配规则定义模块、分析模块和调整模块,服务器连接用户终端,服务器的数据输出端依次连接数据解析模块和原始数据导入模块,原始数据导入模块通过一对数据输出端口分别连接数据库和匹配规则定义模块,匹配规则定义模块依次连接分析模块和调整模块,分析模块的数据输出端口连接数据库。本发明能够实时的采集用户的访问数据,通过匹配规则定义模块、分析模块和调整模块能够对每条数据进行扩展,并即使的分类保存到数据库中,从而保证服务器在接受访问时能够快速的调取数据,使得非结构化数据的检索更加快捷、范围更加广泛和准确。
【IPC分类】G06F17/30
【公开号】CN105183916
【申请号】CN201510665574
【发明人】张艳平, 付治国, 解书华, 韩雪峰
【申请人】辽宁工程技术大学
【公开日】2015年12月23日
【申请日】2015年10月16日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1