本发明涉及数据处理技术领域,特别是一种面向非结构化证据文件的分析方法及系统。
背景技术:
对于来源繁多的信息资料,专业人士根据信息的格式加以划分,将其分为结构化信息和非结构化信息两大类。其中,结构化信息是可以数字化的数据信息,可以方便地通过计算机和数据库技术进行管理;而无法完全数字化的信息称为非结构化信息,如文档文件、图片、图纸资料、缩微胶片等,这些资源中拥有大量的、有价值的证据信息,伴随着非结构化信息正以成倍的速度增长的趋势,如何快速有效地对其处理后再利用是目前分析处理的难题之一。
为了有效的对非结构化证据文件进行分析和管理,解决非结构化证据文件利用率不高、无法归档等问题,需要引入非结构化数据管理机制。通常情况下,对非结构化数据的分析需要强大的计算能力,将海量的非结构化证据文件转为文本,再在此基础上进行关联、分析和检索。这一过程耗时耗力,且转化出的数据质量良莠不齐,无法形成相对统一、准确的分析维度,因此非结构化数据存在难管理、检索慢、效率低以及出错率高等问题。
技术实现要素:
本发明需要解决的技术问题是克服现有技术的不足而提供一种面向非结构化证据文件的分析方法及系统,能够减少开发人员的工作量,设计实现方式统一,能够转化及管理非结构化证据文件。
为解决上述技术问题,本发明所采取的技术方案如下。
一种面向非结构化证据文件的分析方法,所述分析方法包括以下步骤:
a.针对web页面控件元素制定一套配置规则,按照配置规则构建界面解析引擎;
b.针对数据库ddl、dml语句特点制定一套映射规则,按照映射规则构建智能填充引擎;
c.配置非结构化证据文件的元数据信息,通过步骤a制定的配置规则配置界面元数据,通过步骤b制定的映射规则配置数据元数据;
d.根据步骤c配置的界面元数据经由配置a构建的界面解析引擎生成非结构化证据文件的重要信息表单;
e.根据步骤c配置的数据元数据经由配置b构建的智能填充引擎智能填充步骤d生成的重要信息表单内容;
f.在步骤e生成的重要信息表单中上传非结构化证据文件,将表单内容与非结构化证据文件绑定后统一保存入数据库;
g.将步骤f产生的内容以非结构化证据文件重要信息表单和非结构证据文件在线预览的方式做关联展示,通过重要信息表单内容实现多维度检索、分析;通过文件在线预览、编辑操作实现非结构化证据文件的处理。
上述一种面向非结构化证据文件的分析方法,步骤a中所述的web页面控件元素包括文本框、下拉框、时间选择器和列表选择框;所述配置规则指用户自定义上述web页面控件的样式与行为时应遵守的约束;所述界面解析引擎指系统根据用户配置的控件自动生成用户界面的代码模块。
上述一种面向非结构化证据文件的分析方法,步骤a的实现过程包括以下步骤:
a1.列举常用web前端控件,对其属性与行为进行抽象,将各前端控件特征点抽取出用户可自定义的配置点;
a2.读取用户配置,使用velocity模板技术将用户配置转换成浏览器前端可渲染的html/css/javascript代码。
上述一种面向非结构化证据文件的分析方法,步骤b中所述数据库dml语句指数据库结构定义语言,数据库ddl语句指数据库内容操作语言,所述映射规则指用户自定义重要信息表单字段与业务数据关联关系时应遵守的约束;所述智能填充引擎指系统根据用户配置的关联关系自动为界面控件填充业务数据的代码模块。
上述一种面向非结构化证据文件的分析方法,步骤b的实现过程包括以下步骤:
b1.通过用户配置的业务数据库连接信息,获取业务数据库的表结构与字段信息;
b2.用户根据业务需求指定非结构化证据文件界面元数据中控件应填充数据库中哪张表、哪个字段的数据;
b3.智能填充引擎根据用户配置自动生成数据获取sql语句;
b4.智能填充引擎至业务数据库获取数据后,自动与重要信息表单控件绑定。
上述一种面向非结构化证据文件的分析方法,步骤c的配置过程包括以下步骤:
c1.配置元数据字典,包括元数据类别、可关联非结构化证据文件的类别;
c2.配置元数据的基本信息,包括名称、分类、描述;
c3.配置界面元数据信息,包括表头、表单、表尾的控件个数、控件类型、字段类型;表头、表单、表尾均可包含多个字段;
c4.配置数据元数据信息,包括源业务数据库连接信息、表单字段与业务数据库表结构与字段的映射关系。
上述一种面向非结构化证据文件的分析方法,步骤f的实现过程包括以下步骤:
f1.用户编辑重要信息表单并上传非结构化证据文件;
f2.系统将非结构化证据文件存储到mongodb数据库;
f3.系统将重要信息表单信息存储到关系型数据库;
f4.绑定mongodb数据库与关系型数据库。
上述一种面向非结构化证据文件的分析方法,步骤g中的实现过程包括以下步骤:
g1.通过检索、分析重要信息表单内容实现非结构化证据文件快速定位与归类统计;
g2.通过openoffice技术实现非结构化证据文件的在线预览、编辑、转换功能。
一种面向非结构化证据文件的分析系统,包括界面解析引擎、智能填充引擎、数据元数据配置单元、数据展示和分析单元以及数据库;其中:
界面解析引擎:用于制定web页面控件元素的配置规则,并负责将用户配置信息解析成前端页面控件,实现根据用户的配置动态生成非结构化证据文件重要信息表单的功能;
智能填充引擎:用于制定数据映射规则,并负责根据用户配置信息对生成的重要信息表单进行智能回填.;
数据元数据配置单元:用于配置非结构化证据文件的界面元数据及数据元数据到数据库;
数据展示和分析单元:用于实现非结构证据文件的检索、分析、预览操作。
由于采用了以上技术方案,本发明所取得技术进步如下。
本发明使得开发人员在开发时仅需针对每类非结构化证据文件通过简单配置就可以解决业务数据库信息与非结构化证据文件的绑定和回填,该过程无需修改代码即可完成,实现了通用且高效稳定的非结构化数据的分析;不仅设计实现方式统一、服务管理较容易、能够管理不同数据库和非结构化文件,而且还大大减少了开发人员的工作量,提高了数据再处理的速度,达到了对非结构化证据文件管理的通用化、封装化及稳定性要求。
附图说明
图1为本发明的流程图;
图2为本发明中步骤c的流程图。
具体实施方式
下面将结合附图和具体实施例对本发明进行进一步详细说明。
一种面向非结构化证据文件的分析方法,其流程如图1所示,具体包括以下步骤。
a.针对web页面控件元素制定一套配置规则,按照配置规则基于velocity模板技术构建界面解析引擎;用于解析上述配置规则。
其中,web页面控件元素包括文本框、下拉框、时间选择器和列表选择框;配置规则指用户自定义上述web页面控件的样式与行为时应遵守的约束;界面解析引擎指系统根据用户配置的控件自动生成用户界面的代码模块。
具体操作时,首先列举常用web前端控件,对其属性与行为进行抽象,将各前端控件特征点抽取出用户可自定义的配置点;其次,读取用户配置,使用velocity模板技术将用户配置转换成浏览器前端可渲染的html/css/javascript代码。
b.针对数据库ddl、dml语句特点制定一套映射规则,按照映射规则基于动态sql生成技术构建智能填充引擎;用于解析上述映射规则。
其中,数据库dml语句指数据库结构定义语言,数据库ddl语句指数据库内容操作语言;映射规则指用户自定义重要信息表单字段与业务数据关联关系时应遵守的约束;智能填充引擎指系统根据用户配置的关联关系自动为界面控件填充业务数据的代码模块。
具体操作时,首先通过用户配置的业务数据库连接信息,获取业务数据库的表结构与字段信息;其次用户根据业务需求指定非结构化证据文件界面元数据中控件应填充数据库中哪张表、哪个字段的数据;然后智能填充引擎根据用户配置自动生成数据获取sql语句;最后智能填充引擎至业务数据库获取数据后,自动与重要信息表单控件绑定。
c.配置非结构化证据文件的元数据信息,通过步骤a制定的配置规则配置界面元数据,通过步骤b制定的映射规则配置数据元数据,并将上述元数据信息存入数据库。
本步骤中元数据信息的配置方法如图2所示,具体包括:配置元数据字典,包括元数据类别、可关联非结构化证据文件的类别;配置元数据的基本信息,包括名称、分类、描述;配置界面元数据信息,包括表头、表单、表尾的控件个数、控件类型、字段类型,表头、表单、表尾均可包含多个字段;配置数据元数据信息,包括源业务数据库连接信息、表单字段与业务数据库表结构与字段的映射关系。
d.根据步骤c配置的界面元数据经由配置a构建的界面解析引擎生成前端可解析的html/css/jquery代码,并返回给前端浏览器,浏览器对解析内容进行渲染后得到非结构化证据文件的重要信息表单。
e.根据步骤c配置的数据元数据经由配置b构建的智能填充引擎生成数据库查询sql,将查询脚本发送到业务数据库查询结果后自动绑定到非结构化证据文件重要信息表单。
f.在步骤e生成的重要信息表单中上传非结构化证据文件,将重要信息表单内容与非结构化证据文件绑定后统一保存入数据库;其中非结构化证据文件存入mongodb数据库,表单内容存入oracle关系型数据库,绑定mongodb数据库与关系型数据库。
g.将步骤f产生的内容以非结构化证据文件重要信息表单和非结构证据文件在线预览的方式做关联展示,通过检索、分析重要信息表单内容实现非结构化证据文件快速定位与归类统计;通过openoffice技术实现非结构化证据文件的在线预览、编辑转换等操作处理。
本发明还提供了一种面向非结构化证据文件的分析系统,包括界面解析引擎、智能填充引擎、数据元数据配置单元、数据展示和分析单元以及数据库;其中:界面解析引擎:用于制定web页面控件元素的配置规则,并负责将用户配置信息解析成前端页面控件,实现根据用户的配置动态生成非结构化证据文件重要信息表单的功能;智能填充引擎:用于制定数据映射规则,并负责根据用户配置信息对生成的重要信息表单进行智能回填;数据元数据配置单元:用于配置非结构化证据文件的界面元数据及数据元数据到数据库;数据展示和分析单元:用于实现非结构证据文件的检索、分析、预览操作。
其中,数据展示单元包括非结构化证据文件重要信息表单展示模块和非结构化证据文件展示模块;所述非结构化证据文件重要信息表单展示模块用于对重要信息表单进行检索、分析和编辑,非结构化证据文件展示模块用于非结构化数据在线预览、编辑和转换。
本发明能够实现通用且高效稳定的非结构化数据分析设计,用户只需要进行简单的配置,即可实现复杂的非结构化证据文件的数据管理,达到了非结构化证据文件管理的通用化、封装化及稳定性要求。