一种数据整合方法、装置、存储介质和服务器与流程

文档序号:18475294发布日期:2019-08-20 20:57阅读:132来源:国知局
一种数据整合方法、装置、存储介质和服务器与流程

本发明涉及数据处理技术领域,尤其涉及一种数据整合方法、装置、存储介质和服务器。



背景技术:

随着国民经济的持续稳定发展,资本市场也快速发展。互联网的发展和普及,各种信息数据呈现了爆炸式增加。资本市场每日产生了大量的包括资本市场相关的法规、财务数据等业务数据,各种业务数据比较离散,企业或者个人无法有效查询相关数据,从而不能有效追踪资本事件、进行聚类统计等。如何从海量的数据中快速获取所需要的数据,成为用户普遍关注的焦点。



技术实现要素:

本发明实施例提供了一种数据整合方法、装置、存储介质和服务器,以解决现有技术中,由于资本市场每日产生了大量的包括资本市场相关的法规、财务数据等业务数据,各种业务数据比较离散,企业或者个人无法有效查询相关数据的问题。

本发明实施例的第一方面提供了一种数据整合方法,包括:

获取指定信息源的公开数据;

根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据;

根据预设业务逻辑,将所述目标数据与数据仓库已存储的自有数据进行整合,生成案例数据。

本发明实施例的第二方面提供了一种数据整合装置,包括:

公开数据获取单元,用于获取指定信息源的公开数据;

目标时候获取单元,用于根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据;

数据融合单元,用于根据预设业务逻辑,将所述目标数据与数据仓库已存储的自有数据进行整合,生成案例数据。

本发明实施例的第三方面提供了一种服务器,包括存储器以及处理器,所述存储器存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:

获取指定信息源的公开数据;

根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据;

根据预设业务逻辑,将所述目标数据与数据仓库已存储的自有数据进行整合,生成案例数据。

本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:

获取指定信息源的公开数据;

根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据;

根据预设业务逻辑,将所述目标数据与数据仓库已存储的自有数据进行整合,生成案例数据。

本发明实施例中,通过获取指定信息源的公开数据,根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据,然后根据预设业务逻辑,将所述目标数据与数据仓库已存储的自有数据进行整合,生成案例数据,有效整合不同数据源的数据,将资本市场各类离散的数据进行整合,方便企业用户或者个人用户有效查询,从海量数据中快速有效的获取需要的数据,从而使得企业用户或者个人用户对资本事件进行有效追踪,查询各业务数据,对查询的各业务数据进行聚类统计分析,增强用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的数据整合方法的实现流程图;

图2是本发明实施例提供的数据整合方法s103的具体实现流程图;

图3是本发明另一实施例提供的数据整合方法的实现流程图;

图4是本发明实施例提供的数据整合方法的应用示意流程图;

图5是本发明实施例提供的数据整合装置的结构框图;

图6是本发明实施例提供的服务器的示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

图1示出了本发明实施例提供的数据整合方法的实现流程,该方法流程包括步骤s101至s103。各步骤的具体实现原理如下:

s101:获取指定信息源的公开数据。

在本发明实施例中,所述公开数据是指可获取的、面向大众的数据,所述信息源包括业务服务器收集的公开数据,以及信息平台上的公开数据。具体地,所述公开数据包括结构化数据和非结构化数据,上述s101具体包括:

a1:连接业务服务器,定时获取所述业务服务器收集的结构化数据。具体地,业务员收集市场上公开的结构化数据并上传至对应的业务服务器,通过连接所述业务服务器,定时获取所述业务服务器收集的结构化数据。结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

a2:监控指定的信息平台,在所述指定的信息平台上爬取非结构化数据。具体地,非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。非结构化数据包括所有格式的办公文档、文本、图片、xml,html、各类报表、图像和音频/视频信息等等。在本发明实施例中,通过对指定的信息平台进行信息监控,设置网络爬虫爬取所述指定平台上发布的文本信息,即获取非结构化数据,所述指定的信息平台包括但不限于网络平台(如金融论坛、股市论坛、技术论坛、监管机构网站、各金融协会等金融性专业网站)以及即时通讯平台的社群(如qq、微信),例如,对于微博、指定的监管机构网站、各金融协会等金融性专业网站、股市论坛等信息平台,通过设置网络爬虫,自动抓取信息平台上海量的非结构化数据。

s102:根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据。

在本发明实施例中,预先根据结构特征,设置与结构特征对应的一系列处理操作,针对不同结构特征的公开数据,进行不同的预处理,以得到目标数据。所述公开数据的结构特征包括结构化和非结构化。

可选地,作为本发明的一个实施例,若所述公开数据的结构特征为结构化,上述s102具体包括:

b1:若所述公开数据为结构化数据,则将所述结构化数据进行数据清洗。具体地,将所述结构化数据,进行数据筛选,判断所述结构化数据是否存在字段缺失,若存在字段缺失,则根据预设字段处理方式,填充缺失字段或者删除缺失字段。对于优化筛选后的结构化数据,验证所述结构化数据的正确性并对重复的结构化数据进行去重处理。进一步地,分析优化后的结构化数据中是否存在异类数据,若存在异类数据,则对存在的异类数据进行修改或者删除。

b2:按预定义挖掘算法对清洗后的所述结构化数据进行挖掘,得到目标数据。具体地,获取用户需求,根据所述用户需求对应的预定义挖掘算法对清洗后的所述结构化数据进行挖掘。

在本发明实施例中,对市场数据进行追踪,由于获取的结构化数据的数据量大,并且带有随机性,获取的结构化数据存在噪声污染,数据质量不高,通过对获取的结构化数据进行数据清洗,去除噪声,得到优化后的结构化数据,从而提高数据挖掘的效率,在通过挖掘的方式从市场公开的结构化数据中得到目标数据,从而将看似海量的杂乱无章的结构性数据得以合理的利用,提高了数据利用率。

可选地,作为本发明的一个实施例,若所述公开数据的结构特征为非结构化,上述s102具体包括:

c1:若所述公开数据为非结构化数据,则根据预定义数据模型,将所述非结构化数据转换为半结构化数据。具体地,将爬取网页、文本、公告等信息平台获取的非结构化数据建立半结构化数据,并创建全文检索。和普通纯文本相比,半结构化数据具有一定的结构性,半结构化数据模型在数据库系统中有着独特的地位,它是一种适于数据库集成的数据模型,也就是说,适于描述包含在两个或多个数据库(这些数据库含有不同模式的相似数据)中的数据。

c2:对所述半结构化数据进行命名实体识别。具体地,对所述半结构化数据进行中文分词,利用正则表达式提取关键词,对提取的关键词进行命名实体识别。可选地,利用markdown语言对识别的命名实体进行标注。

c3:基于识别的命名实体,提取目标数据。具体地,将上述步骤s102中识别的命名实体进行关联或者拆解。在本发明实施例中,按着预设关联规则进行命名实体关联,或者按着预设拆解规则进行命名实体拆解,或者,获取人工指令,基于人工指令进行关联或者拆解。

s103:根据预设业务逻辑,将所述目标数据与数据仓库已存储的自有数据进行整合,生成案例数据。

在本发明实施例中,所述自有数据是指根据指定的数据处理规则处理得到的自有专业业务数据。示例性地,合规专家根据业务类型规划资产重组、回购、质押、首发上市等相关案例数据结构,设立时间窗口,所述时间窗口是指数据的有效时间段,根据所述时间窗口将数据分段,根据业务维度进行数据分类,根据预设的业务逻辑,利用etl工具对数据进行清洗转换,通过人工补充复核的方式为各案例数据仓库创建自有专业业务数据。具体地,把法规添加相应的位阶、适用范围、发文部门、文号的相关属性,并把法规拆分为编、章、节、条进行结构化存储,并通过与相关违规案例相关联、发文部门和法规沿革的补充形成存储自有数据的案例数据仓库。

可选地,作为本发明的一个实施例,图2示出了本发明实施例提供的数据整合方法s103的具体实现流程,详述如下:

d1:判断所述目标数据与自有数据是否存在关联。例如,判断所述目标数据与所述自有数据所属的类别是否相同,判断所述目标数据对应的关键字与所述自有数据对应的关键字是否相同。若相同,则所述目标数据与所述自有数据存在关联。

d2:若所述目标数据与自有数据存在关联,则建立所述目标数据与所述自有数据的映射关系。

d3:将所述目标数据与所述自有数据的映射关系存入所述数据仓库。

在本发明实施例中,将目标数据与数据仓库中存储的自有数据进行关联判断,将存在关联的所述目标数据与所述自有数据的映射关系存入所述数据仓库,实现数据的融合。

可选地,作为本发明的一个实施例,如图3所示,所述数据整合方法还包括:

e1:根据预定义需求维度,将所述案例数据分类存入所述预定义需求维度对应的数据集市。

e2:当检测到搜索指令时,获取所述搜索指令携带的需求维度。所述需求维度包括业务服务类别。

e3:在所述需求维度对应的数据集市中进行检索查询。

示例性,如图4所示,持续获取市场的公开数据,将结构化数据进行数据清洗、挖掘获取目标数据存入案例库中,将抓取的非结构化数据生成半结构化数据,再自动或者人工对该半结构化数据进行关联或者拆解,存入案例库中,与案例库中的自有数据进行融合,所述案例库是根据预设的业务逻辑建立的。构建soa服务群,所述soa服务群由多个服务组成,每一个服务对应一个数据集市。所述数据集市中存储有该数据集市对应业务服务的案例数据,当检索到用户的搜索指令时,获取所述搜索指令携带的业务服务类别,定位所述业务服务类别对应的数据集市进行检索查询,从而提高检索查询的效率。

本发明实施例中,通过获取指定信息源的公开数据,根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据,然后根据预设业务逻辑,将所述目标数据与数据仓库已存储的自有数据进行整合,生成案例数据,有效整合不同数据源的数据,将资本市场各类离散的数据进行整合,方便企业用户或者个人用户有效查询,从海量数据中快速有效的获取需要的数据,从而使得企业用户或者个人用户对资本事件进行有效追踪,查询各业务数据,对查询的各业务数据进行聚类统计分析,增强用户体验。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

对应于上文实施例所述的数据整合方法,图5示出了本申请实施例提供的数据整合装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。

参照图5,该数据整合装置包括:公开数据获取单元51,目标时候获取单元52以及数据融合单元53,其中:

公开数据获取单元51,用于获取指定信息源的公开数据;

目标时候获取单元52,用于根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据;

数据融合单元53,用于根据预设业务逻辑,将所述目标数据与数据仓库已存储的自有数据进行整合,生成案例数据。

可选地,所述公开数据包括结构化数据和非结构化数据,所述公开数据获取单元51包括:

结构化数据获取模块,用于连接业务服务器,定时获取所述业务服务器收集的结构化数据;

非结构化数据获取模块,用于监控指定的信息平台,在所述指定的信息平台上爬取非结构化数据。

可选地,所述目标时候获取单元52包括:

数据清洗模块,用于若所述公开数据为结构化数据,则将所述结构化数据进行数据清洗;

第一目标数据获取模块,用于按预定义挖掘算法对清洗后的所述结构化数据进行挖掘,得到目标数据。

可选地,所述目标时候获取单元52包括:

半结构化数据获取模块,用于若所述公开数据为非结构化数据,则根据预定义数据模型,将所述非结构化数据转换为半结构化数据;

命名实体识别模块,用于对所述半结构化数据进行命名实体识别;

第二目标数据获取模块,用于基于识别的命名实体,提取目标数据。

可选地,所述数据融合单元53包括:

关联判断模块,用于判断所述目标数据与自有数据是否存在关联;

映射构建模块,用于若所述目标数据与自有数据存在关联,则建立所述目标数据与所述自有数据的映射关系;

映射存储模块,用于将所述目标数据与所述自有数据的映射关系存入所述数据仓库。

可选地,所述数据整合装置还包括:

数据分类单元,用于根据预定义需求维度,将所述案例数据分类存入所述预定义需求维度对应的数据集市;

需求获取单元,用于当检测到搜索指令时,获取所述搜索指令携带的需求维度;

数据检索单元,用于在所述需求维度对应的数据集市中进行检索查询。

本发明实施例中,通过获取指定信息源的公开数据,根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据,然后根据预设业务逻辑,将所述目标数据与数据仓库已存储的自有数据进行整合,生成案例数据,有效整合不同数据源的数据,将资本市场各类离散的数据进行整合,方便企业用户或者个人用户有效查询,从海量数据中快速有效的获取需要的数据,从而使得企业用户或者个人用户对资本事件进行有效追踪,查询各业务数据,对查询的各业务数据进行聚类统计分析,增强用户体验。

图6是本发明一实施例提供的智能设备的示意图。如图6所示,该实施例的智能设备6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62,例如数据整合程序。所述处理器60执行所述计算机程序62时实现上述各个投资者的认证方法实施例中的步骤,例如图1所示的步骤101至103。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图5所示单元51至53的功能。

示例性的,所述计算机程序62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述智能设备6中的执行过程。例如,所述计算机程序62可以被公开数据获取单元、目标时候获取单元以及数据融合单元,各单元具体功能如下:

公开数据获取单元,用于获取指定信息源的公开数据;

目标时候获取单元,用于根据所述公开数据的结构特征,选择与所述结构特征对应的预处理方式对所述公开数据进行预处理,得到目标数据;

数据融合单元,用于根据预设业务逻辑,将所述目标数据与数据仓库已存储的自有数据进行整合,生成案例数据。

所述智能设备6可以是桌上型计算机、笔记本、掌上电脑及云端智能设备等计算设备。所述智能设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是智能设备6的示例,并不构成对智能设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述智能设备还可以包括输入输出设备、网络接入设备、总线等。

所述处理器60可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61可以是所述智能设备6的内部存储单元,例如智能设备6的硬盘或内存。所述存储器61也可以是所述智能设备6的外部存储设备,例如所述智能设备6上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器61还可以既包括所述智能设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述智能设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1