大数据获取方法、装置、设备及存储介质与流程

文档序号：16208726发布日期：2018-12-08 07:27阅读：167来源：国知局

本发明涉及大数据技术领域，尤其涉及一种大数据获取方法、装置、设备及存储介质。

背景技术

现有大数据输出给关联系统使用主要是通过sqoop导出到关系型数据库，供外部系统使用。sqoop作为hadoop与传统数据库之间的桥梁，对于数据的导入导出有着重要作用。sqoop是sql-to-hadoop的缩写，主要用于在hadoop(hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库中的数据导进到hadoop的hdfs中，也可以将hdfs的数据导进到关系型数据库中。sqoop每一次应用都需要将数据导出指定系统，当数据量大以及操作次数多时，会增加操作人员的工作量和影响操作准确率。因此，现有技术中大数据获取方法不具备高效率传输和准确传输的功能，使得工作效率和准确率不高。

技术实现要素：

本发明的目的在于提供一种大数据获取方法、装置、设备及存储介质，能够实现将数据存储按不同使用类型分别存储在对应存储模块中，对外提供统一访问接口进行数据传输，提高数据获取的传输速率和传输数据准确性。

本发明是这样实现的，本发明第一方面提供一种大数据获取方法，包括：

通过数据采集集群采集底层数据；

根据所述底层数据的业务属性匹配用户信息数据库中所属用户，并将所述底层数据分类储存在对应的存储模块中；

获取用户访问请求，解析所述用户访问请求获取解析数据并向所述用户信息数据库发送所述解析数据和用户验证请求，当所述解析数据通过验证时，提取对应存储模块中的数据并进行显示。

本发明第二方面提供一种大数据获取装置，所述大数据获取装置包括：

数据采集模块，用于通过数据采集集群采集的底层数据；

数据匹配存储模块，用于根据所述底层数据的业务属性匹配用户信息数据库中所属用户，并将所述底层数据分类储存在对应的存储模块中；

数据提取模块，用于获取用户访问请求，解析所述用户访问请求并向所述用户信息数据库发送用户验证请求，当验证通过时获取用户令牌并根据所述用户令牌提取对应存储模块中数据并进行显示。

本发明第三方面提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明第一方面所述方法的步骤。

本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本发明第一方面所述方法的步骤。

本发明提供一种大数据获取方法、装置、设备及存储介质，通过数据采集集群采集获取底层数据，根据底层数据的业务属性匹配用户信息数据库中的所属用户，并按数据的使用类型分别储存在对应的存储模块中，当获取到用户访问请求时，解析用户访问请求获得解析数据并向用户信息数据库发送解析数据和用户验证请求，当解析数据验证通过时提取用户身份属性文件中对应的存储模块中的数据并进行显示，实现了将数据按使用类型的不同分别存储在对应的存储模块中，定义底层数据信息，保存用户与底层数据属主关系，对外提供统一访问接口，外部系统通过用户信息数据库验证提取对应底层数据并返回显示，减少操作人员的工作量，提高了数据传输速率和准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种实施例提供的一种大数据获取方法的流程图；

图2是本发明一种实施例提供的一种大数据获取方法中的步骤s20的具体流程图；

图3是本发明一种实施例提供的一种大数据获取方法中的步骤s203的具体流程图；

图4是本发明一种实施例提供的一种大数据获取方法中的步骤s30的具体流程图；

图5是本发明第二实施例提供的一种大数据获取装置的结构示意图；

图6是本发明第二实施例提供的一种大数据获取装置中的数据匹配存储模块32的结构示意图；

图7是本发明第三实施例提供的终端设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明的技术方案，下面通过具体实施例来进行说明。

实施例1

本发明第一实施例提供一种大数据获取方法，如图1所示，大数据获取方法包括：

步骤s10，通过数据采集集群采集底层数据。

在步骤s10中，数据采集集群是指采集数据库中数据的数据集群，例如，数据采集集群可以是sparkstreaming集群，底层数据是指存储在数据库中的各种业务数据和用户信息数据，例如，底层数据可以是前台即时统计分析的清单、汇总数据或者基于用户唯一id的所有明细用户信息等。底层数据也可以分为实时数据和离线数据，实时数据是指由数据采集集群采集的数据库实时写入的数据，离线数据是数据采集集群采集的数据库离线同步的数据。通过设置本步骤，可以实现对数据库中的底层数据信息进行快速采集。

具体的，在获取用户访问请求之前，先通过sparkstreaming集群采集数据库中的底层数据，采集数据库中实时写入的数据，例如，用户a本人办理了a业务，数据库在业务员的操作下录入用户a办理a业务的相关数据，数据采集集群同时采集用户a办理a业务的相关数据，如用户a的个人资料至少包括用户a的id，用户a的密码，a业务的数据包括a业务的数据属性和业务属性。数据采集集群采集数据库中离线同步的数据，例如，用户a在办理业务后更改了个人资料的部分信息，数据库写入用户a的新个人资料时，可以先用etl数据同步工具对用户a的新个人资料进行预处理，再由通过数据采集集群采集获取。

步骤s20，根据所述底层数据的业务属性匹配用户信息数据库中所属用户，并将所述底层数据分类储存在对应的存储模块中。

在步骤s20中，业务属性是指底层数据所关联的业务信息和用户信息，例如，业务属性包括数据属性和存储属性，数据属性包括用户信息数据和数据类型，存储属性包括数据类型与存储地点之间的对应关系，用户信息数据库是指存储用户相关信息的数据库，用户相关信息至少包括用户id、用户密码和用户办理的业务，所属用户是指拥有与底层数据的业务属性相同业务属性的用户，所属用户至少包含一个用户，也可以是多个用户，底层数据分类储存是指按数据的使用类型的不同分类，例如底层数据可以分成统计数据、清单数据、汇总数据以及keyvalue数据，存储模块是指储存采集的底层数据的存储介质，例如，存储模块可以是elasticsearch集群、hbase集群或者redis集群。通过设置本步骤，可以实现定义底层数据信息，保存用户与底层数据属主关系，并按数据使用类型不同分类存储。

具体的，例如，获取到数据采集集群采集到用户a办理a业务的相关数据，包括用户a的id、用户a的密码、a业务的业务属性，解析获取业务属性，在用户信息数据库中匹配拥有相同业务属性的用户，当匹配成功时，则确定为数据的所属用户，例如，在用户身份属性文件中进行匹配用户，匹配到用户a也拥有a业务属性，确认用户a为所属用户，将相关数据分成统计数据、清单数据和汇总数据，并分别存储在不同的存储介质中。

步骤s30，获取用户访问请求，解析所述用户访问请求获取解析数据并向所述用户信息数据库发送所述解析数据和用户验证请求，当所述解析数据通过验证时，提取对应存储模块中的数据并进行显示。

在步骤s30中，用户访问请求是指用户获取数据的访问请求，例如，访问请求可以是用户通过web服务发送的数据请求，解析数据是指解析用户访问请求得到的数据，例如，数据包括用户id、密码和请求数据类型，用户信息数据库是指存储用户相关信息的数据库，用户相关信息至少包括用户id、用户密码和用户办理的业务及存储模块，用户验证请求是指验证用户id与密码是否正确的请求，存储模块可以是elasticsearch集群、hbase集群或者redis集群。通过设置本步骤，可以实现对访问用户进行验证，快速从不同存储模块中提取对应用户请求业务的数据并进行显示。

具体的，例如，获取用户a的访问请求“查询a业务的办理情况”，解析访问请求“查询a业务的办理情况”得到用户a的id，用户a的密码和请求数据类型为a业务，将用户a的id，用户a的密码和请求数据类型为a业务与生成的用户验证请求发送给用户信息数据库请求验证，当与用户信息数据库中预存的用户a的id与密码都相同时，用户验证通过，获取用户信息数据库中用户a身份属性文件，根据用户a身份属性文件中a业务的存储模块提取数据并进行显示。

作为本实施例的一种实施方式，对于步骤s10中通过数据采集集群采集底层数据，包括：

通过sparkstreaming集群监测数据库产生的业务增量数据，并获取所述业务增量数据。

在本步骤中，sparkstreaming集群是指采集数据库数据的数据采集集群，sparkstreaming集群可以对实时数据流进行采集处理，数据库是指存储着各种业务数据和用户信息数据的存储介质，业务增量数据是指数据库在操作人员的操作下写入的数据信息，例如，业务增量数据可以是用户办理的新业务数据信息，也可以是用户修改个人资料数据信息。通过设置本步骤，可以实现对数据库中的底层数据信息进行实时采集。

具体的，例如，用户a本人办理了a业务，数据库在业务员的操作下录入用户a办理a业务的相关数据，sparkstreaming集群实时采集用户a办理a业务的相关数据，如用户a的个人资料至少包括用户a的id，用户a的密码，a业务的数据包括a业务的数据属性和业务属性。数据采集集群采集数据库中离线同步的数据，例如，用户a在办理业务后更改了个人资料的部分信息，数据库写入用户a的新个人资料时，可以先用etl数据同步工具对用户a的新个人资料进行预处理，再由通过sparkstreaming集群采集获取。

作为本实施例的一种实施方式，如图2所示，对于步骤s20中根据所述底层数据的业务属性匹配用户信息数据库中所属用户，并将所述底层数据分类储存在对应的存储模块中，包括：

步骤s201，解析所述底层数据的业务属性获取数据属性和存储属性，其中，所述数据属性包括用户信息数据和数据类型，所述存储属性包括数据类型与存储地点之间的对应关系。

步骤s202，根据所述数据属性和所述存储属性更新用户信息数据库中的用户身份属性文件，所述用户身份属性文件包括用户id、密码、数据类型信息以及存储模块信息。

步骤s203，根据所述数据类型将所述底层数据进行分类，并根据所述存储属性将所述底层数据储存在对应的存储模块中。

在上述步骤s201至步骤s203中，业务属性是指底层数据所关联的业务信息和用户信息，业务属性包括数据属性和存储属性，数据属性包括用户信息数据和数据类型，存储属性包括数据类型与存储地点之间的对应关系，用户身份属性文件是多个用户身份信息的存储文件，用户身份属性文件包括用户id、密码、数据类型以及存储模块，更新用户身份属性文件是指更新用户身份属性文件中匹配到的所属用户的用户身份信息、数据类型信息以及对应的存储模块信息，用户身份数据信息包括用户id和用户密码，数据类型是指底层数据的类型，例如，数据类型可以是统计数据类型、清单数据类型、汇总数据类型以及keyvalue数据类型，业务数据信息包括业务数据类型和存储模块，存储模块是指储存采集的底层数据的存储介质，例如，存储模块可以是elasticsearch集群、hbase集群或者redis集群。通过设置本步骤，可以实现定义底层数据信息，保存用户与底层数据属主关系，并按数据使用类型不同分类存储。

作为本实施例的一种实施方式，如图3所示，对于步骤s203中根据所述数据类型将所述底层数据进行分类，并根据所述存储属性将所述底层数据储存在对应的存储模块中，包括：

步骤s2031.根据所述数据属性中的数据类型将所述底层数据分为统计数据、清单数据、汇总数据以及keyvalue数据。

步骤s2032.将所述统计数据、所述清单数据以及所述汇总数据存储到elasticsearch集群中，并将所述keyvalue数据存储到hbase集群中。

在以上步骤s2031和步骤s2032中，数据类型是指数据的使用类型，根据数据类型可以将数据分为统计数据、清单数据、汇总数据以及keyvalue数据，统计数据是指用户信息的统计数据，清单数据是指用户办理的各项业务清单数据，汇总数据是指用户信息数据和业务数据的汇总数据，keyvalue数据是指用户信息数据，比如基于用户唯一id的所有明细用户信息，elasticsearch集群是存储统计数据、清单数据以及汇总数据的存储模块，hbase集群是存储keyvalue数据的存储模块。

作为本实施例的一种实施方式，如图4所示，对于步骤s30中获取用户访问请求，解析所述用户访问请求获取解析数据并向所述用户信息数据库发送所述解析数据和用户验证请求，当所述解析数据通过验证时，提取对应存储模块中的数据并进行显示，包括：

步骤s301.获取用户访问请求，解析所述用户访问请求得到用户id、密码和请求数据类型并生成用户验证请求，并向所述用户信息数据库发送所述用户id、所述密码、所述请求数据类型以及所述用户验证请求。

步骤s302.根据所述用户验证请求检测到所述用户身份属性文件包括所述用户id、所述密码以及所述请求数据类型时，判定所述解析数据通过验证，并提取所述用户身份属性文件中所述请求数据类型对应的存储模块中的数据并进行显示。

在以上步骤s301和步骤s302中，用户访问请求是指用户获取数据的访问请求，例如，访问请求可以是用户通过web服务发送的数据请求，可以通过接口层中的web服务和用户信息数据库提供统一的接口，web服务为用户提供数据的展示，以web方式为用户呈现业务相关内容，web服务提供交互界面，接受用户的访问请求，将用户名和业务请求发送给用户信息数据库，同时接收返回的相关数据并展示给用户，解析数据是指解析用户访问请求得到的数据，例如，数据包括用户id、密码和请求数据类型，用户信息数据库是指存储用户身份属性文件的数据库，用户身份信息属性文件是指多个用户身份信息的存储文件，用户身份属性文件包括用户id、密码、数据类型信息以及存储模块信息，用户验证请求是指验证用户id与密码是否正确的请求，当用户身份属性文件包括所述用户id、所述密码以及所述请求数据类型时，即验证用户id与密码均正确，判定所述解析数据通过验证，提取所述用户身份属性文件中所述请求数据类型对应的存储模块信息，存储模块可以是elasticsearch集群、hbase集群或者redis集群，并到该存储模块中提取数据并进行显示。通过设置本步骤，可以实现对访问用户进行验证，快速从不同存储模块中提取对应用户请求业务的数据并进行显示。

作为本实施例的一种实施方式，对于步骤s302中当所述解析数据通过验证时，提取对应存储模块中的数据并进行显示，包括：

当存储模块为redis缓存时，直接从所述redis缓存提取数据并进行显示；

当存储模块不为redis缓存时，从所述elasticsearch集群或者所述hbase集群中提取数据并存储在redis缓存中。

在以上步骤中，通过sparkstreaming实时写入数据时，根据数据的业务属性将该数据归入用户的名下，并根据数据类型存储在不同的存储模块中，当用户通过web服务发送数据请求时，输入用户名、密码和业务请求类型，通过用户信息数据库权限管理，当密码正确时即获取该用户名对应的数据属性以及数据的存储属性，根据用户名在用户身份信息属性文件中查找其可以访问的数据的存储地点，进而到该存储地点进行查询，该业务数据的存储地点可以是elasticsearch集群、hbase集群或者redis缓存，当redis缓存存储该业务数据时直接从redis缓存调取数据，当redis缓存没有存储该业务数据，从elasticsearch集群和hbase集群中调取数据并缓存在redis中，将结果输出返回。通过设置本步骤，可以实现对查询过的数据快速提取，实现低延迟查询。

实施例2

本发明第二实施例提供一种大数据获取装置，如图5所示，大数据获取装置3包括：

数据采集模块31，用于获取数据采集集群采集的底层数据；

数据匹配存储模块32，用于根据所述底层数据的业务属性匹配用户信息数据库中所属用户，并将所述底层数据分类储存在对应的存储模块中；

数据提取模块33，用于获取用户访问请求，解析所述用户访问请求获取解析数据并向所述用户信息数据库发送所述解析数据和用户验证请求，当所述解析数据通过验证时，提取对应存储模块中的数据并进行显示。

进一步的，数据采集模块31具体通过sparkstreaming集群监测数据库产生的业务增量数据，并获取所述业务增量数据。

如图6所示，所述数据匹配存储模块32包括：

解析模块321，用于解析所述底层数据的业务属性获取数据属性和存储属性，其中，所述数据属性包括用户信息数据和数据类型，所述存储属性包括数据类型与存储地点之间的对应关系；

更新模块322，用于根据所述数据属性和所述存储属性更新用户信息数据库中的用户身份属性文件，所述用户身份属性文件包括用户id、密码、数据类型信息以及存储模块信息；

分类存储模块323，用于根据所述数据类型将所述底层数据进行分类，并根据所述存储属性将所述底层数据储存在对应的存储模块中。

所述分类存储模块323具体用于：

根据所述数据属性中的数据类型将所述底层数据分为统计数据、清单数据、汇总数据以及keyvalue数据；

将所述统计数据、所述清单数据以及所述汇总数据存储到elasticsearch集群中，并将所述keyvalue数据存储到hbase集群中。

上述大数据获取装置3中模块的具体工作过程，可以参考前述实施例1中大数据获取方法对应的过程，在此不再赘述。

实施例3

本发明第三实施例提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例1中的一种大数据获取方法，为避免重复，这里不再赘述。或者，该计算机程序被处理器执行时实现上述实施例2中一种大数据获取装置中各模块/单元的功能，为避免重复，这里不再赘述。

实施例4

图7是本实施例中终端设备4的示意图。如图7所示，终端设备4包括处理器43、存储器41以及存储在存储器41中并可在处理器43上运行的计算机程序42。处理器43执行计算机程序42时实现上述实施例1中一种大数据获取方法的各个步骤，例如图1所示的步骤s10、s20和s30。或者，处理器43执行计算机程序42时实现上述实施例2中一种大数据获取装置各模块/单元的功能，如图5所示的数据采集模块31，数据匹配存储模块32和数据提取模块33。

计算机程序42可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器41中，并由处理器43执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序42指令段，该指令段用于描述计算机程序42在终端设备4中的执行过程。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许四平;戴珍
技术所有人：中国平安人寿保险股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。