一种大数据环境下的数据存储与查找方法

文档序号：9471440阅读：1467来源：国知局

一种大数据环境下的数据存储与查找方法
【技术领域】
[0001]本发明涉及一种大数据环境下的数据存储与查找方法，属于数据处理技术领域。
【背景技术】
[0002]根据节能减排管理的新要求和新形势，电能服务管理平台的进一步完善可以使得节能服务体系更开放，全面实现社会、用户、电网等各类单位能效管理、有序用电管理等一体化管控，实现能效管理的“数字化、网络化、可视化、专业化”，为各类电力用户提供能效管理或专用化托管服务。能效管理服务正在朝着覆盖区域乃至全国的支撑节能服务的能效公共服务平台和延伸至用户内部的数据采集网络方向快速发展。
[0003]能效服务正在步入海量、复杂、异构数据源广泛存在的时代，数据异构异质、种类繁多和应用类型数量不可预期，如何根据数据特点准确快速的实现存储、搜索成为关键。能效服务涉及到环境、管理、信息、经济以及控制等多种学科的交叉，考虑范围大到环境、企业整体用能的分析，小到单个能耗设备的性能评估，在电力大数据逐渐形成的环境下构建合理的数据管控模型将对充分利用海量多源异构信息具有重要意义。
[0004]另外，电力部门及企业在不同的发展时期，根据各业务部门的特定需要，分别安装和开发了实现不同功能的能效数据管理系统。由于这些系统关系电力对象的不同方面，且建模方法不同，因而使得这些应用系统成为相对孤立的“信息孤岛”，不能与其他系统交换数据或在电网范围内实现信息共享和集成。因此，如何解决电力信息条块化分割以及信息碎片化问题成为当前热点研究的问题，其关系着能否实现电力供需平衡优化控制的实时响应及为能效服务提供保障。

【发明内容】

[0005]本发明的目的在于，提供一种大数据环境下的数据存储与查找方法，它可以有效解决现有技术中存在的问题，尤其是由于电力信息的条块化分割以及信息碎片化导致无法准确、快速的实现电力信息的存储与搜索的问题。
[0006]为解决上述技术问题，本发明采用如下的技术方案:一种大数据环境下的数据存储与查找方法，包括以下步骤:
[0007]S1.利用数据空间创建基于语义的多维知识体并存储；
[0008]S2.大数据环境下查找数据时，根据语义查找知识体，并根据知识体之间的关联性，合并输出目标数据。
[0009]优选的，具体包括以下步骤:
[0010]S1.利用数据空间创建基于语义的多维知识体；在该多维知识体中，根据所述多维知识体的多维属性构建目录，对多维知识体进行层次划分，并存储；
[0011]S2.大数据环境下查找数据时，首先根据语义查找多维知识体，其次根据该多维知识体的目录进一步查找相关知识体，最后，根据所述相关知识体的关联性，合并输出目标数据。
[0012]通过上述方法步骤，从而可以将条块化、碎片化的电力信息充分利用起来，更快速、更完善的在大数据环境中给用户提供完善的目标数据。
[0013]本发明中，所述的多维属性包括:主题、关联性、空间和时间，其中，各个多维知识体之间通过关联性关联(所述的关联性可以存在于同一语义下的知识体，也可以存在于不同语义下的知识体)。从而可以根据数据的属性更合理的对数据进行知识体划分，便于快速、高效的查询。
[0014]优选的，所述的关联性通过关联分析方法获取，从而使得条块化、碎片化的电力信息的准确、快速存储与搜索成为可能。
[0015]前述的大数据环境下的数据存储与查找方法中，所述的关联性具体通过以下方法获取:首先利用单层布尔型二进制形式存储原始数据，再通过二进制的与运算扫描原始数据库获得支持事务集和支持数，然后根据设定的最小支持度阈值生成频繁项集，最后由所有的频繁项集生成最大关联规则。
[0016]优选的，具体通过以下方法生成最大关联规则:
[0017]a.扫描数据库，利用单层布尔型二进制形式存储该数据库中的原始数据；
[0018]b.若某项的支持数大于等于最小支持数阈值，则该项即为频繁1-项集；将该频繁1-项集添加到频繁项集L中；其中，所述的支持数表示某项在若干事务中出现的次数；
[0019]c.将频繁1-项集中所对应的项利用位运算进一步求支持数，若某项的支持数大于等于最小支持数阈值，则该项即为频繁2-项集，将该频繁2-项集添加到频繁项集L中；以此类推，将频繁k-Ι项集中所对应的项利用位运算求支持数，若某项的支持数大于等于最小支持数阈值，则该项即为频繁k-项集，将该频繁k-项集添加到频繁项集L中；
[0020]d.由频繁项集L中的所有频繁项集即生成最大关联规则。
[0021]上述方法的步骤a中，在数据存储过程中，存储结构以属性为关键字，每条记录由是否出现的二进制位组成，其中“I”表示该项出现，“O”表示该项没有出现。
[0022]采用本发明中的上述方法生成最大关联规则，不仅时间效率高，而且可以大大减小I/O占用内存负荷。
[0023]与现有技术相比，本发明通过利用数据空间创建基于语义的多维知识体并存储；大数据环境下查找数据时，根据语义查找知识体，并根据知识体的关联性，合并输出目标数据，从而实现了条块化、碎片化的电力信息的准确、快速的存储与搜索，同时提高了电力信息数据的利用率，提供更多的数据，满足了数据异构共存及电网对数据获取实时性的特殊需求。此外，考虑根据数据的多样性，本发明在知识体服务器中对所述的多维知识体构建目录，从而可以进一步提高数据查找的速率和准确性。另外，本发明所构建的知识体具有适变性，可根据关联规则对知识体进行动态调整，以适应智能电网不同的业务需求，进一步解决电力信息条块化分割和信息碎片化问题。此外，本发明根据数据的关联性，可以获得最有效最新更精准的相关数据，能够更好的为用户提供服务。最后，采用本发明中的方法生成最大关联规则，不仅时间效率高，而且可以大大减小I/O占用内存负荷，从而可以进一步提高大数据环境下查找数据的效率及准确性。据大量数据统计表明，采用本发明中的方法生成最大关联规则，在大数据环境下查找数据的效率提高了 20%。
【附图说明】
[0024]图1是本发明的一种实施例的方法示意图；
[0025]图2是本发明的一种实施例的架构示意图；
[0026]图3是本发明中生成最大关联规则的方法流程图。
[0027]下面结合附图和【具体实施方式】对本发明作进一步的说明。
【具体实施方式】
[0028]本发明的实施1:一种大数据环境下的数据存储与查找方法，如图1、图2所示，包括以下步骤:
[0029]S1.利用数据空间创建基于语义的多维知识体；在该多维知识体中，根据所述多维知识体的多维属性一一主题、关联性、空间和时间构建目录，对多维知识体进行层次划分，并存储；其中，各个多维知识体之间通过关联性关联(所述的关联性可以存在于同一语义下的知识体，也可以存在于不同语义下的知识体)；所述的关联性通过以下方法获取:首先利用单层布尔型二进制形式存储原始数据，再通过二

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汪晋宽;薄志谦;张展国;王林;韩英华;
技术所有人：东北大学秦皇岛分校;许继集团有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。