一种基于正则表达式的电力大数据采集、存储及分析方法

文档序号：8905234阅读：911来源：国知局

一种基于正则表达式的电力大数据采集、存储及分析方法
【技术领域】
[0001] 本发明属于电力信息大数据信息挖掘与分析领域。设及一种多级存储的电力信息大数据的分析方法，解决电力信息大数据分析的问题。
【背景技术】
[0002] 随着数据库应用的规模、范围不断地扩大，电力管理部口及相关企业利用计算机管理事务能力的增强，产生了庞大的大规模数据集，将如此庞大的数据集采集并存储到服务器上是非常复杂的。原本很多数据采集算法在数据集规模较小时尚能取得不错的采集效果，但是针对大规模数据集，计算量太大W至于不能在可接受的时间内获得很好的结果。
[0003] 在W往的工业生产、商业服务领域，传统的数据挖掘分析算法可W处理小规模的数据集，也能取得较好的执行效率，获得较高的挖掘质量。但在当前的大数据时代，处理大规模数据的过程遇到了难题。随着一体化电网规划设计平台的建设推进，业务应用数据正 W前所未有的速度增长，大数据时代正式到来。电力大数据分析技术在最近两年开始成为研究热点，但主要集中在电力生产领域，如电力调度、电力负荷预巧U、电网资源配置、电网信息监测等。当前，大数据分析技术依然停留在传统的数据分析方法层面，比如，数据挖掘技术在市场交易行为的分析，研究大多集中在交易行为的模型和方法改进方面。而对基于分布式数据仓库化ive)的电力市场大数据挖掘（分布式电力数据挖掘）方法和技术（电力数据分布式挖掘算法）的研究，在国内属于空白领域，即将成为热点研究方向，有待深入开展此领域的研究。
[0004] 由于电力信息的激增，数据库的应用规模和范围不断扩大，产生了庞大的大规模数据集。通过对大数据内涵和外延的深入理解，需要结合电力市场交易的数据现状和业务需求，为了更好的分析大数据集，研究并提出了基于电力信息大数据采集及多级存储的挖掘方法及技术。本研究W正则表达式方法采集文本数据集，应用多级存储方法，W文件形式将数据集存储在分布式文件系统皿FS中。基于主成分分析的多元回归方法建立售电量事务信息模型，能够有效分析电力市场大数据的禪合关系。为了实现电力交易业务的数据增值服务，研究挖掘电力市场大数据价值的方法和技术，提取电力交易中屯、的交易业务大数据，分析典型应用场景，利用数据集成管理、数据存储、数据计算、分析挖掘等方面核屯、关键技术，实现面向典型业务场景的模式创新及应用提升。电力市场大数据的分析应用将推动电网的业务发展和管理水平提升，有效支撑电网有限公司的=集五大两中屯、深入建设。

【发明内容】

[0005] 为了实现电力交易和数据增值服务，需要多种挖掘电力市场大数据价值的方法和技术。面对数据量的激增，很多W往处理非大数据的算法遇到了瓶颈，该些算法的运行时间不能与大数据量的规模呈线性关系，很多情况下，该些算法在挖掘大规模数据集时不能在多项式时间内获得高质量的挖掘结果，甚至受制于计算机的内存空间，算法不能正常的运行，必须借助于云计算的大数据挖掘技术。对此庞大的数据集进行分析，可W提高电力负荷预测的准确性，能够指导电力营销的方向，促进区域电力消费的经济发展。
[0006] 本发明的技术方案如下；
[0007] 1、基于正则表达式的信息采集技术
[000引电力数据的采集主要针对结构化数据和非结构化数据两种情况，目前电力市场统一交易平台上的数据属于结构化数据，底层的DB数据库一般为化acle、DB2、SQLServer、 MyS化等，通过SqoopAPI工具自定义数据表中的字段和属性，把结构化的数据表抽取到基于化doop架构的分布式数据仓库化ve中；电力非结构化的数据一般为互联网的客户端采集的网页信息，包括文本、图片、音频、视频、JSP动态数据等，通过Nutch工具定义正则表达式，把电力市场交易相关的经济指标、环境气象、社会统计、电力政策等方面的网页爬取到本地服务器，从网络客户端爬取的信息数据一般为数值、符号、文本等形式，都W文档的形式存储到基于化doop架构的分布式数据库皿ase中。非结构化数据应用爬虫技术，采用 JAVA设计，多线程处理。爬取规则可W按照广度优先、深度优先的策略进行，最优的策略暂不考虑。目标W域名为基准，不考虑IP。系统统一维护一份U化列表，所有捜索过的U化方在此处。
[0009] 2、多级存储技术
[0010] 皿ase作为电力市场大数据的存储层，皿ase分布式数据库的表定义为华中电力市场大数据采集、抽取、清洗、转换巧TL)的统一表格式，即W列族存储方式定义数据属性格式。化doop皿FS(分布式文件系统）为皿ase提供了高可靠性的底层存储支持。化doop MapRe化ce为皿ase提供了高性能的计算能力，Zooke巧er为皿ase提供了稳定服务和化ilover机制。皿ase、华中电力市场大数据转换器巧化）、皿FS、Zooke巧er与MapRe化ce 构成分布式存储层。
[0011] 3、电力市场大数据主成分分析方法
[0012] 电力市场交易数据库的售电事务信息包括交易价格、区域经济指标、天气气候、机组出力、环保指标、燃料价格等，其中电力交易价格、经济指标、天气气候等信息因素构成了 =维空间，它们之间存在非正交关系。电力市场大数据主成分分析方法主要是解决售电事务多维空间中各个轴之间的禪合关系，采用基于主成分分析的多元回归方法建立售电量事务信息模型，能够有效分析电力市场大数据的禪合关系。多维关系主成分分析在代数上的表示是n个随机变量X。X,，…，X。的线性组合，其几何意义是对原空间进行线性变换，用新的坐标系重新表示原空间，新坐标系是由原坐标系旋转后得到的，新坐标系的坐标轴相互正交并代表数据变异性最大的方向，提供一个对协方差结构的较为简单但更为精炼的刻画。
[0013] 基于上述，本发明的模型建立如下：
[0014] 1、基于正则表达式的数据采集方式
[0015] 电力信息采集的大数据主要格式分为；结构化、半结构化和非结构化数据。（1) 结构化：指在网页上发布的表格，内涵标准的数据库数据，可直接读取存储进关系数据库中。（2)半结构化；指虽然用表格显示在网页中，但是内容行或者列之间的数据不一致，需要逐行或者逐列处理；或者将结构化的数据W文本行的形式显示，中间用分隔符分割等情况。（3)非结构化；纯文本数据，需要从文本中按照一定的规则查找匹配需要的数据。
[0016] 采集的数据按照数据类型可分类；文本、图像（视频、音频）、表格等。爬虫将网页下载之后，根据HTML的语法规则，从中找出标题、主体中的文本内容，找出多媒体链接、W及内嵌的表格，分别对文本、多媒体、表格进行处理。
[0017] 在所采集的信息中，W文本类型为主。本研究中，文本采集模式采用正则表达式进行匹配，JAVA内置的正则表达式基本满足要求，也可将匹配规则写成PE化脚本，其对文本的处理更加全面。模式数据库中存储的是正则表达式的模板，其中的关键词可W成组进行，使用正则表达式中的□进行多选匹配，也可逐一进行。但是该些具体的匹配表达式中的关键词需要程序根据数据库中指定的关键词进行动态修改后再进行匹配。匹配时要考虑到数字的大写（一二S四），年份的简写，比如匹配"2010年"，有可能网页中写成"10年"，但是如果是"10年来"也可能被匹配，因此需要考虑很多的特殊情况。因此匹配模式是需要经常修改的，尤其在前期的测试维护中，先大范围的捜索，再去除不符合的特殊情况。要考虑到书面用语中的同义词，比如"年均"、"年平均"、"年均值"等词语的匹配。要考虑到关键词位置的变换，该需要通过实际阅读网络文章，捜集可能出现的情况进行整理，才能匹配到最全的数据。
[0018] 图像采集方式。有些数据是W图片的是发布的，也可能有些照片是需要捜集的，因此图像的采集只是按照指定的格式、尺寸、文件大小等进行抓取即可。由于不同的网站可能对图像添加了水印或者重新进行了编码压缩，导致检测图像的重复会很困难。因此只能检测绝对重复的图像，而不检测相似图像。每张图片保存其MD5值即可，重复的一律删除。
[0019] 表格的采集最为复杂，先要在网页源文件中获取内置表格，并对表格的名称或者其中的文字进行快速检索，发现关键词才进行采集。
[0020] 数据采集完毕后，需要对采集的数据再次进行过滤，主要过滤掉重复、错误的数据，将数据进行分类，W便存入数据库中。不同的网页显示的数据值可能有出入，该就需要制定规则，如何处理不同的数据，比如采取平均值、或者去掉最高和最低在平均抑或取相同值出现频率最高的一组等，具体的情况要视情而定。有些值是整数值，不能取平均数，那么取最大出现次数则比较可靠。有些是汇总的值，进行了四舍五入，那么将按照最大的单位进行四舍五入。比如电量可W是千瓦，也可W是百万千瓦，那么采集的数据按照哪一种需要根据实际情况处理。将所有的过滤及融合的模式设定好，程序会自动进行。如果出现特殊情况，则需要人工判断处理。
[0021] 2、多级存储技术
[0022] 电力交易的结构化和非结构化的大数据经过抽取后，都W文件形式存储在分布式文件系统皿FS中。其中，化acle、DB2、S化Server、MyS化等结构化的大数据存储在分布式数据仓库化ve中，从网络客户端得到的非结构化数据存储在分布式数据库皿ase中，W 列族为组织形式，一个列族里的所有列成员都将最终存储在同一个皿FS文件中，而不同的列族有着各自对应的皿FS文件。存储在皿FS上的文档支持超大文件，它通常为数百GB、甚至数百TB大小的文件。
[0023] 皿FS是一个高容错性的分布式文件系统，适合部署在廉价的机器上，能够提供高吞吐量的数据访问，适合大规模数据集上的应用。电力市场大量的非结构化数据可W存储在分布式文件系统皿FS上，供分析使用。
[0024] 图 4 所示的皿FS系统由Client、NameNode、DataNode构成。
[0025] (l)Client通过与NameNode和化taNode交互访问HDFS中的文件。提供了一个类似POSIX文件系统的接口供用户调用。
[0026] (2)NameNode是整个文件系统管理者，负载管理皿FS的目录树和相关的文件元数据信息，负责监控各个化taNode的健康状态，一旦发现化taNode挂掉，则将该化taNode移出皿FS并重新备份上面的数据，保证系统的高容错性。
[0027] (3)DataNode负责实际的数据存储，并将数据信息定期汇报给NameNode。 DataNodeW固定大小的block块为基本单位组织文件内容，默认情况下block大小为64M。当客户端上传一个大的文件到皿FS上时，文件会被分

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨建华;白顺明;肖达强;魏庆海;代勇;刘定宜;高春成;樊爱军;方印;陶力;史述红;王蕾;李守保;王清波;丁鹏;袁明珠;任东明;刘杰;赵显;谭翔;汪涛;袁晓鹏;张雪;
技术所有人：国家电网公司;北京科东电力控制系统有限责任公司;华中电网有限公司;
我是此专利的发明人

上一篇：一种WebGIS地图优化分级加载数万级摄像头的方法
上一篇：信息提供装置以及信息提供方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。