一种基于正则表达式的电力大数据采集、存储及分析方法

文档序号:8905234阅读:911来源:国知局
一种基于正则表达式的电力大数据采集、存储及分析方法
【技术领域】
[0001] 本发明属于电力信息大数据信息挖掘与分析领域。设及一种多级存储的电力信息 大数据的分析方法,解决电力信息大数据分析的问题。
【背景技术】
[0002] 随着数据库应用的规模、范围不断地扩大,电力管理部口及相关企业利用计算机 管理事务能力的增强,产生了庞大的大规模数据集,将如此庞大的数据集采集并存储到服 务器上是非常复杂的。原本很多数据采集算法在数据集规模较小时尚能取得不错的采集效 果,但是针对大规模数据集,计算量太大W至于不能在可接受的时间内获得很好的结果。
[0003] 在W往的工业生产、商业服务领域,传统的数据挖掘分析算法可W处理小规模的 数据集,也能取得较好的执行效率,获得较高的挖掘质量。但在当前的大数据时代,处理大 规模数据的过程遇到了难题。随着一体化电网规划设计平台的建设推进,业务应用数据正 W前所未有的速度增长,大数据时代正式到来。电力大数据分析技术在最近两年开始成为 研究热点,但主要集中在电力生产领域,如电力调度、电力负荷预巧U、电网资源配置、电网信 息监测等。当前,大数据分析技术依然停留在传统的数据分析方法层面,比如,数据挖掘技 术在市场交易行为的分析,研究大多集中在交易行为的模型和方法改进方面。而对基于分 布式数据仓库化ive)的电力市场大数据挖掘(分布式电力数据挖掘)方法和技术(电力 数据分布式挖掘算法)的研究,在国内属于空白领域,即将成为热点研究方向,有待深入开 展此领域的研究。
[0004] 由于电力信息的激增,数据库的应用规模和范围不断扩大,产生了庞大的大规模 数据集。通过对大数据内涵和外延的深入理解,需要结合电力市场交易的数据现状和业务 需求,为了更好的分析大数据集,研究并提出了基于电力信息大数据采集及多级存储的挖 掘方法及技术。本研究W正则表达式方法采集文本数据集,应用多级存储方法,W文件形式 将数据集存储在分布式文件系统皿FS中。基于主成分分析的多元回归方法建立售电量事 务信息模型,能够有效分析电力市场大数据的禪合关系。为了实现电力交易业务的数据增 值服务,研究挖掘电力市场大数据价值的方法和技术,提取电力交易中屯、的交易业务大数 据,分析典型应用场景,利用数据集成管理、数据存储、数据计算、分析挖掘等方面核屯、关键 技术,实现面向典型业务场景的模式创新及应用提升。电力市场大数据的分析应用将推动 电网的业务发展和管理水平提升,有效支撑电网有限公司的=集五大两中屯、深入建设。

【发明内容】

[0005] 为了实现电力交易和数据增值服务,需要多种挖掘电力市场大数据价值的方法和 技术。面对数据量的激增,很多W往处理非大数据的算法遇到了瓶颈,该些算法的运行时间 不能与大数据量的规模呈线性关系,很多情况下,该些算法在挖掘大规模数据集时不能在 多项式时间内获得高质量的挖掘结果,甚至受制于计算机的内存空间,算法不能正常的运 行,必须借助于云计算的大数据挖掘技术。对此庞大的数据集进行分析,可W提高电力负荷 预测的准确性,能够指导电力营销的方向,促进区域电力消费的经济发展。
[0006] 本发明的技术方案如下;
[0007] 1、基于正则表达式的信息采集技术
[000引电力数据的采集主要针对结构化数据和非结构化数据两种情况,目前电力市场统 一交易平台上的数据属于结构化数据,底层的DB数据库一般为化acle、DB2、SQLServer、 MyS化等,通过SqoopAPI工具自定义数据表中的字段和属性,把结构化的数据表抽取到基 于化doop架构的分布式数据仓库化ve中;电力非结构化的数据一般为互联网的客户端采 集的网页信息,包括文本、图片、音频、视频、JSP动态数据等,通过Nutch工具定义正则表达 式,把电力市场交易相关的经济指标、环境气象、社会统计、电力政策等方面的网页爬取到 本地服务器,从网络客户端爬取的信息数据一般为数值、符号、文本等形式,都W文档的形 式存储到基于化doop架构的分布式数据库皿ase中。非结构化数据应用爬虫技术,采用 JAVA设计,多线程处理。爬取规则可W按照广度优先、深度优先的策略进行,最优的策略暂 不考虑。目标W域名为基准,不考虑IP。系统统一维护一份U化列表,所有捜索过的U化方 在此处。
[0009] 2、多级存储技术
[0010] 皿ase作为电力市场大数据的存储层,皿ase分布式数据库的表定义为华中电力 市场大数据采集、抽取、清洗、转换巧TL)的统一表格式,即W列族存储方式定义数据属性 格式。化doop皿FS(分布式文件系统)为皿ase提供了高可靠性的底层存储支持。化doop MapRe化ce为皿ase提供了高性能的计算能力,Zooke巧er为皿ase提供了稳定服务和 化ilover机制。皿ase、华中电力市场大数据转换器巧化)、皿FS、Zooke巧er与MapRe化ce 构成分布式存储层。
[0011] 3、电力市场大数据主成分分析方法
[0012] 电力市场交易数据库的售电事务信息包括交易价格、区域经济指标、天气气候、机 组出力、环保指标、燃料价格等,其中电力交易价格、经济指标、天气气候等信息因素构成了 =维空间,它们之间存在非正交关系。电力市场大数据主成分分析方法主要是解决售电事 务多维空间中各个轴之间的禪合关系,采用基于主成分分析的多元回归方法建立售电量事 务信息模型,能够有效分析电力市场大数据的禪合关系。多维关系主成分分析在代数上的 表示是n个随机变量X。X,,…,X。的线性组合,其几何意义是对原空间进行线性变换,用新 的坐标系重新表示原空间,新坐标系是由原坐标系旋转后得到的,新坐标系的坐标轴相互 正交并代表数据变异性最大的方向,提供一个对协方差结构的较为简单但更为精炼的刻 画。
[0013] 基于上述,本发明的模型建立如下:
[0014] 1、基于正则表达式的数据采集方式
[0015] 电力信息采集的大数据主要格式分为;结构化、半结构化和非结构化数据。(1) 结构化:指在网页上发布的表格,内涵标准的数据库数据,可直接读取存储进关系数据库 中。(2)半结构化;指虽然用表格显示在网页中,但是内容行或者列之间的数据不一致,需 要逐行或者逐列处理;或者将结构化的数据W文本行的形式显示,中间用分隔符分割等情 况。(3)非结构化;纯文本数据,需要从文本中按照一定的规则查找匹配需要的数据。
[0016] 采集的数据按照数据类型可分类;文本、图像(视频、音频)、表格等。爬虫将网页 下载之后,根据HTML的语法规则,从中找出标题、主体中的文本内容,找出多媒体链接、W及内嵌的表格,分别对文本、多媒体、表格进行处理。
[0017] 在所采集的信息中,W文本类型为主。本研究中,文本采集模式采用正则表达式进 行匹配,JAVA内置的正则表达式基本满足要求,也可将匹配规则写成PE化脚本,其对文本 的处理更加全面。模式数据库中存储的是正则表达式的模板,其中的关键词可W成组进行, 使用正则表达式中的□进行多选匹配,也可逐一进行。但是该些具体的匹配表达式中的关 键词需要程序根据数据库中指定的关键词进行动态修改后再进行匹配。匹配时要考虑到数 字的大写(一二S四),年份的简写,比如匹配"2010年",有可能网页中写成"10年",但是 如果是"10年来"也可能被匹配,因此需要考虑很多的特殊情况。因此匹配模式是需要经 常修改的,尤其在前期的测试维护中,先大范围的捜索,再去除不符合的特殊情况。要考虑 到书面用语中的同义词,比如"年均"、"年平均"、"年均值"等词语的匹配。要考虑到关键词 位置的变换,该需要通过实际阅读网络文章,捜集可能出现的情况进行整理,才能匹配到最 全的数据。
[0018] 图像采集方式。有些数据是W图片的是发布的,也可能有些照片是需要捜集的,因 此图像的采集只是按照指定的格式、尺寸、文件大小等进行抓取即可。由于不同的网站可能 对图像添加了水印或者重新进行了编码压缩,导致检测图像的重复会很困难。因此只能检 测绝对重复的图像,而不检测相似图像。每张图片保存其MD5值即可,重复的一律删除。
[0019] 表格的采集最为复杂,先要在网页源文件中获取内置表格,并对表格的名称或者 其中的文字进行快速检索,发现关键词才进行采集。
[0020] 数据采集完毕后,需要对采集的数据再次进行过滤,主要过滤掉重复、错误的数 据,将数据进行分类,W便存入数据库中。不同的网页显示的数据值可能有出入,该就需要 制定规则,如何处理不同的数据,比如采取平均值、或者去掉最高和最低在平均抑或取相同 值出现频率最高的一组等,具体的情况要视情而定。有些值是整数值,不能取平均数,那么 取最大出现次数则比较可靠。有些是汇总的值,进行了四舍五入,那么将按照最大的单位进 行四舍五入。比如电量可W是千瓦,也可W是百万千瓦,那么采集的数据按照哪一种需要根 据实际情况处理。将所有的过滤及融合的模式设定好,程序会自动进行。如果出现特殊情 况,则需要人工判断处理。
[0021] 2、多级存储技术
[0022] 电力交易的结构化和非结构化的大数据经过抽取后,都W文件形式存储在分布 式文件系统皿FS中。其中,化acle、DB2、S化Server、MyS化等结构化的大数据存储在分布 式数据仓库化ve中,从网络客户端得到的非结构化数据存储在分布式数据库皿ase中,W 列族为组织形式,一个列族里的所有列成员都将最终存储在同一个皿FS文件中,而不同的 列族有着各自对应的皿FS文件。存储在皿FS上的文档支持超大文件,它通常为数百GB、甚 至数百TB大小的文件。
[0023] 皿FS是一个高容错性的分布式文件系统,适合部署在廉价的机器上,能够提供高 吞吐量的数据访问,适合大规模数据集上的应用。电力市场大量的非结构化数据可W存储 在分布式文件系统皿FS上,供分析使用。
[0024] 图 4 所示的皿FS系统由Client、NameNode、DataNode构成。
[0025] (l)Client通过与NameNode和化taNode交互访问HDFS中的文件。提供了一个类 似POSIX文件系统的接口供用户调用。
[0026] (2)NameNode是整个文件系统管理者,负载管理皿FS的目录树和相关的文件元数 据信息,负责监控各个化taNode的健康状态,一旦发现化taNode挂掉,则将该化taNode移 出皿FS并重新备份上面的数据,保证系统的高容错性。
[0027] (3)DataNode负责实际的数据存储,并将数据信息定期汇报给NameNode。 DataNodeW固定大小的block块为基本单位组织文件内容,默认情况下block大小为64M。 当客户端上传一个大的文件到皿FS上时,文件会被分
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1