本发明一般地涉及能源数据管理领域。更具体地,本发明涉及一种基于物联网的综合能源数据管理系统。
背景技术:
1、监测和测量各种能源的使用情况有助于分析能源使用模式和特征,对能源使用数据进行深入研究,可识别潜在的能源效益和成本降低机会。
2、监测能源的使用情况时,涉及到如电力、燃气、水等多个方面的数据。这些数据量庞大,如果不经过压缩,将需要大量的存储空间。通过数据压缩,可以显著减少存储需求,降低数据存储成本,减少传输时间,提高数据传输效率。
3、前移编码(mtf)是一种用于数据压缩的编码方法,其中编码的原则是将最近使用的符号移到编码表的最前面,使得最终得到的码字都较小且重复率大,从而利用霍夫曼编码、算术编码等能够达到较高的压缩效率。mtf编码的性能取决于符号的重复使用频率和相邻符号的相关性,能源数据在不同时间段的波动不同,导致能源数据中数据的重复使用频率较差且相邻能源数据之间的相关性较差,利用mtf编码难以达到较好的效果,进而导致能源数据的压缩效率较低,传输效率较低,存储成本较大。
技术实现思路
1、为解决上述一个或多个技术问题,本发明提出一种基于物联网的综合能源数据管理系统。所述系统包括以下模块:
2、能源数据采集模块,采集不同时刻能源的消耗量数据,构成能源数据序列;
3、能源数据预处理模块,根据历史能源数据序列对所述能源数据序列进行修正,得到字符序列;
4、能源数据压缩模块,构建初始的共识字典,所述初始的共识字典需包含字符序列中所有不同种类的字符;构建一个空的已编码序列;利用共识字典对所述字符序列中的每个字符依次进行编码,得到每个字符的码字,每编码一个字符时,将字符加入到已编码序列,根据字符的码字以及已编码序列确定字符的前移概率,根据所述前移概率对共识字典进行更新;将字符序列中所有字符的码字构成码字序列,对码字序列进行压缩得到压缩数据;
5、能源数据传输模块,将压缩数据传输至能源数据管理平台;
6、能源数据解压模块,能源数据管理平台根据压缩数据还原能源数据。
7、优选地,所述根据历史能源数据序列对所述能源数据序列进行修正,得到字符序列,包括:
8、将历史能源数据序列中的每个数据以及每个数据的采集时刻作为数据样本,对数据样本进行聚类,将历史能源数据序列中的数据分为多个类别,将每个类别中所有数据对应的最早采集时刻作为分割时间点;
9、利用所有分割时间点对能源数据序列分段,对于每个分段,获取该分段中的最小值,将该分段中的所有数据减去最小值,得到该分段的修正分段;将所有修正分段中不同的数值视作一种字符,将所有修正分段按照分段的顺序拼接成一维的序列,作为字符序列。
10、优选地,所述构建初始的共识字典,包括:
11、统计字符序列中每种字符的频率,按照字符频率从大到小的顺序将所有不同种类的字符组成的序列作为初始的共识字典。
12、优选地,所述利用共识字典对所述字符序列中的每个字符依次进行编码,得到每个字符的码字,包括:
13、将字符序列中当前正在进行编码的字符作为当前待编码字符,利用共识字典对当前待编码字符进行匹配,将当前待编码字符在共识字典中匹配到的字符的索引作为当前待编码字符的码字。
14、优选地,所述将字符加入到已编码序列是指将字符加入到已编码序列的末尾。
15、优选地,所述前移概率满足关系式:
16、
17、式中,q表示当前待编码字符的前移概率;h表示当前待编码字符的码字;h表示共识字典的长度;h-1表示共识字典中最后一个字符的索引,即共识字典中的最大索引;p表示当前待编码字符在字符序列中的频率;n 表示字符序列的长度;n表示已编码序列中与当前待编码字符相同的字符的数量;表示已编码序列的长度;d表示当前待编码字符的前一个字符的平均出现间隔;d表示当前待编码字符的平均出现间隔;exp( )表示以自然常数为底的指数函数;tanh( )表示双曲正切函数。
18、优选地,所述当前待编码字符的平均出现间隔的获取方法包括:
19、获取当前待编码字符在已编码序列中相同的所有字符的索引,构成当前待编码字符的已编码索引序列,将已编码索引序列中所有相邻的索引之间的差值的平均值作为当前待编码字符的平均出现间隔。
20、优选地,根据所述前移概率对共识字典进行更新,包括:
21、若当前待编码字符的前移概率大于或等于预设的概率阈值时,将当前待编码字符在共识字典中匹配到的字符前移到共识字典的开头,实现共识字典的更新;若当前待编码字符的前移概率小于预设的概率阈值时,对共识字典不进行更新。
22、本发明具有以下技术效果:本发明根据历史能源数据序列对所述能源数据序列进行修正,使得得到的字符序列中字符的重复率增大,从而提高了后续mtf编码的效果,提高了能源数据的压缩效率。
23、进一步地,本发明对字符序列中的每个字符依次进行编码时,每编码一个字符,则根据字符的码字以及已编码序列确定字符的前移概率,根据前移概率决定是否将共识字典中匹配到的元素前移,确保重复率大、规律出现的字符在共识字典中匹配到的元素都尽可能靠前,同时避免接下来出现可能性小的字符在共识字典中匹配到的元素前移导致其他出现可能性大的字符的码字变大,通过前移概率使得更多字符的码字尽可能小,且重复率更大,从而使得能源数据最终的压缩效率更高。
1.一种基于物联网的综合能源数据管理系统,其特征在于,包括以下模块:
2.根据权利要求1所述的一种基于物联网的综合能源数据管理系统,其特征在于,所述根据历史能源数据序列对所述能源数据序列进行修正,得到字符序列,包括:
3.根据权利要求1所述的一种基于物联网的综合能源数据管理系统,其特征在于,所述构建初始的共识字典,包括:
4.根据权利要求3所述的一种基于物联网的综合能源数据管理系统,其特征在于,所述利用共识字典对所述字符序列中的每个字符依次进行编码,得到每个字符的码字,包括:
5.根据权利要求1所述的一种基于物联网的综合能源数据管理系统,其特征在于,所述将字符加入到已编码序列是指将字符加入到已编码序列的末尾。
6.根据权利要求4所述的一种基于物联网的综合能源数据管理系统,其特征在于,所述前移概率满足关系式:
7.根据权利要求6所述的一种基于物联网的综合能源数据管理系统,其特征在于,所述当前待编码字符的平均出现间隔的获取方法包括:
8.根据权利要求6所述的一种基于物联网的综合能源数据管理系统,其特征在于,根据所述前移概率对共识字典进行更新,包括: