本发明涉及数据推荐,尤其涉及一种基于电网信息的数据推荐方法及装置。
背景技术:
1、随着电力市场建设不断完善,针对电力系统包括智库研究工作在内的文书工作日益频繁、资料分布与迭代也日益迅速。在此背景下,构建集成式电网智库研究智能服务平台,通过集成资源库智能管理、语义文本精确识别与基于机器学习的内容智能推荐等工作模块,可以显著提升智库工作质效。当前,电力市场建设进入了一个新时期,其长足发展也对电网的文书资料的时效性、可达性与综合性提出了更高的要求。智能服务平台开发的研究,不仅提升了智库工作效率,也对保障和推进电力市场建设具有重要意义。
2、但是大型企业内部由于网络安全与数据处理精准性、差异性要求,需要对电网数据进行较为准确的分析识别处理,而现有电网数据信息基本只能实现对数据的简单获取整理,而不能智能高效的推荐,而导致电网的文书资料的时效性、可达性与综合性无法满足实际需求。因此提出一种基于电网信息的数据推荐方法。
技术实现思路
1、本发明的目的在于提供一种基于电网信息的数据推荐方法及装置,解决了现有只能实现对数据的简单获取整理,而不能智能高效的推荐,而导致电网的文书资料的时效性、可达性与综合性无法满足实际需求的问题。
2、为实现上述目的,本发明提供如下技术方案:
3、本发明提供一种基于电网信息的数据推荐方法,包括:
4、收集电网信息,并为收集的电网信息标注数据推荐结果标签;
5、对所述电网信息进行特征提取;
6、基于提取的特征和推荐结果标签训练数据推荐模型;
7、对训练好的数据推荐模型进行优化更新;
8、采用优化更新后的数据推荐模型对实时在线采集的电网信息进行数据推荐,并继续对该数据推荐模型进行优化更新。
9、进一步的,通过电网内部综合信息服务平台连接电网各类核心业务数据库,并采用信息互通共享机制,收集电网信息。
10、进一步的,所述收集电网信息包括结构化数据与非结构化数据;
11、所述结构化数据指电网指标数据;
12、所述非结构化数据指电网网页文本内容;所述非结构化数据通过ocr识别转化成标准化数据,存入结构化数据中。
13、进一步的,对所述电网信息进行特征提取,包括:
14、将所述电网信息中的关键词和专业术语转换为文本特征,所述文本特征包括分离散型表示方式和分布型表示方式两大类;
15、对所述电网信息进行统计分析,提取数据统计特征;
16、以及,对所述电网信息进行时间序列分析,提取时间序列特征。
17、进一步的,所述离散型表示方式包括one-hot独热编码、词袋模型和词频逆文档频率;
18、所述分布型表示方式采用统计语言模型;
19、所述统计特征包括用户检索词统计和查阅文章统计;
20、所述时间序列特征包括用户的访问时间、收藏时间及平均时间。
21、进一步的,所述进行特征提取前,还包括对电网信息进行预处理的步骤;
22、所述预处理包括基于制定的清洗规则与校核规则对电网信息进行清洗和校核;
23、所述清洗规则包括配置数据类型、上下限制及变化比例值;基于配置参数对电网信息进行清洗;
24、所述校核规则包括配置匹配策略、校核计算公式和生效对象,通过校核规则对错误的数据进行自动更正。
25、进一步的,所述基于提取的特征和推荐结果标签训练数据推荐模型,包括:
26、构建机器学习模型;
27、以提取的特征为输入,以数据推荐结果为输出,对所构建的机器学习模型进行训练,得到数据推荐模型;
28、采用以下任意方式构建所述机器学习模型:
29、决策树、支持向量机和神经网络。
30、进一步的,所述对训练好的数据推荐模型进行优化更新,包括以下任意方式或者任意方式的组合:
31、a、通过数据增广的方式扩大训练数据集;
32、b、采用电网外部数据,通过标注的方式扩大样本集;
33、c、重新构建机器学习模型及设计模型结构;
34、d、训练过程中,选择不同的损失函数或者进行标签平滑处理;
35、e、调整学习率与batch size、进行对抗训练、以及采用swa随机权重平均swa或指数移动平均ema的方法对模型权重进行优化。
36、进一步的,所述数据增广方式包括简单数据增强、回译数据增强法和mixup数据增强算法。
37、本发明还提供一种基于电网信息的数据推荐装置,用于实现前述的基于电网信息的数据推荐方法,所述装置包括:
38、初始化模块,用于收集电网信息,并为收集的电网信息标注数据推荐结果标签;
39、特征提取模块,用于对所述电网信息进行特征提取;
40、模型训练模块,用于基于提取的特征和推荐结果标签训练数据推荐模型;
41、模型更新模块,用于对训练好的数据推荐模型进行优化更新;
42、实时预测模块,用于采用优化更新后的数据推荐模型对实时在线采集的电网信息进行数据推荐,并继续对该数据推荐模型进行优化更新。
43、与相关技术相比较,本发明提供的一种基于电网信息的数据推荐方法具有如下有益效果:
44、1、本发明提供一种基于电网信息的数据推荐方法,通过电网内部综合信息服务平台连接电网各类核心业务数据库及采用信息互通共享机制,形成了可以从内部数据与外部数据共同导入的数据库为对象,同时可以隔绝互联网的外部物理攻击,打破各个数据系统之间的障碍,为促进部门之间高效协同奠定基础。
45、2、本发明提供一种基于电网信息的数据推荐方法,基于电网内部综合信息服务平台,在电网内部安全网络内展开信息搜集、信息特征提取、提取特征训练、推荐与优化,突破专业壁垒,深化业务融合,共享关键信息,以直观的展示形式、丰富的数据内容、高度的专业融合,提高数据共享,业务协同决策能力,最大化挖掘数字资产价值,实现用数据管理企业、用信息驱动业务,可在大数据的推动下在各行业分析中予以应用。
1.一种基于电网信息的数据推荐方法,其特征在于,包括:
2.根据权利要求1所述的一种基于电网信息的数据推荐方法,其特征在于,通过电网内部综合信息服务平台连接电网各类核心业务数据库,并采用信息互通共享机制,收集电网信息。
3.根据权利要求2所述的一种基于电网信息的数据推荐方法,其特征在于,所述收集电网信息包括结构化数据与非结构化数据;
4.根据权利要求1所述的一种基于电网信息的数据推荐方法,其特征在于,对所述电网信息进行特征提取,包括:
5.根据权利要求4所述的一种基于电网信息的数据推荐方法,其特征在于,所述离散型表示方式包括one-hot独热编码、词袋模型和词频逆文档频率;
6.根据权利要求4所述的一种基于电网信息的数据推荐方法,其特征在于,所述进行特征提取前,还包括对电网信息进行预处理的步骤;
7.根据权利要求4所述的一种基于电网信息的数据推荐方法,其特征在于,所述基于提取的特征和推荐结果标签训练数据推荐模型,包括:
8.根据权利要求7所述的一种基于电网信息的数据推荐方法,其特征在于,所述对训练好的数据推荐模型进行优化更新,包括以下任意方式或者任意方式的组合:
9.根据权利要求8所述的一种基于电网信息的数据推荐方法,其特征在于,所述数据增广方式包括简单数据增强、回译数据增强法和mixup数据增强算法。
10.一种基于电网信息的数据推荐装置,其特征在于,用于实现权利要求1至9任意一项所述的基于电网信息的数据推荐方法,所述装置包括: