分析应用系统和方法与流程

文档序号:27681899发布日期:2021-12-01 00:00阅读:158来源:国知局
分析应用系统和方法与流程

1.本技术涉及智慧监督技术领域,尤其涉及分析应用系统和方法。


背景技术:

[0002]“大数据”时代这一新的发展趋势为监督工作带来了新的机遇。无论是主动还是被动,在监督违规违纪乃至贪腐问题线索时,因为人手、信息来源等问题,都具有明显的滞后性和不全面性特征。随着网络信息技术的不断发展,各类腐败行为也更加隐蔽化、智能化,因此利用传统的人工模式在海量的数据中发现贪污腐败行为的共性和规律无疑非常困难。


技术实现要素:

[0003]
本技术提供分析应用系统和方法,以解决现有技术中人工模式查找腐败行为数据具有局限性的问题。
[0004]
为解决上述技术问题,本技术提出一种分析应用系统,应用于智慧监督领域,包括:数据输入模块,用于获得包括基础指标的一级宽表,并根据一级宽表的时间窗,获得分析计算的二级宽表;其中,一级宽表是指经过数据清洗和数据聚合后的业务模型数据进行基础指标分析后第一次形成的宽表数据;二级宽表是指在一级宽表的基础上进行数据的数据指标分析后第二次形成的宽表数据;数据计算模块,用于对二级宽表进行分析建模,获得规则标签的计算规则与模型标签的运算模型;其中,分析建模包括数据探索、数据处理、数据分析、建模评估以及规则梳理;数据输出模块,用于根据规则标签的计算规则、模型标签的运算模型以及二级宽表进行标签的计算和输出,最后输出分析结果;其中,计算和输出包括模型开发、规则设计、宽表生成、标签输出以及各个过程的运行频度与周期。
[0005]
可选地,还包括:数据验证模块,用于验证数据输出模块输出的分析结果是否与业务情况相符,若相符,则通过验证。
[0006]
可选地,业务模型数据包括营销域、物资域和综合域的数据。
[0007]
可选地,在数据输入模块中,数据清洗是指删除营销域、物资域和综合域的数据中的重复数据,并将剩下的数据转换成预设格式的数据;数据聚合是指根据不同的业务分析场景,对营销域、物资域和综合域的数据进行数据聚合处理,从而得到业务模型数据。
[0008]
可选地,在数据计算模块中,数据探索是指对数据输入模块的数据进行数据分布情况、数据趋势的探索分析,最终形成探索报告;数据处理是指对数据进行压缩转换、分箱压缩、抽取样本的操作之后形成新的数据宽表;数据分析是指对数据宽表的数据进行差异分析和相关性分析,形成建模宽表;建模评估是指对建模宽表的数据进行建模测试,并进行模型评估;规则梳理是指根据业务要求,梳理数据计算规则,固化计算代码脚本。
[0009]
可选地,分析应用系统能够根据业务数据逻辑关系选择业务模型数据的更新频次,其中更新频次包括按需更新、按天更新、按周更新或者按月更新。
[0010]
为解决上述技术问题,本技术提出一种分析应用方法,应用于智慧监督领域,包括:获得包括基础指标的一级宽表,并根据一级宽表的时间窗,获得分析计算的二级宽表;
其中,一级宽表是指经过数据清洗和数据聚合后的业务模型数据进行基础指标分析后第一次形成的宽表数据;二级宽表是指在一级宽表的基础上进行数据的数据指标分析后第二次形成的宽表数据;对二级宽表进行分析建模,获得规则标签的计算规则与模型标签的运算模型;其中,分析建模包括数据探索、数据处理、数据分析、建模评估以及规则梳理;根据规则标签的计算规则、模型标签的运算模型以及二级宽表进行标签的计算和输出,最后输出分析结果;其中,计算和输出包括模型开发、规则设计、宽表生成、标签输出以及各个过程的运行频度与周期。
[0011]
可选地,还包括:验证数据输出模块输出的分析结果是否与业务情况相符,若相符,则通过验证;将验证通过后的分析结果作为最后结果进行输出。
[0012]
可选地,业务模型数据包括营销域、物资域和综合域的数据;数据清洗是指删除营销域、物资域和综合域的数据中的重复数据,并将剩下的数据转换成预设格式的数据;数据聚合是指根据不同的业务分析场景,对营销域、物资域和综合域的数据进行数据聚合处理,从而得到业务模型数据。
[0013]
可选地,数据探索是指对数据输入模块的数据进行数据分布情况、数据趋势的探索分析,最终形成探索报告;数据处理是指对数据进行压缩转换、分箱压缩、抽取样本的操作之后形成新的数据宽表;数据分析是指对数据宽表的数据进行差异分析和相关性分析,形成建模宽表;建模评估是指对建模宽表的数据进行建模测试,并进行模型评估;规则梳理是指根据业务要求,梳理数据计算规则,固化计算代码脚本。
[0014]
本技术提出分析应用系统和方法,包括数据输入模块、数据计算模块和数据输出模块,根据规则标签的计算规则、模型标签的运算模型以及二级宽表进行标签的计算和输出,最后输出分析结果。本技术通过数据集成技术,采用自动化手段定期或即时获取业务交易和管理数据,从监督角度对业务数据进行实时监控和分析,实现对经营风险、经营管理问题的预警。为各类监督提供支持,促进监督资源共享和利用;能够提高工作效率,快速从海量数据中找出问题线索,进一步提升监督效率和质量。
附图说明
[0015]
为了更清楚地说明本技术的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]
图1是本技术分析应用系统一实施例的结构示意图;
[0017]
图2是本技术数据输入模块一实施例的结构示意图;
[0018]
图3是本技术数据验证过程一实施例的示意图;
[0019]
图4是本技术纪检监督智慧分析应用一实施例的示意图;
[0020]
图5是本技术分析应用方法一实施例的流程示意图。
具体实施方式
[0021]
为使本领域的技术人员更好地理解本技术的技术方案,下面结合附图和具体实施方式对本技术所提供分析应用系统和方法进一步详细描述。
[0022]
本技术提出一种分析应用系统,应用于智慧监督领域,请参阅图1,图1是本技术分
析应用系统一实施例的结构示意图,在本实施例中,分析应用系统可以包括数据输入模块110、数据计算模块120和数据输出模块130。具体地:
[0023]
数据输入模块110,用于获得包括基础指标的一级宽表,并根据一级宽表的时间窗,获得分析计算的二级宽表。
[0024]
其中,一级宽表是指经过数据清洗和数据聚合后的业务模型数据进行基础指标分析后第一次形成的宽表数据;二级宽表是指在一级宽表的基础上进行数据的数据指标分析后第二次形成的宽表数据。
[0025]
业务模型数据包括营销域、物资域和综合域的数据。
[0026]
数据清洗是指将数据库精简以除去重复记录,即删除营销域、物资域和综合域的数据中的重复数据,并将剩下的数据转换成预设格式(例如标准可接收格式)的数据。数据清理标准模型是将数据输入到数据清理处理器,通过一系列步骤“清理”数据,然后以期望的格式输出清理过的数据。数据清理从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理数据的丢失值、越界值、不一致代码、重复数据等问题。
[0027]
数据聚合是指根据不同的业务分析场景,对营销域、物资域和综合域的数据进行数据聚合处理,从而得到业务模型数据。
[0028]
请参阅图2,图2是本技术数据输入模块一实施例的结构示意图。在本实施例中,数据输入模块110可以连接数据仓库,数据仓库中可以存储有营销域、物资域和综合域的业务数据。通过业务分析和数据提取可以从数据仓库中获得模型源数据。进一步地,对模型源数据进行数据质量检查、数据清洗和数据聚合后可以获得含有基础指标的一级宽表,对一级宽表按照时间窗汇总,获得分析计算的包括数据指标二级宽表。
[0029]
其中,模型源数据是通过对业务需求的分析,对所需要使用的数据进行提取,形成模型的源数据。数据质量检查是对模型的源数据的质量进行数据质量检查及分析,初步评估数据是否达到预期设定的质量要求。
[0030]
数据计算模块120,用于对二级宽表进行分析建模,获得规则标签的计算规则与模型标签的运算模型。
[0031]
其中,分析建模包括数据探索、数据处理、数据分析、建模评估以及规则梳理。
[0032]
数据探索是指对数据输入模块110的数据进行数据分布情况、数据趋势的探索分析,最终形成探索报告。
[0033]
数据处理是指对数据进行压缩转换、分箱压缩、抽取样本的操作之后形成新的数据宽表。
[0034]
数据分析是指对数据宽表的数据进行差异分析和相关性分析,降维后形成建模宽表。
[0035]
建模评估是指对建模宽表的数据进行建模测试,并进行模型评估。其中在建模评估中利用了逻辑回归模型、roc和混淆矩阵。
[0036]
规则梳理是指根据业务要求,梳理数据计算规则,固化计算代码脚本。
[0037]
数据输出模块130,用于根据规则标签的计算规则、模型标签的运算模型以及二级宽表进行标签的计算和输出,最后输出分析结果。
[0038]
其中,计算和输出包括模型开发、规则设计、宽表生成、标签输出以及各个过程的运行频度与周期。
[0039]
可选地,分析应用系统能够根据业务数据逻辑关系选择业务模型数据的更新频次,其中更新频次包括按需更新、按天更新、按周更新或者按月更新。
[0040]
按需更新是指分析业务数据逻辑关系,并根据业务实际需求情况对数据进行抽取更新。该数据特点变化减少的数据,如组织架构,一年内都没变化的数据,不需要每天或者每月更新,只要以年为单位更新就能满足需求。
[0041]
按天更新是通过业务数据逻辑分析,对及时性要求高的数据,进行按天抽取,更新数据。抽取方式为全量抽取。
[0042]
标签是一种用来描述业务实体特征的数据形式。通过标签对业务实体进行刻画,从多角度反映业务实体的特征。比如对用户性别、年龄、地区等进行标签区分。
[0043]
数据宽表通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表。因业务数据实时性要求较高,数据宽表每天进行全量更新。
[0044]
标签宽表是通过已打标签的模型表和数据宽表关联,根据业务需求生成所需标签宽表。
[0045]
在其他的一些实施例中,分析应用系统还包括:
[0046]
数据验证模块,用于验证数据输出模块130输出的分析结果是否与业务情况相符,若相符,则通过验证。
[0047]
数据验证的目的主要是确保纪检监督智慧分析结果数据和现场业务的实际情况吻合,纪检监督标签与特征数据在页面上需要展示准确,和业务系统能够完全吻合。为保证数据结果有效,需要对计算规则、业务源数据以及结果数据进行比对。
[0048]
针对业务规则,由业务应用部门代表,确认业务依据,若业务依据满足业务要求,则通过验证。针对源数据,基于数据表清单,比对各个数据流转节点的最近1个月的平均数据差异量,考虑数据流转过程中的延时因素,若差异量小于业务要求,则通过验证。针对结果数据,包括一致性验证与稳定性验证;一致性验证即随机抽取一定数据量的结果数据,查询用户在纪检监督应用上的指标结果,与业务系统核查结果比对,若满足业务要求,则通过验证;稳定性验证即随机抽取部分数据,连续一段时间查询在纪检监督平台上的指标结果,与业务系统核查结果比对,若满足业务要求,则通过验证。
[0049]
本实施例提出分析应用系统,包括数据输入模块、数据计算模块和数据输出模块,根据规则标签的计算规则、模型标签的运算模型以及二级宽表进行标签的计算和输出,最后输出分析结果。本实施例通过数据集成技术,采用自动化手段定期或即时获取业务交易和管理数据,从监督角度对业务数据进行实时监控和分析,实现对经营风险、经营管理问题的预警。为各类监督提供支持,促进监督资源共享和利用;能够提高工作效率,快速从海量数据中找出问题线索,进一步提升监督效率和质量。
[0050]
请参阅图3,图3是本技术数据验证过程一实施例的示意图。在本实施例中以纪检监督智慧分析应用为分析应用系统进行说明。
[0051]
由于大数据平台与数据仓库的更新频率是不一样的,因此大数据平台与数仓需要进行源数据量一致性比对;因为数据推送的问题,有几率存在数据仓库推送到大数据平台过程中存在推送失败。此外,本实施例中一共包括三个数据库:数据仓库、大数据平台数据库和纪检监督智慧分析应用数据库,大数据平台因为性能问题会做数据分区处理,所以需要进行源数据量一致性比对;当两者不一致时,一般会联系数据运维团队进行处理,应用是
以大数据平台为准。
[0052]
以下继续以纪检监督智慧分析应用为例进行说明:
[0053]
纪检监督智慧分析应用是构建于广东电网数据中心之上的数据分析应用,公司数据中心为其提供数据资源和计算服务能力。本应用通过公司数据中心接入所需的数据资源,并采用公司数据中心统一的数据仓库模型,通过公司数据中心提供的数据汇总层服务开展应用建设。
[0054]
纪检监督智慧分析应用是基于公司数据中心,结合历年来纪律审查暴露的问题,依托大数据技术分析各业务领域信息系统的关键环节,整理常见违纪场景下各项业务数据的表现形式,利用数据挖掘、分析工具,建立并完善异常数据排查规则,挖掘异常数据,排查廉洁风险,从业务系统的海量数据中精准识别违规违纪问题线索,规范业务发展。
[0055]
纪检监督智慧分析应用的构建是采用数据云的功能组件进行开发,并落地到数据云上。通过数据云的数据采集功能将营销域、物资域、综合域的数据接入到大数据平台中,使用hive、hawq++和应用数据库(mysql)进行存储,并在大数据平台上基于数据资产管理要求,构建纪检监督智慧分析应用。最终将构建好的产品发布到数据商城中使用。
[0056]
纪检监督智慧分析应用的核心建模算法拟采用有监督机器学习算法中的逻辑回归模型,模型建设以问题定义与业务理解为起点,深入分析业务,全面设计业务指标,获得业务指标体系与指标计算规则,利用已有数据量化业务指标,获得数据宽表,通过系统化数据分析、数学建模技术,从数据中挖掘出具有预测效果的模型标签。通过webservice与业务系统实现数据的互联互通。
[0057]
请参阅图4,图4是本技术纪检监督智慧分析应用一实施例的示意图。
[0058]
其中,需求分析是指指收集纪检监督资料,了解纪检监督业务,剖析纪检监督发现的典型案件,分析提炼违纪场景下业务系统的数据变化情况,确定纪检监督智慧应用分析的业务主题,确定应用分析场景。
[0059]
业务建模是指通过获取各业务系统的数据字典,源数据调研、追溯数据来源、咨询数据专责、设计计算规则、分析业务流程从而制定业务模型说明书。
[0060]
业务与数据关联的主要是指业务应用设计,主要有工作有业务模型设计、数据功能设计、应用功能设计、数据模型设计、技术方式设计。
[0061]
数据分析与建模是通过大数据计算平台接入公司各业务系统(电网营销大数据、电网生产大数据、电力调度大数据、电网业务系统)的数据,通过数据云平台的大数据分析工具,进行数据准备、统计分析、数据建模。
[0062]
应用输出与验证是通过数据云平台的分析展示工具,对数据模型进行固化展示,包括维度钻取分析图形化展示、明细数据展示等;另外对结果数据及应用功能进行测试、验证、调整。
[0063]
主题应用是根据业务主题,打包该主题的规则模型及应用页面,在数据云平台进行发布操作,供给用户使用。
[0064]
综上,本技术的纪检监督智慧分析应用具有以下优点:
[0065]
(一)建立了监督自动监控预警体系
[0066]
本实施例通过数据集成技术,采用自动化手段定期或即时获取业务交易和管理数据,从监督角度对业务数据进行实时监控和分析。在数据分析的基础上,进一步拓展监督监
控预警功能,扩大监督范围和覆盖面,改进监督手段和技术,采用科学合理、贴合企业实际的风险分类、统计方法,实现对经营风险、经营管理问题的预警。为各类监督提供支持,促进监督资源共享和利用。
[0067]
(二)多源数据融合,全面支撑监察作业
[0068]
本实施例融合海量业务数据,包括电力行业营销系统、计量系统、生产系统、人资系统、电商系统、外部企业数据,运用数据挖掘、数据分析技术,实现监察过程中数据归集、数据分析功能的智能化。在监察专家经验的基础上,利用业务处理逻辑、数据间的勾稽关系建立数据分析模型,并将模型固化至系统,最终形成一套完整的业务规则管理体系,帮助监察人员提高工作效率,快速从海量数据中找出问题线索,准确靶向监察重点和目标。
[0069]
(三)实现监察资源远程调配
[0070]
按照“集中分析、分散复核”的监察项目开展工作模式,将监察作业指挥应用作为“驾驶舱”,统筹全省监察资源,对预警发现的具有普遍性、系统性问题以及重大风险可以作出快速响应,开展机动式监察调查。另外利用可视化功能,实现对监察现场即时通讯,点对点进行远程指导和监察策略部署,进一步提升监察效率和质量。
[0071]
基于上述的分析应用系统,本技术提出一种分析应用方法,应用于智慧监督领域,请参阅图5,图5是本技术分析应用方法一实施例的流程示意图,在本实施例中,可以包括步骤s110~步骤s130,各步骤具体如下:
[0072]
s110:获得包括基础指标的一级宽表,并根据一级宽表的时间窗,获得分析计算的二级宽表。
[0073]
其中,一级宽表是指经过数据清洗和数据聚合后的业务模型数据进行基础指标分析后第一次形成的宽表数据;二级宽表是指在一级宽表的基础上进行数据的数据指标分析后第二次形成的宽表数据;
[0074]
s120:对二级宽表进行分析建模,获得规则标签的计算规则与模型标签的运算模型。
[0075]
其中,分析建模包括数据探索、数据处理、数据分析、建模评估以及规则梳理。
[0076]
s130:根据规则标签的计算规则、模型标签的运算模型以及二级宽表进行标签的计算和输出,最后输出分析结果;其中,计算和输出包括模型开发、规则设计、宽表生成、标签输出以及各个过程的运行频度与周期。
[0077]
可选地,还包括:验证数据输出模块输出的分析结果是否与业务情况相符,若相符,则通过验证;将验证通过后的分析结果作为最后结果进行输出。
[0078]
可选地,业务模型数据包括营销域、物资域和综合域的数据;数据清洗是指删除营销域、物资域和综合域的数据中的重复数据,并将剩下的数据转换成预设格式的数据;数据聚合是指根据不同的业务分析场景,对营销域、物资域和综合域的数据进行数据聚合处理,从而得到业务模型数据。
[0079]
可选地,数据探索是指对数据输入模块的数据进行数据分布情况、数据趋势的探索分析,最终形成探索报告;数据处理是指对数据进行压缩转换、分箱压缩、抽取样本的操作之后形成新的数据宽表;数据分析是指对数据宽表的数据进行差异分析和相关性分析,形成建模宽表;建模评估是指对建模宽表的数据进行建模测试,并进行模型评估;规则梳理是指根据业务要求,梳理数据计算规则,固化计算代码脚本。
[0080]
综上,本技术通过数据集成技术,采用自动化手段定期或即时获取业务交易和管理数据,从监督角度对业务数据进行实时监控和分析,实现对经营风险、经营管理问题的预警。为各类监督提供支持,促进监督资源共享和利用;能够提高工作效率,快速从海量数据中找出问题线索,进一步提升监督效率和质量。
[0081]
可以理解的是,此处所描述的具体实施例仅用于解释本技术,而非对本技术的限定。另外为了便于描述,附图中仅示出了与本技术相关的部分而非全部结构。文中所使用的步骤编号也仅是为了方便描述,不对作为对步骤执行先后顺序的限定。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0082]
本技术中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0083]
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0084]
以上所述仅为本技术的实施方式,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1