本发明涉及计算机应用技术领域,特别是一种企业上报数据可信度评估系统及其实现方法。
背景技术
政府部门通过收集企业上报的各类指标数据,了解企业经营情况,制定指导性工作建议及决策。由于企业上报数据过程无法实时监督,不排除存在随意上报数据的情况;不可信的数据容易让工作建议和决策偏离正确的方向。这时候需要一种通过分析企业上报数据时间、指标数值和指标数据逻辑来鉴别上报数据可信度的系统,筛选可信指标数据集,为工作建议和决策的制定提供可靠的数据依据。
技术实现要素:
本发明解决的技术问题之一在于提供一种企业上报数据可信度评估系统,通过计算上报耗时可信度、逻辑可信度和数值可信度,汇总计算出综合可信度得分;然后过滤掉低于限定可信度得分的企业指标值,最终形成可指导性企业指标数据。
本发明解决的技术问题之二在于提供一种企业上报数据可信度评估系统的实现方法。
本发明解决上述技术问题之一的技术方案是:
所述的系统包括数据规则分析组件、数据可信度评价组件和数据鉴别组件;
所述的数据规则实现:分析组件通过收集所有企业指标上报耗时分布情况计算每个指标上报耗时可信区间;将每个指标数据分组并进行正则表达式检测、数据连续范围检测和数据离散范围检测生成指标数据可信规则库;将指标与指标之间关联组合生成指标数据逻辑可信规则库;
所述的数据可信度评价组件实现:计算指标的上报耗时可信度、数值可信度和逻辑可信度,分别赋予权重计算出单个指标可信度得分,然后按企业汇总计算出上报可信度总分;
所述的数据鉴别组件实现:基于数据可信度评价组件计算的单个指标可信度得分及企业上报可信度总分,按照限定可信度分值过滤不可信数据,分组汇总出可信指标集和可信企业上报数据集。
本发明解决上述技术问题之二的技术方案是:
所述的方法具体步骤如下:
第一步,收集所有企业指标上报耗时分布情况,计算每个指标上报耗时可信区间;
将每个指标数据分组并进行正则表达式检测、数据连续范围检测和数据离散范围检测生成指标数据可信规则库;
将指标与指标之间关联组合生成指标数据逻辑可信规则库;
第二步,根据企业上报指标数据耗时和指标上报耗时可信区间,计算所有企业指标耗时可信度;
根据指标正则表达式检测、指标数据连续范围和指标数据离散范围规则库,计算指标数据可信度;
根据数据逻辑可信规则库计算指标逻辑可信度;
第三步,根据指标耗时可信度、指标逻辑可信度和指标数据可信度计算指标可信度得分;
第四步,根据企业指标可信度得分计算企业上报可信度总分;
第五步,基于指标可信度得分,过滤掉低于限定可信度得分的企业指标值;
基于企业上报可信度总分,过滤掉低于限定可信度得分的企业上报数据,生成可信企业上报数据集。
所述的指标上报耗时可信区间计算步骤为:
第一步,按指标上报耗时分组计算企业数并降序排列,上报耗时序列为t1…tn,对应企业数为q1...qn,其中n为指标上报耗时分组数;
第二步,计算q1占总企业数比重,如果占比达到60%,则可信区间为[t1,t1];如果未达到60%,则企业数累加q2,当占比达到60%,如果t1<t2则可信区间为[t1,t2],反之可信区间为[t2,t1];如果未达到60%,继续第三步;
第三步,累加qi并计算企业数占比,当占比达到60%,如果ti处于可信区间中,则可信区间无需修改,如果ti比可信区间大则替换可信区间最大值,反之替换可信区间最小值,其中i为上报耗时序号3...n。
所述的正则表达式检测是定义指标取值类型,数据连续范围检测定义指标取值区间,数据离散范围检测定义指标取值离散范围。
所述的逻辑可信规则库定义具有某个或某几个相同指标值的企业,其指标n具有特定取值类型、取值区间或取值离散范围。
所述的上报耗时可信度计算方法为:如果企业上报指标耗时大于或等于耗时可信区间最小值,则耗时可信度为1;如果企业上报指标耗时小于耗时可信区间最小值,分别计算企业上报耗时与可信区间最小值的距离d1、可信区间最小值与可信区间平均值的距离d2,若d1>d2,则耗时可信度为0.2,否则耗时可信度为0.5。
所述的数值可信度和逻辑可信度计算方法为:s=(s1+s2+s3)/3,其中s为数值可信度和逻辑可信度得分、s1为正则表达式检测得分、s2为连续范围得分、s3为离散范围得分;
s1计算方法为:如果企业上报指标数据类型匹配,则得分为1,不匹配则得分为0;
s2计算方法为:如果企业上报指标值在连续范围之间,则得分为1;否则分别计算企业上报指标值与连续范围最小值或最大值的距离d1、连续范围最小值与连续范围平均值的距离d2,若d1>d2,则得分为0.2,否则得分为0.5;
s3计算方法为:如果企业上报指标数据满足离散范围匹配,则得分为1,不匹配则得分为0。
所述的指标可信度得分计算方法为:q=0.2*q1+0.4*q2+0.4*q3,其中q为指标可信度得分、q1为上报耗时可信度得分、q2为数值可信度得分、q3为逻辑可信度得分,对应权重分别为0.2、0.4和0.4。
所述的企业上报可信度总分计算方法为:
本发明的有益效果是:
通过分析企业上报数据时间、上报指标数据值和数据逻辑,自动生成可信规则库,无需人工制定校验规则;通过计算单个指标可信度得分和企业上报可信度总分,鉴别上报数据的可信度,筛选可信指标数据集,为工作建议和决策的制定提供可靠的数据依据。
附图说明
下面结合附图对本发明进一步说明:
图1是本发明的架构示意图。
具体实施方式
如图1所示,本发明的企业上报数据可信度评估系统由数据规则分析组件、数据可信度评价组件和数据鉴别组件组成。
数据规则分析组件通过收集所有企业指标上报耗时分布情况计算每个指标上报耗时可信区间,通过将每个指标数据分组并进行正则表达式检测、数据连续范围检测和数据离散范围检测生成指标数据可信规则库,通过将指标与指标之间关联组合生成指标数据逻辑可信规则库;
数据可信度评价组件分别计算指标的上报耗时可信度、数值可信度和逻辑可信度,分别赋予权重计算出单个指标可信度得分,然后按企业汇总计算出上报可信度总分;
数据鉴别组件基于数据可信度评价组件计算的单个指标可信度得分及企业上报可信度总分,按照限定可信度分值过滤不可信数据,分组汇总出可信指标集和可信企业上报数据集。
企业上报数据可信度评估系统的实现方法详细实施流程为:
第一步,收集所有企业指标上报耗时分布情况,计算每个指标上报耗时可信区间;
第二步,将每个指标数据分组并进行正则表达式检测、数据连续范围检测和数据离散范围检测生成指标数据可信规则库;
第三步,将指标与指标之间关联组合并进行正则表达式检测、数据连续范围检测和数据离散范围检测,生成指标数据逻辑可信规则库;
第四步,根据企业上报指标数据耗时和指标上报耗时可信区间,计算所有企业指标耗时可信度;
第五步,根据指标正则表达式检测、指标数据连续范围和指标数据离散范围规则库,计算指标数据可信度;
第六步,根据数据逻辑可信规则库计算指标逻辑可信度;
第七步,根据指标耗时可信度、指标逻辑可信度和指标数据可信度计算指标可信度得分;
第八步,根据企业指标可信度得分计算企业上报可信度总分;
第九步,基于指标可信度得分,过滤掉低于限定可信度得分的企业指标值,生成可信指标集;
第十步,基于企业上报可信度总分,过滤掉低于限定可信度得分的企业上报数据,生成可信企业上报数据集。
其中,指标上报耗时可信区间计算步骤为:
第一步,按指标上报耗时分组计算企业数并降序排列,上报耗时序列为t1…tn,对应企业数为q1…qn,其中n为指标上报耗时分组数;
第二步,计算q1占总企业数比重,如果占比达到60%,则可信区间为[t1,t1];如果未达到60%,则企业数累加q2,当占比达到60%,如果t1<t2则可信区间为[t1,t2],反之可信区间为[t2,t1];如果未达到60%,继续第三步;
第三步,累加qi并计算企业数占比,当占比达到60%,如果ti处于可信区间中,则可信区间无需修改,如果ti比可信区间大则替换可信区间最大值,反之替换可信区间最小值,其中i为上报耗时序号3…n。
正则表达式检测定义指标取值类型,数据连续范围定义指标取值区间,数据离散范围定义指标取值离散范围。
逻辑可信规则库定义具有某个或某几个相同指标值的企业,其指标n具有特定取值类型、取值区间或取值离散范围。
上报耗时可信度计算方法为:如果企业上报指标耗时大于或等于耗时可信区间最小值,则耗时可信度为1;如果企业上报指标耗时小于耗时可信区间最小值,分别计算企业上报耗时与可信区间最小值的距离d1、可信区间最小值与可信区间平均值的距离d2,若d1>d2,则耗时可信度为0.2,否则耗时可信度为0.5;
数值可信度和逻辑可信度计算方法为:s=(s1+s2+s3)/3,其中s为数值可信度和逻辑可信度得分、s1为正则表达式检测得分、s2为连续范围得分、s3为离散范围得分;
s1计算方法为:如果企业上报指标数据类型匹配,则得分为1,不匹配则得分为0;
s2计算方法为:如果企业上报指标值在连续范围之间,则得分为1;否则分别计算企业上报指标值与连续范围最小值或最大值的距离d1、连续范围最小值与连续范围平均值的距离d2,若d1>d2,则得分为0.2,否则得分为0.5;
s3计算方法为:如果企业上报指标数据满足离散范围匹配,则得分为1,不匹配则得分为0。
指标可信度得分计算方法为:q=0.2*q1+0.4*q2+0.4*q3,其中q为指标可信度得分、q1为上报耗时可信度得分、q2为数值可信度得分、q3为逻辑可信度得分,对应权重分别为0.2、0.4和0.4;
企业上报可信度总分计算方法为: