本发明属于建筑工程管理领域,具体涉及一种政府监管成本视角下的建设市场主体最优信息透明度区间的确定方法。
背景技术:
在互联网时代下,社会迅猛发展,随之带来的是信息广泛传播,并且信息容量暴增。在此背景下,政府监管情况备受关注。政府投资项目的监管成本是由政府投入大量的监管资源形成的,目的是让监管主体可以完成项目的一系列过程,包括初期立项、投资、中期建设和运营等过程。目前来看,为了保证项目建设的顺利进行,要求政府不断投入大量的资金,公共支出增长越来越多。政府将会进一步加大监管力度,构造政府监管成本—监管效益平衡状态,最终达到良好的监管效果。除此之外,信息透明度是政府实现有效监管的重要基础,政府会进一步强制建设领域的信息公开工作,加快建设诚信体系,项目信息共享专栏成立,最终建立信息公开平台,简化工作流程,实现“一站式”综合公开处理平台。
从信息公开的角度分析,信息公开要求各类行政机关、团体组织主动的公开相关信息内容,基于一定的法律法规形式,达到高效透明要求,信息公开程度的强弱可以由政府来把控全局,但是信息公开的内容并不是越多越好。
从政府监管成本的角度进行分析,政府管理的科学性和合理性的程度与监管成本和监管效益的成果相关,而目前,监管成本比较冗杂,主要原因是政府职责不清以及存在权责交叉的情况,引发了政府监管动力欠缺、监管方式科学性不足和监管效度不足的问题。
从政府监管成本与信息公开程度进行关联分析。政府付出巨大成本,但是仍然不可能达到信息完全透明状态,并且此类信息对政府进行监管的效用微弱。
综上所述,站在政府监管成本的角度上,如何有针对性地控制市场信息透明度,确定最优信息透明度,填补信息公开管理理论的不足,拓宽政府监管成本平衡选择的思路,完善信息透明度评价的应用方法,是需要解决的重要问题。
技术实现要素:
发明目的:为了克服现有技术中存在的不足,提供一种政府监管成本视角下的建设市场主体最优信息透明度区间的确定方法,计算出建设市场主体信息透明度的同时,还能实现将成本和信息透明度关联起来,确定最优信息透明度及最优区间以提升政府监管效率和正常推进基于信息透明度的政府监管科学决策的方法。
技术方案:为实现上述目的,本发明提供一种建设市场主体最优信息透明度区间的确定方法,包括如下步骤:
s1:wmf-lda模型求解出信息指标的文本相似度,进一步归纳指标,求得大类指标;
s2:加权集值统计模型求出归纳后的指标综合评价值,量化定性指标;
s3:分析赋予权重后的指标,求解建设市场主体的关联度,即为信息透明度;
s4:构建pls政府监管成本与信息透明度模型,通过该模型计算得到政府监管成本视角下的建设市场主体最优信息透明度以及确定最优信息透明度区间。
进一步地,所述步骤s1具体为:
a1:对原始的指标集合进行分词处理,将指标内容分开,形成不同的词语;
a2:训练指标向量模型word2vec,将指标的大类词语和近义词语进行统一化的映射;利用word2vec模型,将指标的大类词语和近义词语进行统一化的映射是在语义层面上进行操作,同时,针对映射后的指标进行词性筛选依据其词性中的动词和名词的影响程度操作,保留其中的名词和动词,过滤其他词性的词语;
a3:将映射后的大类指标集合进行词性筛选;
a4:进行wmf-lda主题建模操作;
a5:进行文本聚类及相似度度量。
在本发明中披露了基于wmf-lda模型指标分类处理,由29个建设市场主体信息透明度评价指标小分类指标汇总成8大类指标,具体的指标内容不变,经过汇总后,指标内容更加明确,指标之间的界定更加清晰,解决了原始指标可能存在的平行、交错和语义重复问题,得到信息透明度评价指标的最终归类结果,最终可以根据大类指标进行下一步的计算。
所述步骤a1中分词处理的方式为计算原始的词语相似度:
用余弦夹角公式计算出原始的词语相似度:
其中,n代表某一个指标中的所有词语;w代表被观察到的词项数量。
进一步地,所述步骤a4中wmf-lda主题建模操作的过程为:
①将第m个指标采用如下公式表示:
式中,k代表提前设定的指标名称数量;m代表整个指标集合中所有的指标数量;n表示整个指标中所有的全部词语;w表示可以被查看的指标内容;z表示选定的某一个词语所属于的某一个指标;θ表示指标名称的分布;
②生成第m个指标的第n个词语
第m个指标的第n个词语的生成算法步骤如下:
1、将α设定为超参数,获取指标名称的概率分布θm。
2、获取指标名称的概率分布θm后,利用多项式分布来获得该词属于的指标名称zm,n。
3、将β设定为超参数,根据上面获得的指标名称zm,n,获取指标名称—指标内容概率分布
4、得到指标名称—指标内容分布
5、循环步骤①—④nm次,可生成nm次第m个指标。
6、循环步骤①—⑤m次,可生成m个指标。
根据上述模型的计算步骤可知,有两个主参数α和β需要提前获知。参阅大量文献后可知,一般取其经验值50/k和0.01,故本发明也采取相同数值。除此之外,模型还需要求解zm,n,所以可根据已经得到的具体内容的指标分布,用倒推的方法得到具体的参数分布表
首先基于gibbs采样方式,更新当前指标内容的指标概率,过滤已经存在的指标分布,将词语在不同指标之下的概率进行重新分配估计,即:
式中,
③计算得到指标层面的概率分布
指标内容—指标概率分布计算公式为:
④文本相似度计算
经计算后,得到了关于指标层面的概率分布,所以文本相似度的判定标准可以选择距离dkl。但是距离dkl是非对称的,故本文采用的文本相似度计算公式是经过改进的距离dkl公式,确定判定标准选择距离dkl,其计算公式如下:
式中,d1,d2表示指标内容—指标概率分布,dkl表示两者之间的距离,其他符号含义同上;
最终经过计算后,可以由29个建设市场主体信息透明度评价小分类指标汇总成8大类指标。
进一步地,所述步骤a5中采用f值对文本聚类结果的准确性进行判断,即聚类j所属类别i的概率和聚类j所属类别i的概率,其计算公式分别为:
式中,nij表示类别i的内容数量,其聚类结果为j;ni表示类别为i的内容数量;nj为聚类结果为j的内容数量;
计算其对应f值:
式中,n表示整体指标中包括的内容分类数量;n表示指标集合中的内容数量。如果全局聚类的f值越大,那么聚类效果越好,即利用的文本相似度计算公式的计算效果越好。
进一步地,所述步骤s2中披露了加权集值统计模型量化定性指标的方法,采用该方法改善了过去仅仅依赖专家打分的做法,使得指标的评判更为科学合理,具体包括如下步骤:
b1:邀请z位相关行业的专家对指标具体内容进行打分,规定其的打分形式为某一区间,专家打分的数字越大,代表指标内容的重要程度越大,打分的数字区域越小,代表专家对这个问题的把握程度越大;
b2:利用公式
b3:利用公式
式中:b1,b2,…,bl,bl+1是各个估计区间的端点从小到大排列的一个序列,l为这一序列构成的区间个数,a1,a2,…,al是专家给出评价区间中包含b1,b2,…,bl,bl+1的专家权重之和;
b4:将求解的值代入某一个指标内容的评价值方程
b5:利用方差计算公式
b6:将ei(r)值进行相加得到大类指标的量化数值。
进一步地,所述步骤s3中提供了一种构建灰色关联分析模型计算透明度的方法,具体包括如下步骤:
c1:将理想情况设定为政府可以得知关于建设市场主体的所有信息内容,将建设市场主体的信息内容归结为本文构建的透明度评价指标,将在理想情况下政府得知建设市场主体的信息指标评价值作为参考数列,即:
x′o=(x′o(1),x′o(2),····,x′o(m))
式中,m为指标的个数,x'o(1),x'o(2),…,x'o(m)的取值即为3.2.1中定性指标量化结果;
c2:将已知的公开数据与理想情况下的公开数据进行文本相似度计算,采用余弦夹角公式
则某个市场主体指标内容的量化结果为:
x′m=ei(r)m×sim(ω1,ω2)m
式中,ei(r)m为理想情况下的指标内容综合评价值;
将某个市场主体量化后的所有数据,建立原始数据矩阵,即比较数列矩阵:
式中,x'1(m),x'1(m),...,x'1(m)为第m个指标的信息公开数据,上式为所有指标的信息公开数据矩阵的转置矩阵;
c3:对所有的指标数据进行无量纲化处理,采用公式
c4:逐个计算比较序列与参考序列对应的元素的绝对差值,即|x0(k)-xi(k)|(i=0,1,2……,n;k=1,2……,m.),确定
c5:计算关联系数:
式中:ρ代表分辨系数,取值范围为(0,1),取值的大小代表关联系数之间的差异和区分能力,值越大,差异和区分能力越大,一般取0.5;
c6:计算关联度,即信息透明度值:
式中,结果取值范围在(0,1)。
进一步地,所述步骤s4提供了一种利用pls(偏最小二乘法)求解信息透明度的方法,将信息的内容与监管的成本结合考虑,提取两者之间的主要成分,构建偏最小二乘回归方程,求解方程并得到最优透明度,具体包括如下步骤:
d1:将定性指标量化后的数据作为自变量,监管成本节省和监管成本支出之差作为因变量,即净节省成本作为因变量,在mr=mc处,取得净节省成本最大值,利用matlab软件,构造几个自变量的简单相关系数矩阵;
d2:根据标准化以后的原始数据矩阵来计算最大特征矩阵所对应的特征向量并且计算提取自变量主成分;
d3:构建变量
d4:求得成本节省以及成本支出两段与指标内容回归模型;
d5:通过步骤d4的回归模型进行最优信息透明度点估计;
d6:进行最优信息透明度区间估计。
进一步地,所述步骤d1具体为:构造的标准化后的数据矩阵分别为:
进一步地,所述步骤d2中提取主成分的具体实现过程为:首先,构建拉格朗日函数求得
进一步地,所述步骤d3中
进一步地,所述步骤d4中成本节省以及成本支出两段与指标内容回归模型列式如下:将e点之前的回归方程与e点之后的回归方程联立求解,列式如下:
yn=aj1x1+aj2x2+…+ajnxn
eyn=aej1x1+aej2x2+…+aejnxn
解出信息评价值为:
分别代入成本支出方程与成本节省方程中,求得:
进一步地,所述步骤d5具体为:
将多元线性回归方程联立计算,分别提取第一次,第二次……第k次自变量主成分,求得k个回归方程,利用k组数据可以进行点估计;现在需要求解k个回归方程,且每次提取的主成分个数依次为1,2,3……,k个,则每一次最优信息透明度评价值为:
……
利用灰色关联分析法透明度评价模型,计算出关联度,即为信息透明度。已知每次提取不同成分时求解的最优信息透明度都是在净节省成本曲线峰值处,即净节省成本最大处,按照数学概率论统计方法,此时求得的k个信息透明度值可以构成正态分布模型,所以点估计即为k个信息透明度平均值。上述过程利用matlab,最终计算得到信息透明度以及净节省的成本。
进一步地,所述步骤d6具体为:
在所有信息透明度方差已知的情况下,政府已经掌握了建设市场主体的信息透明度值和所有建设市场主体的信息透明度平均值,此时只需要采用检验统计量
在方差未知的情况下,政府没有掌握到信息透明度值,即在没有掌握到所有的主体信息透明度基础上,可以用样本标准差来对整体的标准差进行无偏估计,即用某几家建设市场主体的信息透明度标准差来代替整体的标准差,此时采用检验统计量
本发明采用wmf-lda的主题模型方法,同时把词性和词语的信息进行结合,利用不同的领域差异性,将建设市场主体信息透明度指标进行了归类,改进了传统的lda模型在文本相似度计算领域方面的应用,并且集值统计模型对归纳后的指标进行综合评价,赋予相关权重,改善了过去仅仅依赖专家打分的做法,使得指标的评判更为科学合理;进而利用灰色关联模型对赋予权重后的指标进行分析,求解出建设市场主体的信息透明度;最后构建pls模型,将信息的内容与监管的成本结合考虑,提取两者之间的主要成分,构建偏最小二乘回归方程,求解方程并得到最优透明度。通过该方法为政府监管部门确定市场主体的最优信息透明度以及信息披露量等提供依据。
有益效果:本发明与现有技术相比,利用灰色关联度理论判定信息透明度高低,为政府强制建设市场主体达到某一信息透明度提供了参考标准,并且可以合理有效的评价信息透明度等级,提高了政府管理的科学性和合理性;构建了政府监管成本视角下建设市场主体最优信息透明度模型,为政府监管部门确定市场主体的最优信息透明度以及信息披露量等并采取相应的监管对策提供依据。
附图说明
图1为本发明方法的流程框架图;
图2为本发明方法的整体框架结构设计图;
图3为本发明方法中基于信息透明度的特殊性监管成本支出组成图;
图4为本发明方法中基于信息透明度的特殊性监管成本节省组成图;
图5为本发明方法中wmf-lda主题模型流程图;
图6为本发明方法中pls模型下信息透明度与政府分类成本关系图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明提供一种建设市场主体最优信息透明度区间的确定方法,包括如下步骤:
s1:wmf-lda模型求解出信息指标的文本相似度,进一步归纳指标,求得大类指标;
s2:加权集值统计模型求出归纳后的指标综合评价值,量化定性指标;
s3:分析赋予权重后的指标,求解建设市场主体的关联度,即为信息透明度;
s4:构建pls政府监管成本与信息透明度模型,通过该模型计算得到政府监管成本视角下的建设市场主体最优信息透明度以及确定最优信息透明度区间。
步骤s1具体为:
a1:对原始的指标集合进行分词处理,将指标内容分开,形成不同的词语;
a2:训练指标向量模型word2vec,将指标的大类词语和近义词语进行统一化的映射;利用word2vec模型,将指标的大类词语和近义词语进行统一化的映射是在语义层面上进行操作,同时,针对映射后的指标进行词性筛选依据其词性中的动词和名词的影响程度操作,保留其中的名词和动词,过滤其他词性的词语;
a3:将映射后的大类指标集合进行词性筛选;
a4:进行wmf-lda主题建模操作;
a5:进行文本聚类及相似度度量。
在本发明中披露了基于wmf-lda模型指标分类处理,由29个建设市场主体信息透明度评价指标小分类指标汇总成8大类指标,具体的指标内容不变,经过汇总后,指标内容更加明确,指标之间的界定更加清晰,解决了原始指标可能存在的平行、交错和语义重复问题,得到信息透明度评价指标的最终归类结果,最终可以根据大类指标进行下一步的计算。
步骤a1中分词处理的方式为计算原始的词语相似度:
用余弦夹角公式计算出原始的词语相似度:
其中,n代表某一个指标中的所有词语;w代表被观察到的词项数量。
步骤a4中wmf-lda主题建模操作的过程为:
①将第m个指标采用如下公式表示:
式中,k代表提前设定的指标名称数量;m代表整个指标集合中所有的指标数量;n表示整个指标中所有的全部词语;w表示可以被查看的指标内容;z表示选定的某一个词语所属于的某一个指标;θ表示指标名称的分布;
②生成第m个指标的第n个词语
第m个指标的第n个词语的生成算法步骤如下:
1、将α设定为超参数,获取指标名称的概率分布θm。
2、获取指标名称的概率分布θm后,利用多项式分布来获得该词属于的指标名称zm,n。
3、将β设定为超参数,根据上面获得的指标名称zm,n,获取指标名称—指标内容概率分布
4、得到指标名称—指标内容分布
5、循环步骤①—④nm次,可生成nm次第m个指标。
6、循环步骤①—⑤m次,可生成m个指标。
根据上述模型的计算步骤可知,有两个主参数α和β需要提前获知。参阅大量文献后可知,一般取其经验值50/k和0.01,故本发明也采取相同数值。除此之外,模型还需要求解zm,n,所以可根据已经得到的具体内容的指标分布,用倒推的方法得到具体的参数分布表
首先基于gibbs采样方式,更新当前指标内容的指标概率,过滤已经存在的指标分布,将词语在不同指标之下的概率进行重新分配估计,即:
式中,
③计算得到指标层面的概率分布
指标内容—指标概率分布计算公式为:
④文本相似度计算
经计算后,得到了关于指标层面的概率分布,所以文本相似度的判定标准可以选择距离dkl。但是距离dkl是非对称的,故本文采用的文本相似度计算公式是经过改进的距离dkl公式,确定判定标准选择距离dkl,其计算公式如下:
式中,d1,d2表示指标内容—指标概率分布,dkl表示两者之间的距离,其他符号含义同上;
最终经过计算后,可以由29个建设市场主体信息透明度评价小分类指标汇总成8大类指标。
步骤a5中采用f值对文本聚类结果的准确性进行判断,即聚类j所属类别i的概率和聚类j所属类别i的概率,其计算公式分别为:
式中,nij表示类别i的内容数量,其聚类结果为j;ni表示类别为i的内容数量;nj为聚类结果为j的内容数量;
计算其对应f值:
式中,n表示整体指标中包括的内容分类数量;n表示指标集合中的内容数量。如果全局聚类的f值越大,那么聚类效果越好,即利用的文本相似度计算公式的计算效果越好。
步骤s2中披露了加权集值统计模型量化定性指标的方法,采用该方法改善了过去仅仅依赖专家打分的做法,使得指标的评判更为科学合理,具体包括如下步骤:
b1:邀请z位相关行业的专家对指标具体内容进行打分,规定其的打分形式为某一区间,专家打分的数字越大,代表指标内容的重要程度越大,打分的数字区域越小,代表专家对这个问题的把握程度越大;
b2:利用公式
b3:利用公式
式中:b1,b2,…,bl,bl+1是各个估计区间的端点从小到大排列的一个序列,l为这一序列构成的区间个数,a1,a2,…,al是专家给出评价区间中包含b1,b2,…,bl,bl+1的专家权重之和;
b4:将求解的值代入某一个指标内容的评价值方程
b5:利用方差计算公式
b6:将ei(r)值进行相加得到大类指标的量化数值。
步骤s3中提供了一种构建灰色关联分析模型计算透明度的方法,具体包括如下步骤:
c1:将理想情况设定为政府可以得知关于建设市场主体的所有信息内容,将建设市场主体的信息内容归结为本文构建的透明度评价指标,将在理想情况下政府得知建设市场主体的信息指标评价值作为参考数列,即:
x′o=(x′o(1),x′o(2),····,x′o(m))
式中,m为指标的个数,x'o(1),x'o(2),…,x'o(m)的取值即为3.2.1中定性指标量化结果;
c2:将已知的公开数据与理想情况下的公开数据进行文本相似度计算,采用余弦夹角公式
则某个市场主体指标内容的量化结果为:
x′m=ei(r)m×sim(ω1,ω2)m
式中,ei(r)m为理想情况下的指标内容综合评价值;
将某个市场主体量化后的所有数据,建立原始数据矩阵,即比较数列矩阵:
式中,x'1(m),x'1(m),...,x'1(m)为第m个指标的信息公开数据,上式为所有指标的信息公开数据矩阵的转置矩阵;
c3:对所有的指标数据进行无量纲化处理,采用公式
c4:逐个计算比较序列与参考序列对应的元素的绝对差值,即|x0(k)-xi(k)|(i=0,1,2……,n;k=1,2……,m.),确定
c5:计算关联系数:
式中:ρ代表分辨系数,取值范围为(0,1),取值的大小代表关联系数之间的差异和区分能力,值越大,差异和区分能力越大,一般取0.5;
c6:计算关联度,即信息透明度值:
式中,结果取值范围在(0,1)。
步骤s4提供了一种利用pls(偏最小二乘法)求解信息透明度的方法,将信息的内容与监管的成本结合考虑,提取两者之间的主要成分,构建偏最小二乘回归方程,求解方程并得到最优透明度,具体包括如下步骤:
d1:将定性指标量化后的数据作为自变量,监管成本节省和监管成本支出之差作为因变量,即净节省成本作为因变量,在mr=mc处,取得净节省成本最大值,利用matlab软件,构造几个自变量的简单相关系数矩阵;
d2:根据标准化以后的原始数据矩阵来计算最大特征矩阵所对应的特征向量并且计算提取自变量主成分;
d3:构建变量
d4:求得成本节省以及成本支出两段与指标内容回归模型;
d5:通过步骤d4的回归模型进行最优信息透明度点估计;
d6:进行最优信息透明度区间估计。
步骤d1具体为:构造的标准化后的数据矩阵分别为:
步骤d3中
步骤d4中成本节省以及成本支出两段与指标内容回归模型列式如下:将e点之前的回归方程与e点之后的回归方程联立求解,列式如下:
yn=aj1x1+aj2x2+…+ajnxn
eyn=aej1x1+aej2x2+…+aejnxn
解出信息评价值为:
分别代入成本支出方程与成本节省方程中,求得:
步骤d5具体为:
将多元线性回归方程联立计算,分别提取第一次,第二次……第k次自变量主成分,求得k个回归方程,利用k组数据可以进行点估计;现在需要求解k个回归方程,且每次提取的主成分个数依次为1,2,3……,k个,则每一次最优信息透明度评价值为:
……
利用灰色关联分析法透明度评价模型,计算出关联度,即为信息透明度。已知每次提取不同成分时求解的最优信息透明度都是在净节省成本曲线峰值处,即净节省成本最大处,按照数学概率论统计方法,此时求得的k个信息透明度值可以构成正态分布模型,所以点估计即为k个信息透明度平均值。上述过程利用matlab,最终计算得到信息透明度以及净节省的成本。
步骤d6具体为:
在所有信息透明度方差已知的情况下,政府已经掌握了建设市场主体的信息透明度值和所有建设市场主体的信息透明度平均值,此时只需要采用检验统计量
在方差未知的情况下,政府没有掌握到信息透明度值,即在没有掌握到所有的主体信息透明度基础上,可以用样本标准差来对整体的标准差进行无偏估计,即用某几家建设市场主体的信息透明度标准差来代替整体的标准差,此时采用检验统计量
基于上述方案,本实施例中将上述方案应用于确定政府监管成本视角下建设市场主体最优信息透明度区间,经过前文分析可知,如何找到监管成本支出和监管成本节省之间的平衡点是本发明研究的重点,从附图2可以看出,首先应当对各类成本重新分类,确定特殊性监管成本支出和特殊性政府监管成本节省。
本实施例依据附图3和附图4所示的组成,随机选取的5家企业,根据来自建设市场主体信用公开信用信息平台上的企业公开数据,列出各类成本与各类指标关联,其中损失、行政、现场和舆论均为成本支出,透明度与风险均为成本节省。基于本文构建的模型,对现实情况下的政府监管成本视角下的建设市场主体最优信息透明度进行计算,得到了具体的实际值,验证了模型的正确性和可推广性。
接下来,利用本文构建的wmf-lda模型进行计算,对上述的指标内容进行分类处理,由29个小分类指标汇总成8大类指标,处理流程见附图5,将8个大类指标视为一级指标,将29个小分类指标视为二级指标,具体的指标内容不变,经过汇总后,指标内容更加明确,指标之间的界定更加清晰,解决了原始指标可能存在的平行、交错和语义重复问题,得到信息透明度评价指标的最终归类结果,最终可以根据大类指标进行下一步的计算。另外,对指标的分类效果进行评判,计算查准率p(i,j)和召回率r(i,j),本实施例中已知关于上述指标内容的共有470个,一共被分为八大类别,关于第一类指标基础信息,有50个文档符合相关定义,系统一共检索了75个文档,只有45个符合定义,那么查准率
上述wmf-lda模型归纳为的八大指标分别为基础信息、成员信息、责任与目标、结构框架、履职情况、奖惩考核、战略活动与重大事项,以基础信息进行加权集值统计模型指标量化为示例:
本实施例中一共邀请十位相关行业的专家对具体内容进行打分,规定其的打分形式为某一区间,专家打分的数字越大,代表指标内容的重要程度越大,打分的数字区域越小,代表专家对这个问题的把握程度越大。将专家的打分结果进行量化在[0,10]区间上,左右均为闭区间,允许出现0与10分的结果。第一个指标的指标内容共有7个,并且7个指标内容不存在重复性,基础信息指标内容专家打分的具体结果。根据专家给出的判断范围的大小来确定专家的权重,利用公式
由上式可知b1=3,b2=5,b3=7,b4=7.5,b5=8,b6=8.3,b7=9,b8=10,l为7,a1=0.05,a2=0.15,a3=0.53,a4=0.67,a5=0.73,a6=0.88,a7=0.13。
将求解的值代入公式
同理,将其他七大类指标按照如上方法进行量化以及相加处理,最终计算出所有指标额综合评价值。
根据关联系数计算公式,利用综合评价值与各个指标内容进行计算:
选取甲公司作为代表,将甲公司信息内容与理想情况信息内容进行汇总整理,在理想情况下,政府得知建设市场主体的信息指标评价值可以作为参考数列,即:x'o=(x'o(1),x'o(2),····,x'o(m)),式中,m为指标的个数,x'o(1),x'o(2),····,x'o(m)的取值即为定性指标量化结果。
收集建设市场主体信息公开数据,将已知的公开数据与理想情况下的公开数据进行文本相似度计算,采用余弦夹角公式
某个市场主体指标内容的量化结果为:x'm=ei(r)m×sim(ω1,ω2)m,式中,ei(r)m为理想情况下的指标内容综合评价值。
将某个市场主体指标内容的量化结果进行相加计算,得到比较序列矩阵,则比较序列矩阵为:
确定
计算关联系数:
此外,第一位关联系数需要归一化处理,利用公式
同理,重复上述甲企业计算关联度的过程,分别计算乙、丙、丁、戊企业的灰色关联度,即为建设市场主体的信息透明度,结果取值范围在(0,1)。
关于pls模型信息透明度求解,如附图6所示,利用政府成本支出、成本节省与信息透明度取值,基于pls模型,将信息透明度取值作为自变量,政府成本支出和政府成本节省分别作为因变量,利用matlab软件,构造这8个变量的简单相关系数矩阵;然后,根据标准化以后的原始数据矩阵来计算最大特征矩阵所对应的特征向量并且计算主成分,计算得应该提出的成分个数为4个,交叉的有效性为-0.280761;求得单位特征向量wk和
y=100.4x1+621.41x2+1089x3+878.98x4+943.7x5+198.576
y=20.56x1+446.21x2+964x3+523.41x4+841.3x5+201.45
观察系数可以发现,对成本节省的影响程度从大到小排列的指标分别为:重大事项,基础信息,成员信息,奖惩项目和责任目标。对成本支出的影响程度从大到小的指标分别为:成员信息,重大事项,责任目标,奖惩考核和基础信息。
对模型精度进行检验,即对所有的数据点绘制预测图。在这个预测图上,检验的值在实际值附近运动,且求得r2大于等于0.9,拟合程度满足要求,方程均有效。
最后是最优信息透明度点估计和区间估计:
本实施例中首先绘制信息透明度与政府监管分类成本图,一条为信息透明度与政府成本支出关系曲线,另一条为信息透明度与政府成本节省关系曲线,将多元线性回归方程联立计算,利用matlab,计算得到信息透明度为0.714,此时政府成本支出为1100万,政府成本节省为1490万,则净节省的成本为390万元;其次,根据已经计算出来的数据,可以得知信息透明度在不同多元线性回归方程计算下,可以得到不同的最佳值,其服从于正态分布,且为小样本。用z检验量来构建区间。本实施例中令置信系数为0.05,则置信区间为0.95。根据公式
根据以上实施例可知,本发明实现了确定政府监管成本视角下的建设市场主体最优信息透明度区间的获取。本发明采用wmf-lda的主题模型方法,同时把词性和词语的信息进行结合,利用不同的领域差异性,将建设市场主体信息透明度指标进行了归类,改进了传统的lda模型在文本相似度计算领域方面的应用,并且集值统计模型对归纳后的指标进行综合评价,赋予相关权重,改善了过去仅仅依赖专家打分的做法,使得指标的评判更为科学合理;进而利用灰色关联模型对赋予权重后的指标进行分析,求解出建设市场主体的信息透明度;最后构建pls模型,将信息的内容与监管的成本结合考虑,提取两者之间的主要成分,构建偏最小二乘回归方程,求解方程并得到最优透明度。通过该方法为政府监管部门确定市场主体的最优信息透明度以及信息披露量等提供依据。