一种建设市场主体最优信息透明度区间的确定方法

文档序号：26010046发布日期：2021-07-23 21:30阅读：88来源：国知局

本发明属于建筑工程管理领域，具体涉及一种政府监管成本视角下的建设市场主体最优信息透明度区间的确定方法。

背景技术：

在互联网时代下，社会迅猛发展，随之带来的是信息广泛传播，并且信息容量暴增。在此背景下，政府监管情况备受关注。政府投资项目的监管成本是由政府投入大量的监管资源形成的，目的是让监管主体可以完成项目的一系列过程，包括初期立项、投资、中期建设和运营等过程。目前来看，为了保证项目建设的顺利进行，要求政府不断投入大量的资金，公共支出增长越来越多。政府将会进一步加大监管力度，构造政府监管成本—监管效益平衡状态，最终达到良好的监管效果。除此之外，信息透明度是政府实现有效监管的重要基础，政府会进一步强制建设领域的信息公开工作，加快建设诚信体系，项目信息共享专栏成立，最终建立信息公开平台，简化工作流程，实现“一站式”综合公开处理平台。

从信息公开的角度分析，信息公开要求各类行政机关、团体组织主动的公开相关信息内容，基于一定的法律法规形式，达到高效透明要求，信息公开程度的强弱可以由政府来把控全局，但是信息公开的内容并不是越多越好。

从政府监管成本的角度进行分析，政府管理的科学性和合理性的程度与监管成本和监管效益的成果相关，而目前，监管成本比较冗杂，主要原因是政府职责不清以及存在权责交叉的情况，引发了政府监管动力欠缺、监管方式科学性不足和监管效度不足的问题。

从政府监管成本与信息公开程度进行关联分析。政府付出巨大成本，但是仍然不可能达到信息完全透明状态，并且此类信息对政府进行监管的效用微弱。

综上所述，站在政府监管成本的角度上，如何有针对性地控制市场信息透明度，确定最优信息透明度，填补信息公开管理理论的不足，拓宽政府监管成本平衡选择的思路，完善信息透明度评价的应用方法，是需要解决的重要问题。

技术实现要素：

发明目的：为了克服现有技术中存在的不足，提供一种政府监管成本视角下的建设市场主体最优信息透明度区间的确定方法，计算出建设市场主体信息透明度的同时，还能实现将成本和信息透明度关联起来，确定最优信息透明度及最优区间以提升政府监管效率和正常推进基于信息透明度的政府监管科学决策的方法。

技术方案：为实现上述目的，本发明提供一种建设市场主体最优信息透明度区间的确定方法，包括如下步骤：

s1：wmf-lda模型求解出信息指标的文本相似度，进一步归纳指标，求得大类指标；

s2：加权集值统计模型求出归纳后的指标综合评价值，量化定性指标；

s3：分析赋予权重后的指标，求解建设市场主体的关联度，即为信息透明度；

s4：构建pls政府监管成本与信息透明度模型，通过该模型计算得到政府监管成本视角下的建设市场主体最优信息透明度以及确定最优信息透明度区间。

进一步地，所述步骤s1具体为：

a1：对原始的指标集合进行分词处理，将指标内容分开，形成不同的词语；

a2：训练指标向量模型word2vec，将指标的大类词语和近义词语进行统一化的映射；利用word2vec模型，将指标的大类词语和近义词语进行统一化的映射是在语义层面上进行操作，同时，针对映射后的指标进行词性筛选依据其词性中的动词和名词的影响程度操作，保留其中的名词和动词，过滤其他词性的词语；

a3：将映射后的大类指标集合进行词性筛选；

a4：进行wmf-lda主题建模操作；

a5：进行文本聚类及相似度度量。

在本发明中披露了基于wmf-lda模型指标分类处理，由29个建设市场主体信息透明度评价指标小分类指标汇总成8大类指标，具体的指标内容不变，经过汇总后，指标内容更加明确，指标之间的界定更加清晰，解决了原始指标可能存在的平行、交错和语义重复问题，得到信息透明度评价指标的最终归类结果，最终可以根据大类指标进行下一步的计算。

所述步骤a1中分词处理的方式为计算原始的词语相似度：

用余弦夹角公式计算出原始的词语相似度：

其中，n代表某一个指标中的所有词语；w代表被观察到的词项数量。

进一步地，所述步骤a4中wmf-lda主题建模操作的过程为：

①将第m个指标采用如下公式表示：

式中，k代表提前设定的指标名称数量；m代表整个指标集合中所有的指标数量；n表示整个指标中所有的全部词语；w表示可以被查看的指标内容；z表示选定的某一个词语所属于的某一个指标；θ表示指标名称的分布；表示指标名称—指标内容的分布；α表示θ分布的超参数；β表示分布的超参数；

②生成第m个指标的第n个词语

第m个指标的第n个词语的生成算法步骤如下：

1、将α设定为超参数，获取指标名称的概率分布θm。

2、获取指标名称的概率分布θm后，利用多项式分布来获得该词属于的指标名称zm,n。

3、将β设定为超参数，根据上面获得的指标名称zm,n，获取指标名称—指标内容概率分布

4、得到指标名称—指标内容分布利用多项式分布获得词语wm,n。

5、循环步骤①—④nm次，可生成nm次第m个指标。

6、循环步骤①—⑤m次，可生成m个指标。

根据上述模型的计算步骤可知，有两个主参数α和β需要提前获知。参阅大量文献后可知，一般取其经验值50/k和0.01，故本发明也采取相同数值。除此之外，模型还需要求解zm,n，所以可根据已经得到的具体内容的指标分布，用倒推的方法得到具体的参数分布表

首先基于gibbs采样方式，更新当前指标内容的指标概率，过滤已经存在的指标分布，将词语在不同指标之下的概率进行重新分配估计，即：

式中，表示已经去除下标是i的指标内容—指标中出现词语t的数量，表示已经去除下标是i的指标内容—指标中出现指标k的次数，其他符号含义同上；

③计算得到指标层面的概率分布

指标内容—指标概率分布计算公式为：

④文本相似度计算

经计算后，得到了关于指标层面的概率分布，所以文本相似度的判定标准可以选择距离dkl。但是距离dkl是非对称的，故本文采用的文本相似度计算公式是经过改进的距离dkl公式，确定判定标准选择距离dkl，其计算公式如下：

式中，d1,d2表示指标内容—指标概率分布，dkl表示两者之间的距离，其他符号含义同上；

最终经过计算后，可以由29个建设市场主体信息透明度评价小分类指标汇总成8大类指标。

进一步地，所述步骤a5中采用f值对文本聚类结果的准确性进行判断，即聚类j所属类别i的概率和聚类j所属类别i的概率，其计算公式分别为：

式中，nij表示类别i的内容数量，其聚类结果为j；ni表示类别为i的内容数量；nj为聚类结果为j的内容数量；

计算其对应f值：

式中，n表示整体指标中包括的内容分类数量；n表示指标集合中的内容数量。如果全局聚类的f值越大，那么聚类效果越好，即利用的文本相似度计算公式的计算效果越好。

进一步地，所述步骤s2中披露了加权集值统计模型量化定性指标的方法，采用该方法改善了过去仅仅依赖专家打分的做法，使得指标的评判更为科学合理，具体包括如下步骤：

b1：邀请z位相关行业的专家对指标具体内容进行打分，规定其的打分形式为某一区间，专家打分的数字越大，代表指标内容的重要程度越大，打分的数字区域越小，代表专家对这个问题的把握程度越大；

b2：利用公式计算专家权重，其中

b3：利用公式和z位专家权重统计数据得出：

式中：b1,b2,…,bl,bl+1是各个估计区间的端点从小到大排列的一个序列，l为这一序列构成的区间个数，a1,a2,…,al是专家给出评价区间中包含b1,b2,…,bl,bl+1的专家权重之和；

b4：将求解的值代入某一个指标内容的评价值方程依次计算出每个指标内容的综合评价值；

b5：利用方差计算公式和标准差公式分别计算出方差和标准差，代入可信程度方程计算，各个专家统计值的方差、标准差越小，专家的评估结果越准确，评估值的可信程度就越大；

b6：将ei(r)值进行相加得到大类指标的量化数值。

进一步地，所述步骤s3中提供了一种构建灰色关联分析模型计算透明度的方法，具体包括如下步骤：

c1：将理想情况设定为政府可以得知关于建设市场主体的所有信息内容，将建设市场主体的信息内容归结为本文构建的透明度评价指标，将在理想情况下政府得知建设市场主体的信息指标评价值作为参考数列，即：

x′o＝(x′o(1),x′o(2),····,x′o(m))

式中，m为指标的个数，x'o(1),x'o(2),…,x'o(m)的取值即为3.2.1中定性指标量化结果；

c2：将已知的公开数据与理想情况下的公开数据进行文本相似度计算，采用余弦夹角公式进行计算，其中n为理想条件下的所有内容，w为某个市场主体信息公开的内容；

则某个市场主体指标内容的量化结果为：

x′m＝ei(r)m×sim(ω1,ω2)m

式中，ei(r)m为理想情况下的指标内容综合评价值；

将某个市场主体量化后的所有数据，建立原始数据矩阵，即比较数列矩阵：

式中，x'1(m),x'1(m),...,x'1(m)为第m个指标的信息公开数据，上式为所有指标的信息公开数据矩阵的转置矩阵；

c3：对所有的指标数据进行无量纲化处理，采用公式其中i＝0，1，2……,n；k＝1，2……,m，形成矩阵：

c4：逐个计算比较序列与参考序列对应的元素的绝对差值，即|x0(k)-xi(k)|(i＝0，1，2……,n；k＝1，2……,m.)，确定为两级最小差，为两级最大差；

c5：计算关联系数：

式中：ρ代表分辨系数，取值范围为(0，1)，取值的大小代表关联系数之间的差异和区分能力，值越大，差异和区分能力越大，一般取0.5；

c6：计算关联度，即信息透明度值：

式中，结果取值范围在(0，1)。

进一步地，所述步骤s4提供了一种利用pls(偏最小二乘法)求解信息透明度的方法，将信息的内容与监管的成本结合考虑，提取两者之间的主要成分，构建偏最小二乘回归方程，求解方程并得到最优透明度，具体包括如下步骤：

d1：将定性指标量化后的数据作为自变量，监管成本节省和监管成本支出之差作为因变量，即净节省成本作为因变量，在mr＝mc处，取得净节省成本最大值，利用matlab软件，构造几个自变量的简单相关系数矩阵；

d2：根据标准化以后的原始数据矩阵来计算最大特征矩阵所对应的特征向量并且计算提取自变量主成分；

d3：构建变量关于成分t1的回归模型；

d4：求得成本节省以及成本支出两段与指标内容回归模型；

d5：通过步骤d4的回归模型进行最优信息透明度点估计；

d6：进行最优信息透明度区间估计。

进一步地，所述步骤d1具体为：构造的标准化后的数据矩阵分别为：式中，i∈ωm,j∈ωl，x1代表自变量矩阵，y1代表因变量矩阵。

进一步地，所述步骤d2中提取主成分的具体实现过程为：首先，构建拉格朗日函数求得其次，求出求矩阵对应的特征向量wk、对应于(xk^tykyk^txk)的最大特征值，计算得到的自变量主成分：同时，交叉有效性为交叉有效性检验需要逐步进行，如果在第h步满足比值则模型达到要求，可停止提取成分；若则表示第h步具有显著的边际贡献，应继续第h+1步计算。

进一步地，所述步骤d3中关于成分t1的具体计算公式为：则偏最小二乘回归方程式yj＝aj1x1+...+ajmxm,(j＝1,2,...,m)。

进一步地，所述步骤d4中成本节省以及成本支出两段与指标内容回归模型列式如下：将e点之前的回归方程与e点之后的回归方程联立求解，列式如下：

yn＝aj1x1+aj2x2+…+ajnxn

eyn＝aej1x1+aej2x2+…+aejnxn

解出信息评价值为：

分别代入成本支出方程与成本节省方程中，求得：

进一步地，所述步骤d5具体为：

将多元线性回归方程联立计算，分别提取第一次，第二次……第k次自变量主成分，求得k个回归方程，利用k组数据可以进行点估计；现在需要求解k个回归方程，且每次提取的主成分个数依次为1，2，3……，k个，则每一次最优信息透明度评价值为：

……

利用灰色关联分析法透明度评价模型，计算出关联度，即为信息透明度。已知每次提取不同成分时求解的最优信息透明度都是在净节省成本曲线峰值处，即净节省成本最大处，按照数学概率论统计方法，此时求得的k个信息透明度值可以构成正态分布模型，所以点估计即为k个信息透明度平均值。上述过程利用matlab，最终计算得到信息透明度以及净节省的成本。

进一步地，所述步骤d6具体为：

在所有信息透明度方差已知的情况下，政府已经掌握了建设市场主体的信息透明度值和所有建设市场主体的信息透明度平均值，此时只需要采用检验统计量计算出最优区间：

在方差未知的情况下，政府没有掌握到信息透明度值，即在没有掌握到所有的主体信息透明度基础上，可以用样本标准差来对整体的标准差进行无偏估计，即用某几家建设市场主体的信息透明度标准差来代替整体的标准差，此时采用检验统计量计算最优区间：

本发明采用wmf-lda的主题模型方法，同时把词性和词语的信息进行结合，利用不同的领域差异性，将建设市场主体信息透明度指标进行了归类，改进了传统的lda模型在文本相似度计算领域方面的应用，并且集值统计模型对归纳后的指标进行综合评价，赋予相关权重，改善了过去仅仅依赖专家打分的做法，使得指标的评判更为科学合理；进而利用灰色关联模型对赋予权重后的指标进行分析，求解出建设市场主体的信息透明度；最后构建pls模型，将信息的内容与监管的成本结合考虑，提取两者之间的主要成分，构建偏最小二乘回归方程，求解方程并得到最优透明度。通过该方法为政府监管部门确定市场主体的最优信息透明度以及信息披露量等提供依据。

有益效果：本发明与现有技术相比，利用灰色关联度理论判定信息透明度高低，为政府强制建设市场主体达到某一信息透明度提供了参考标准，并且可以合理有效的评价信息透明度等级，提高了政府管理的科学性和合理性；构建了政府监管成本视角下建设市场主体最优信息透明度模型，为政府监管部门确定市场主体的最优信息透明度以及信息披露量等并采取相应的监管对策提供依据。

附图说明

图1为本发明方法的流程框架图；

图2为本发明方法的整体框架结构设计图；

图3为本发明方法中基于信息透明度的特殊性监管成本支出组成图；

图4为本发明方法中基于信息透明度的特殊性监管成本节省组成图；

图5为本发明方法中wmf-lda主题模型流程图；

图6为本发明方法中pls模型下信息透明度与政府分类成本关系图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明提供一种建设市场主体最优信息透明度区间的确定方法，包括如下步骤：

s1：wmf-lda模型求解出信息指标的文本相似度，进一步归纳指标，求得大类指标；

s2：加权集值统计模型求出归纳后的指标综合评价值，量化定性指标；

s3：分析赋予权重后的指标，求解建设市场主体的关联度，即为信息透明度；

s4：构建pls政府监管成本与信息透明度模型，通过该模型计算得到政府监管成本视角下的建设市场主体最优信息透明度以及确定最优信息透明度区间。

步骤s1具体为：

a1：对原始的指标集合进行分词处理，将指标内容分开，形成不同的词语；

a3：将映射后的大类指标集合进行词性筛选；

a4：进行wmf-lda主题建模操作；

a5：进行文本聚类及相似度度量。

步骤a1中分词处理的方式为计算原始的词语相似度：

用余弦夹角公式计算出原始的词语相似度：

其中，n代表某一个指标中的所有词语；w代表被观察到的词项数量。

步骤a4中wmf-lda主题建模操作的过程为：

①将第m个指标采用如下公式表示：

②生成第m个指标的第n个词语

第m个指标的第n个词语的生成算法步骤如下：

1、将α设定为超参数，获取指标名称的概率分布θm。

2、获取指标名称的概率分布θm后，利用多项式分布来获得该词属于的指标名称zm,n。

3、将β设定为超参数，根据上面获得的指标名称zm,n，获取指标名称—指标内容概率分布

4、得到指标名称—指标内容分布利用多项式分布获得词语wm,n。

5、循环步骤①—④nm次，可生成nm次第m个指标。

6、循环步骤①—⑤m次，可生成m个指标。

首先基于gibbs采样方式，更新当前指标内容的指标概率，过滤已经存在的指标分布，将词语在不同指标之下的概率进行重新分配估计，即：

式中，表示已经去除下标是i的指标内容—指标中出现词语t的数量，表示已经去除下标是i的指标内容—指标中出现指标k的次数，其他符号含义同上；

③计算得到指标层面的概率分布

指标内容—指标概率分布计算公式为：

④文本相似度计算

式中，d1,d2表示指标内容—指标概率分布，dkl表示两者之间的距离，其他符号含义同上；

最终经过计算后，可以由29个建设市场主体信息透明度评价小分类指标汇总成8大类指标。

步骤a5中采用f值对文本聚类结果的准确性进行判断，即聚类j所属类别i的概率和聚类j所属类别i的概率，其计算公式分别为：

式中，nij表示类别i的内容数量，其聚类结果为j；ni表示类别为i的内容数量；nj为聚类结果为j的内容数量；

计算其对应f值：

步骤s2中披露了加权集值统计模型量化定性指标的方法，采用该方法改善了过去仅仅依赖专家打分的做法，使得指标的评判更为科学合理，具体包括如下步骤：

b2：利用公式计算专家权重，其中

b3：利用公式和z位专家权重统计数据得出：

b4：将求解的值代入某一个指标内容的评价值方程依次计算出每个指标内容的综合评价值；

b6：将ei(r)值进行相加得到大类指标的量化数值。

步骤s3中提供了一种构建灰色关联分析模型计算透明度的方法，具体包括如下步骤：

x′o＝(x′o(1),x′o(2),····,x′o(m))

式中，m为指标的个数，x'o(1),x'o(2),…,x'o(m)的取值即为3.2.1中定性指标量化结果；

则某个市场主体指标内容的量化结果为：

x′m＝ei(r)m×sim(ω1,ω2)m

式中，ei(r)m为理想情况下的指标内容综合评价值；

将某个市场主体量化后的所有数据，建立原始数据矩阵，即比较数列矩阵：

式中，x'1(m),x'1(m),...,x'1(m)为第m个指标的信息公开数据，上式为所有指标的信息公开数据矩阵的转置矩阵；

c3：对所有的指标数据进行无量纲化处理，采用公式其中i＝0，1，2……,n；k＝1，2……,m，形成矩阵：

c4：逐个计算比较序列与参考序列对应的元素的绝对差值，即|x0(k)-xi(k)|(i＝0，1，2……,n；k＝1，2……,m.)，确定为两级最小差，为两级最大差；

c5：计算关联系数：

式中：ρ代表分辨系数，取值范围为(0，1)，取值的大小代表关联系数之间的差异和区分能力，值越大，差异和区分能力越大，一般取0.5；

c6：计算关联度，即信息透明度值：

式中，结果取值范围在(0，1)。

步骤s4提供了一种利用pls(偏最小二乘法)求解信息透明度的方法，将信息的内容与监管的成本结合考虑，提取两者之间的主要成分，构建偏最小二乘回归方程，求解方程并得到最优透明度，具体包括如下步骤：

d2：根据标准化以后的原始数据矩阵来计算最大特征矩阵所对应的特征向量并且计算提取自变量主成分；

d3：构建变量关于成分t1的回归模型；

d4：求得成本节省以及成本支出两段与指标内容回归模型；

d5：通过步骤d4的回归模型进行最优信息透明度点估计；

d6：进行最优信息透明度区间估计。

步骤d1具体为：构造的标准化后的数据矩阵分别为：式中，i∈ωm,j∈ωl，x1代表自变量矩阵，y1代表因变量矩阵。步骤d2中提取主成分的具体实现过程为：首先，构建拉格朗日函数求得其次，求出求矩阵对应的特征向量wk、对应于(xk^tykyk^txk)的最大特征值，计算得到的自变量主成分：同时，交叉有效性为交叉有效性检验需要逐步进行，如果在第h步满足比值则模型达到要求，可停止提取成分；若则表示第h步具有显著的边际贡献，应继续第h+1步计算。

步骤d3中关于成分t1的具体计算公式为：则偏最小二乘回归方程式yj＝aj1x1+...+ajmxm,(j＝1,2，...,m)。

步骤d4中成本节省以及成本支出两段与指标内容回归模型列式如下：将e点之前的回归方程与e点之后的回归方程联立求解，列式如下：

yn＝aj1x1+aj2x2+…+ajnxn

eyn＝aej1x1+aej2x2+…+aejnxn

解出信息评价值为：

分别代入成本支出方程与成本节省方程中，求得：

步骤d5具体为：

……

步骤d6具体为：

基于上述方案，本实施例中将上述方案应用于确定政府监管成本视角下建设市场主体最优信息透明度区间，经过前文分析可知，如何找到监管成本支出和监管成本节省之间的平衡点是本发明研究的重点，从附图2可以看出，首先应当对各类成本重新分类，确定特殊性监管成本支出和特殊性政府监管成本节省。

本实施例依据附图3和附图4所示的组成，随机选取的5家企业，根据来自建设市场主体信用公开信用信息平台上的企业公开数据，列出各类成本与各类指标关联，其中损失、行政、现场和舆论均为成本支出，透明度与风险均为成本节省。基于本文构建的模型，对现实情况下的政府监管成本视角下的建设市场主体最优信息透明度进行计算，得到了具体的实际值，验证了模型的正确性和可推广性。

接下来，利用本文构建的wmf-lda模型进行计算，对上述的指标内容进行分类处理，由29个小分类指标汇总成8大类指标，处理流程见附图5，将8个大类指标视为一级指标，将29个小分类指标视为二级指标，具体的指标内容不变，经过汇总后，指标内容更加明确，指标之间的界定更加清晰，解决了原始指标可能存在的平行、交错和语义重复问题，得到信息透明度评价指标的最终归类结果，最终可以根据大类指标进行下一步的计算。另外，对指标的分类效果进行评判，计算查准率p(i,j)和召回率r(i,j)，本实施例中已知关于上述指标内容的共有470个，一共被分为八大类别，关于第一类指标基础信息，有50个文档符合相关定义，系统一共检索了75个文档，只有45个符合定义，那么查准率召回率同理计算其他类别的f值，分别为0.7、0.72、0.71、0.7、0.7、0.72、0.74，最终计算得到全局聚类的f值为0.72。分类结果较好，可以进行下一步计算。

上述wmf-lda模型归纳为的八大指标分别为基础信息、成员信息、责任与目标、结构框架、履职情况、奖惩考核、战略活动与重大事项，以基础信息进行加权集值统计模型指标量化为示例：

本实施例中一共邀请十位相关行业的专家对具体内容进行打分，规定其的打分形式为某一区间，专家打分的数字越大，代表指标内容的重要程度越大，打分的数字区域越小，代表专家对这个问题的把握程度越大。将专家的打分结果进行量化在[0，10]区间上，左右均为闭区间，允许出现0与10分的结果。第一个指标的指标内容共有7个，并且7个指标内容不存在重复性，基础信息指标内容专家打分的具体结果。根据专家给出的判断范围的大小来确定专家的权重，利用公式计算专家权重，其中利用公式和专家权重的数据，可以得出：

由上式可知b1＝3，b2＝5，b3＝7，b4＝7.5，b5＝8，b6＝8.3，b7＝9，b8＝10，l为7，a1＝0.05,a2＝0.15,a3＝0.53,a4＝0.67,a5＝0.73,a6＝0.88,a7＝0.13。

将求解的值代入公式计算出指标内容j1的综合评价值为9.0779。其他指标内容的计算过程同j1。同时利用方差计算公式和标准差公式分别计算出方差和标准差，代入可信程度方程计算，求出指标量化和可信程度结果。可以发现，可信程度均达到0.9以上，验证了加权专家评分模型的合理性，并且无需进行二次打分。由于基础信息由指标内容构成，所以相加得到基础信息的量化结果，即为43.377。

同理，将其他七大类指标按照如上方法进行量化以及相加处理，最终计算出所有指标额综合评价值。

根据关联系数计算公式，利用综合评价值与各个指标内容进行计算：

选取甲公司作为代表，将甲公司信息内容与理想情况信息内容进行汇总整理，在理想情况下，政府得知建设市场主体的信息指标评价值可以作为参考数列，即：x'o＝(x'o(1),x'o(2),····,x'o(m))，式中，m为指标的个数，x'o(1),x'o(2),····,x'o(m)的取值即为定性指标量化结果。

收集建设市场主体信息公开数据，将已知的公开数据与理想情况下的公开数据进行文本相似度计算，采用余弦夹角公式进行计算，其中n为理想条件下的所有内容，w为某个市场主体信息公开的内容。

某个市场主体指标内容的量化结果为：x'm＝ei(r)m×sim(ω1,ω2)m，式中，ei(r)m为理想情况下的指标内容综合评价值。

将某个市场主体指标内容的量化结果进行相加计算，得到比较序列矩阵，则比较序列矩阵为：式中，x'1(m),x'1(m),...,x'1(m)为第m个指标的信息公开数据，上式为所有指标的信息公开数据矩阵的转置矩阵。

确定为两级最小差，即0.0881，为两级最大差，即0.7942。

计算关联系数：式中：ρ代表分辨系数，取值范围为(0，1)，取值的大小代表关联系数之间的差异和区分能力，值越大，差异和区分能力越大，本实施例取0.5。

此外，第一位关联系数需要归一化处理，利用公式计算出指标关联度：即甲企业的关联度为0.5775。

同理，重复上述甲企业计算关联度的过程，分别计算乙、丙、丁、戊企业的灰色关联度，即为建设市场主体的信息透明度，结果取值范围在(0，1)。

关于pls模型信息透明度求解，如附图6所示，利用政府成本支出、成本节省与信息透明度取值，基于pls模型，将信息透明度取值作为自变量，政府成本支出和政府成本节省分别作为因变量，利用matlab软件，构造这8个变量的简单相关系数矩阵；然后，根据标准化以后的原始数据矩阵来计算最大特征矩阵所对应的特征向量并且计算主成分，计算得应该提出的成分个数为4个，交叉的有效性为-0.280761；求得单位特征向量wk和的取值；成分t1建立的偏最小二乘回归模型为：求得成本节省与指标内容回归模型为：y＝1090.4x1+656.41x2+900.8x3+678.76x4+1942.7x5-15.647，同理，成本支出两段与指标内容回归模型分别为：

y＝100.4x1+621.41x2+1089x3+878.98x4+943.7x5+198.576

y＝20.56x1+446.21x2+964x3+523.41x4+841.3x5+201.45

观察系数可以发现，对成本节省的影响程度从大到小排列的指标分别为：重大事项，基础信息，成员信息，奖惩项目和责任目标。对成本支出的影响程度从大到小的指标分别为：成员信息，重大事项，责任目标，奖惩考核和基础信息。

对模型精度进行检验，即对所有的数据点绘制预测图。在这个预测图上，检验的值在实际值附近运动，且求得r²大于等于0.9，拟合程度满足要求，方程均有效。

最后是最优信息透明度点估计和区间估计：

本实施例中首先绘制信息透明度与政府监管分类成本图，一条为信息透明度与政府成本支出关系曲线，另一条为信息透明度与政府成本节省关系曲线，将多元线性回归方程联立计算，利用matlab，计算得到信息透明度为0.714，此时政府成本支出为1100万，政府成本节省为1490万，则净节省的成本为390万元；其次，根据已经计算出来的数据，可以得知信息透明度在不同多元线性回归方程计算下，可以得到不同的最佳值，其服从于正态分布，且为小样本。用z检验量来构建区间。本实施例中令置信系数为0.05，则置信区间为0.95。根据公式直接查表带入数值，可以求出置信区间为(0.695，0.733)。该结果表明，最优信息透明度区间在0.695到0.733之间，意味着信息披露的百分比大概在百分之70左右，具体的披露内容应该按照信息的重要程度进行排序选择，取前面百分之70的信息披露内容。

根据以上实施例可知，本发明实现了确定政府监管成本视角下的建设市场主体最优信息透明度区间的获取。本发明采用wmf-lda的主题模型方法，同时把词性和词语的信息进行结合，利用不同的领域差异性，将建设市场主体信息透明度指标进行了归类，改进了传统的lda模型在文本相似度计算领域方面的应用，并且集值统计模型对归纳后的指标进行综合评价，赋予相关权重，改善了过去仅仅依赖专家打分的做法，使得指标的评判更为科学合理；进而利用灰色关联模型对赋予权重后的指标进行分析，求解出建设市场主体的信息透明度；最后构建pls模型，将信息的内容与监管的成本结合考虑，提取两者之间的主要成分，构建偏最小二乘回归方程，求解方程并得到最优透明度。通过该方法为政府监管部门确定市场主体的最优信息透明度以及信息披露量等提供依据。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：丰景春;王龙宝;张可;薛松;蔡时雨;周清琰;李红艳;王婷;董灵莉;翟雨薇;邹磊
技术所有人：河海大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。