一种识别招投标过程中投标者之间关系的方法与流程

文档序号:15639880发布日期:2018-10-12 21:56阅读:695来源:国知局
本发明涉招投标据挖掘分析
技术领域
:,具体为一种识别招投标过程中投标者之间关系的方法。
背景技术
::在招投标过程中如何识别分析投标者之间的关系是保证招投标过程公平正义的一个重要环节,如何对串标围标行为进行治理也是国内外的一个重要研究课题。目前有学者提出采用经济行为模型并辅助法律法规来完善招投标的过程,进而防止串标行为。但是现实中招投标过程通常较为复杂,并且行为背后的信息复杂,难以用简单的手段去甄别分析。技术实现要素:针对上述问题,本发明的目的在于提供一种采用机器学习建模的方法来挖掘分析历次投标者之间的关联关系,进而挖掘出投标者之间背后的隐藏关系的识别招投标过程中投标者之间关系的方法。技术方案如下:一种识别招投标过程中投标者之间关系的方法,其特征在于,包括以下步骤:步骤1:将参与投标的企业信息转化成数学上的特征向量;步骤2:将单次的招投标行为产生的信息转化成数学上的特征向量;步骤3:建立m个投标企业之间的关系矩阵r,r为m*m的稀疏矩阵,表示为:且其中,ri,j表示企业i和企业j在历史招投标行为中表现出来的关联关系的程度,值越大说明他们的关系越疏远;pi,j表示企业i相对于企业j产生的吸引向量,i∈m,j∈m;wk表示pi,j向量中的每一个特征值对最终的ri,j值的贡献率;n表示pi,j向量中特征值的数量,k∈n;步骤4:采用局部亲密关系聚类分析法获得局部的关联信息,并以此为基础构建招投标企业之间的关联关系网络。进一步的,所述局部亲密关系聚类分析法具体包括:步骤a:定义本身局部密度大,且与其它局部密度大的企业不相似的企业为聚类中心,表示:式中,ρi表示与企业i的局部密度;ri,j表示企业i和j之间的不相似程度;rc表示截断距离;δi表示企业i到最近的比自己局部密度大的企业的距离;步骤b:计算每个企业的(ρi,δi),并将二元对(ρi,δi)数据展示在二维坐标上,获得决策图;步骤c:根据决策图确定代表聚类中心的企业的编号;步骤d:对所有其它非聚类中心的企业,根据其依附关系确定其归属的类簇;步骤e:对类簇中的数据进一步划分为核心企业与边缘企业,区分剔除被误认为的依附关系。更进一步的,所述步骤d的具体方法为:对非聚类中心的企业按照局部密度ρi的大小降序排序,再依次按照δi值对应的最近的点归属信息确定各自的归属信息。更进一步的,所述边缘企业为存在属于其它类簇的企业和自己的距离小于或等于截断距离rc的企业;所述核心企业为类簇中局部密度大于边缘企业的局部密度最大值ρmaxc的企业。更进一步的,所述步骤1和步骤2中转化成数学上的特征向量时,将非数值化的信息都进行编码,转化成数值。本发明的有益效果是:本发明为招投标过程审查提供了一种可以挖掘分析历次投标者之间的关联关系,进而挖掘出投标者之间背后的隐藏关系的方法;可以从历史招投标数据分析出招投标企业之间的层次递进关系,这种关系可以反映出中标企业之间的依赖关系,可以识别出局部抱团的企业群体,并识别出这些小的群体中的关联关系,可以很容易的就发现谁是“领头”,谁是“陪衬”;具有通用性,所需的招投标历史数据具有很强的通用性,大多数实施项目招标的政府单位和企业单位的招投标管理信息系统中均有类似的历史数据积累;因此在自己的系统中实现本发明的方法,不需要大的改动,节约开发成本并易于后续升级与维护。附图说明图1为本发明的流程架构图。图2是图1中聚类分析和获得局部关联关系的原理图。图3是应用实现本发明时的流程图。具体实施方式下面结合附图和具体实施例对本发明做进一步详细说明。如图1、2所示,本发明是主要是作为一种检测方法而存在,该方法的运行需要依赖基础招投标信息管理系统。在此假设应用本发明时该基础招投标管理信息管理系统已经存在,并且基础数据库已经建立完成,历史数据可以很方便的从数据库中获得,下面简称“数据库”,在软件开发人员准备使用本发明时,只需将图1中的整体流程封装成一个库即可,该库分为7个模块:原始数据获取模块;数据预处理模块;相似度计算模块;聚类分析模块;获得局部关联关系模块;构建网络模块;输出模块。为更好的实现本发明,结合图3所示详细解释实现本发明的步骤如下:步骤1:从数据库中取出所有参与投标的企业信息和历史招投标信息。步骤2:在数据库中建立数据表table_1,依次将每个企业的基本信息转化成数学上的特征向量。例如某企业a的基本工商注册信息可以转化成特征向量bi={公司名称,统一社会信用代码,法定代表人,登记机关,成立日期,类型,注册资本,营业期限自,登记状态,住所,经营范围,主要人员信息,股东及出资信息}。在转化成特征向量的过程中,将基础信息进行编码,例如每个公司名称可以编成一个唯一的序号,同理其它的非数值化的信息都进行编码,例如对“类型”、“经营范围”这样的信息可以采用编码的方式将信息转化成数值,然后向量bi中的信息均为数值。每个类目的具体编码信息可以按照自己的需求预先保存在特定参照库中。步骤3:在数据库中依次建立数据表table_2、table_3和table_4,依次处理历史招投标信息。将单次的招投标行为产生的信息转化成数学上的特征向量。例如某国家机关采购设备的招标信息可以转化成特征向量ci={采购项目名称,品目,采购单位,行政区域,获取招标文件时间,招标文件售价,获取招标文件的地点,开标时间,开标地点,预算金额}。在转化成特征向量的过程中,将每个基础信息编码成可辨别的唯一的序号,例如“品目”,下次出现同类品目直接用使用同一编码即可,然后将信息保存到table_2。单次招投标产生的投标信息用向量ti={ti1,ti2,…,tin}表示,ti由n个投标项组成,每个投标项tii={采购项目名称,品目,采购单位,行政区域,本项目招标公告日期,采购单位,投标单位名称,投标人姓名,投标金额},i=1…n。然后将信息保存到table_3。对投标的中标结果用向量ri={采购项目名称,品目,采购单位,行政区域,本项目招标公告日期,评审专家名单,总中标金额,采购单位,中标日期,中标单位名称,中标单位地址,中标金额}表示。然后将信息保存到table_4。同理其它的非数值化的信息都进行编码。步骤4:按照前述
发明内容中阐述的第三步中的公式(1)计算两个企业之间的关联度,构建关系矩阵r。假设有m个企业,那么需要建立m个企业之间的关系矩阵r,r为m*m的稀疏矩阵,矩阵中的任意值ri,j表示第i个企业和第j企业在历史招投标行为中表现出来的关联关系的程度,是一个数值的度量,值越大表示关联程度越低。为了计算这个数值,下面引入两个投标单位i和j的吸引向量pi,j和pj,i,pi,j={注册地址是否相近,股东名相同个数,经营范围类似个数,同时竞标的次数,累计投标金额差值,投标金额高的次数,投标金额低的次数,中标次数},pi,j表示企业i相对于j来说产生的关联信息,用来度量企业i对企业j的贡献程度,反之pj,i道理相同,pi,j向量中的“投标金额高的次数”表示企业i在和企业j同时投标的时候比企业j投标价高的情况发生的次数。接下来还需要对pj,i向量的数据进行处理,填充缺失的数据(例如两个企业之间的关联关系没有的情况),过滤异常的数据,之后为了消除数值大小对分析的影响,一般还需要对数据进行归一化的处理。从吸引向量pi,j可以推导出如下式(1)所示的计算ri,j的公式,式中的wk表示pi,j向量中的每一个特征值对最终的ri,j值的贡献率,并且满足wk≥0的约束条件,wk的确定可以简单的采用人工设定的方式,也可以采用训练数据结合人工神经网络的方式,或直接在训练数据上采用最大期望算法求出。且步骤5:按照前述
发明内容中阐述的聚类算法过程描述,实现算法,对关系矩阵r进行分析。为了分析哪些企业之间有紧密的关系,挖掘局部的类簇关系,排除影响关联网络构建中出现的例外点或噪声数据。常用的方法是采用阈值的方式,直接排除低于阈值的关系,这种方式简单高效,但是信息损失较大,并且数值大小难以把握。在本发明中采用聚类分析方法来获得局部的关联信息,并以此为基础深入构建招投标企业之间的关联关系网络。通过聚类分析可以挖掘出具有相似性、共性的企业和投标行为。在此,我们可以简单的理解聚类分析方法在构建招投标企业关系网络中的主要作用是:(1)检测局部关系密集的类簇,减少构建网络参与企业的数量,提高精度;(2)检测噪声数据,即例外点,排除干扰数据,提高精度与计算时间性能;(3)挖掘招投标企业之间的间接关联关系。通常聚类分析算法要定义聚类中心,在分析投标企业中这样定义聚类中心:本身局部密度大,此处密度大是指跟自己相似的企业的数量,显然聚类中心应该聚拢更多相似的企业,每个企业又有自己相似的企业;与其它局部密度大的企业不相似。首先引入局部密度的定义如下式(2)所示,用ri,j描述企业i和j之间的不相似程度,rc表示截断距离,用于初步判断两个企业关系的紧密程度,显然从式(2)可以看出和企业i相似的企业越多,ρi值越大。接下来引入企业i到最近的比自己局部密度大的企业的距离δi的定义如式(3)所示;如果企业i的局部密度是最大的则δi等于企业i与自己最不相似的企业的距离值。从公式(2)和(3)的定义可知ρi值和δi都大的企业显然更适合作为候选的聚类中心。按照式(2)和(3)可以计算每个企业的(ρi,δi),之后将二元对(ρi,δi)数据展示在二维坐标上,即可获得决策图,图的ρ为横轴,δ为纵轴。ρ和δ的值均较大则可认为这个企业可能是一个潜在的中心企业,其它企业可能围绕它进行招投标活动。但是如果企业有较大的δ值并且ρ值较小,则可以评估这个企业可能是一个例外点,例如偶然一次参与招投标活动等。具体的聚类算法流程描述如下:算法1:聚类算法输入:关系矩阵r1)根据输入数据确定截断距离rc;2)计算每个企业的δ值和ρ值,并对所有企业的δ值和ρ值按照降序排序;3)根据决策图确定聚类的中心,即代表聚类中心的企业的编号,设c={c1,c2,…,cs}为对应的s个聚类中心,ci表示第i个聚类中心的企业的编号;4)对所有其它非中心的企业,按照ρ值降序依次确定其层次归属,举个例子:假如某非中心企业a按照ρ值降序排在第m位,且前m-1个企业和a关系最相近的是b企业,即ra,b最小,则记录下来a依附于b,并认为a和b属于b所在的大类。对类簇中的数据进一步划分成核心企业与边缘企业,这样可以区分剔除可能误认为的依附关系。可以人为定义一个上界(例如关系度的平均值或中值),如某个企业和同类的其它企业的关系度都不是很高,则可以认为这个企业可能和这个类关系很小。在上述聚类算法第4)步确定企业类别归属时是采用一种类似层次子树的方式逐层递推的方式来确定的,如附图2所示。附图2中假设企业a是一个局部的核心,那么在确定其它和企业a产生关联关系的其它企业究竟是不是属于企业a这个“战线”时,首先对非聚类中心的企业按照局部密度的大小降序排序,再依次按照δ值对应的最近的点归属信息确定自己的归属信息,附图2中的“b指向a”意思为b的δ值表示的即为b到a的距离,换句话说就是最近的比b局部密度大的企业为a,以此类推。从附图2中就可以看出一个层次递进的关系,这种关系就可以映射为招投标过程中的依附关系,例如有些企业经常中标,并且中标时经常出现多个相似的企业同时投标,这种情况就可能导致聚类结果中中标的企业作为聚类中心存在,即这里所指的核心,而陪标的企业就作为边缘企业。而每个边缘企业也可能作为某个局部的核心存在,这样就获得了一个类似“组织架构关系图”一样的关联关系网络。当聚类过程的k值取值较大的时候,就可能有很多小的局部紧密的类簇,这种类簇就反映了一个小的招投标群体的关联关系,可以很容易的就发现谁是“领头”,谁是“陪衬”。在上述聚类算法流程第5)步中确定类簇中哪些是核心企业,哪些是边缘企业时是按照先确定边缘企业数据,然后根据边缘企业的密度来划分核心和陪衬。边缘企业的特点是存在属于其它类簇的企业和自己的距离小于或等于截断距离rc。设边缘企业的局部密度最大值为ρmaxc则类簇中局部密度大于ρmaxc的企业被标记为核心企业数据。通过聚类分析可以发现构建企业之间的关系网络,并能够获得局部关系密集的类簇,减少构建网络参与企业的数量;能够检测排除干扰数据;通过聚类的归属过程可以挖掘企业之间的间接关系,可以发现招投标过程中的核心投标企业及其可能的招投标过程中的陪标串标企业。步骤6:按照附图2所示的思想结合前述
发明内容中的文字阐述,处理聚类结果中获得的层次依附关系,并记录下来。步骤7:对前一步获得结果,可以直接采用数值的方式直接输出,也可以采用采用开源的igraph和cytoscape来直接绘制关联关系图,以图的方式输出给用户使用。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1