基于kohonen神经网络聚类抽样方法与流程

文档序号：19157075发布日期：2019-11-16 00:57阅读：966来源：国知局

本发明涉及神经网络技术领域，更具体的说是涉及一种基于kohonen神经网络聚类抽样方法。

背景技术：

技术性贸易措施(简称“技贸措施”)，其实来自于wto体系中“技术性贸易壁垒(technicalbarrierstotrade,tbt)”一词。技贸措施主要指的是非关税措施，而在全球化经济的不断发展下的今天，关税在国际货物中的作用日益减小，取而代之的是当前国际形势下，技术性贸易措施对国际贸易的影响与日俱增，已成为各国实现经济、政治目标的有效手段。技贸措施在具体实施的过程中，主要由技术法规、标准、合格评定程序三种手段形成外贸商品进入市场的第一道屏障。而当今中国出口企业受技术性贸易措施影响日益增大，为此我们需要对出口企业进行抽样调查，以低成本但全面的了解中国出口企业受技贸措施影响的状况。

抽样调查是调查中常用的方法之一，是一种非全面的调查，它是指从研究对象的全体(总体)中抽取一部分作为样本，并对样本进行全面的调查，以此来对总体进行估计。根据抽取样本的方法来看，可以分为非概率抽样和概率抽样。本文主要针对概率抽样来研究，它依据随机原则，按照某种事先设计的程序，从总体中抽取部分单元的抽样方法。相比非概率抽样，概率抽样可以从概率意义上对误差进行控制。针对每一个具体问题，在上述基础上又可以派生出各种抽样方法，每一种抽样方法均有其利弊之处。当问题比较简单时，例如只对单一抽样框进行抽样，每一种方法得出来的结论的差异性以及样本对总体的代表性可能相差并不会太大。但是，若涉及到多个抽样框时，我们便不能将每一个抽样框单独拿出来进行抽样，因为抽样框之间可能存在某些隐藏的联系，单独对抽样框进行抽样可能会导致样本对总体的数据结构失去代表性以至于对总体的估计产生偏差。

因此，如何提供一种既能保证了样本点在总体中不会片面，又能将所需样本抽取出来的基于kohonen神经网络聚类抽样方法是本领域技术人员亟需解决的问题。

技术实现要素：

有鉴于此，本发明提供了一种基于kohonen神经网络聚类抽样方法，该方法既保证了样本点在总体中不会出现集中于某一类企业的情况，又能将真正需要进行调查的企业抽取出来。

为了实现上述目的，本发明提供如下技术方案：

一种基于kohonen神经网络聚类抽样方法，包括如下具体步骤：

利用相对误差确定样本总量；

录入数据，并提取属性特征；

根据提取的属性特征进行kononen神经网络聚类，得到各个样本对应的大类；

根据聚类后的样本所在的大类，以及大类的属性特征给予各类不同的样本量；

在各个类别样本量确定之后，与城市数目成比例的分配各类中各个城市所对应的抽样权重，按照权重在各个类别的内部进行分层抽样，获取最后抽样样本。

优选的，在上述的一种基于kohonen神经网络聚类抽样方法中，所述属性特征包括但不限于：出口金额数、出口国家数、出口商品种类数、所在城市。

优选的，在上述的一种基于kohonen神经网络聚类抽样方法中，所述kononen神经网络一种只有输入层--隐藏层的神经网络；隐藏层中的一个节点代表一个需要聚成的类；对于每一个输入单元，对应的仅有一个隐藏层节点在竞争学习的过程中输出，即该节点为这一输入单元所对应的类别。

优选的，在上述的一种基于kohonen神经网络聚类抽样方法中，所述相对误差确定样本总量的具体步骤：

根据抽样理论的相对误差与样本量的关系式：

将公式(1)进行公式的转化得到以下关系式：

最后样本总量确定公式如下：

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于kohonen神经网络聚类抽样方法，与传统抽样方法抽样的目的不同，此次抽样的目的在于将真正受技贸措施影响的企业抽取出来以进行后续实地调研，本发明充分考虑了出口企业中存在的“帕累托效益”、企业属性之间的联系、传统抽样方法的局限性提供了一种针对出口企业数据抽样改进算法。该方法既保证了样本点在总体中不会出现集中于某一类企业的情况，又能将真正需要进行调查的企业抽取出来。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的工作流程图；

图2为本发明的改进抽样算法流程图；

图3是将各个企业的数据进行标准化之后再取各类的类均值所做出的折线图；

图4为本发明的抽样误差与样本量之间的关系；

图5为传统分层抽样结果与本发明改进抽样算法结果在出口金额上的对比结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于kohonen神经网络算法结果的改进抽样算法，既保证了样本点在总体中不会出现集中于某一类企业的情况，又能将真正需要进行调查的企业抽取出来。改进出口企业存在的“帕雷托效应”、以及传统抽样方法的局限性对抽样结果的影响；并且避免大部分抽取的企业为属性特征相同的企业。在此抽样过程中，首先对出口企业数据进行数据处理，提取各个企业的属性信息；将企业属性作为输入变量，把企业首先进行聚类；在聚类结果的基础上，对各个类别内部进行传统抽样的运用。

以广东省出口企业为例，如图1所示，一种基于kohonen神经网络算法结果的改进抽样算法，本发明的方法流程主要包括以下几个步骤：((1)

根据广东省出口企业数据，整理出每个企业的出口金额数、出口国家数、出口商品种类数、所在城市四个维度变量；(2)根据出口金额数、出口国家数、出口商品种类进行kohonen神经网络聚类，将企业分为12个大类；(3)

将广东省出口企业作为抽样总体，并根据抽样理论确定样本总量；(4)

确定各类的内部样本量；(5)确定各类中各地区样本量；(6)在各个地区中使用简单随机抽样抽取样本；(7)通过将改进抽样方法与传统抽样方法抽取出来的样本在出口金额数上的分布情况进行对比。

分层抽样的特点是，分层之后层内差异小，层间差异大。聚类算法的目的是，从数据的角度入手将其分类到不同的簇中，同簇之间特征相似，不同簇之间特征差异大。从聚类算法的目的以及分层抽样的特点来说，聚类算法的结果作为分层抽样的依据是非常合适的。因此，本发明在传统的分层抽样之前，首先对企业进行聚类分析，既充分考虑了广东省出口企业中存在的“帕累托效益”、企业属性之间的联系，又引入了合适的分层因子，以便能对各个类型的企业进行全面覆盖，并且针对受技贸措施影响较大的企业进行重点抽样，具体流程图如图2所示。同时，以广东数据为例，在聚类分析之后将企业分为12大类，每类之间的属性差异如图3所示。而在已有的研究中表明，真正受技贸措施影响较大的企业是出口金额大、出口国家多、出口商品多的企业。从图三来看，受技贸措施影响相对较大的企业类别是第1类和第4类企业，相应地在后续抽样过程中需要为其分配较多的样本量。

图4是抽样误差与样本量之间的关系，从已有的研究表明，综合考虑到抽样误差、抽样成本等方面问题，进而控制相对误差为4％-5％，按受技贸措施影响企业的估计比例p在40％-50％，可初步给出样本量的一个范围。以全国出口企业为例，当已知总体时，样本量的范围为1529家到3559家；当未知总体时，样本量的范围为1537家到3602家。为保证抽样的科学性同时降低成本，再根据保守性的抽样原则宁大勿小，可将本次抽样调查的广东省样本量定2700家比较合适。结合之前对各类企业属性的差异分析，综合考虑之后，第1类到第12类分别分配的样本量为：810、270、135、540、135、113、135、112、112、112、112、112。

图5是将三种抽样方法抽样出来的结果进行按出口金额从大到小的混合排序，再进行分段计数之后的结果。例如：在出口金额靠前的10％的样本企业中有62.3％的企业是通过改进抽样算法抽取出来的，剩下的37.7％是传统抽样的抽样结果。从图5不难看出，在出口金额靠前的40％的企业中无论是总体上来还是分段之后来看，kohonen分层抽样所占的企业个数均是远高于简单随机抽样和城市分层抽样，而简单随机抽样和城市分层抽样的样本在出口金额数上整体靠后。

综上所述，单纯的简单随机抽样和按地区的分层抽样抽取出来的企业存在一定的局限性，即抽出的企业大多数为出口金额小、出口国家少、出口商品少的企业，而kohonen分层抽样改进了简单随机抽样和分层随机抽样由于广东省出口企业数据具有“帕累托效应”导致上述弊端，并让真正受技贸措施严重的“三高”企业被抽取出来。根据已有的数据分析，出口金额小、出口国家少、出口商品少企业在受技贸措施影响的程度上肯定比出口金额大、出口国家多、出口商品多企业的要小。因此，kohonen分层抽样比传统抽样更适用于技术贸易措施对我国出口企业影响的调查研究。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王妍;卿枫;陈云鹏;檀雷雷;胡菁;樊珑
技术所有人：中国传媒大学
我是此专利的发明人

上一篇：突变型2-脱氧-青蟹肌糖合酶的制作方法
上一篇：一种取向性钛酸钡锶纳米多晶的可控制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。