一种统计方法及装置制造方法

文档序号：6631354阅读：158来源：国知局

一种统计方法及装置制造方法
【专利摘要】本发明公开了一种统计方法及装置，用以统计特征变量在建模过程中所起的作用，为后续建模过程中选取特征变量提供依据，达到提高特征变量选取效率的目的。该方法包括：基于一个以上测试样本数据集合对模型进行多次评估，获得每次评估对应的评估结果，确定所述评估结果达到预设的学习目标的各有效评估；根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果，分别计算得到所述各有效评估各自对应的所述各特征变量各自的特征引用度，根据获得的每个所述有效评估中所述各特征变量各自的特征引用度，计算得到所述各特征变量各自的总引用度，所述总引用度用于表征对应的所述特征变量在模型训练中为达到预设的学习目标所起的作用。
【专利说明】一种统计方法及装置

【技术领域】
[0001] 本发明涉及计算机【技术领域】，尤其涉及一种统计方法及装置。

【背景技术】
[0002] 机器学习是指机器通过学习数据得到知识的过程，机器学习以数据变量为信息来源，该数据变量可以采用不同的方式提供。数据变量可以分为具体变量和抽象变量，所谓具体变量是指具有具象特征的变量，例如针对用户特征描述中的年龄、性别、国籍等是具有具象特征的具体变量；所谓抽象变量是指具有抽象特征的变量，不能直接表达具体含义，例如地理经纬度。
[0003] 对于具体变量，可以直接作为机器学习中模型训练的输入数据。而对于抽象变量，则需要经过转换、特征抽取后才能使用。例如，需要将地理经纬度转换为城市、商圈等现实中有意义的位置信息。
[0004] 现实世界中大部分可以直接获得的信息都是具有抽象特征的抽象信息，如果期望模型训练得到较好的效果，需要针对学习的目标对大量原始信息进行特征抽取，该特征抽取的过程可以概括为特征工程。实际经验表明，特征工程占了整个建模工作量的70%以上，为了提高特征工程的效率，特征抽取的有效性和复用性就显得较为重要。
[0005] 在现有的机器学习实践中，提高特征工程效率的做法是依赖于一个特征专家团队，依赖于专家的经验和反复实验，根据最终模型评估结果识别有价值的特征。现有的特征抽取过去依赖专家的经验，工业生成效率较为低下，并且对于新业务，专家的经验难以得到继承，仍然需要进行大量的反复实验。
[0006] 可见，如何提高特征工程的效率是一个需要解决的问题。

【发明内容】

[0007] 本发明实施例提供一种统计方法及装置，用以统计特征变量在建模过程中所起的作用，为后续建模过程中选取特征变量提供依据，达到提高特征变量选取效率的目的。
[0008] 本发明实施例提供的具体技术方案如下：
[0009] 第一方面，提供了一种统计方法，包括：
[0010] 基于一个以上测试样本数据集合对模型进行多次评估，获得每次评估对应的评估结果，确定所述评估结果达到预设的学习目标的各有效评估；
[0011] 根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果，分别计算得到所述各有效评估各自对应的所述各特征变量各自的特征引用度，根据获得的每个所述有效评估中所述各特征变量各自的特征引用度，计算得到所述各特征变量各自的总引用度，所述总引用度用于表征对应的所述特征变量在模型训练中为达到预设的学习目标所起的作用。
[0012] 结合第一方面，在第一种可能的实现方式中，计算得到所述各特征变量各自的总引用度后，所述方法还包括：
[0013] 获取预存的特征变量与总引用度的对应关系，根据计算获得的所述各特征变量各自的总引用度，以及所述对应关系中的所述各特征变量各自的总引用度，计算得到新的总引用度，将所述对应关系中的各所述特征变量的总引用度更新为所述新的总引用度。
[0014] 结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，所述获取预存的特征变量与总引用度的对应关系之前，所述方法还包括：
[0015] 基于一个以上测试样本数据集合对保存的历史模型进行多次评估，获得每次评估对应的评估结果；
[0016] 确定所述评估结果达到预设的学习目标的各有效评估；
[0017] 根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果，分别计算得到所述各有效评估各自对应的所述各特征变量各自的特征引用度；
[0018] 根据获得的每个所述有效评估中所述各特征变量各自的特征引用度，计算得到所述各特征变量各自的总引用度；
[0019] 根据计算得到所述各特征变量各自的总引用度，建立所述各特征变量与各自的总引用度的对应关系。
[0020] 结合第一方面的第一种可能的实现方式，在第三种可能的实现方式中，根据计算获得的所述各特征变量各自的总引用度，以及所述对应关系中的所述各特征变量各自的总引用度，计算得到新的总引用度，包括：
[0021] 分别计算所述计算获得的所述各特征变量各自的总引用度，与对应的所述对应关系中的所述各特征变量各自的总引用度的和，得到所述各特征变量各自的和值；
[0022] 将所述各特征变量各自对应的所述和值作为所述各特征变量各自的所述新的总引用度。
[0023] 结合第一方面至第三种可能的实现方式中的任意一种，在第四种可能的实现方式中，计算获得所述特征变量的特征引用度，包括：

【权利要求】
1. 一种统计方法，其特征在于，包括：基于一个以上测试样本数据集合对模型进行多次评估，获得每次评估对应的评估结果，确定所述评估结果达到预设的学习目标的各有效评估；根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果，分别计算得到所述各有效评估各自对应的各特征变量各自的特征引用度，根据获得的每个所述有效评估中所述各特征变量各自的特征引用度，计算得到所述各特征变量各自的总引用度，所述总引用度用于表征对应的所述特征变量在模型训练中为达到预设的学习目标所起的作用。
2. 如权利要求1所述的方法，其特征在于，计算得到所述各特征变量各自的总引用度后，所述方法还包括：获取预存的特征变量与总引用度的对应关系，根据计算获得的所述各特征变量各自的总引用度，以及所述对应关系中的所述各特征变量各自的总引用度，计算得到新的总引用度，将所述对应关系中的各所述特征变量的总引用度更新为所述新的总引用度。
3. 如权利要求2所述的方法，其特征在于，所述获取预存的特征变量与总引用度的对应关系之前，所述方法还包括：基于一个以上测试样本数据集合对保存的历史模型进行多次评估，获得每次评估对应的评估结果；确定所述评估结果达到预设的学习目标的各有效评估；根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果，分别计算得到所述各有效评估各自对应的所述各特征变量各自的特征引用度；根据获得的每个所述有效评估中所述各特征变量各自的特征引用度，计算得到所述各特征变量各自的总引用度；根据计算得到所述各特征变量各自的总引用度，建立所述各特征变量与各自的总引用度的对应关系。
4. 如权利要求2所述的方法，其特征在于，根据计算获得的所述各特征变量各自的总引用度，以及所述对应关系中的所述各特征变量各自的总引用度，计算得到新的总引用度，包括：分别计算所述计算获得的所述各特征变量各自的总引用度，与对应的所述对应关系中的所述各特征变量各自的总引用度的和，得到所述各特征变量各自的和值；将所述各特征变量各自对应的所述和值作为所述各特征变量各自的所述新的总引用度。
5. 如权利要求1-4任一项所述的方法，其特征在于，计算获得所述特征变量的特征引用度，包括：按照公式
计算获得所述特征变量的特征引用度；其中，fi表示所述特征变量，r (4 t)表示所述特征变量的特征引用度，t表示所述预设的学习目标，TP表示一次有效评估中样本数据的特征变量实际为真、评估结果也为真的次数，FP表示一次有效评估中样本数据的特征变量实际为假、评估结果为真的次数，FN表示一次有效评估中样本数据的特征变量实际为真、评估结果为假的次数，TN表示一次有效评估中样本数据的特征变量实际为假、评估结果也为假的次数。
6. 如权利要求2所述的方法，其特征在于，所述方法还包括：从所述对应关系中选择所述总引用度大于设定阈值的特征变量；基于选择的所述特征变量以及预设的训练样本数据集合进行模型训练，建立模型。
7. -种统计装置，其特征在于，包括：确定模块，用于基于一个以上测试样本数据集合对模型进行多次评估，获得每次评估对应的评估结果，确定所述评估结果达到预设的学习目标的各有效评估；引用度计算模块，用于根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果，分别计算得到所述各有效评估各自对应的所述各特征变量各自的特征引用度，根据获得的每个所述有效评估中所述各特征变量各自的特征引用度，计算得到所述各特征变量各自的总引用度，所述总引用度用于表征对应的所述特征变量在模型训练中为达到预设的学习目标所起的作用。
8. 如权利要求7所述的装置，其特征在于，所述引用度计算模块还用于：获取预存的特征变量与总引用度的对应关系，根据计算获得的所述各特征变量各自的总引用度，以及所述对应关系中的所述各特征变量各自的总引用度，计算得到新的总引用度，将所述对应关系中的各所述特征变量的总引用度更新为所述新的总引用度。
9. 如权利要求8所述的装置，其特征在于，还包括预处理模块，用于：基于一个以上测试样本数据集合对保存的历史模型进行多次评估，获得每次评估对应的评估结果；确定所述评估结果达到预设的学习目标的各有效评估；根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果，分别计算得到所述各有效评估各自对应的所述各特征变量各自的特征引用度；根据获得的每个所述有效评估中所述各特征变量各自的特征引用度，计算得到所述各特征变量各自的总引用度；根据计算得到所述各特征变量各自的总引用度，建立所述各特征变量与各自的总引用度的对应关系。
10. 如权利要求8所述的装置，其特征在于，所述引用度计算模块具体用于：分别计算所述计算获得的所述各特征变量各自的总引用度，与对应的所述对应关系中的所述各特征变量各自的总引用度的和，得到所述各特征变量各自的和值；将所述各特征变量各自对应的所述和值作为所述各特征变量各自的所述新的总引用度。
11. 如权利要求7-10任一项所述的装置，其特征在于，所述引用度计算模块或所述预处理模块具体用于：按照公式』
计算获得所述特征变量的特征引用度；其中，fi表示所述特征变量，r (4 t)表示所述特征变量的特征引用度，t表示所述预设的学习目标，TP表示一次有效评估中样本数据的特征变量实际为真、评估结果也为真的次数，FP表示一次有效评估中样本数据的特征变量实际为假、评估结果为真的次数，FN表示一次有效评估中样本数据的特征变量实际为真、评估结果为假的次数，TN表示一次有效评估中样本数据的特征变量实际为假、评估结果也为假的次数。
12.如权利要求8所述的装置，其特征在于，还包括建模模块，用于：从所述对应关系中选择所述总引用度大于设定阈值的特征变量；基于选择的所述特征变量以及预设的训练样本数据集合进行模型训练，建立模型。
【文档编号】G06F19/00GK104392096SQ201410571222
【公开日】2015年3月4日申请日期:2014年10月23日优先权日:2014年10月23日
【发明者】徐礼锋, 林启东, 谢元智, 袁静申请人:华为技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐礼锋;林启东;谢元智;袁静;
技术所有人：华为技术有限公司;
我是此专利的发明人

上一篇：一种自适应的无标志点三维点云自动拼接方法
上一篇：一种基于运动视觉的车祸过程重现方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。