一种统计方法及装置制造方法

文档序号:6631354阅读:158来源:国知局
一种统计方法及装置制造方法
【专利摘要】本发明公开了一种统计方法及装置,用以统计特征变量在建模过程中所起的作用,为后续建模过程中选取特征变量提供依据,达到提高特征变量选取效率的目的。该方法包括:基于一个以上测试样本数据集合对模型进行多次评估,获得每次评估对应的评估结果,确定所述评估结果达到预设的学习目标的各有效评估;根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果,分别计算得到所述各有效评估各自对应的所述各特征变量各自的特征引用度,根据获得的每个所述有效评估中所述各特征变量各自的特征引用度,计算得到所述各特征变量各自的总引用度,所述总引用度用于表征对应的所述特征变量在模型训练中为达到预设的学习目标所起的作用。
【专利说明】一种统计方法及装置

【技术领域】
[0001] 本发明涉及计算机【技术领域】,尤其涉及一种统计方法及装置。

【背景技术】
[0002] 机器学习是指机器通过学习数据得到知识的过程,机器学习以数据变量为信息来 源,该数据变量可以采用不同的方式提供。数据变量可以分为具体变量和抽象变量,所谓具 体变量是指具有具象特征的变量,例如针对用户特征描述中的年龄、性别、国籍等是具有具 象特征的具体变量;所谓抽象变量是指具有抽象特征的变量,不能直接表达具体含义,例如 地理经纬度。
[0003] 对于具体变量,可以直接作为机器学习中模型训练的输入数据。而对于抽象变量, 则需要经过转换、特征抽取后才能使用。例如,需要将地理经纬度转换为城市、商圈等现实 中有意义的位置信息。
[0004] 现实世界中大部分可以直接获得的信息都是具有抽象特征的抽象信息,如果期望 模型训练得到较好的效果,需要针对学习的目标对大量原始信息进行特征抽取,该特征抽 取的过程可以概括为特征工程。实际经验表明,特征工程占了整个建模工作量的70%以上, 为了提高特征工程的效率,特征抽取的有效性和复用性就显得较为重要。
[0005] 在现有的机器学习实践中,提高特征工程效率的做法是依赖于一个特征专家团 队,依赖于专家的经验和反复实验,根据最终模型评估结果识别有价值的特征。现有的特征 抽取过去依赖专家的经验,工业生成效率较为低下,并且对于新业务,专家的经验难以得到 继承,仍然需要进行大量的反复实验。
[0006] 可见,如何提高特征工程的效率是一个需要解决的问题。


【发明内容】

[0007] 本发明实施例提供一种统计方法及装置,用以统计特征变量在建模过程中所起的 作用,为后续建模过程中选取特征变量提供依据,达到提高特征变量选取效率的目的。
[0008] 本发明实施例提供的具体技术方案如下:
[0009] 第一方面,提供了一种统计方法,包括:
[0010] 基于一个以上测试样本数据集合对模型进行多次评估,获得每次评估对应的评估 结果,确定所述评估结果达到预设的学习目标的各有效评估;
[0011] 根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果,分别计算 得到所述各有效评估各自对应的所述各特征变量各自的特征引用度,根据获得的每个所述 有效评估中所述各特征变量各自的特征引用度,计算得到所述各特征变量各自的总引用 度,所述总引用度用于表征对应的所述特征变量在模型训练中为达到预设的学习目标所起 的作用。
[0012] 结合第一方面,在第一种可能的实现方式中,计算得到所述各特征变量各自的总 引用度后,所述方法还包括:
[0013] 获取预存的特征变量与总引用度的对应关系,根据计算获得的所述各特征变量各 自的总引用度,以及所述对应关系中的所述各特征变量各自的总引用度,计算得到新的总 引用度,将所述对应关系中的各所述特征变量的总引用度更新为所述新的总引用度。
[0014] 结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述获取 预存的特征变量与总引用度的对应关系之前,所述方法还包括:
[0015] 基于一个以上测试样本数据集合对保存的历史模型进行多次评估,获得每次评估 对应的评估结果;
[0016] 确定所述评估结果达到预设的学习目标的各有效评估;
[0017] 根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果,分别计算 得到所述各有效评估各自对应的所述各特征变量各自的特征引用度;
[0018] 根据获得的每个所述有效评估中所述各特征变量各自的特征引用度,计算得到所 述各特征变量各自的总引用度;
[0019] 根据计算得到所述各特征变量各自的总引用度,建立所述各特征变量与各自的总 引用度的对应关系。
[0020] 结合第一方面的第一种可能的实现方式,在第三种可能的实现方式中,根据计算 获得的所述各特征变量各自的总引用度,以及所述对应关系中的所述各特征变量各自的总 引用度,计算得到新的总引用度,包括:
[0021] 分别计算所述计算获得的所述各特征变量各自的总引用度,与对应的所述对应关 系中的所述各特征变量各自的总引用度的和,得到所述各特征变量各自的和值;
[0022] 将所述各特征变量各自对应的所述和值作为所述各特征变量各自的所述新的总 引用度。
[0023] 结合第一方面至第三种可能的实现方式中的任意一种,在第四种可能的实现方式 中,计算获得所述特征变量的特征引用度,包括:

【权利要求】
1. 一种统计方法,其特征在于,包括: 基于一个以上测试样本数据集合对模型进行多次评估,获得每次评估对应的评估结 果,确定所述评估结果达到预设的学习目标的各有效评估; 根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果,分别计算得到 所述各有效评估各自对应的各特征变量各自的特征引用度,根据获得的每个所述有效评估 中所述各特征变量各自的特征引用度,计算得到所述各特征变量各自的总引用度,所述总 引用度用于表征对应的所述特征变量在模型训练中为达到预设的学习目标所起的作用。
2. 如权利要求1所述的方法,其特征在于,计算得到所述各特征变量各自的总引用度 后,所述方法还包括: 获取预存的特征变量与总引用度的对应关系,根据计算获得的所述各特征变量各自的 总引用度,以及所述对应关系中的所述各特征变量各自的总引用度,计算得到新的总引用 度,将所述对应关系中的各所述特征变量的总引用度更新为所述新的总引用度。
3. 如权利要求2所述的方法,其特征在于,所述获取预存的特征变量与总引用度的对 应关系之前,所述方法还包括: 基于一个以上测试样本数据集合对保存的历史模型进行多次评估,获得每次评估对应 的评估结果; 确定所述评估结果达到预设的学习目标的各有效评估; 根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果,分别计算得到 所述各有效评估各自对应的所述各特征变量各自的特征引用度; 根据获得的每个所述有效评估中所述各特征变量各自的特征引用度,计算得到所述各 特征变量各自的总引用度; 根据计算得到所述各特征变量各自的总引用度,建立所述各特征变量与各自的总引用 度的对应关系。
4. 如权利要求2所述的方法,其特征在于,根据计算获得的所述各特征变量各自的总 引用度,以及所述对应关系中的所述各特征变量各自的总引用度,计算得到新的总引用度, 包括: 分别计算所述计算获得的所述各特征变量各自的总引用度,与对应的所述对应关系中 的所述各特征变量各自的总引用度的和,得到所述各特征变量各自的和值; 将所述各特征变量各自对应的所述和值作为所述各特征变量各自的所述新的总引用 度。
5. 如权利要求1-4任一项所述的方法,其特征在于,计算获得所述特征变量的特征引 用度,包括: 按照公式
计算获得所述特征变量的特征引用度; 其中,fi表示所述特征变量,r (4 t)表示所述特征变量的特征引用度,t表示所述预设 的学习目标,TP表示一次有效评估中样本数据的特征变量实际为真、评估结果也为真的次 数,FP表示一次有效评估中样本数据的特征变量实际为假、评估结果为真的次数,FN表示 一次有效评估中样本数据的特征变量实际为真、评估结果为假的次数,TN表示一次有效评 估中样本数据的特征变量实际为假、评估结果也为假的次数。
6. 如权利要求2所述的方法,其特征在于,所述方法还包括: 从所述对应关系中选择所述总引用度大于设定阈值的特征变量; 基于选择的所述特征变量以及预设的训练样本数据集合进行模型训练,建立模型。
7. -种统计装置,其特征在于,包括: 确定模块,用于基于一个以上测试样本数据集合对模型进行多次评估,获得每次评估 对应的评估结果,确定所述评估结果达到预设的学习目标的各有效评估; 引用度计算模块,用于根据所述各有效评估各自所采用的样本数据以及各自的所述评 估结果,分别计算得到所述各有效评估各自对应的所述各特征变量各自的特征引用度,根 据获得的每个所述有效评估中所述各特征变量各自的特征引用度,计算得到所述各特征变 量各自的总引用度,所述总引用度用于表征对应的所述特征变量在模型训练中为达到预设 的学习目标所起的作用。
8. 如权利要求7所述的装置,其特征在于,所述引用度计算模块还用于: 获取预存的特征变量与总引用度的对应关系,根据计算获得的所述各特征变量各自的 总引用度,以及所述对应关系中的所述各特征变量各自的总引用度,计算得到新的总引用 度,将所述对应关系中的各所述特征变量的总引用度更新为所述新的总引用度。
9. 如权利要求8所述的装置,其特征在于,还包括预处理模块,用于: 基于一个以上测试样本数据集合对保存的历史模型进行多次评估,获得每次评估对应 的评估结果; 确定所述评估结果达到预设的学习目标的各有效评估; 根据所述各有效评估各自所采用的样本数据以及各自的所述评估结果,分别计算得到 所述各有效评估各自对应的所述各特征变量各自的特征引用度; 根据获得的每个所述有效评估中所述各特征变量各自的特征引用度,计算得到所述各 特征变量各自的总引用度; 根据计算得到所述各特征变量各自的总引用度,建立所述各特征变量与各自的总引用 度的对应关系。
10. 如权利要求8所述的装置,其特征在于,所述引用度计算模块具体用于: 分别计算所述计算获得的所述各特征变量各自的总引用度,与对应的所述对应关系中 的所述各特征变量各自的总引用度的和,得到所述各特征变量各自的和值; 将所述各特征变量各自对应的所述和值作为所述各特征变量各自的所述新的总引用 度。
11. 如权利要求7-10任一项所述的装置,其特征在于,所述引用度计算模块或所述预 处理模块具体用于: 按照公式』
计算获得所述特征变量的特征引用度; 其中,fi表示所述特征变量,r (4 t)表示所述特征变量的特征引用度,t表示所述预设 的学习目标,TP表示一次有效评估中样本数据的特征变量实际为真、评估结果也为真的次 数,FP表示一次有效评估中样本数据的特征变量实际为假、评估结果为真的次数,FN表示 一次有效评估中样本数据的特征变量实际为真、评估结果为假的次数,TN表示一次有效评 估中样本数据的特征变量实际为假、评估结果也为假的次数。
12.如权利要求8所述的装置,其特征在于,还包括建模模块,用于: 从所述对应关系中选择所述总引用度大于设定阈值的特征变量; 基于选择的所述特征变量以及预设的训练样本数据集合进行模型训练,建立模型。
【文档编号】G06F19/00GK104392096SQ201410571222
【公开日】2015年3月4日 申请日期:2014年10月23日 优先权日:2014年10月23日
【发明者】徐礼锋, 林启东, 谢元智, 袁静 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1