特征抽取方法、机器学习方法及其装置的制造方法

文档序号:9910720阅读:290来源:国知局
特征抽取方法、机器学习方法及其装置的制造方法
【技术领域】
[0001] 本发明总体地涉及信息技术领域,更具体地涉及特征抽取方法、机器学习方法以 及对应的装置。
【背景技术】
[0002] 在数据挖掘、机器学习等信息技术领域,所处理的对象为数据,在对浩瀚的数据进 行处理之前,通常都要对数据进行特征抽取。
[0003] 特征可作为数据处理的原材料,简单说来,每条数据记录可包括多个字段,而特征 可指示各字段本身、或字段的局部、或字段的组合、或字段的变换或其它处理结果等,以帮 助更好地反映数据分布的内在关联与潜在含义。以数据挖掘领域作为示例,特征是机器学 习系统的原材料,对最终模型具有显著的影响,其中,高效、准确地提取特征能够帮助学习 过程更好地提炼数据规律,从多个角度透析数据分布中的内在关联与潜在涵义。这个过程 在机器学习中称为特征工程。特征工程的产出作为机器学习的素材,其质量好坏直接决定 了机器学习问题刻画的准确性,进而影响模型的优劣。
[0004] 实际上,不限于机器学习领域中的特征工程,在现有的任何数据处理系统中,通常 都需要进行特征抽取,而为了从各字段内容中提取出相应的特征,普遍需要程序员针对每 一类特征编写可执行的程序代码来进行特征抽取。
[0005] 例如,当希望获取给定数据("data")中每条记录的时间字段中的年份信息时,可 以通过执行下面一段python程序来实现
[0006] #param:list-data stores records of fields as list of dictionary
[0007] #param:string-'YYYY-MM-DD'formatted date field
[0008] #return:list-Year sequence for each record
[0009] def getYearOf(data):
[0010] timeFields = [rec['time']for rec in data]
[0011] years =map(lambda x:x.split('-')[0],timeFields)
[0012] return years
[0013] 在上述程序中,定义了一段用于从数据源(data)中原样抽取各个数据记录(rec) 的年份(year)字段作为年份特征的代码,其中,首先从数据源的记录中提取时间字段,并按 照时间字段的特定格式(yyyy-mm-dd)提取出以分割出的yyyy (即,下标为0的部分),将 其映射到特征years,并返回提取的年份值。
[0014] 可见,该段程序对于数据(年份字段)的格式以及特征抽取的输出都做了较强的约 束。即,该段特征抽取代码是针对特定格式的数据和特定的输出定制的。因此,一般地,如果 给定的数据的数据格式不同,和/或要取得的特征输出不同,那么都需要针对其具体格式、 所使用的算法来编写内容迥异的代码。即便仅仅数据记录的字段输入顺序或特征输出顺序 不同,都要重新编写一套完全定制化的代码。这不仅给程序员带来繁复的工作负担,而且也 将在程序运行上耗费较大的开销。鉴于实际应用场景的多样化、数据规格的多元化,这种蛮 力做法很难扩展与复用。
[0015] 因此,现有的针对每种数据格式与抽取内容开发一套不同处理流程的思路是对问 题规模的遍历,结果致使特征抽取的开发复杂度非线性增长,同时运行复杂度也很难约束。

【发明内容】

[0016] 鉴于上述情况,做出了本发明。
[0017] 根据本发明的一个方面,提供了一种针对数据记录进行特征抽取的方法,可以包 括:数据记录获取步骤,获取数据记录;特征抽取配置项获取步骤,获取用于限定如何从所 述数据记录抽取预定特征的特征抽取配置项,其中,每种预定特征的特征抽取配置项包括 来源字段项和处理方法项,来源字段项用于将所述每种预定特征所涉及的数据记录的字段 限定为来源字段,处理方法项用于指定对预先编程为可执行代码的数据处理函数的引用, 其中,所述数据处理函数用于针对由来源字段项限定的来源字段的字段值执行用于抽取所 述每种预定特征的数据处理;以及特征值获取步骤,基于特征抽取配置项对所述数据记录 的字段值执行数据处理以获取所述预定特征的特征值。
[0018] 进一步地,根据本发明实施例的特征抽取方法,其中,所述特征抽取配置项获取步 骤可以包括:从设置了特征抽取配置项的配置文件读取特征抽取配置项或根据用户的输入 操作来获取特征抽取配置项,其中,配置文件被存储在本地或远程接收。
[0019] 进一步地,根据本发明实施例的特征抽取方法,其中,所述特征抽取配置项获取步 骤可以包括:向用户显示用于设置特征抽取配置项的界面;根据用户在所述界面上执行的 输入操作来生成设置了特征抽取配置项的配置文件;以及从生成的配置文件中读取特征抽 取配置项。
[0020] 进一步地,根据本发明实施例的特征抽取方法,其中,用于设置特征抽取配置项的 界面可以为图形用户界面,所述图形用户界面可以包括用于手动编辑配置文件的文本编辑 界面和/或用于显示特征抽取配置项的内容选项以供手动选择的选择输入型界面。
[0021 ]进一步地,根据本发明实施例的特征抽取方法,其中,在所述特征抽取配置项获取 步骤中,可以响应于用户的界面切换操作输入在文本编辑界面和选择输入型界面之间切 换,在切换前界面下的特征抽取配置项设置结果被同步地显示到切换后的界面下。
[0022] 进一步地,根据本发明实施例的特征抽取方法,其中,在选择输入型界面中,至少 显示有数据记录的能够作为来源字段的各个字段以及设置的预定特征的特征抽取配置项。
[0023] 进一步地,根据本发明实施例的特征抽取方法,其中,在图形用户界面包括选择输 入型界面的情况下,向用户显示用于设置特征抽取配置项的界面的步骤可以包括:将用户 从所述各个字段中选择的字段显示为设置的来源字段,在所述来源项字段被选择的同时, 将处理方法列表显示在来源字段附近,并将用户从处理方法列表中选择的处理方法显示为 设置的处理方法。
[0024] 进一步地,根据本发明实施例的特征抽取方法,其中,处理方法项列表包括所有处 理方法且所有处理方法均处于激活状态,或者,处理方法项列表包括所有处理方法但只有 能够应用于来源字段项的处理方法处于激活状态,或者,处理方法项列表仅包括能够应用 于来源字段项的处理方法。
[0025] 进一步地,根据本发明实施例的特征抽取方法,其中,所述每种预定特征的特征抽 取配置项还可以包括与所述处理方法项相应的处理参数项,所述处理参数项用于限定所述 数据处理函数涉及的参数。
[0026] 进一步地,根据本发明实施例的特征抽取方法,其中,所述每种预定特征的特征抽 取配置项还可以包括存储位置标识,用于指示与所述每种预定特征的特征值相应的计算系 数在存储器中的存储区域。
[0027] 进一步地,根据本发明实施例的特征抽取方法,其中,在所述特征值获取步骤中, 对所述数据记录中的各条数据记录或由多条组成的各组数据记录可以并行地执行数据处 理。
[0028] 进一步地,根据本发明实施例的特征抽取方法,其中,在所述特征值获取步骤中, 可以由分布式计算集群来并行地执行数据处理。
[0029] 根据本发明的另一方面,提供了一种计算机执行的机器学习方法,可以包括:数据 记录获取步骤,获取数据记录;特征抽取配置项获取步骤,获取用于限定如何从所述数据记 录抽取预定特征的特征抽取配置项,其中,每种预定特征的特征抽取配置项包括来源字段 项和处理方法项,来源字段项用于将所述每种预定特征所涉及的数据记录的字段限定为来 源字段,处理方法项用于指定对预先编程为可执行代码的数据处理函数的引用,其中,所述 数据处理函数用于针对由来源字段项限定的来源字段的字段值执行用于抽取所述每种预 定特征的数据处理;特征值获取步骤,基于特征抽取配置项对所述数据记录的字段值执行 数据处理以获取所述预定特征的特征值;样本获得步骤,至少部分基于所述特征值获取步 骤获取的特征值,形成特征向量,作为机器学习的样本;以及机器学习步骤,基于所述样本 进行机器学习。
[0030] 进一步地,根据本发明实施例的机器学习方法,其中,在所述机器学习步骤中,基 于所述样本进行模型训练、模型测试和模型应用之中的至少一项。
[0031 ]根据本发明的另一方面,提供了一种针对数据记录进行特征抽取的计算装置,包 括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指 令集合被所述处理器执行时,执行下述步骤:数据记录获取步骤,获取数据记录;特征抽取 配置项获取步骤,获取用于限定如何从所述数据记录抽取预定特征的特征抽取配置项,其 中,每种预定特征的特征抽取配置项包括来源字段项和处理方法项,来源字段项用于将所 述每种预定特征所涉及的数据记录的字段限定为来源字段,处理方法项用于指定对预先编 程为可执行代码的数据处理函数的引用,其中,所述数据处理函数用于针对由来源字段项 限定的来源字段的字段值执行用于抽取所述每种预定特征的数据处理;以及特征值获取步 骤,基于特征抽取配置项对所述数据记录的字段值执行数据处理以获取所述预定特征的特 征值。
[0032]根据本发明的另一方面,提供了一种进行机器学习的计算装置,包括存储部件和 处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述 处理器执行时,执行下述步骤:数据记录获取步骤,获取数据记录;特征抽取配置项获取步 骤,获取用于限定如何从所述数据记录抽取预定特征的特征抽取配置项,其中,每种预定特 征的特征抽取配置项包括来源字段项和处理方法项,来源字段项用于将所述每种预定特征 所涉及的数据记录的字段限定为来源字段,处理方法项用于指定对预先编程为可执行代码 的数据处理函数的引用,其中,所述数据处理函数用于针对由来源字段项限定的来源字段 的字段值执行用于抽取所述每种预定特征的数据处理;特征值获取步骤,基于特征抽取配 置项对所述数据记录的字段值执行数据处理以获取所述预定特征的特征值;样本获得步 骤,至少部分基于所述特征值获取步骤获取的特征值,形成特征向量,作为机器学习的样 本;以及机器学习步骤,基于所述样本进行机器学习。
[0033] 根据本发明的另一方面,提供了一种针对数据记录进行特征抽取的特征抽取装 置,可以包括:数据记录获取单元,配置为获取数据记录;特征抽取配置项获取单元,配置为 获取用于限定如何从所述数据记录抽取预定特征的特征抽
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1