基于分段统计的特征变换方法及装置与流程

文档序号:16136701发布日期:2018-12-01 01:05阅读:196来源:国知局

本发明涉及机器学习领域中的特征变换子域,尤其涉及基于分段统计的特征变换方法及装置。

背景技术

在机器学习系统/软件中,特征工程是很重要的步骤,而特征工程中特征的定位又是核心,往往使用卷积方法。

但现有卷积方法是对异常值没有任何排除能力,尤其是当异常值本身也是一种特征的情况下,参照图1,图中a和b分别是两个特征,但是周期差异巨大,且a出现的时机不确定(图例中只是可能的出现时机之一),因此当进行b级别尺度执行卷特征变换(例如卷积)的时候a值就会对结果造成干扰。



技术实现要素:

为了克服现有技术的不足,本发明的目的在于提供基于分段统计的特征变换方法及装置,旨在解决现有技术的特征工程中某特征的值干扰其他特征执行卷特征变换的问题。

本发明的目的采用以下技术方案实现:

一种基于分段统计的特征变换方法,包括:

数据截取步骤,使用特征子对原始数据进行数据截取,得到截取数据;

数据分段步骤,对截取数据进行数据分段,得到分段数据;

分段统计步骤,对分段数据进行分段统计,得到统计数据;

分段叠加步骤,对统计数据进行分段叠加,得到分段统计特征变换结果。

在上述实施例的基础上,优选的,所述数据截取步骤,具体为:

步骤s11,选择特征子fa1,fa1的长度为fl1且fl1为奇数,维度为1×fl1;

步骤s12,以原始数据raw的第个元素为中心,截取一个长度、维度与fa1相同的矩阵,用ra1表示;

步骤s13,依次以raw的第个元素为中心,截取一个长度、维度与fa1相同的矩阵,分别用ra2、ra3、

ra4、......、ran表示;n为正整数;

步骤s14,将所截取得到的ra1、ra2、ra3、ra4、......、ran称为截取数据。

在上述实施例的基础上,优选的,所述数据分段步骤,具体为:

步骤s21,将ra1按照的比例平均分为p段,得到ra11、ra12、……、ra1p;其中,p为正整数;

步骤s22,以步骤s21中的方法分别对ra2、rd3、ra4、......、ran进行数据分段,得到ra21、ra22、……、ra2p、……、ran1、ran2、……、ranp;

步骤s23,将ra11、ra12、……、ra1p、ra21、ra22、……、ra2p、……、ran1、ran2、……、ranp称为分段数据。

在上述实施例的基础上,优选的,所述分段统计步骤中,采用中位数法获取分段数据的统计特征值,得到:

raf11=median(ra11)、raf12=median(ra12)、……、raf1p=median(ra1p);

raf21=median(ra21)、raf22=median(ra22)、……、raf2p=median(ra2p);

……

rafn1=median(ran1)、rafn2=median(ran2)、……、rafnp=median(ranp);

将raf11、raf12、……、raf1p、raf21、raf22、……、raf2p、……、rafn1、rafn2、……、rafnp称为统计数据。

在上述实施例的基础上,优选的,所述分段叠加步骤,具体为:

步骤s41,将fa1按照的比例平均分为p段,得到fa11、fa12、……、fa1p;其中,

步骤s42,计算fa11、fa12、……、fa1p的均值,得到:faf11=avg(fa11)、faf12=avg(fa12)、……、faf1p=avg(fa1p);

步骤s43,以步骤s41中的方法分别对fa2、fa3、fa4、…...、fan进行数据分段,得到fa21、fa22、……、fa2p、……、fan1、fan2、……、fanp;

步骤s44,以步骤s42中的方法计算fa21、fa22、……、fa2p、……、fan1、fan2、……、fanp的均值,得到faf21、faf22、……、faf2p、……、fafn1、fafn2、……、fafnp;

步骤s45,对统计数据进行分段叠加,得到:

fr1=raf11×faf11+raf12×faf12+…...+raf1p×faf1p、

fr2=raf21×faf11+raf22×faf12+…...+raf2p×faf1p、

……

frn=rafn1×faf11+rafn2×faf12+…...+rafnp×faf1p;

步骤s46,将fr1、fr2、……、frn组成的序列称为特征子fa1对原始数据raw的分段统计特征变换结果。

一种基于分段统计的特征变换装置,包括:

数据截取模块,用于使用特征子对原始数据进行数据截取,得到截取数据;

数据分段模块,用于对截取数据进行数据分段,得到分段数据;

分段统计模块,用于对分段数据进行分段统计,得到统计数据;

分段叠加模块,用于对统计数据进行分段叠加,得到分段统计特征变换结果。

在上述实施例的基础上,优选的,所述数据截取模块用于执行:

步骤s11,选择特征子fa1,fa1的长度为fl1且fl1为奇数,维度为1×fl1;

步骤s12,以原始数据raw的第个元素为中心,截取一个长度、维度与fa1相同的矩阵,用ra1表示;

步骤s13,依次以raw的第个元素为中心,截取一个长度、维度与fa1相同的矩阵,分别用ra2、ra3、ra4、......、ran表示;n为正整数;

步骤s14,将所截取得到的ra1、ra2、ra3、ra4、......、ran称为截取数据。

在上述实施例的基础上,优选的,所述数据分段模块用于执行:

步骤s21,将ra1按照的比例平均分为p段,得到ra11、ra12、……、ra1p;其中,p为正整数;

步骤s22,以步骤s21中的方法分别对ra2、ra3、ra4、......、ran进行数据分段,得到ra21、ra22、……、ra2p、……、ran1、ran2、……、ranp;

步骤s23,将ra11、ra12、……、ra1p、ra21、ra22、……、ra2p、……、ran1、ran2、……、ranp称为分段数据。

在上述实施例的基础上,优选的,所述分段统计模块采用中位数法获取分段数据的统计特征值,得到:

raf11=median(ra11)、raf12=median(ra12)、……、raf1p=median(ra1p);

raf21=median(ra21)、raf22=median(ra22)、……、raf2p=median(ra2p);

……

rafn1=median(ran1)、rafn2=median(ran2)、……、rafnp=median(ranp);

将raf11、raf12、……、raf1p、raf21、raf22、……、raf2p、……、rafn1、rafn2、……、rafnp称为统计数据。

在上述实施例的基础上,优选的,所述分段叠加模块用于执行:

步骤s41,将fa1按照的比例平均分为p段,得到fa11、fa12、……、fa1p;其中,

步骤s42,计算fa11、fa12、……、fa1p的均值,得到:faf11=avg(fa11)、faf12=avg(fa12)、……、faf1p=avg(fa1p);

步骤s43,以步骤s41中的方法分别对fa2、fa3、fa4、......、fan进行数据分段,得到fa21、fa22、……、fa2p、……、fan1、fan2、……、fanp;

步骤s44,以步骤s42中的方法计算fa21、fa22、……、fa2p、……、fan1、fan2、……、fanp的均值,得到faf21、faf22、……、faf2p、……、fafn1、fafn2、……、fafnp;

步骤s45,对统计数据进行分段叠加,得到:

fr1=raf11×faf11+raf12×faf12+…...+raf1p×faf1p、

fr2=raf21×faf11+raf22×faf12+…...+raf2p×faf1p、

……

frn=rafn1×faf11+rafn2×faf12+…...+rafnp×faf1p;

步骤s46,将fr1、fr2、……、frn组成的序列称为特征子fa1对原始数据raw的分段统计特征变换结果。

相比现有技术,本发明的有益效果在于:

本发明公开了基于分段统计的特征变换方法及装置,该方法包括数据截取、数据分段、分段统计、分段叠加四个步骤,使用统一的方法进行两个尺度上的特征变换,同时有效解决某特征值对另一特征在尺度特征变化上的干扰,能够适用于机器学习。本发明通过关键特征搜索的方法,针对周期差异大的多种特征混合的序列,分段统计后利用统计结果代替原始值卷积的方法,促使特征变换的输出具有更好的正交性从而提升机器学习的效率。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1示出了序列raw的可视化示意图;

图2a和图2b分别示出了一种特征子的可视化示意图;

图3示出了本发明实施例提供的一种基于分段统计的特征变换方法的流程示意图;

图4示出了本发明实施例提供的一种基于分段统计的特征变换装置的结构示意图。

具体实施方式

下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

具体实施例一

与特征变换中常用的卷积操作类似,本发明实施例需要用到一系列(n个)“特征子”,所谓“特征子”就是一小段与原始数据维度相同的特征数据,如图2a和图2b所示。其中,tick为采集计数,相当于时间,纵坐标coff为-1~1之间的无量纲的数。

“特征子”是预先定义的且定义的依据就是“这种类型的变化是有用信息”,另外“特征子”的长度必须小于原始数据的长度并且在所有维度上的都必须是奇数,“特征子”之间的长度不要求相同。

每个特征子可以依次与原始数据raw执行下述操作——fa1与raw、fa2与raw分别进行操作。

如图3所示,本发明实施例提供了一种基于分段统计的特征变换方法,包括:

第一步,数据截取:

用滑动的方法在raw中截取一小段与“特征子”维度和长度完全相同的片段:

1)选择“特征子”fa1表示,其长度为fl1,维度为1×fl1;

2)首先从raw的第个元素为中心,截取一个长度、维度与fa1完全相同的矩阵,用ra1表示;

3)继而以raw的第个元素为中心,截取一个长度、维度与fa1完全相同的矩阵,用ra2表示;

4)继而依次以raw的第个元素为中心,截取一个长度、维度与fa1完全相同的矩阵,分别用ra3、ra4、......、ran表示;

5)所截取得到的ra1、ra2、ra3、ra4、......、ran依次进入下一步骤处理。

第二步,数据分段:

针对截取的小片段,按照一定规律进行分段,本发明实施例对分段数目不做限定,p可以为2、3或者10。例如按照的比例分为三段,仍以上述为例,将ra1分解为ra11、ra12和ra13三个新片段,其中

ra2、ra3……ran的分解与之相同,分解后的数据进入下一步骤处理。

第三步,分段统计:

针对上述每次分解得到的片段如分ra11、ra12和ra13,可以利用包括中位数法、中值平均法等在内的任何统计方法获得它们的统计特征值,也可以用其它的函数代替,而代替函数的整体特征就是从一个片段的一组数据中计算出一个值;

以中位数法为例:raf11=median(ra11)、raf12=median(ra12)、raf13=median(ra13);以此类推计算raf21、raf22、raf23,raf31、raf32、raf33,……,rafn1、rafn2、rafn3,计算得到的数据进入下一步骤处理。

第四部,分段乘加:

首先用第二步相同的方法对特征子fa1分段得到fa11、fa12和fa13,其中第四步的分段乘加的方法中对fa1的操作可以选用平均方法,也可以不用平均方法而是用其它函数替代,而代替函数的整体特征就是从一个片段的一组数据中计算出一个值;

进一步计算这些分段的均值faf11=avg(fa11)、faf12=avg(fa12)、faf13=avg(fa13),最后计算乘加:fr1=raf11×faf11+raf12×faf12raf13×faf13、fr2=raf21×faf11+raf22×faf12+raf23×faf13……frn=rafn1×faf11+rafn2×faf12+rafn3×faf13;由fr1、fr2、……、frn组成的新序列即为特征子fa1对raw的分段统计特征变换。

第四步的替代步骤可以为:对于fa1不再做分段,而是将第三步中的raf11、raf12、raf13进行扩展,即按照原来的分段方法扩展成个raf11、个raf12、个raf13组成的序列,如[raf11、raf11、……、raf11、raf12、raf12、……、raf12、raf13、raf13、……、raf13]的序列,长度与fa1相等,直接按元素进行乘加即可得到结果。

本发明实施例包括数据截取、数据分段、分段统计、分段叠加四个步骤,使用统一的方法进行两个尺度上的特征变换,同时有效解决某特征值对另一特征在尺度特征变化上的干扰,能够适用于机器学习。本发明实施例通过关键特征搜索的方法,针对周期差异大的多种特征混合的序列,分段统计后利用统计结果代替原始值卷积的方法,促使特征变换的输出具有更好的正交性从而提升机器学习的效率。

在上述的具体实施例一中,提供了基于分段统计的特征变换方法,与之相对应的,本申请还提供基于分段统计的特征变换装置。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

具体实施例二

如图4所示,本发明实施例提供了一种基于分段统计的特征变换装置,包括:

数据截取模块201,用于使用特征子对原始数据进行数据截取,得到截取数据;

数据分段模块202,用于对截取数据进行数据分段,得到分段数据;

分段统计模块203,用于对分段数据进行分段统计,得到统计数据;

分段叠加模块204,用于对统计数据进行分段叠加,得到分段统计特征变换结果。

在上述实施例的基础上,优选的,所述数据截取模块201用于执行:

步骤s11,选择特征子fa1,fa1的长度为fl1且fl1为奇数,维度为1×fl1;

步骤s12,以原始数据raw的第个元素为中心,截取一个长度、维度与fa1相同的矩阵,用ra1表示;

步骤s13,依次以raw的第个元素为中心,截取一个长度、维度与fa1相同的矩阵,分别用ra2、ra3、ra4、......、ran表示;n为正整数;

步骤s14,将所截取得到的ra1、ra2、ra3、ra4、......、ran称为截取数据。

在上述实施例的基础上,优选的,所述数据分段模块202用于执行:

步骤s21,将ra1按照的比例平均分为p段,得到ra11、ra12、……、ra1p;其中,p为正整数;

步骤s22,以步骤s21中的方法分别对ra2、ra3、ra4、......、ran进行数据分段,得到ra21、ra22、……、ra2p、……、ran1、ran2、……、ranp;

步骤s23,将ra11、ra12、……、ra1p、ra21、ra22、……、ra2p、……、ran1、ran2、……、ranp称为分段数据。

在上述实施例的基础上,优选的,所述分段统计模块203采用中位数法获取分段数据的统计特征值,得到:

raf11=median(ra11)、raf12=median(ra12)、……、raf1p=median(ra1p);

raf21=median(ra21)、raf22=median(ra22)、……、raf2p=median(ra2p);

……

rafn1=median(ran1)、rafn2=median(ran2)、……、rafnp=median(ranp)

将raf11、raf12、……、raf1p、raf21、raf22、……、raf2p、……、rafn1、rafn2、……、rafnp称为统计数据。

在上述实施例的基础上,优选的,所述分段叠加模块204用于执行:

步骤s41,将fa1按照的比例平均分为p段,得到fa11、fa12、……、fa1p;其中,

步骤s42,计算fa11、fa12、……、fa1p的均值,得到:faf11=avg(fa11)、faf12=avg(fa12)、……、faf1p=avg(fa1p);

步骤s43,以步骤s41中的方法分别对fa2、fa3、fa4、......、fan进行数据分段,得到fa21、fa22、……、fa2p、……、fan1、fan2、……、fanp;

步骤s44,以步骤s42中的方法计算fa21、fa22、……、fa2p、……、fan1、fan2、……、fanp的均值,得到faf21、faf22、……、faf2p、……、fafn1、fafn2、……、fafnp;

步骤s45,对统计数据进行分段叠加,得到:

fr1=raf11×faf11+raf12×faf12+…...+raf1p×faf1p、

fr2=raf21×faf11+raf22×faf12+…...+raf1p×faf1p、

……

frn=rafn1×faf11+rafn2×faf12+…...+rafnp×faf1p;

步骤s46,将fr1、fr2、……、frn组成的序列称为特征子fa1对原始数据raw的分段统计特征变换结果。

本发明实施例使用统一的方法进行两个尺度上的特征变换,同时有效解决某特征值对另一特征在尺度特征变化上的干扰,能够适用于机器学习。本发明实施例通过关键特征搜索的方法,针对周期差异大的多种特征混合的序列,分段统计后利用统计结果代替原始值卷积的方法,促使特征变换的输出具有更好的正交性从而提升机器学习的效率。

本发明从使用目的上,效能上,进步及新颖性等观点进行阐述,其具有的实用进步性,己符合专利法所强调的功能增进及使用要件,本发明以上的说明及附图,仅为本发明的较佳实施例而己,并非以此局限本发明,因此,凡一切与本发明构造,装置,待征等近似、雷同的,即凡依本发明专利申请范围所作的等同替换或修饰等,皆应属本发明的专利申请保护的范围之内。

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。尽管本发明已进行了一定程度的描述,明显地,在不脱离本发明的精神和范围的条件下,可进行各个条件的适当变化。可以理解,本发明不限于所述实施方案,而归于权利要求的范围,其包括所述每个因素的等同替换。对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1