一种分类器链局部检测与挖掘算法的制作方法

文档序号:11432874阅读:209来源:国知局
一种分类器链局部检测与挖掘算法的制造方法与工艺
本发明涉及一种局部学习算法领域,特别是一种分类器链局部检测与挖掘算法。
背景技术
:近年来,大数据已经在很多领域得到广泛应用,例如社会媒体分析,视频监控,网络安全监控等,这些都需要对原始数据流进行分析和处理获得实时的有价值的信息。现有处理资源有限的数据流挖掘问题的方法都是依赖负荷卸载,根据给定的数据特征决定舍弃的策略。由于舍弃的数据也会对下一个分类器起重要作用,因此,负荷卸载方法一般不能获得点对点的最佳效果。现有方法假设分类器的性能是已知的,并且需要分类器之间有效的信息交流,在实际应用中往往无法实现,同时这些方法不能进行分布式处理。技术实现要素:有鉴于现有技术的上述缺陷,本发明的目的就是提供一种分类器链局部检测与挖掘算法,能够利用局部学习算法对用于处理大数据流挖掘问题的分类器链进行优化,能够选择最佳的分类结构,实时学习分类器的效果;数据处理过程仅需要数据集的一条路径,这样使得处理延迟和处理器的内存需求最小化。本发明的目的是通过这样的技术方案实现的,分类器链局部检测与挖掘算法,它包括有:在周期n内选择一个分类器a(n)对期望奖励e{r(n)}进行最大化,设计的思路如下步骤:s1:每一个分类器m都在周期n内选择一个分类函数am(n)∈fm,a(n)代表了周期n内的分类器链;s2:数据样例x(n)进入系统后,经过分类器链生成分类概念最终的分类结果可以表示为s3:在周期结束时会显示根据真标签z(n)实现的总奖励r(n)和总成本d(n);s4:如果每个分类器的每个分类函数的精度和预期成本是已知的,则解决方案为:即在每一个时间周期都选择相同的分类器链对预期奖励进行最大化;其中,a*最佳分类器链。进一步,设计所述算法前还包括有分类器链系统的构成设计,分类器链系统的构成设计步骤如下:1)一个包含了μ={1,2,…,m}个分类器的分布式大数据挖掘系统,这些分类器以一种预先决定好的次序串联在一起,未经处理的数据流依次经过这些分类器,假设m+1号分类器串联在m号分类器之后;2)时间被分解为离散的周期,在每一个周期n内有一个数据样例x(n)进入系统;每一个数据样例都有一系列概念y(n)=(y1(n),…,ym(n)),其中,ym(n)∈ym,(ym为概念ym(n)的值域)m=1,…,m;这些概念是未知的,需要通过分类器进行挖掘;概念y1(n),…,ym(n)根据公式(1)共同决定了一个未知的实际真标签z(n)∈z,z为类别集合,σ为决定函数:σ:y1×…×ym→z.(2)3)分类器链系统是为了确定一个数据样例是否属于目标范畴,即ym(n)=em∈ym,其中em为输入数据样例,然后其中,1(·)是一个指示函数,即分类器m∈m的任务是确保每一个概念ym(n)都对应一个分类结果记为整合所有分类器的分类结果记为然后生成标签的最终分类;4)每一个分类器m都要处理对应于概念m的分类问题,并维持一系列分类函数其中fm,n(n=1,2,3…km)为分类函数,km为分类器m的分类函数个数;假设对任意m,有km=k,k为各个分类器统一设定的检测周期;在每一个时间周期n内,分类器m都要选择一个分类函数am(n)∈fm对x(n)进行分类,因此,a(n)=(a1(n),...am(n))代表了在时间周期n内选择的分类器链。进一步,所述步骤s4中的所述精度、所述预期成本、所述预期奖励概念定义如下:s40:精度表示的是每一个数据样例能正确的分类到其对应的概念m的概率,分类器m的每一个分类函数fm,k都有一个未知的精度π(fm,k)∈[0,1];调用一个分类函数fm,k会导致一些通讯或计算上的成本,预期的成本可表示为d(fm,k),也是未知的;s41:分类器链a的精度π(a)依赖于每一个子分类器的精度,令π(a)=gσ(π(a1),...,π(am)),其中,gσ取决于决定函数σ;调用分类器链a的成本同样也是单个分类器成本的函数,令预期的成本为d(a)=h(d(a1),...d(am));s42:在不同的周期通过选择不同的分类器链,系统可获得依赖于分类器输出和已发生成本的奖励,定义周期n内的奖励为r(n):其中,d(n)是周期n内已发生的总成本;令分类器链a的预期奖励为μ(a)=π(a)-d(a)。进一步,所述算法包括有检测阶段,检测阶段步骤如下:分为k·m个周期,进一步可分为m个具有k个周期的子阶段;每一个子阶段专用于一个分类器的学习问题;对于分类器m,在第i个子阶段的第k个周期(k=1,…,k),有:①如果i=m,选择am(n)=fm,k;②如果i≠m,选择对于在检测阶段任意的fm,k∈fm,单个分类器可采用自身的子阶段已实现的奖励更新其奖励进一步,所述算法还包括有挖掘阶段,挖掘阶段步骤如下:挖掘阶段包含的周期是变化的;每一个分类器需要记录截止到第n-1个阶段末时所经过的检测阶段的次数,记为n(n);令为确定性函数,其中,a为常量;③如果分类器将从第n个阶段开始一个新的检测阶段;④如果每个分类器m选择进一步,所述算法中还包括有分类器链的局部学习:s5:定义△a=μ(a*)-μ(a)为一个分类器链与最佳分类器链a*的预期总体奖励差异;为在其它分类器a-m给定了固定选择的情况下,分类器链m的次最佳分类函数与最佳分类函数数之间的奖励差异;s6:令是一个决定能否正确区分最佳分类器链与次最佳分类器的重要参数,因此,它决定了学习的速度;s7:定义是决定在链式中单个分类器选择次最佳分类函数的最大后悔值(即性能损失)的重要参数;因此,选择次最佳分类器链的最大性能损失为m·△max;s8:定义为任意分类器链的奖励的边界动态范围,其中,r(n|a)为给定的分类器链a的总体奖励随机变量。由于采用了上述技术方案,本发明具有如下的优点:利用局部学习算法对用于处理大数据流挖掘问题的分类器链进行优化,同时采用一种具有有限反馈的多用户多臂问题来模拟分类器链的学习问题。提出的算法是以一种协作并且分布式的方法进行学习,因此能够选择最佳的分类结构,实时学习分类器的效果;数据处理过程仅需要数据集的一条路径,这样使得处理延迟和处理器的内存需求最小化。此外,提出的算法不需要通过分布式分类器中央单元的学习问题进行运行协作,因此,降低了各分类器之间的交流需要;同时,提出的算法是根据综合任务的挖掘效果进行学习,而不是根据子任务效果进行学习,从而减少了大量反馈信息。本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。附图说明本发明的附图说明如下:图1为本发明的分类器链局部学习算法模型。图2为本发明的实时数据流挖掘的分类器链。图3为本发明与随机策略、ucb1方法的准确性对比图。图4为本发明与随机策略、安全试验法的准确性对比图。图5为本发明与随机策略、ucb1方法、安全试验法的学习后悔值。具体实施方式下面结合附图和实施例对本发明作进一步说明。实施例1:如图1至图5所示,一种分类器链局部检测与挖掘算法,它包括有:在周期n内选择一个分类器a(n)对期望奖励e{r(n)}进行最大化,设计的思路如下步骤:s1:每一个分类器m都在周期n内选择一个分类函数am(n)∈fm,a(n)代表了周期n内的分类器链;s2:数据样例x(n)进入系统后,经过分类器链生成分类概念最终的分类结果可以表示为s3:在周期结束时会显示根据真标签z(n)实现的总奖励r(n)和总成本d(n);s4:如果每个分类器的每个分类函数的精度和预期成本是已知的,则解决方案为:即在每一个时间周期都选择相同的分类器链对预期奖励进行最大化;其中,a*最佳分类器链。设计算法前还包括有分类器链系统的构成设计,分类器链系统的构成设计步骤如下:1)一个包含了μ={1,2,…,m}个分类器的分布式大数据挖掘系统,这些分类器以一种预先决定好的次序串联在一起,未经处理的数据流依次经过这些分类器,假设m+1号分类器串联在m号分类器之后;2)时间被分解为离散的周期,在每一个周期n内有一个数据样例x(n)进入系统;每一个数据样例都有一系列概念y(n)=(y1(n),…,ym(n)),其中,ym(n)∈ym,(ym为概念ym(n)的值域)m=1,…,m;这些概念是未知的,需要通过分类器进行挖掘;概念y1(n),…,ym(n)根据公式(1)共同决定了一个未知的实际真标签z(n)∈z,z为类别集合,σ为决定函数:σ:y1×…×ym→z.(2)3)分类器链系统是为了确定一个数据样例是否属于目标范畴,即ym(n)=em∈ym,其中em为输入数据样例,然后其中,1(·)是一个指示函数,即分类器m∈m的任务是确保每一个概念ym(n)都对应一个分类结果记为整合所有分类器的分类结果记为然后生成标签的最终分类;4)每一个分类器m都要处理对应于概念m的分类问题,并维持一系列分类函数其中fm,n(n=1,2,3…km)为分类函数,km为分类器m的分类函数个数;假设对任意m,有km=k,k为各个分类器统一设定的检测周期;在每一个时间周期n内,分类器m都要选择一个分类函数am(n)∈fm对x(n)进行分类,因此,a(n)=(a1(n),...am(n))代表了在时间周期n内选择的分类器链。步骤s4中的精度、预期成本、预期奖励概念定义如下:s40:精度表示的是每一个数据样例能正确的分类到其对应的概念m的概率,分类器m的每一个分类函数fm,k都有一个未知的精度π(fm,k)∈[0,1];调用一个分类函数fm,k会导致一些通讯或计算上的成本,预期的成本可表示为d(fm,k),也是未知的;s41:分类器链a的精度π(a)依赖于每一个子分类器的精度,令π(a)=gσ(π(a1),...,π(am)),其中,gσ取决于决定函数σ;调用分类器链a的成本同样也是单个分类器成本的函数,令预期的成本为d(a)=h(d(a1),...d(am));s42:在不同的周期通过选择不同的分类器链,系统可获得依赖于分类器输出和已发生成本的奖励,定义周期n内的奖励为r(n):其中,d(n)是周期n内已发生的总成本;令分类器链a的预期奖励为μ(a)=π(a)-d(a)。算法包括有检测阶段,检测阶段步骤如下:分为k·m个周期,进一步可分为m个具有k个周期的子阶段;每一个子阶段专用于一个分类器的学习问题;对于分类器m,在第i个子阶段的第k个周期(k=1,…,k),有:①如果i=m,选择am(n)=fm,k;②如果i≠m,选择对于在检测阶段任意的fm,k∈fm,单个分类器可采用自身的子阶段已实现的奖励更新其奖励算法还包括有挖掘阶段,挖掘阶段步骤如下:挖掘阶段包含的周期是变化的;每一个分类器需要记录截止到第n-1个阶段末时所经过的检测阶段的次数,记为n(n);令为确定性函数,其中,a为常量;③如果分类器将从第n个阶段开始一个新的检测阶段;④如果每个分类器m选择算法中还包括有分类器链的局部学习:s5:定义△a=μ(a*)-μ(a)为一个分类器链与最佳分类器链a*的预期总体奖励差异;为在其它分类器a-m给定了固定选择的情况下,分类器链m的次最佳分类函数与最佳分类函数数之间的奖励差异;s6:令是一个决定能否正确区分最佳分类器链与次最佳分类器的重要参数,因此,它决定了学习的速度;s7:定义是决定在链式中单个分类器选择次最佳分类函数的最大后悔值(即性能损失)的重要参数;因此,选择次最佳分类器链的最大性能损失为m·△max;s8:定义为任意分类器链的奖励的边界动态范围,其中,r(n|a)为给定的分类器链a的总体奖励随机变量。算法分析如下:将提出的局部学习算法与广泛学习的ucb1算法以及安全试验学习算法进行对比。为了展现最坏情况下的性能,执行一个随机策略,即在每个周期随机选择一个分类器链。采用的数据集为某高校的学生信息,具有很大的数据量。对信息进行处理分为公共信息、经济信息、学习信息、信用信息4类、包含15个属性特征。图3和图4呈现了数据中关联数据量不同时能正确分类到其类别下的准确率。从图中可以看到,随着数据量的增加,ucb1算法和安全试验算法准确率基本一致,而局部学习算法的准确率明显比其它方法更高。图5呈现了当m=4,k=3时四种方法的平均后悔值,曲线是超过100次试验获得的平均值。由于ucb1算法将每个分类器链都当做一个臂,因此收敛速度很慢;安全试验算法需要分类函数性能的准确信息,而本例中这些信息不可获得,因此该方法性能很差。在具备单调递增特性下,提出的局部学习算法比安全试验算法和ucb1算法表现更突出,可以获得更低的后悔值(性能损失)。表1不同分类器数量时的学习后悔值m=1m=2m=3m=4m=5随机策略0.00450.02450.08140.19890.2954安全试验法0.00310.01650.05980.14560.1678ucb1算法0.00290.01510.05430.13520.1563局部学习算法0.00270.00270.00270.00700.0172在表1中进一步展示了对不同分类器数目ucb1方法和提出的局部学习算法经过105周期后的时间平均相对后悔值,每一个分类器的分类函数的数量都是固定的,即k=3。可以看到,随着分类器数量的增加,提出方法的性能优势显著增加;而ucb1算法和安全实验法其臂空间随m的增加呈指数增长,导致当m比较大时收敛速度很慢;随机策略更是难以收敛。表2执行复杂性比较随机策略安全试验法ucb1算法局部学习算法信息交换o(km)o(m)o(m)0存储要求o(km)o(km)o(km)o(km)后悔值o(akmlnn)o(kmlnn)o(kmlnn)o(klnn)表2比较了随机策略、ucb1算法、安全试验法和提出算法的学习后悔值的执行复杂性,可以看到,提出的算法执行起来更简单。由于采用了上述技术方案,本发明具有的有益效果:01)提出的算法是以一种协作并且分布式的方法进行学习,能够选择最佳的分类结构,实时学习分类器的效果;02)数据处理过程仅需要数据集的一条路径,这样使得处理延迟和处理器的内存需求最小化;03)数据集经过每个分类器时增加了对分类函数的选择,从而避免采用所有可能的分类函数进行分类,减少了分类的复杂性;04)提出的算法是根据综合任务的挖掘效果进行学习,而不是根据子任务效果进行学习,从而减少了大量反馈信息,降低了各分类器之间的交流需要。最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1