不均衡感知数据下的移动应用分类方法

文档序号:6515430阅读:191来源:国知局
不均衡感知数据下的移动应用分类方法
【专利摘要】本发明提供了一种不均衡感知数据下的移动应用分类方法,其首先通过次采样,从大量的负类带标签数据中采样出与正类样本数量一致的数据子集;然后利用无标签数据与带标签数据特征的相似性,对无标签数据进行基于相似度的采样,生成无标签数据子集;在每个带标签和无标签数据子集上,利用半监督学习方式训练得到一个子分类器;最后由多个子分类器集成为总分类器。本发明的优点是:可用于当前智能手机应用上的事件、活动以及背景的推断,使得设计的分类器可以适应实际感知数据中正类和负类数据数量不均衡的场景,为手机感知应用提供鲁棒准确的推断服务。
【专利说明】不均衡感知数据下的移动应用分类方法
【技术领域】
[0001]本发明属于移动计算领域,具体涉及一种不均衡感知数据下移动应用分类方法。【背景技术】
[0002]近年来,智能手机变得日益流行,据国际著名的数据统计公司IDC统计,2012年智能手机的销量达到了七亿多部,比2011年的销量增长了 44.1%。另一方面,智能手机上的内嵌传感器也日益丰富,使得智能手机在不断提高的计算和通信能力的基础上,增加了多维度的感知环境的能力。这些条件让移动应用开发如火如荼。
[0003]大量的移动应用中都有一个重要的组件,称为推断模块或者分类器,该组件负责从手机传感器的感知数据中提取特征向量,并根据移动应用的目的对感知数据进行分类。通常来说,感知数据可以分为正类和负类。正类表示移动应用感兴趣的感知数据,而负类表示该应用不感兴趣的感知数据。因此,分类器的目标就是从采集的大量感知数据中准确的识别出属于正类的数据。尽管分类器模型多种多样,但是他们都可以分为两个阶段:训练阶段和实施阶段。在训练阶段,移动应用开发者采集一定数量的感知数据以及对应的类标签,通过某种方法进行模型训练;而在实施阶段,训练好的模型则可以部署到智能手机中进行感知数据分类。
[0004]现有移动应用中的分类器往往利用采集到的全部带标签感知数据进行训练,并且以分类准确率作为性能指标。这些分类器忽略了感知数据正负类数量不均衡的特征。实际上,这些传统的分类器本身适用于正负类均衡的数据集,如果在不均衡数据集上训练,得到的分类器倾向于将数量少的类样本误分到数量多的类。具体到感知应用中,传统的分类器就容易将感兴趣的类样本(正类)误分到不感兴趣的类(负类),造成不能识别感兴趣的类样本的情况。
[0005]另一方面,训练一个性能良好的分类器通常需要大量的带标签数据,而获取带标签数据耗费大量人力物力,如果能利用现有移动应用已经采集的感知数据作为无标签数据,辅助训练新应用的分类器,那么就可以减少所需要的带标签数据。然而,这些无标签数据也是两类样本数量不均衡的,因此不能直接给分类器训练带来便利。以下在不产生歧义的情况下将感知数据简称为数据。

【发明内容】

[0006]本发明设计了一种适用于不均衡感知数据的、基于采样和半监督学习机制的分类器(SLIM)和分类方法,其目的是提高手机应用在实际使用中对感兴趣事件的识别率,从而提高手机应用的可用性。
[0007]按照本发明提供的技术方案,所述不均衡感知数据下的移动应用分类方法,其首先通过次采样,从大量的负类带标签数据中采样出与正类样本数量一致的数据子集;然后利用无标签数据与带标签数据特征的相似性,对无标签数据进行基于相似度的采样,生成无标签数据子集;在每个带标签和无标签数据子集上,利用半监督学习方式训练得到一个子分类器;最后由多个子分类器集成为总分类器。
[0008]进一步的,所述次采样从负类样本中随机采样出一个数据子集,使得该数据子集中样本数量与正类样本数量相当,方法为:对原本负类样本进行多轮次采样,每一轮次采样之后,便将相应采样过的样本从原本负类样本集中删除;经过多轮次采样得到的每一个数据子集分别作为训练子分类器的数据集。
[0009]进一步的,所述相似度采样计算无标签数据与带标签数据的相似度,并生成近似均衡的无标签数据子集。
[0010]进一步的,所述生成近似均衡的无标签数据子集的方法为:
[0011]a)计算每一个无标签数据样本xu,j与每一个带标签数据样本X1, j e P U Nt的相似度,赋予Xiu —个潜在标签YiuZyi,使得Xiu和Xu具有最大相似度。经过潜在标签赋值之后,便获得了两个带标签的数据集,正类Up和负类Un,并且|uP|〈〈|uN| ;
[0012]b)在负类Un上进行次采样,生成数据子集Ut,使得I Ut I = I Up I,便获得了近似均衡的无标签数据子集。
[0013]进一步的,所述子分类器集成包括两个方面:多个传感器和多个均衡数据子集;一方面,在每个传感器维度上训练子分类器Zif〉(χα)),然后通过加权和的形式集成多个传感器子分类器:
[0014]
【权利要求】
1.不均衡感知数据下的移动应用分类方法,其特征是,首先通过次采样,从大量的负类带标签数据中采样出与正类样本数量一致的数据子集;然后利用无标签数据与带标签数据特征的相似性,对无标签数据进行基于相似度的采样,生成无标签数据子集;在每个带标签和无标签数据子集上,利用半监督学习方式训练得到一个子分类器;最后由多个子分类器集成为总分类器。
2.如权利要求1所述不均衡感知数据下的移动应用分类方法,其特征是,所述次采样从负类样本中随机采样出一个数据子集,使得该数据子集中样本数量与正类样本数量相当,方法为:对原本负类样本进行多轮次采样,每一轮次采样之后,便将相应采样过的样本从原本负类样本集中删除;经过多轮次采样得到的每一个数据子集分别作为训练子分类器的数据集。
3.如权利要求1所述不均衡感知数据下的移动应用分类方法,其特征是,所述相似度采样计算无标签数据与带标签数据的相似度,并生成近似均衡的无标签数据子集。
4.如权利要求3所述不均衡感知数据下的移动应用分类方法,其特征是,所述生成近似均衡的无标签数据子集的方法为: a)计算每一个无标签数据样本Xiu与每一个带标签数据样本Xue P U Nt的相似度,赋予X1U —个潜在标签使得Xiu和Xu具有最大相似度。经过潜在标签赋值之后,便获得了两个带标签的数据集,正类Up和负类Un,并且|UP|〈〈|UN| ; b)在负类Un上进行次采样,生成数据子集ut,使得IutI= IupI,便获得了近似均衡的无标签数据子集。
5.如权利要求1所述不均衡感知数据下的移动应用分类方法,其特征是,所述子分类器集成包括两个方面:多个传感器和多个均衡数据子集;一方面,在每个传感器维度上训练子分类器/Zfi(Xw),然后 通过加权和的形式集成多个传感器子分类器:

k=l 其中
【文档编号】G06F17/30GK103530373SQ201310481232
【公开日】2014年1月22日 申请日期:2013年10月15日 优先权日:2013年10月15日
【发明者】刘云浩, 张幸林, 杨铮, 马强 申请人:无锡清华信息科学与技术国家实验室物联网技术中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1