一种检测噪音数据的方法及装置的制作方法

文档序号:6435639阅读:176来源:国知局
专利名称:一种检测噪音数据的方法及装置的制作方法
技术领域
本申请涉及数据处理领域,特别是涉及一种检测噪音数据的方法,以及一种检测噪音数据的装置。
背景技术
统计机器学习是利用训练数据,通过计算得到模型,也即是训练模型的一种方法,然后用模型去做预测。本质上是通过已知的数据,经过统计分析和计算,产生模型,去预测未知的情况。类似统计机器学习的方法需要有较多的准确的训练数据,利用这些训练数据对模型进行建模,为了保证效果,训练数据是人工标注的。由于人工标注的不准确,使得训练数据容易产生部分不准确或是与实际不一致的数据,即噪音数据,从而影响数据的使用,所以需要去除训练数据中的噪音。现有技术中,采用人工复核去除训练数据中的噪音,对训练数据进行多次人工标注,从而订正可能的错误和偏差,去除训练数据中的噪音数据。以上现有技术中存在的问题是,由于一般情况下训练数据较多,人工复核时要针对所有的训练数据一条条进行复核,时间较长,人工成本太大。因此,目前需要本领域技术人员解决的一个技术问题就是,提供一种检测噪音数据的方法,以减少人工复核的工作量,节约时间成本和人力成本。

发明内容
本申请所要解决的技术问题是提供一种检测噪音数据的方法,用以减少人工复核的工作量,节约时间成本和人力成本。本申请还提供了一种检测噪音数据的装置,用以保证上述方法在实际中的应用及实现。为了解决上述问题,本申请公开了一种检测噪音数据的方法,包括基于训练数据的特征信息和实际标注信息建立预测模型;依据所述预测模型对训练数据的实际标注信息进行预测,获得对应的预测标注信息;提取实际标注信息与预测标注信息不一致的训练数据,作为噪音数据。优选地,所述训练数据包括所有待检测的训练数据。优选地,所述训练数据不包括所有待检测的训练数据,在基于训练数据的特征信息和实际标注信息建立预测模型的步骤之前,还包括将待检测的训练数据划分为N份,其中,N为大于I的正整数。优选地,所述基于训练数据的特征信息和实际标注信息建立预测模型的步骤为,依次提取N份中的N-1份待检测的训练数据,并基于所述N-1份待检测的训练数据的特征信息和实际标注信息建立预测模型;
所述依据预测模型对训练数据的实际标注信息进行预测,获得对应的预测标注信息的步骤为分别依据所述预测模型对剩余的一份待检测的训练数据的实际标注信息进行预测,获得对应的预测标注信息,所述预测标注信息包括N份待检测的训练数据所对应的预测标注信息。优选地,所述预测模型包括通过对各个训练数据的特征信息和标注信息进行统计后,获取的不同特征信息对应的各种标注信息的统计值。优选地,所述依据预测模型对训练数据的实际标注信息进行预测,获得对应的预测标注信息的步骤包括由预测模型所包含的不同特征信息对应的各种标注信息的统计值,以及训练数据的特征信息,对训练数据的实际标注信息进行预测,获得对应的预测标注信息。优选地,所述方法还包括对所述噪音数据进行复核。本申请还提供了一种检测噪音数据的装置,包括预测模型建立模块,用于基于训练数据的特征信息和实际标注信息建立预测模型;预测模块,用于依据所述预测模型对训练数据的实际标注信息进行预测,获得对应的预测标注信息;噪音数据提取模块,用于提取实际标注信息与预测标注信息不一致的训练数据,作为噪音数据。优选地,所述训练数据包括所有待检测的训练数据。优选地,所述训练数据不包括所有待检测的训练数据,在预测模型建立模块之前,还包括训练数据划分模块,用于将待检测训练数据划分为N份,其中,N为大于I的正整数。与现有技术相比,本申请具有以下优点本申请依据训练数据建立的预测模型对训练数据的标注信息进行预测,将预测标注信息与原标注信息不一致的训练数据,作为噪音数据。依据本申请的方法可以直接对噪音数据进行复核,以达到去除噪音数据的目的。相比于现有技术对所有的训练数据进行复核以去除噪音数据的方式,本申请大大减少了复核的工作量,节约了时间成本和人力成本。


图1是本申请的一种检测噪音数据的方法实施例1的流程图;图2是本申请的一种检测噪音数据的方法实施例2的流程图;图3是本申请的一种检测噪音数据的装置实施例1的结构框图;图4是本申请的一种检测噪音数据的装置实施例2的结构框图。
具体实施例方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本申请作进一步详细的说明。现有技术中,为了去除噪音数据需要对所有的训练数据进行复核,由于噪音数据一般较多,复核全部训练数据的工作量太大,时间较长,人工成本太大。本申请的核心构思之一在于,依据训练数据建立的预测模型对训练数据的标注信息进行预测,将预测标注信息与原标注信息不一致的训练数据,作为噪音数据,从而大大减少了复核的工作量,节约了时间成本和人力成本。参考图1,其示出了本申请的一种检测噪音数据的方法实施例1的流程图,具体可以包括以下步骤步骤101、基于训练数据的特征信息和实际标注信息建立预测模型。训练数据是依据人工标注获得,其中包含了标注信息,对应的特征信息可以由程序提取,也可以由人工标注获得,例如对某人A进行标注,获得了训练数据,其中标注信息为“好人”,然后提取其特征信息,如年龄大于20岁,年收入大于10万,本科学历等。在本实施例中,所述训练数据包括所有待检测的训练数据。所述预测模型可以包括通过对各个训练数据的特征信息和标注信息进行统计后,获取的不同特征信息对应的各种标注信息的统计值。训练数据表明了不同的对象,具备不同的特征信息和不同的标注信息,预测模型是描述不同的特征信息下,各标注信息存在的统计值的一个模型。因此,需要对所有的训练数据所包含的特征信息和标注信息进行统计。所述统计值可以表示为对应不同的特征信息,各种标注信息存在的概率值,发生的频次或频率等,在具体的实现中,统计值可以依据实际情况采用不同的方式表示,本申请对此并不做限制。例如,依据A、B、C、D、E和F的训练数据建立一个分类模型,以区分好人和坏人,训练数据的标注信息已经告知了 A、B是好人,C、D、E和F是坏人,这时,可以抽取这六个人的特征信息来统计其对标注结果的影响。比如A、B和F的年收入大于10万,年龄小于25岁,C、D和E的年收入小于10万,年龄大于25岁,以概率值表示统计值,得知在这个训练数据下统计出来的模型,对于年收入大于10万,年龄小于25岁的人是好人的概率是2/3+1/3 X 2/3=8/9,或者说是1-1/3 X 1/3 = 8/9,有1/9的概率是坏人。步骤102、依据所述预测模型对训练数据的实际标注信息进行预测,获得对应的预测标注信息。在本申请的一种优选的实施例中,所述步骤102可以包括子步骤S11、根据预测模型所包含的不同特征信息对应的各种标注信息的统计值,以及训练数据的特征信息,对训练数据的实际标注信息进行预测,获得对应的预测标注信
肩、O预测模型包括了不同的特征信息所对应的不同的标注信息的统计值,因此,在对预测数据进行预测的时候,可以根据预测模型中的统计值和训练数据的特征信息,得知训练数据在此预测模型下应该具有的标注信息。例如,以上例中A、B、C、D、E和F的训练数据建立的预测模型对A、B、C、D、E和F进行预测,由于在这个模型下,年收入大于10万,年龄小于25岁的人是好人的概率是8/9,假设一般情况下下,好人的概率超过了 50%就认为这个人是好人,那么对F(年收入大于10万,年龄小于25岁)进行预测可以得知,F为好人,而实际上对F进行标注的结果中F是坏人,这样F的实际标注信息和预测标注信息就不一致了。同样对C (小于10万,年龄大于25岁)进行预测可以得出C为坏人,与C的实际标注信息是一致的。步骤103、提取实际标注信息与预测标注信息不一致的训练数据,作为噪音数据。对比训练数据的标注信息,和其预测标注信息是否一致,若不一致,则提取该训练数据作为噪音数据。如上例中,F本来标注的是好人,但模型预测的是坏人,这就是不一致的地方,其标注信息可能并不准确,该训练数据即为疑似噪音数据,需要对其进行复核。对于标注信息为标注类别的训练数据,不一致是指原本标注的类别与预测的类别不一样,对于标注信息为排序先后的训练数据,不一致是指在排序问题上是逆序,例如,本来G应该排在H前面,现在预测的排序是H排在G前面了。参考图2,其示出了本申请的一种检测训练数据中的噪音数据的方法实施例2的流程图,具体可以包括以下步骤步骤201、将待检测的训练数据划分为N份,其中,N为大于I的正整数;步骤202、依次提取N份中的N-1份待检测的训练数据,并基于所述N_1份待检测的训练数据的特征信息和实际标注信息建立预测模型,所述训练数据包括特征信息和标注信息;步骤203、分别依据所述预测模型对剩余的一份待检测的训练数据的实际标注信息进行预测,获得对应的预测标注信息,所述预测标注信息包括N份待检测训练数据所对应的预测标注信息。与上个实施例不同的是,本实施例中训练数据并不是所有的待预测训练数据,而是依据所有的待检测的训练数据中的N-1份数据建立的预测模型,然后以N-1份数据对应的模型对剩余的一份数据进行预测。例如,待预测的训练数据为a、b、C、d、e、f、g,可以将其划分为7份,依据其中N_1=6份,如a、b、c、d、e和f的训练数据建立一个分类模型,以区分好人和坏人,训练数据的标注信息已经告知了 a、C、d是好人,b、e、f是坏人,这时,可以抽取这六个人的特征信息来统计其对标注结果的影响。比如a、b、c和d年收入大于10万,e和f的年收入小于10万,由此得知在这个训练数据下统计出来的模型,对于年收入大于10万的人,有3/4的概率是好人,1/4的概率是坏人;同理,如果训练数据中a、C、d和f年龄都小于25岁,b和e的年龄大于25岁由此得知,对于年龄小于25岁的人,有3/4的概率是好人,有1/4的概率是坏人。依据以上6份训练数据得到的预测模型对剩余一份g的实际标注信息进行预测,已知g年龄小于25岁且年收入大于10万,可以预测他是一个好人的概率是3/4+1/4X 3/4,或者说是1-1/4 X 1/4 = 15/16,是一个坏人的概率是1/16,预设判定条件是,好人的概率超过了 50%就认为这个人是好人,那么对g的预测标注信息就是g是好人。本实施例与上个实施例不同之处还在于,以上建立模型和预测的过程需要循环N次,每次提取与之前不同的N-1份数据,直至N份待检测的训练数据都被预测过,得到了所有待检测的训练数据所对应的预测标注信息。在本申请中,所述将待检测的训练数据划分为N份,可以是平均划分,也可以是不平均划分,本申请对此并不做限制。N份数据可以平均划分,例如,之前6个训练数据(A、B、C、D、E和F),平均分成N=3份,每一份就是2个训练数据,然后取N-1 = 2份共4个数据(假设是A、B、C和E)建立预测模型,对剩下的I份数据(D和F)做预测。N份数据也可以不平均划分,例如,将上面6个数据划分成N = 4份,A和B为I份,C和D为I份、E为I份,F为I份。第一次取N-1 = 3份数据,如A、B、C、D和E建立预测模型,对剩下的I份F进行预测。第二次取A、B、C、D和F建立预测模型,对剩下的I份E进行预测。第三次取A、B、E、F建立预测模型,对剩下的I份C和D进行预测。第四次取3份C、D、E、F建立预测模型,对剩下的I份A和B进行预测。如此四次循环进行了之后,所有的数据都有了对应的预测标注信息。步骤204、提取实际标注信息与预测标注信息不一致的训练数据,作为噪音数据。步骤205、对所述噪音数据进行复核。提取出噪音数据后,可以对噪音数据进行复核,复核的方法有多种,例如,进行噪音数据积习进行多次人工标注,取标注信息出现次数最多的作为最终的标注信息,比如对A进行5次标注,4次标注信息为A是好人’ I次标注信息为A是坏人,最终可以认为在训练数据中A是好人;此外,也可以只是原本做一次标注时,复核时做一次,取复核时做的标注信息作为最终的标注信息。综上所述,本申请提供了一种检测训练数据中的噪音数据的方法,依据训练数据建立的预测模型对训练数据的标注信息进行预测,将预测标注信息与原标注信息不一致的训练数据,作为噪音数据。依据本申请的方法可以直接对噪音数据进行复核,以达到去除噪音数据的目的。相比于现有技术对所有的训练数据进行复核以去除噪音数据的方式,本申请大大减少了复核的工作量,节约了时间成本和人力成本。对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。参考图3,示出了本申请的一种检测训练数据中的噪音数据的装置实施例1的结构框图,具体可以包括以下模块预测模型建立模块301,用于基于训练数据的特征信息和实际标注信息建立预测模型;预测模块302,用于依据所述预测模型对训练数据的实际标注信息进行预测,获得对应的预测标注信息;噪音数据提取模块303,用于提取实际标注信息与预测标注信息不一致的训练数据,作为噪音数据。在本实施例中,所述训练数据包括所有待检测的训练数据。在本申请的一种优选的实施例中,所述预测模型可以包括通过对各个训练数据的特征信息和标注信息进行统计后,获取的不同特征信息对应的各种标注信息的统计值。在本申请的一种优选的实施例中,所述预测模块可以包括预测标注信息获取子模块,用于由预测模型所包含的不同特征信息对应的各种标注信息的统计值,以及训练数据的特征信息,对训练数据的实际标注信息进行预测,获得对应的预测标注信息。
参考图4,其示出了本申请的一种检测训练数据中的噪音数据的装置实施例2的结构框图,具体可以包括以下模块训练数据划分模块401,用于将待检测的训练数据划分为N份,其中,N为大于I的正整数;N次预测模型建立模块402,用于依次提取N份中的N_1份待检测的训练数据,并基于所述N-1份待检测的训练数据的特征信息和实际标注信息建立预测模型;N次预测模块403,用于分别依据所述预测模型对剩余的一份待检测的训练数据的实际标注信息进行预测,获得对应的预测标注信息,所述预测标注信息包括N份待检测的训练数据所对应的预测标注信息。噪音数据提取模块404,用于提取标注信息与预测标注信息不一致的训练数据,作为噪音数据。复核模块405,用于对所述噪音数据进行复核。在本实施例中,所述训练数据不包括所有待检测的训练数据。由于所述装置实施例基本相应于前述图1和图2所示的方法实施例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此就不赘述了。本申请可用于众多通用或专用的计算系统环境或配置中。例如个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。最后,还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设
备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不
排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上对本申请所提供的一种检测噪音数据的方法,以及,一种检测噪音数据的装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式
及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
权利要求
1.一种检测噪音数据的方法,其特征在于,包括 基于训练数据的特征信息和实际标注信息建立预测模型; 依据所述预测模型对训练数据的实际标注信息进行预测,获得对应的预测标注信息; 提取实际标注信息与预测标注信息不一致的训练数据,作为噪音数据。
2.如权利要求1所述的方法,其特征在于,所述训练数据包括所有待检测的训练数据。
3.如权利要求1所述的方法,其特征在于,所述训练数据不包括所有待检测的训练数据,在基于训练数据的特征信息和实际标注信息建立预测模型的步骤之前,还包括 将待检测的训练数据划分为N份,其中,N为大于I的正整数。
4.如权利要求3所述的方法,其特征在于,所述基于训练数据的特征信息和实际标注信息建立预测模型的步骤为,依次提取N份中的N-1份待检测的训练数据,并基于所述N-1份待检测的训练数据的特征信息和实际标注信息建立预测模型; 所述依据预测模型对训练数据的实际标注信息进行预测,获得对应的预测标注信息的步骤为 分别依据所述预测模型对剩余的一份待检测的训练数据的实际标注信息进行预测,获得对应的预测标注信息,所述预测标注信息包括N份待检测的训练数据所对应的预测标注信息。
5.如权利要求2或3或4所述的方法,其特征在于,所述预测模型包括通过对各个训练数据的特征信息和标注信息进行统计后,获取的不同特征信息对应的各种标注信息的统计值。
6.如权利要求5所述的方法,其特征在于,所述依据预测模型对训练数据的实际标注信息进行预测,获得对应的预测标注信息的步骤包括 由预测模型所包含的不同特征信息对应的各种标注信息的统计值,以及训练数据的特征信息,对训练数据的实际标注信息进行预测,获得对应的预测标注信息。
7.如权利要求6所述的方法,其特征在于,还包括 对所述噪音数据进行复核。
8.—种检测噪音数据的装置,其特征在于,包括 预测模型建立模块,用于基于训练数据的特征信息和实际标注信息建立预测模型;预测模块,用于依据所述预测模型对训练数据的实际标注信息进行预测,获得对应的预测标注信息; 噪音数据提取模块,用于提取实际标注信息与预测标注信息不一致的训练数据,作为噪音数据。
9.如权利要求8所述的装置,其特征在于,所述训练数据包括所有待检测的训练数据。
10.如权利要求8所述的装置,其特征在于,所述训练数据不包括所有待检测的训练数据,在预测模型建立模块之前,还包括 训练数据划分模块,用于将待检测训练数据划分为N份,其中,N为大于I的正整数。
全文摘要
本发明提供了一种检测噪音数据的方法及装置。所述方法包括基于训练数据的特征信息和实际标注信息建立预测模型;依据所述预测模型对训练数据的实际标注信息进行预测,获得对应的预测标注信息;提取实际标注信息与预测标注信息不一致的训练数据,作为噪音数据。本发明可以减少人工复核的工作量,节约时间成本和人力成本。
文档编号G06F19/00GK103049629SQ20111031450
公开日2013年4月17日 申请日期2011年10月17日 优先权日2011年10月17日
发明者陈维, 侯磊 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1