一种识别方法及装置与流程

文档序号:11286337阅读:151来源:国知局
一种识别方法及装置与流程

本发明涉及信息识别技术,具体涉及一种识别方法及装置。



背景技术:

随着互联网时代的到来,人们在各大网站或论坛上的言论更加自由和随意。各大网站或论坛每天要接收很多条用户评论信息,例如,在一些对产品的评论中可能存在大量的广告、谩骂、黄色信息等无效评论,因此,如何对评论信息进行管理将面临严峻的考验。

目前,贝叶斯方法是识别无效评论的常用方法,但是,由于该方法假设评论信息中词和词之间是没有关系(独立)的,与现实情况不符,在文本分类中因训练样本有偏和自然语言处理中文本特征的高纬度特性而导致训练后单一模型过拟合现象,进而会影响识别无效评论的准确率。



技术实现要素:

有鉴于此,本发明实施例期望提供一种识别方法及装置,至少能提高对信息对象的识别准确率。

为达到上述目的,本发明的技术方案是这样实现的:

本发明实施例提供了一种识别方法,所述方法包括:

获取待分类的信息对象;其中,所述信息对象至少包括用户评论信息;

利用已训练的m个不同的分类模型分别对所述待分类的信息对象进行分类;其中,m为大于或等于2的正整数;

统计m个所述分类模型中将所述待分类的信息对象分类为第一类信息对象的第一个数信息,及将所述待分类的信息对象分类为第二类信息对象的第二个数信息;

基于所述第一个数信息和所述第二个数信息,确定所述待分类的信息对象的最终分类。

上述方案中,优选地,所述获取待分类的信息对象之前,还包括:

获取已知的训练集;其中,所述训练集包括正例训练集x和负例训练集y;正例训练集x包括i个正例样本,负例训练集y包括j个负例样本;i>>j≥1;

从所述训练集中分别针对正例训练集x和负例训练集y采用重抽样方法构建m个均衡的子训练集;其中,所述均衡的子训练集是指从所述正例训练集x中抽取的样本数与从所述负例训练集y中抽取的样本数之间的差值符合预设范围的子训练集;

利用m个所述均衡的子训练集训练m个不同的分类模型cm;其中,m=1、…、m。

上述方案中,优选地,所述从所述训练集中分别针对正例训练集x和负例训练集y采用重抽样方法构建m个均衡的子训练集,包括:

每次从所述正例训练集x中抽取j个样本,并将所抽取的j个样本放回所述正例训练集x中,将每次所抽取的j个样本记为集合{x’(s)},其中,1≤s≤j;共抽取m次;

每次从所述负例训练集y中抽取j个样本,并将所抽取的j个样本放回所述负例训练集y中,将每次所抽取的j个样本记为集合{y’(s)},其中,1≤s≤j;共抽取m次;

将每次从所述正例训练集x中所抽取的j个样本的集合{x’(s)}与每次从所述负例训练集y中所抽取的j个样本的集合{y’(s)}取并集,构建成子训练集;

其中,子训练集表示为({x’(s)}∪{y’(s)})m,其中,m=1、…、m。

上述方案中,优选地,所述基于所述第一个数信息和所述第二个数信息,确定所述待分类的信息对象的最终分类,包括:

若第一个数信息p大于第二个数信息q,则判定所述待分类的信息对象为第一类信息对象;

若第一个数信息p小于或等于第二个数信息q,则判定所述待分类的信息 对象为第二类信息对象;

其中,p+q=m。

上述方案中,优选地,所述基于所述第一个数信息和所述第二个数信息,确定所述待分类的信息对象的最终分类,包括:

若第一个数信息p与总个数信息m的比值大于第一阈值,或第二个数信息q与总个数信息m的比值小于第二阈值,则判定所述待分类的信息对象为第一类信息对象;

若第一个数信息p与总个数信息m的比值小于或等于第一阈值,或第二个数信息q与总个数信息m的比值大于或等于第二阈值,则判定所述待分类的信息对象为第二类信息对象;

其中,总个数信息m为第一个数信息p与第二个数信息q之和。

上述方案中,优选地,所述方法还包括:

获取所述用户评论信息的属性信息;所述属性信息至少包括所述用户评论信息针对的评论对象和/或评论对象发布环境信息;

根据所述属性信息确定第一阈值或第二阈值。

上述方案中,优选地,所述方法还包括:

根据第一指定时间内的最终分类结果,确定各个信息对象类别的比值阈值范围;

根据第二指定时间内的最终分类结果,确定第二指定时间内各个信息对象类别的第一比值;其中,所述第一指定时间的时长大于第二指定时间的时长;

判断所述第一比值是否位于所述比值阈值范围内;

若所述第一比值位于所述比值阈值范围外,则更新用于训练分类模型的训练集并重新训练分类模型。

上述方案中,优选地,m个不同的分类模型均为支持向量机(svm,supportvectormachine)模型、或贝叶斯模型、或深度学习模型、或神经网络模型,或决策树模型、或k近邻算法(knn,k-nearestneighbors)模型;或,

m个不同的分类模型包括下述模型中的至少两种:

svm模型、贝叶斯模型、深度学习模型、神经网络模型,决策树模型、knn模型。

本发明实施例提供了一种识别装置,所述装置包括:

获取单元,用于获取待分类的信息对象;其中,所述信息对象至少包括用户评论信息;

分类单元,用于利用已训练的m个不同的分类模型分别对所述待分类的信息对象进行分类;其中,m为大于或等于2的正整数;

统计单元,用于统计m个所述分类模型中将所述待分类的信息对象分类为第一类信息对象的第一个数信息,及将所述待分类的信息对象分类为第二类信息对象的第二个数信息;

确定单元,用于基于所述第一个数信息和所述第二个数信息,确定所述待分类的信息对象的最终分类。

上述方案中,优选地,所述装置包括:建立单元,用于:

获取已知的训练集;其中,所述训练集包括正例训练集x和负例训练集y;正例训练集x包括i个正例样本,负例训练集y包括j个负例样本;i>>j≥1;

从所述训练集中分别针对正例训练集x和负例训练集y采用重抽样方法构建m个均衡的子训练集;其中,所述均衡的子训练集是指从所述正例训练集x中抽取的样本数与从所述负例训练集y中抽取的样本数之间的差值符合预设范围的子训练集;

利用m个所述均衡的子训练集训练m个不同的分类模型cm;其中,m=1、…、m。

上述方案中,优选地,所述建立单元,还用于:

每次从所述正例训练集x中抽取j个样本,并将所抽取的j个样本放回所述正例训练集x中,将每次所抽取的j个样本记为集合{x’(s)},其中,1≤s≤j;共抽取m次;

每次从所述负例训练集y中抽取j个样本,并将所抽取的j个样本放回所述负例训练集y中,将每次所抽取的j个样本记为集合{y’(s)},其中,1≤s≤j; 共抽取m次;

将每次从所述正例训练集x中所抽取的j个样本的集合{x’(s)}与每次从所述负例训练集y中所抽取的j个样本的集合{y’(s)}取并集,构建成子训练集;

其中,子训练集表示为({x’(s)}∪{y’(s)})m,其中,m=1、…、m。

上述方案中,优选地,所述确定单元,还用于:

若第一个数信息p大于第二个数信息q,则判定所述待分类的信息对象为第一类信息对象;

若第一个数信息p小于或等于第二个数信息q,则判定所述待分类的信息对象为第二类信息对象;

其中,p+q=m。

上述方案中,优选地,所述确定单元,还用于:

若第一个数信息p与总个数信息m的比值大于第一阈值,或第二个数信息q与总个数信息m的比值小于第二阈值,则判定所述待分类的信息对象为第一类信息对象;

若第一个数信息p与总个数信息m的比值小于或等于第一阈值,或第二个数信息q与总个数信息m的比值大于或等于第二阈值,则判定所述待分类的信息对象为第二类信息对象;

其中,总个数信息m为第一个数信息p与第二个数信息q之和。

上述方案中,优选地,所述装置还包括:设置单元,用于:

获取所述用户评论信息的属性信息;所述属性信息至少包括所述用户评论信息针对的评论对象和/或评论对象发布环境信息;

根据属性信息确定第一阈值或第二阈值。

上述方案中,优选地,所述装置还包括:控制单元,用于:

根据第一指定时间内的最终分类结果,确定各个信息对象类别的比值阈值范围;

根据第二指定时间内的最终分类结果,确定第二指定时间内各个信息对象类别的第一比值;其中,所述第一指定时间的时长大于第二指定时间的时长;

判断所述第一比值是否位于所述比值阈值范围内;

若所述第一比值位于所述比值阈值范围外,则更新用于训练分类模型的训练集并重新训练分类模型。

上述方案中,优选地,m个分类模型均为svm模型、或贝叶斯模型、或深度学习模型、或神经网络模型,或决策树模型、或knn模型;或,

m个不同的分类模型包括下述模型中的至少两种:

svm模型、贝叶斯模型、深度学习模型、神经网络模型,决策树模型、knn模型。

本发明实施例提供的识别方法及装置,利用已训练的m个不同的分类模型分别对同一个待分类的信息对象进行分类;基于统计的每个分类模型的分类结果来确定所述待分类的信息对象的最终分类;相对于单一分类模型获得的单一分类结果而言,利用至少两个不同的分类模型来进行信息分类,能够减少一个或单一类型分类模型在进行信息分类,由于分类模型本身的误差,导致的精确度低的显现,故本实施例提供给的识别方法及装置,能提高对信息对象的识别准确率及精确度。

附图说明

图1为本发明实施例提供的一种识别方法的流程示意图;

图2为本发明实施例提供的一种对待分类的信息对象进行分类的示意图;

图3为本发明实施例提供的采用现有识别方法与本发明识别方法在微信朋友圈中识别广告的对比示意图;

图4为本发明实施例提供的信息对象识别结果随时间变化的一种示意图;

图5为本发明实施例提供的采用现有方法与本发明方法在业务评论中无效评论识别准确率的对比示意图;

图6为本发明实施例提供的一种识别装置的结构示意图。

具体实施方式

为了能够更加详尽地了解本发明的特点与技术内容,下面结合附图对本发明的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明。

实施例一

如图1所示,本实施例提供一种识别方法,所述方法包括:

步骤s110:获取待分类的信息对象;其中,所述信息对象至少包括用户评论信息。

可选地,所述信息对象通常是指文本对象。

例如,所述信息对象可以是用户针对某一篇文章或某一条微博发出的评论内容。这里,并不对评论内容的格式类型进行限定,所述评论内容可以是文字、或图片、或音频、或视频等。

步骤s120:利用已训练的m个不同的分类模型分别对所述待分类的信息对象进行分类;其中,m为大于或等于2的正整数。

本实施例中所述m个不同的分类模型为m个不同的分类模型,这种不同可体现于分类模型的种类不同,或分类模型的训练数据不同。

可选地,所述分类模型可以均为svm模型、或贝叶斯模型、或深度学习模型、或神经网络模型,或决策树模型、或knn模型等;或,

m个不同的分类模型包括下述模型中的至少两种:

svm模型、贝叶斯模型、深度学习模型、神经网络模型,决策树模型、knn模型。

需要说明的是,所述m个不同的分类模型是不同的分类模型,即:是不同类型的分类模型,或者是训练数据至少部分不同的分类模型。

也就是说,当所述m个不同的分类模型均为同一类型的分类模型时,各个分类模型的子训练集中至少有一部分数据不同;或者,所述m个不同的分类模型是不同类型的分类模型时,各个分类模型的子训练集中可以完全相同、或至少有一部分数据不同。

如此,采用m个不同的分类模型分别对待分类的信息对象进行分类,能提高对信息对象的识别准确率。

可选地,例如,信息共有h类,待分类的信息为h类中的一类,本实施例中的通过分类模型形成的分类结果,可用于表征所述待分类的信息被分类所归属的分类。比如,第一种是将所述待分类的信息对象归为第一类信息对象,第二种是将所述待分类的信息对象归为第二类信息对象,…,第h种是将所述待分类的信息对象归为第h类信息对象;其中,h为大于2的正整数。

优选地,将对所述待分类的信息对象进行分类的分类结果分为两类,一种是将所述待分类的信息对象归类为第一类信息对象;另一种是将所述待分类的信息对象归类为第二类信息对象。例如,所述第一类信息对象可以指无效的或者是不符合预设标准的对象;所述第二类信息对象可以指有效的或者是符合预设标准的对象。

步骤s130:统计m个所述分类模型中将所述待分类的信息对象分类为第一类信息对象的第一个数信息,及将所述待分类的信息对象分类为第二类信息对象的第二个数信息;

步骤s140:基于所述第一个数信息和所述第二个数信息,确定所述待分类的信息对象的最终分类。

在步骤s140之后,所述方法还可以包括:

结合所述待分类的信息对象的最终分类,并按照预设过则对所述待分类的信息对象进行处理;

具体地,当所述待分类的信息对象的最终分类为第一类信息对象时,将所述待分类的信息对象输出并显示;

当所述待分类的信息对象的最终分类为第二类信息对象时,将所述待分类的信息对象过滤掉或屏蔽。

如此,将不符合预设规则的信息对象过滤掉或屏蔽,能够为用户提供一个良好的网络环境。

另外,当所述待分类的信息对象的最终分类为第二类信息对象时,还可进 行如下处理:

获取所述待分类的信息对象的账号信息以及其他与所述待分类的信息对象相关的信息,并将所收集的信息发送至审核设备。

如此,将所收集的信息发送至审核设备,所述审核设备根据审核规则对所收集的信息进行管理和/或控制。具体的如,根据用户指示,进行信息审核;最终根据审核结果对账号信息以及该账号的权限信息进行相应的管理或控制。

在一具体子实施例中,所述步骤s140,包括:

步骤s140a:若第一个数信息p大于第二个数信息q,则判定所述待分类的信息对象为第一类信息对象;若第一个数信息p小于或等于第二个数信息q,则判定所述待分类的信息对象为第二类信息对象;其中,p+q=m。

举例来说,若步骤102中利用已训练的m个不同的分类模型分别对所述待分类的信息对象进行1次分类,那么,每个分类模型将得到1个分类结果,m个不同的分类模型共得到m个分类结果。那么。至少可以采用下述方式对所述待分类的信息对象的最终分类进行判断:

方式一:若p>q,则判定所述待分类的信息对象为第一类信息对象;若p≤q,则判定所述待分类的信息对象为第二类信息对象。

方式二:若p≥(m+1)/2,则判定所述待分类的信息对象为第一类信息对象;若q≥(m+1)/2,则判定所述待分类的信息对象为第二类信息对象。

方式二:若当p和q均不为0时,若p/q>1,则判定所述待分类的信息对象为第一类信息对象;若p/q≤1,则判定所述待分类的信息对象为第二类信息对象。

当然,判断方式并不限于以上列举的这几种方式,在此不再列举。

如此,当每个分类模型对所述待分类的信息对象的分类结果只可能有两种情况时,每个分类模型可以对同一个待分类的信息对象进行类似于投票式的分类,根据少数服从多数的原则,能更直观地得到待分类的信息对象的最终分类。

图2示出了一种对待分类的信息对象进行分类的示意图,如图2所示,总共有6个分类模型分别对同一个待分类的信息对象进行分类,采用的分类模型 为svm模型,其中,第1、2、4、5、6个svm模型对该待分类的信息对象的分类结果均为ⅰ,第3个svm模型对该待分类的信息对象的分类结果为ⅱ,那么,对该待分类的信息对象的最终分类结果为ⅰ。

在另一具体子实施例中,所述步骤s140,包括:

步骤s140b:若第一个数信息p与总个数信息m的比值大于第一阈值,或第二个数信息q与总个数信息m的比值小于第二阈值,则判定所述待分类的信息对象为第一类信息对象;若第一个数信息p与总个数信息m的比值小于或等于第一阈值,或第二个数信息q与总个数信息m的比值大于或等于第二阈值,则判定所述待分类的信息对象为第二类信息对象;其中,总个数信息m为第一个数信息p与第二个数信息q之和。

需要说明的是,所述第一阈值或第二阈值可以人为设定,所述第一阈值或第二阈值也可以根据用户评论信息的属性信息来确定;其中,所述属性信息至少包括所述用户评论信息针对的评论对象和/或评论对象发布环境信息。

可选地,在执行步骤s140b之前,所述方法还包括:

获取所述用户评论信息的属性信息;所述属性信息至少包括所述用户评论信息针对的评论对象和/或评论对象发布环境信息;

根据所述属性信息确定第一阈值或第二阈值。

其中,所述评论对象是指用户发起评论信息时所针对的对象,如某一话题、或某一文章、或某一视频、或某一音频、或某一图片等等。

其中,所述评论对象发布环境信息,至少包括发布所述评论对象的网站地址参数。

也就是说,若用户评论信息针对的评论对象和/或评论对象发布环境信息不同,第一阈值或第二阈值也不同。

举例来说,假定第一类信息对象表示有效的用户评论消息,第二类信息对象表示无效的用户评论消息;对于在娱乐网站针对娱乐新闻发表的用户评论信息,可以放宽限定范围,如只要p/m≥0.3,即可认为该用户评论消息为有效的用户评论消息,进而允许该用户评论消息在该娱乐网站上展示;对于在官方网 站针对时事政治发表的用户评论信息,可以加大限定范围,如只有p/m≥0.9,才可认为该用户评论消息为有效的用户评论消息,进而允许该用户评论消息在该官方网站上展示。

如此,根据用户评论信息的属性信息确定第一阈值或第二阈值,能更方便、更可控的对在不同场合针对不同评论对象的用户评论信息进行自适应管理。

在步骤s110之前,即在获取待分类的信息对象之前,所述还可以包括:

步骤s101:获取已知的训练集;其中,所述训练集包括正例训练集x和负例训练集y;正例训练集x包括i个正例样本,负例训练集y包括j个负例样本;i>>j≥1;

这里,所述已知的训练集通常是指由人工或机器标注的、且已明确正例样本和负例样本的训练集。

步骤s102:从所述训练集中分别针对正例训练集x和负例训练集y采用重抽样方法构建m个均衡的子训练集;

其中,所述均衡的子训练集是指从所述正例训练集x中抽取的样本数与从所述负例训练集y中抽取的样本数之间的差值符合预设范围的子训练集。

在一具体子实施方式中,所述从所述训练集中分别针对正例训练集x和负例训练集y采用重抽样方法构建m个均衡的子训练集,包括三个步骤:

步骤s102a:每次从所述正例训练集x中抽取j个样本,并将所抽取的j个样本放回所述正例训练集x中,将每次所抽取的j个样本记为集合{x’(s)},其中,1≤s≤j;共抽取m次;

步骤s102b:每次从所述负例训练集y中抽取j个样本,并将所抽取的j个样本放回所述负例训练集y中,将每次所抽取的j个样本记为集合{y’(s)},其中,1≤s≤j;共抽取m次;

步骤s102c:将每次从所述正例训练集x中所抽取的j个样本的集合{x’(s)}与每次从所述负例训练集y中所抽取的j个样本的集合{y’(s)}取并集,构建成子训练集;

其中,子训练集表示为({x’(s)}∪{y’(s)})m,其中,m=1、…、m。

举例来说,已知的训练集包括正例训练集x和负例训练集y;正例训练集x包括1000个正例样本(用已经编号的红色乒乓球表示),负例训练集y包括10个负例样本(用已经编号的白色乒乓球表示);采用重抽样方法构建3个均衡的子训练集;在构建第一个子训练集时,从所述正例训练集x中抽取10个红色乒乓球,假设所抽取10个红色乒乓球的编号分别为“1、5、9、23、29、31、57、89、73、94”;那么,{x’(s)}={1、5、9、23、29、31、57、89、73、94};从所述负例训练集y中抽取10个白色乒乓球,即全部抽出来,假设所抽取10个白色乒乓球的编号分别为“一、二、三、四、五、六、七、八、九、十”,{y’(s)}={一、二、三、四、五、六、七、八、九、十};因此,第一个子训练集({x’(s)}∪{y’(s)})1={1、5、9、23、29、31、57、89、73、94}∪{一、二、三、四、五、六、七、八、九、十}。在构建第二个子训练集时,从所述正例训练集x中抽取10个红色乒乓球,假设所抽取10个红色乒乓球的编号分别为“11、51、9、63、79、37、57、88、71、99”;那么,{x’(s)}={11、51、9、63、79、37、57、88、71、99};从所述负例训练集y中抽取10个白色乒乓球,即全部抽出来,假设所抽取10个白色乒乓球的编号分别为“一、二、三、四、五、六、七、八、九、十”,{y’(s)}={一、二、三、四、五、六、七、八、九、十};因此,第二个子训练集({x’(s)}∪{y’(s)})2={11、51、9、63、79、37、57、88、71、99}∪{一、二、三、四、五、六、七、八、九、十}。以此类推,来构建第三个子训练集。

再举例来说,当所述待分类的信息对象为用户的评论内容时,上述例子中的红色乒乓球的编号可以理解为有效的词或表情图等,上述例子中的述白色乒乓球的编号可以理解为无效的词或表情图等。

步骤s103:利用m个所述均衡的子训练集训练m个不同的分类模型cm;其中,m=1、…、m。

需要说明的是,优选地,m个子训练集是不同的训练集,所述不同是指:

每个训练集中的数据至少有部分不同于其他训练集的数据,或,

每个训练集至少有超过预定数目的不同样本,所述预定数目的设定是为保证分类模型的差异足够大而设定的。

这里,可采用各种类型的训练器或分类器将子训练集训练分类模型。具体如何将子训练集训练分类模型为现有技术,在此不再赘述。

下面,对步骤s101、s102、s103中的特征进行分析。

在步骤s101中,假设待分类的信息对象为评论文本,将评论文本中的每个词作为一个特征z,假设x和y共有w个特征,那么,整个训练集的特征空间为w=∪zi,i∈1、2、…、w。

相应地,在步骤s102中,在m个子训练集中,每个子训练集所覆盖的特征空间是整个训练集特征空间的非空子集,即每个子训练集所覆盖的特征空间可以表示为zm=∪zi,i为{1、2、…、w}的非空子集。

相应地,对于步骤s103,m个不同的分类模型中,每个分类模型cm所涵盖的文特征空间为zm。

因此,由于每个分类模型cm所涵盖的文特征空间为zm,解决了因训练样本有偏和自然语言处理中文本特征的高纬度特性而导致训练后单一模型过拟合现象及无效评论识别准确率低的问题。这里,有偏可以理解为训练集x中的样本数远远大于训练集y中的样本数。同时,为了更好地保证当前各个分类模型的可靠性与适应性,通过执行步骤s150,能更好挖掘与调整适应性更好的分类模型。

如此,通过采用重抽样方法构建多个均衡的子训练集,进而通过多个均衡的子训练集训练多个分类模型,解决了因训练样本有偏和自然语言处理中文本特征的高纬度特性而导致训练后单一模型过拟合现象及无效评论识别准确率低的问题,能提高对信息对象的识别准确率。

图3示出了采用现有识别方法与本发明识别方法在微信朋友圈中识别广告的对比示意图,张三在微信朋友圈中上传了一张自己的旅游照片,李四、王五等张三的朋友针对该张旅游照片给出了各自的评论,但是,非张三的好友在该张图片的评论区发了多张小广告,服务器采用现有技术中识别方法(在图中用 方法1表示),只能识别出部分小广告,在朋友圈中仍会显示部分小广告,令人厌烦;而采用本发明识别方法(在图中用方法2表示),服务器能够识别出这些小广告,并将这些小广告过滤掉,识别的更为全面,为微信朋友圈营造一个良好的氛围,提升了用户的体验。

在如图1所示的实施例的基础上,在步骤s140之后,所述方法还可以包括:

步骤s150:判断是否满足预设条件,若满足,则更新用于训练分类模型的训练集并重新训练分类模型。

也就是说,在信息对象不断推陈出新的过程中,原有的分类模型可能不适用现有的信息对象,需要对原有的分类模型进行改进或是重新训练分类模型。

在一具体实施方式中,所述步骤s150包括:

步骤s150a:根据第一指定时间内的最终分类结果,确定各个信息对象类别的比值阈值范围;

步骤s150b:根据第二指定时间内的最终分类结果,确定第二指定时间内各个信息对象类别的第一比值;

其中,所述第一指定时间的时长大于第二指定时间的时长,并且,所述第二指定时间为第一指定时间的子时长。

步骤s150c:判断所述第一比值是否位于所述比值阈值范围内;

步骤s150d:若所述第一比值位于所述比值阈值范围外,则更新用于训练分类模型的训练集并重新训练分类模型。

也就是说,在不同时间段,对大量待分类的信息对象进行分类时,由于分类模型不可能涉及到方方面面的特征,且待分类的信息对象的个体具有差异性,且不同时段待分类的信息对象的数量不相同等不可控情况;因此,允许在分类过程中存在可允许范围内的范围。

例如,在第i个时间段内测得的第一类信息对象较多,第二类信息对象较少;在第g时间段内测得的第一类信息对象较少,第二类信息对象较多;在第q时间段内测得的第一类信息对象与第二类信息对象相差不多;在第r时间段内未测得第一类信息对象,在第e时间段内未测得第二类信息对象;可以根据 在某一大段时间内的统计情况得出一个允许波动的阈值范围,若在一小段时间内超出该阈值范围,则说明波动太大,现有的分类模型可能已不适用现有的信息对象,需要重新更新用于训练分类模型的训练集并重新训练分类模型。

举例来说,若所确定的第一类信息对象与第二类信息对象的比值阈值范围(a,b),若某一时间段内第一类信息对象与第二类信息对象的比值在(a,b)之外,则说明当前时间段有波动,且波动范围已超出允许范围,需要重新训练分类模型。

如此,能够适时地更新用于训练分类模型的训练集,并重新训练分类模型;进而能够提高对信息对象的识别准确率。

再举例来说,正例训练集x中总共有1000个词,这1000个词都是某一论坛允许使用的词汇;负例训练集y中总共有10个词,这10个词是与暴力、黄色、谩骂等具有负面影响的词,都是该论坛不允许使用的词汇;假设在最终训练分类模型时,共训练出10个分类模型,每一分类模型所对应的子训练集都至少有部分词不同,且每一子训练集中都包含有上述10个论坛不允许使用的词汇。采用这10个分类模型,能够很好地找出含有这10个具有负面影响的词的评论内容,进而将这种含有负面影响词汇的评论内容屏蔽掉,适用于当前论坛环境的净化需求。然而,随着语言形式的多变化、以及各种新的衍生出来的暴力、黄色、谩骂等具有负面影响的词汇的产生,采用这10种分类模型虽然能够查出与之前这10个词汇相关的评论内容,但是可能查不出新的衍生出来的负面影响的词汇,因此,在某一时间段中,即使多数评论内容中出未包含上述10个词,但包含有新的负面影响的词汇,通过这10个分类模型也查不出来,进而导致在该段时间内论坛上呈现出大量新的负面影响的词汇;因此,为了更好地净化论坛中的环境,需要重新将这些新的负面词汇放到负例训练集中,更新子训练集,根据新的子训练集训练新的能够囊括当前所有负面词汇的多个分类模型。

图4示出了一种信息对象识别结果随时间变化的一种示意图,如图4所示,横轴为时间轴,纵轴表示各类信息对象的分类结果个数占总分类结果个数的百 分比;具体的,实线表示p/m的百分比,虚线表示q/m的百分比,在t1~t10时间段内,p/m一般情况下取值范围为(10%,40%),q/m一般情况下取值范围为(60%,90%),均在预设的阈值范围内;而在t8~t9时间段内,p/m的最高值达到80%,相应的,q/m的最低值达到了20%,可见,在t8~t9时间段内,波动范围较大,说明现有的分类模型可能不适用当前待分类的信息对象,需要重新更新用于训练分类模型的训练集并重新训练分类模型。

为了保证各个分类模型当前对待分类的信息对象的分类结果的正确性,除了上述利用已训练的m个不同的分类模型对所述待分类的信息对象进行1次分类情况外,还可以分别利用已训练的m个不同的分类模型对所述待分类的信息对象进行多次分类,以避免偶然事件的发生。

相应地,所述步骤s120包括:

步骤s120a:分别利用已训练的m个不同的分类模型对所述待分类的信息对象进行n次分类;其中,n大于等于2的正整数。

相应地,步骤s130包括:

步骤s130a:统计每一个分类模型对应的n次分类结果;基于所述每一个分类模型对应的n次分类结果,利用剔除异常值方法确定每一分类模型对应的最终分类结果。

举例来说,第一个分类模型对某待分类的信息对象进行了5次分类,其中有1次分类结果为判定所述待分类的信息对象为第一类信息对象,4次判定所述待分类的信息对象为第二类信息对象;因此,利用剔除异常值方法可以判定1次第一类信息对象属于异常值,那么,第一个分类模型对所述某待分类的信息对象的最终分类结果应为属于第二类信息对象。

通常来讲,对于一个已知的分类模型来说,它对同一个待分类的信息对象的分类结果应该是一样的,但是,也有可能出现偶然事件,因此,如果用同一分类模型对同一待分类的信息对象进行多次分类,更能确保同一分类模型对同一待分类的信息对象的分类结果的可信性。

为了更好地说明本发明方法的实现效果,可将本发明的识别方法应用于对各业务领域的业务评论中的无效评论的识别,进行实验。

图5为采用现有方法与本发明方法在业务评论中无效评论识别准确率的对比示意图;其中,无效评论包括广告、无理谩骂、黄色信息等。从图5可以看出,在对6个业务评论领域中识别无效评论时,其中,有4个业务评论领域,采用本发明方法的无效评论识别准确率明显高于采用现有方法的无效评论识别准确率;另外2个业务评论领域,采用本发明方法与采用现有方法,二者的无效评论识别准确率相差无几;综合上述分析,可知,与现有方法相比,采用本发明方法的无效评论识别准确率更高。

实施例二

如图6所示,本实施例提供一种识别装置,所述识别装置包括:

获取单元61,用于获取待分类的信息对象;其中,所述信息对象至少包括用户评论信息;

分类单元62,用于利用已训练的m个不同的分类模型分别对所述待分类的信息对象进行分类;其中,m为大于或等于2的正整数;

统计单元63,用于统计m个所述分类模型中将所述待分类的信息对象分类为第一类信息对象的第一个数信息,及将所述待分类的信息对象分类为第二类信息对象的第二个数信息;

确定单元64,用于基于所述第一个数信息和所述第二个数信息,确定所述待分类的信息对象的最终分类。

上述方案中,所述分类模型可以为svm模型、或贝叶斯模型、或深度学习模型、或神经网络模型,或决策树模型、或knn模型。

在一具体子实施例中,所述确定单元64,还用于:

若第一个数信息p大于第二个数信息q,则判定所述待分类的信息对象为第一类信息对象;

若第一个数信息p小于或等于第二个数信息q,则判定所述待分类的信息对象为第二类信息对象;其中,p+q=m;

或者,

若p≥(m+1)/2,则判定所述待分类的信息对象为第一类信息对象;若q≥(m+1)/2,则判定所述待分类的信息对象为第二类信息对象;

或者,

若当p和q均不为0时,若p/q>1,则判定所述待分类的信息对象为第一类信息对象;若p/q≤1,则判定所述待分类的信息对象为第二类信息对象。

当然,所述确定单元64对所述待分类的信息对象的最终分类进行判断的判断方式并不限于以上列举的这几种方式,在此不再列举。

如此,每个分类模型可以对同一个待分类的信息对象进行类似于投票式的分类,能更直观地得到待分类的信息对象的最终分类。

在另一具体子实施例中,所述确定单元54,还用于:

若第一个数信息p与总个数信息m的比值大于第一阈值,或第二个数信息q与总个数信息m的比值小于第二阈值,则判定所述待分类的信息对象为第一类信息对象;

若第一个数信息p与总个数信息m的比值小于或等于第一阈值,或第二个数信息q与总个数信息m的比值大于或等于第二阈值,则判定所述待分类的信息对象为第二类信息对象;

其中,总个数信息m为第一个数信息p与第二个数信息q之和。

此外,可选地,所述装置还包括:设置单元65,用于:

获取所述用户评论信息的属性信息;所述属性信息至少包括所述用户评论信息针对的评论对象和/或评论对象发布环境信息;

根据属性信息确定第一阈值或第二阈值。

如此,根据用户评论信息的属性信息确定第一阈值或第二阈值,能更方便、更可控的对在不同场合针对不同评论对象的用户评论信息进行自适应管理。

可选地,所述装置还包括:建立单元66,其中,

所述建立单元66,用于:

获取已知的训练集;其中,所述训练集包括正例训练集x和负例训练集y;正例训练集x包括i个正例样本,负例训练集y包括j个负例样本;i>>j≥1;

从所述训练集中分别针对正例训练集x和负例训练集y采用重抽样方法构建m个均衡的子训练集;其中,所述均衡的子训练集是指从所述正例训练集x中抽取的样本数与从所述负例训练集y中抽取的样本数之间的差值符合预设范围的子训练集;

利用m个所述均衡的子训练集训练m个不同的分类模型cm;其中,m=1、…、m。

优选地,所述建立单元66,还用于:

每次从所述正例训练集x中抽取j个样本,并将所抽取的j个样本放回所述正例训练集x中,将每次所抽取的j个样本记为集合{x’(s)},其中,1≤s≤j;共抽取m次;

每次从所述负例训练集y中抽取j个样本,并将所抽取的j个样本放回所述负例训练集y中,将每次所抽取的j个样本记为集合{y’(s)},其中,1≤s≤j;共抽取m次;

将每次从所述正例训练集x中所抽取的j个样本的集合{x’(s)}与每次从所述负例训练集y中所抽取的j个样本的集合{y’(s)}取并集,构建成子训练集;

其中,子训练集表示为({x’(s)}∪{y’(s)})m,其中,m=1、…、m。

如此,通过采用重抽样方法构建多个均衡的子训练集,进而通过多个均衡的子训练集训练多个分类模型,解决了因训练样本有偏和自然语言处理中文本特征的高纬度特性而导致训练后单一模型过拟合现象及无效评论识别准确率低的问题,能提高对信息对象的识别准确率。

此外,可选地,所述装置还包括:控制单元67,用于:

根据第一指定时间内的最终分类结果,确定各个信息对象类别的比值阈值范围;

根据第二指定时间内的最终分类结果,确定第二指定时间内各个信息对象 类别的第一比值;其中,所述第一指定时间的时长大于第二指定时间的时长;

判断所述第一比值是否位于所述比值阈值范围内;

若所述第一比值位于所述比值阈值范围外,则更新用于训练分类模型的训练集并重新训练分类模型。

如此,能够适时地更新用于训练分类模型的训练集,并重新训练分类模型;进而能够提高对信息对象的识别准确率。

本领域技术人员应当理解,本实施例的识别装置中各单元的功能,可参照前述识别方法的相关描述而理解,本实施例的识别装置中各单元,可通过实现本实施例所述的功能的模拟电路而实现,也可以通过执行本实施例所述的功能的软件在智能终端上的运行而实现。

实际应用中,上述获取单元61、分类单元62、统计单元63、确定单元64、设置单元65、建立单元66、控制单元67的具体结构均可对应于处理器。所述处理器具体的结构可以为中央处理器(cpu,centralprocessingunit)、微处理器(mcu,microcontrollerunit)、数字信号处理器(dsp,digitalsignalprocessing)或可编程逻辑器件(plc,programmablelogiccontroller)等具有处理功能的电子元器件或电子元器件的集合。其中,所述处理器包括可执行代码,所述可执行代码存储在存储介质中,所述处理器可以通过总线等通信接口与所述存储介质中相连,在执行具体的各模块的对应功能时,从所述存储介质中读取并运行所述可执行代码。所述存储介质用于存储所述可执行代码的部分优选为非瞬间存储介质。

所述获取单元61、分类单元62、统计单元63、确定单元64、设置单元65、建立单元66、控制单元67可以集成对应于同一处理器,或分别对应不同的处理器;当集成对应于同一处理器时,所述处理器采用时分处理所述获取单元61、分类单元62、统计单元63、确定单元64、设置单元65、建立单元66、控制单元67对应的功能。

本实施例的识别装置,通过采用重抽样方法构建多个均衡的子训练集,进而通过多个均衡的子训练集训练多个分类模型,解决了因训练样本有偏和自然 语言处理中文本特征的高纬度特性而导致训练后单一模型过拟合现象及无效评论识别准确率低的问题,能提高对信息对象的识别准确率。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包 括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1