内容类别检测方法及装置制造方法

文档序号:6631292阅读:119来源:国知局
内容类别检测方法及装置制造方法
【专利摘要】本发明实施例公开了一种内容类别检测方法及装置。所述方法包括:对待检测内容进行特征提取;根据特征提取结果,采用与所述待检测内容相适配的至少两种分类器,对所述待检测内容进行类别检测;根据所述至少两种分类器得到的类别检测结果,确定对应于所述待检测内容的最终类别检测结果。本发明实施例提供的技术方案,能够对所获取内容的类别进行自动检测,缩短检测时间,降低检测成本。
【专利说明】内容类别检测方法及装置

【技术领域】
[0001] 本发明实施例涉及分类识别【技术领域】,尤其涉及一种内容类别检测方法及装置。

【背景技术】
[0002] 随着互联网技术的发展,互联网上的信息每时每刻都在以指数级的速度迅猛的增 力口,人们获取和使用信息的方式也越来越多样和便捷化。但是,互联网在给人们的生活带来 便利的同时,也给人们的生活带来了很多的负面影响。比如,互联网上的一些网站处于盈利 和提高点击率的目的,会将一些不健康的内容展示给用户,从而严重影响了用户的浏览体 验,特别是对于青少年而言,这些内容会对其身心发展产生重要影响。
[0003] 目前,对网站内容(例如色情内容)的鉴别多数是基于人工的判断,这种方法虽然 准确,但是效率低下,且需要耗费大量的人力和物力,根本无法应对当前网站上日益泛滥的 不良内容。


【发明内容】

[0004] 本发明实施例提供一种内容类别检测方法及装置,以能够对所获取内容的类别进 行自动检测,缩短检测时间,降低检测成本。
[0005] 第一方面,本发明实施例提供了一种内容类别检测方法,该方法包括:
[0006] 对待检测内容进行特征提取;
[0007] 根据特征提取结果,采用与所述待检测内容相适配的至少两种分类器,对所述待 检测内容进行类别检测;
[0008] 根据所述至少两种分类器得到的类别检测结果,确定对应于所述待检测内容的最 终类别检测结果。
[0009] 第二方面,本发明实施例还提供了一种内容类别检测装置,该装置包括:
[0010] 内容特征提取单元,用于对待检测内容进行特征提取;
[0011] 内容类别检测单元,用于根据特征提取结果,采用与所述待检测内容相适配的至 少两种分类器,对所述待检测内容进行类别检测;
[0012] 内容检测结果确定单元,用于根据所述至少两种分类器得到的类别检测结果,确 定对应于所述待检测内容的最终类别检测结果。
[0013] 本发明实施例提供的技术方案,利用分类器对待检测内容的特征进行检测,实现 了对待检测内容所属类别的自动识别,相较于人工检测能够大大降低所耗费的人力和物 力,缩短检测时间,降低检测成本;并且,基于多种分类器的类别检测结果来确定对应于待 检测内容的最终类别检测结果,可以有效的保证类别检测结果的正确性,提高检测精度。

【专利附图】

【附图说明】
[0014] 图1是本发明实施例一提供的一种内容类别检测方法的流程示意图;
[0015] 图2是本发明实施例二提供的一种内容类别检测方法的流程示意图;
[0016] 图3是本发明实施例三提供的一种内容类别检测方法的流程示意图;
[0017]图4是本发明实施例四提供的一种内容类别检测装置的结构示意图;
[0018]图5是本发明实施例五提供的一种内容类别检测装置的结构示意图;
[0019] 图6是本发明实施例六提供的一种优选的内容类别检测方法的流程示意图。

【具体实施方式】
[0020] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便 于描述,附图中仅示出了与本发明相关的部分而非全部结构。
[0021] 实施例一:
[0022] 图1是本发明实施例一提供的一种内容类别检测方法的流程示意图,本实施例可 适用于对待检测内容进行类别检测的情况,该方法可以由类别检测装置来执行,所述装置 由软件和/或硬件实现。参见图1,本实施例提供的内容类别检测方法具体包括如下操作:
[0023] 操作110、对待检测内容进行特征提取。
[0024] 在本实施例中,待检测内容可以是预先存储在本地的,或者实时从其他设备获取 得到的文本和/或图片格式的内容。例如,待检测内容为对从互联网中的服务器获取的 HTML (HyperText Mark-up Language,超文本标记语言)页面,进行解析得到的包含有文本 和/或图片格式的网页内容。
[0025] 对于文本格式的内容而言,可基于卡方、文档频率、信息增益、互信息、交叉熵等文 本特征提取算法,对其进行特征提取;对于图片格式的内容而言,可首先对图片内容进行目 标物的识别,之后根据识别结果建立该图片内容的特征向量。其中,所述特征向量可包括目 标物的面积、个数、位置、以及占整个图片区域比例等元素。
[0026] 操作120、根据特征提取结果,采用与待检测内容相适配的至少两种分类器,对待 检测内容进行类别检测。
[0027] 在本实施例中,预先创建有与待检测内容相适配的至少两种分类器,每种分类器 能够独立实现对待检测内容所属类别的检测。具体的,每种分类器可实现对待检测内容进 行至少一种分类的检测,例如检测该待检测内容的类别是属于目标类别,还是不属于目标 类别,或者检测该待检测内容的类别属于多种目标类别中的哪种目标类别。
[0028] 各种分类器的创建过程可具体为:对样本库存储中的大量样本进行训练;根据训 练结果得到属于本分类器的分类模型。分类模型作为分类器的一部分,其输入和输出即为 其相应分类器的输入和输出。其中,样本库中存储的大量样本需包括其类别属于目标类别 的一组样本和其类别不属于目标类别的另一组样本;对样本的训练包括对样本进行特征提 取,该特征提取算法应与上述对待检测内容的特征提取算法相一致。
[0029] 在对待检测内容进行特征提取之后,可将其特征提取结果分别作为所述至少两种 分类器的分类模型的输入,以采用各分类模型分别对特征提取结果进行处理来生成对应于 待检测内容的类别检测结果,并将类别检测结果输出。
[0030] 在本发明实施例中,与待检测内容相适配的至少两种分类器可包括以下分类 器中的至少两种:支持向量机(SVM,Support Vector Machine)分类器、朴素贝叶斯 (Bayes)分类器、K 近邻距离(KNN,k-NearestNeighbor)分类器、决策树(ID3, Iterative Dichotomiser 3)分类器以及逻辑回归(Logistic)分类器。
[0031] 操作130、根据至少两种分类器得到的类别检测结果,确定对应于待检测内容的最 终类别检测结果。
[0032] 在采用不同种分类器分别对待检测内容的类别进行检测后,可基于设定规则,对 所得到的类别检测结果进行处理,以确定对应于待检测内容的最终类别检测结果。具体的 处理过程可以是:统计所得到的所有类别检测结果中各个具有相同类别检测结果的个数; 将个数最大的情况下所对应的相同类别检测结果作为对应于待检测内容的最终类别检测 结果。例如,分别采用了 5种分类器对待检测内容的类别进行检测,其检测结果依次为:待 检测内容属于目标类别、不属于目标类别、属于目标类别、不属于目标类别、属于目标类别, 则处理过程中所得到的统计结果为:检测结果为待检测内容属于目标类别的个数为3,检 测结果为待检测内容不属于目标类别的个数为2,因此对应于待检测内容的最终类别检测 结果为:目标检测内容属于目标类别。
[0033] 当然,其处理过程还可以是其他方式,本实施例对此不作限定。例如,可预先针对 不同的类别检测结果赋予不同的取值,例如赋予类别检测结果是待检测内容属于第1目标 类别的取值为1,类别检测结果是待检测内容属于第2目标类别的取值为2,类别检测结果 既不属于第1目标类别,也不属于第2目标类别的取值为0;然后,将所有类别检测结果对 应的取值进行加权得到一个新的取值,进而根据新的取值确定对应于待检测内容的最终类 别检测结果。其中,任一类别检测结果的取值所对应的权重,可以是预先为得到该类别检测 结果所对应的分类器赋予的权重值。
[0034] 本实施例提供的技术方案,利用分类器对待检测内容的特征进行检测,实现了对 待检测内容所属类别的自动识别,相较于人工检测能够大大降低人力和物力,缩短检测时 间,降低检测成本;并且,基于多种分类器的类别检测结果来确定对应于待检测内容的最终 类别检测结果,可以有效的保证类别检测结果的正确性,提高检测精度。
[0035] 实施例二:
[0036] 图2是本发明实施例二提供的一种内容类别检测方法的流程示意图,本实施例在 上述实施例一的基础上,增加了获取待检测内容的操作,并基于该操作对上述操作110作 进一步优化。参见图2,本实施例提供的内容类别检测方法具体包括如下操作:
[0037] 操作210、根据统一资源定位符获取网页内容,作为待检测内容;
[0038] 操作220、如果网页内容中包含文本内容,则基于文本特征提取算法对文本内容进 行特征提取,并将特征提取结果添加至网页内容的特征集合;
[0039] 操作230、如果网页内容中包含图片内容,则对图片内容进行目标特征识别,根据 目标特征识别结果建立图片内容的特征向量,添加至网页内容的特征集合;
[0040] 操作240、根据网页内容的特征集合,采用与网页内容相适配的至少两种分类器, 对网页内容进行类别检测;
[0041] 操作250、根据至少两种分类器得到的类别检测结果,确定对应于网页内容的最终 类别检测结果。
[0042] 在本实施例中,可基于预先存储的统一资源定位符,向对应的服务器发送资源获 取请求,接收服务器根据该请求返回的HTML页面,并对HTML页面进行解析,以提取其中所 包含的文本内容和图片内容,作为所获取到的网页内容,也即待检测内容。
[0043] 文本特征提取算法可以是卡方、文档频率、信息增益、互信息或者交叉熵等;目标 特征与待检测内容所适配的分类器要检测的类别相关联,例如分类器要检测网页内容是否 属于黄色不良内容类别的情况下,目标特征可以是肤色特征。
[0044] 如果网页内容同时包含文本内容和图片内容,可将文本内容的特征提取结果以及 图片内容的特征向量一并作为对待检测内容的特征提取结果,来进行后续类别的检测。当 然,为节约类别检测的成本及所耗费的时间,也可先对待检测内容的主要内容进行确定,以 判断其是文本内容,还是图片内容,之后仅将所确定的主要内容的特征提取结果作为对待 检测内容的特征提取结果,来进行后续类别的检测。
[0045] 针对类别检测方法是用于检测网页内容是否属于黄色不良内容这一类别的特定 应用场景,在本实施例的一种【具体实施方式】中,文本特征提取算法优选为卡方算法;对图片 内容进行目标特征识别,根据目标特征识别结果建立图片内容的特征向量,包括:
[0046] 采用统计直方图模型对图片内容进行肤色检测;
[0047] 根据肤色检测结果建立图片内容的特征向量,其中特征向量是由以下元素中的至 少一个所构成的向量:
[0048] 肤色连通区域个数、肤色区域占整个图片区域的比例、肤色区域占肤色外接矩形 的比例、最大肤色连通区域占整个图片区域的比例、最大肤色连通区域占肤色外接矩形的 比例和图片中心区域肤色比例。
[0049] 在此【具体实施方式】中,对图片内容进行肤色检测,可以是识别图片中所包含的肤 色区域信息,该信息可包括肤色区域的个数、大小、位置和形状,据此可以确定上述向量中 的任一元素。其中,图片中心区域肤色比例指的是:图片的设定中心区域内所包含的肤色区 域占该中心区域的比例。
[0050] 本实施例的技术方案,利用不同种分类器对网页内容的特征进行检测,实现了对 网页内容所属类别的自动识别,特别是,能够自动的从大量的网页内容中检测出属于黄色 不良类别的内容。相较于人工检测,本实施例可以大大降低其所耗费的人力和物力,缩短检 测时间,降低检测成本。
[0051] 实施例三:
[0052] 图3是本发明实施例三提供的一种内容类别检测方法的流程示意图,本实施例在 上述各实施例的基础上,对"根据至少两种分类器得到的类别检测结果,确定对应于网页内 容的最终类别检测结果"的操作作进一步的优化,并相应增加了优化分类器及其投票权重 的操作。参见图3,本实施例提供的内容类别检测方法具体包括如下操作:
[0053] 操作310、对待检测内容进行特征提取;
[0054] 操作320、根据特征提取结果,采用与待检测内容相适配的至少两种分类器,对待 检测内容进行类别检测;
[0055] 操作330、根据如下公式的计算结果,确定对应于待检测内容的最终类别检测结 果:

【权利要求】
1. 一种内容类别检测方法,其特征在于,包括: 对待检测内容进行特征提取; 根据特征提取结果,采用与所述待检测内容相适配的至少两种分类器,对所述待检测 内容进行类别检测; 根据所述至少两种分类器得到的类别检测结果,确定对应于所述待检测内容的最终类 别检测结果。
2. 根据权利要求1所述的类别检测方法,其特征在于,在对待检测内容进行特征提取 之前,还包括:根据统一资源定位符获取网页内容,作为待检测内容; 对待检测内容进行特征提取,包括: 如果所述网页内容中包含文本内容,则基于文本特征提取算法对所述文本内容进行特 征提取,并将特征提取结果添加至网页内容的特征集合; 如果所述网页内容中包含图片内容,则对所述图片内容进行目标特征识别,根据目标 特征识别结果建立所述图片内容的特征向量,添加至所述网页内容的特征集合。
3. 根据权利要求2所述的类别检测方法,其特征在于,所述文本特征提取算法为卡方 算法; 对所述图片内容进行目标特征识别,根据目标特征识别结果建立所述图片内容的特征 向量,包括: 采用统计直方图模型对所述图片内容进行肤色检测; 根据肤色检测结果建立所述图片内容的特征向量,其中所述特征向量是由以下元素中 的至少一个所构成的向量: 肤色连通区域个数、肤色区域占整个图片区域的比例、肤色区域占肤色外接矩形的比 例、最大肤色连通区域占整个图片区域的比例、最大肤色连通区域占肤色外接矩形的比例 和图片中心区域肤色比例。
4. 根据权利要求1-3中任一项所述的类别检测方法,其特征在于,所述至少两种分类 器包括以下分类器中的至少两种: 支持向量机分类器、朴素贝叶斯分类器、K近邻距离分类器、决策树分类器以及逻辑回 归分类器。
5. 根据权利要求1-3中任一项所述的类别检测方法,其特征在于,根据所述至少两种 分类器得到的类别检测结果,确定对应于所述待检测内容的最终类别检测结果,包括: 根据如下公式的计算结果,确定对应于所述待检测内容的最终类别检测结果:
其中,i为整数;η为所述至少两种分类器的总个数;mi为所述至少两种分类器中第i个 分类器的类别检测结果,取值为1或〇,〇代表所述待检测内容的类别为非目标类别,1代表 所述待检测内容的类别为目标类别;Wi为所述第i种分类器的投票权重;σ为设定阈值;r =1表示所述待检测内容的最终类别检测结果是所述目标类别,r = O表示所述待检测内 容的最终类别检测结果不是所述目标类别。
6. 根据权利要求5所述的类别检测方法,其特征在于,在根据所述至少两种分类器得 到的类别检测结果,确定对应于所述待检测内容的最终类别检测结果之后,还包括: 将得到的对应于所述待检测内容的最终类别检测结果,与所述至少两种分类器得到的 类别检测结果进行比较,以判断所述至少两种分类器中的分类器是否产生了正确的类别检 测结果,并对比较结果进行存储; 每隔设定的第一周期,根据所存储的比较结果计算一次所述至少两种分类器中的分类 器的检出率,其中所述至少两种分类器中第i种分类器的检出率为:在当前第一周期内第 i种分类器产生的正确的类别检测结果的个数与当前第一周期内第i种分类器产生的所有 类别检测结果的个数的比值。
7. 根据权利要求6所述的类别检测方法,其特征在于,在计算得到一次所述至少两种 分类器中的分类器的检出率之后,还包括:按照如下公式更新一次所述至少两种分类器中 的分类器的投票权重:
其中,%为本次计算得到的第i种分类器的检出率;Wi'为本次更新后的第i种分类器 的投票权重。
8. 根据权利要求6所述的类别检测方法,其特征在于,还包括: 将所述至少两种分类器中的检出率在连续N个第一周期内均小于淘汰阈值的分类器 进行移除,以重新确定与所述待检测内容相适配的分类器,其中所述N为大于1的整数。
9. 根据权利要求6所述的类别检测方法,其特征在于,所述至少两种分类器中的分类 器包括存储有初始样本的样本库,以及对所述样本库进行训练得到的用于对所述待检测内 容进行类别检测的分类模型; 在将得到的对应于所述待检测内容的最终类别检测结果,与所述至少两种分类器得到 的类别检测结果进行比较之后,还包括:如果所述至少两种分类器中的分类器产生了错误 的类别检测结果,则将所述待检测内容作为反馈样本,加入产生了错误的类别检测结果的 分类器的样本库中; 每隔设定的第二周期,训练一次在当前第二周期内产生了错误的类别检测结果的分类 器样本库,根据本次训练结果修正所述产生了错误的类别检测结果的分类器的分类模型, 以对所述产生了错误的类别检测结果的分类器进行更新。
10. -种内容类别检测装置,其特征在于,包括: 内容特征提取单元,用于对待检测内容进行特征提取; 内容类别检测单元,用于根据特征提取结果,采用与所述待检测内容相适配的至少两 种分类器,对所述待检测内容进行类别检测; 内容检测结果确定单元,用于根据所述至少两种分类器得到的类别检测结果,确定对 应于所述待检测内容的最终类别检测结果。
11. 根据权利要求10所述的类别检测装置,其特征在于,还包括: 内容获取单元,在所述内容特征提取单元对待检测内容进行特征提取之前,用于根据 统一资源定位符获取网页内容,作为待检测内容; 所述内容特征提取单元,包括: 文本特征提取子单元,用于如果所述网页内容中包含文本内容,则基于文本特征提取 算法对所述文本内容进行特征提取,并将特征提取结果添加至网页内容的特征集合; 图片特征提取子单元,用于如果所述网页内容中包含图片内容,则对所述图片内容进 行目标特征识别,根据目标特征识别结果建立所述图片内容的特征向量,添加至所述网页 内容的特征集合。
12. 根据权利要求11所述的类别检测装置,其特征在于,所述文本特征提取算法为卡 方算法; 所述图片特征提取子单元,具体用于: 采用统计直方图模型对所述图片内容进行肤色检测; 根据肤色检测结果建立所述图片内容的特征向量,其中所述特征向量是由以下元素中 的至少一个所构成的向量: 肤色连通区域个数、肤色区域占整个图片区域的比例、肤色区域占肤色外接矩形的比 例、最大肤色连通区域占整个图片区域的比例、最大肤色连通区域占肤色外接矩形的比例 和图片中心区域肤色比例。
13. 根据权利要求10-12中任一项所述的类别检测装置,其特征在于,所述至少两种分 类器包括以下分类器中的至少两种: 支持向量机分类器、朴素贝叶斯分类器、K近邻距离分类器、决策树分类器以及逻辑回 归分类器。
14. 根据权利要求10-12中任一项所述的类别检测装置,其特征在于,所述内容检测结 果确定单元,具体用于: 根据如下公式的计算结果,确定对应于所述待检测内容的最终类别检测结果:
其中,i为整数;η为所述至少两种分类器的总个数;mi为所述至少两种分类器中第i个 分类器的类别检测结果,取值为1或〇,〇代表所述待检测内容的类别为非目标类别,1代表 所述待检测内容的类别为目标类别;Wi为所述第i种分类器的投票权重;σ为设定阈值;r =1表示所述待检测内容的最终类别检测结果是所述目标类别,r = 0表示所述待检测内 容的最终类别检测结果不是所述目标类别。
15. 根据权利要求14所述的类别检测装置,其特征在于,还包括: 分类器检出结果判断单元,用于在所述内容检测结果确定单元根据所述至少两种分类 器得到的类别检测结果,确定对应于所述待检测内容的最终类别检测结果之后,将得到的 对应于所述待检测内容的最终类别检测结果,与所述至少两种分类器得到的类别检测结果 进行比较,以判断所述至少两种分类器中的分类器是否产生了正确的类别检测结果,并对 比较结果进行存储; 分类器检出率计算单元,用于每隔设定的第一周期,根据所述分类器检出结果判断单 元存储的比较结果计算一次所述至少两种分类器中的分类器的检出率,其中所述至少两种 分类器中第i种分类器的检出率为:在当前第一周期内第i种分类器产生的正确的类别检 测结果的个数与当前第一周期内第i种分类器产生的所有类别检测结果的个数的比值。
16. 根据权利要求15所述的类别检测装置,其特征在于,还包括: 分类器投票权重更新单元,用于在所述分类器检出率计算单元计算得到一次所述至少 两种分类器中的分类器的检出率之后,按照如下公式更新一次所述至少两种分类器中的分 类器的投票权重:
其中,%为本次计算得到的第i种分类器的检出率;Wi'为本次更新后的第i种分类器 的投票权重。
17. 根据权利要求15所述的类别检测装置,其特征在于,还包括: 分类器淘汰单元,用于将所述至少两种分类器中的检出率在连续N个第一周期内均小 于淘汰阈值的分类器进行移除,以重新确定与所述待检测内容相适配的分类器,其中所述N 为大于1的整数。
18. 根据权利要求15所述的类别检测装置,其特征在于,所述至少两种分类器中的分 类器包括存储有初始样本的样本库,以及对所述样本库进行训练得到的用于对所述待检测 内容进行类别检测的分类模型; 所述装置还包括: 反馈样本添加单元,用于在所述分类器检出结果判断单元将得到的对应于所述待检测 内容的最终类别检测结果,与所述至少两种分类器得到的类别检测结果进行比较之后,如 果所述至少两种分类器中的分类器产生了错误的类别检测结果,则将所述待检测内容作为 反馈样本,加入产生了错误的类别检测结果的分类器的样本库中; 分类器修正单元,用于每隔设定的第二周期,训练一次在当前第二周期内产生了错误 的类别检测结果的分类器样本库,根据本次训练结果修正所述产生了错误的类别检测结果 的分类器的分类模型,以对所述产生了错误的类别检测结果的分类器进行更新。
【文档编号】G06F17/30GK104391860SQ201410569492
【公开日】2015年3月4日 申请日期:2014年10月22日 优先权日:2014年10月22日
【发明者】唐呈光, 张兵, 杨念, 耿志峰 申请人:安一恒通(北京)科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1