一种基于相对熵进行特征选择的分类引擎的制作方法

文档序号:6447051阅读:378来源:国知局
专利名称:一种基于相对熵进行特征选择的分类引擎的制作方法
技术领域
本实用新型涉及网站自然语言处理领域,尤其是涉及一种基于相对熵进行特征选择的分类引擎。
背景技术
随着互联网的飞速发展,互联网上的Web资源也在急剧的膨胀,而这些Web资源中蕴含着大量对人们具有潜在价值的信息,这些信息在互联网上是处于杂乱无序的状态,因此如何快速、准确、全面地查找这些信息是信息检索系统所需要解决的一个问题。文本分类作为信息检索系统的重要组成部分,可以在很大程度上解决互联网上信息杂乱无序的现象,方便人们准确定位所需的信息。文本分类技术所面临的首要问题是文本表示,而特征选择又是文本表示的关键,进行特征选择主要有两个作用,一是只保留那些对分类有意义的特征,提高文本分类的精度;二是降低特征维数,提高计算效率。近年来,信息检索系统中在分类引擎中使用较多的特征选择方法有文档频率法、信息增益法、互信息法、X2统计量法等。但是,使用上述特征选择方法的分类引擎在实际使用中具有如下缺陷不能有效选取对分类最有贡献的特征项,导致分类准确率低;不能有效降低特征的维度,导致分类速度慢。

实用新型内容针对上述缺陷,本实用新型实施例的目的在于提供一种基于相对熵进行特征选择的分类引擎,用于有效选取特征项,提高分类准确率,提高分类速度。本实用新型实施例提出了一种基于相对熵进行特征选择的分类引擎,包括网页解析单元、特征选择单元、训练单元和分类单元,所述网页解析单元包括htel Xeon Processor x5630 和 IBM TotalStorage DS3400 1726-41X 的磁盘阵列;所述特征选择单元包括美国TI公司的TMS320C2XX系列芯片以及IBM TotalStorage DS3400 1726-41X 的磁盘阵列;所述训练单元包括AT&T公司的DSP32/32C芯片以及IBM TotalStorage DS3400 1726-41X的磁盘阵列;所述分类单元包括Zoran公司的ZR34881芯片以及IBM TotalStorage DS34001726-41X的磁盘阵列;所述特征选择单元分别和所述网页解析单元及所述训练单元相连,所述分类单元分别所述训练单元及所述网页解析单元相连。本实用新型实施例提供的基于相对熵进行特征选择的分类引擎,可以有效选取特征项,提高分类准确率,并且可以有效降低特征的维度,提高分类速度。

为了更清楚地说明本实用新型实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的一种基于相对熵进行特征选择的分类引擎的结构示意图;图2为本发明实施例提供的另一种基于相对熵进行特征选择的分类引擎的结构示意图3为本发明实施例提供的另一种基于相对熵进行特征选择的分类引擎的结构示意图。
具体实施方式
为了使本实用新型的目的、技术方案和优点更加清楚明白,下面结合具体实施方式
和附图,对本实用新型做进一步详细说明。在此,本实用新型的示意性实施方式及其说明用于解释本实用新型,但并不作为对本实用新型的限定。如图1所示为本发明实施例一提供的一种基于相对熵进行特征选择的分类引擎的结构示意图,该分类引擎可应用于信息检索系统或者搜索引擎之中,该分类引擎包括网页解析单元110、特征选择单元120、训练单元130和分类单元140,其中,特征选择单元120分别和网页解析单元110及训练单元130 相连,分类单元140分别训练单元130及网页解析单元110相连。网页解析单元110用于对网页进行解析,提取网页中的标题和正文作为现有文本或新的文本,并输出现有文本至特征选择单元120,输出新的文本至分类单元140。在本发明实施例中,现有文本来源于对现有网页的解析,而新的文本来源于对新加入网页的解析, 本发明实施例是以现有网页作为分类基础,然后快速的对新加入的网页进行分类。特征选择单元120用于基于相对熵从所有现有文本中选取对预置的第一分类贡献大而对预置分类中除所述第一分类外的其它分类贡献小的词作为特征项,并将该特征项输出给训练单元130。相对熵在自然语言处理中是用来衡量几篇文章的内容是否相近的一个概念。在本实施例中,对所有的现有文本已经预置好分类,该预置分类的步骤可以通过人工进行,也可以是沿用先前的某种分类。作为本实用新型的一个实施例,特征选择单元120具体可以用于对现有文本进行分词得到至少一个词,并去除停用词,在本实施例中对于停用词是有标准进行规范的,当然,停用词也可以由用户进行自由指定;然后将所有现有文本作为一个整体,计算每个词的IDF值,取IDF值最小的m个词,m为大于0的整数,这里的IDF是指,如果包该词的文本越少,则IDF值越大,说明该词具有很好的区分能力,适合作为特征项,因此,在本发明实施例中所取得的m个词在所有现有文本中的类别区分能力很差,不适合作为所有现有文本的特征项;然后再将现有文本中预置的每个类别的文本作为一个整体,计算每个词的IDF 值,取IDF值最大的η个词,η为大于0的整数,在本发明实施例中所取得的η个词在某个类别文本中的区分能力较好,适合作为该类文档的特征项;最后再分别判断上述η个词中每个词是否在m个词中,如果在,则该词不能作为特征项。在本实施例中,如果上述η个词中的某个词在m个词中,则说明该词虽然在该类文本中的区分能力较好,但是在所有文本中的区分能力很差,因此该词不适合作为特征项;相反,如果上述η个词中的某个词不在m个词中,则说明该词不但在该类文本中的区分能力较好,且在所有文本中的区分能力也不错,因此该词可以作为特征项。训练单元130用于根据所述特征项及分类算法对现有文本进行训练,获得分类模型,并将分类模型输出给分类单元140。作为本实用新型的一个实施例,训练单元130具体可以用于根据特征项,禾Ij用词频-反文档频率(term frequency-inverse docume nt frequency, TF-IDF)公式将现有文本映射成文本向量;将文本向量离散化;利用分类算法对所述现有文本进行训练,获得分类模型,所述分类模型的分类基础为所述文本向量。在本实施例中,该分类算法比如可以利用决策树算法、支持向量机算法、神经网络算法、贝叶斯算法或K最近邻算法。分类单元140用于利用训练单元130得到的分类模型对新的文本进行分类。在本实施例中,网页解析单元110的功能具体可以利用htel Xeon Proce ssor x5630 配合 IBM TotalStorage DS3400的磁盘阵列来实现,其中 htel Xeon Processor x5630 可以完成网页解析及提取功能,而 IBM TotalStorage DS3400 1726-41X 可以存储网页内容;特征选择单元120的功能具体可以通过伪静态DSP芯片以及存储单元来实现,伪静态DSP芯片比如选用美国TI公司的TMS320C2XX系列芯片,存储单元比如选用IBM TotalStorage DS340017^_41X的磁盘阵列,用来存储现有文本及特征项;训练单元 130的功能具体可以通过一致性DSP芯片以及存储单元来实现,一致性DSP芯片比如可以选用 AT&T 公司的 DSP32/32C,存储单元比如选用 IBM Total Storage DS3400 1726-41X ^ 磁盘阵列,用来存储特征项、现有文本及分类模型;分类单元140的功能具体可以通过一些专用DSP芯片及存储单元来实现,这些芯片是为特定的DSP运算而设计的,具有更适合特殊的运算,如数字滤波、卷积和FFT等功能,具体来说,分类单元140比如可以选用Zoran公司的S 4881芯片来实现;存储单元比如选用IBM TotalStorage DS3400的磁盘阵列,用来存储分类结果。需要指出的是,上述每个单元具体实现时可以分别配备存储单元(如图2所示), 同时也可以共用一个存储单元(如图3所示)。本实用新型实施例提供的基于相对熵进行特征选择的分类引擎,可以有效去除对本分类无用的特征项,智能选取特征项,提高分类准确率,并且可以有效降低特征的维度, 提高分类速度。以上所述的具体实施方式
,对本实用新型的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本实用新型的具体实施方式
而已,并不用于限定本实用新型的保护范围,凡在本实用新型的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本实用新型的保护范围之内。
权利要求1. 一种基于相对熵进行特征选择的分类引擎,其特征在于,包括网页解析单元、特征选择单元、训练单元和分类单元,所述网页解析单元包括htelXeon Processor x5630和 IBM TotalStorage DS3400的磁盘阵列;所述特征选择单元包括美国TI公司的TMS320C2XX系列芯片以及IBMTotalMorage DS3400的磁盘阵列;所述训练单元包括AT&T公司的DSP32/32C芯片以及IBM TotalStorage DS3400的磁盘阵列;所述分类单元包括hran公司的ZR34881芯片以及IBM TotalStorage DS3400 1726-41X 的磁盘阵列;所述特征选择单元分别和所述网页解析单元及所述训练单元相连,所述分类单元分别所述训练单元及所述网页解析单元相连。
专利摘要本实用新型提供了一种基于相对熵进行特征选择的分类引擎,包括网页解析单元、特征选择单元、训练单元和分类单元,所述网页解析单元包括Intel Xeon Processor x5630和IBM TotalStorage DS34001726-41X的磁盘阵列;所述特征选择单元包括美国TI公司的TMS320C2XX系列芯片以及IBM TotalStorage DS3400 1726-41X的磁盘阵列;所述训练单元包括AT&T公司的DSP32/32C芯片以及IBM TotalStorage DS3400 1726-41X的磁盘阵列;所述分类单元包括Zoran公司的ZR34881芯片以及IBM TotalStorage DS3400 1726-41X的磁盘阵列;所述特征选择单元分别和所述网页解析单元及所述训练单元相连,所述分类单元分别所述训练单元及所述网页解析单元相连。
文档编号G06F17/30GK202142058SQ20112011956
公开日2012年2月8日 申请日期2011年4月21日 优先权日2010年5月24日
发明者张成锁 申请人:北京康凯信息咨询有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1