文本分类方法和装置及文本分类的特征处理方法和装置的制作方法

文档序号:6364797阅读:141来源:国知局
专利名称:文本分类方法和装置及文本分类的特征处理方法和装置的制作方法
技术领域
本申请涉及数据处理领域,具体而言,涉及一种文本分类方法和装置及文本分类的特征处理方法和装置。
背景技术
机器学习算法依靠提取有效的特征数据才能得到的一个好的学习效果,如何提取有效特征及避免噪音特征的干扰是提高机器学习效果的重要途径。目前,在获取机器学习的学习特征时,常常将所有词作为特征,使得特征库庞大,从而在机器学习时占用内存巨大,而且夹杂很多噪音特征,文本分类效果差。为了去除噪音特征,将停用词删除后的词作为特征,但是只能够在一定程度消除噪音特征,并且特征库仍然较大,从而在机器学习时占用内存仍然较大,由于噪音特征流入,文本分类效果没有得到较大的改善。针对相关技术中文本分类的特征库大,导致机器学习时占用内存大的问题,目前尚未提出有效的解决方案。

发明内容
本申请的主要目的在于提供一种文本分类方法和装置及文本分类的特征处理方法和装置,以解决文本分类的特征库大,导致机器学习时占用内存大的问题。为了实现上述目的,根据本申请的一个方面,提供了一种文本分类的特征处理方法。根据本申请的文本分类的特征处理方法包括:获取用于文本分类的学习资料的特征集合,其中,特征集合包括多 个特征词;计算每个特征词在所有分类类别中的信息增益值之和;以及提取特征集合中预定数量的特征词作为用于文本分类的学习特征,以使用于文本分类的学习特征为特征集合中除去停用词后的剩余特征词中的部分特征词,其中,提取到的特征词对应的信息增益值之和大于未提取的特征词对应的信息增益值之和。为了实现上述目的,根据本申请的另一方面,提供了一种文本分类方法。根据本申请的文本分类方法包括:采用本申请提供的任意一种文本分类的特征处理方法进行特征提取,得到用于文本分类的学习特征;对学习特征进行训练,得到分类模型;以及采用分类模型对待分类文本进行文本分类。为了实现上述目的,根据本申请的又一方面,提供了一种文本分类的特征处理装置。根据本申请的文本分类的特征处理装置用于执行本申请提出的任意一种文本分类的特征处理方法。为了实现上述目的,根据本申请的又一方面,提供了一种文本分类的特征处理装置。根据本申请的文本分类的特征处理装置包括:获取模块,用于获取用于文本分类的学习资料的特征集合,其中,特征集合包括多个特征词;计算模块,用于计算每个特征词在所有分类类别中的信息增益值之和;以及提取模块,用于提取特征集合中预订数量的特征词作为用于文本分类的学习特征,以使用于文本分类的学习特征为特征集合中除去停用词后的剩余特征词中的部分特征词,其中,提取到的特征词对应的信息增益值之和大于未提取的特征词对应的信息增益值之和。为了实现上述目的,根据本申请的又一方面,提供了一种文本分类装置。根据本申请的文本分类装置用于执行本申请提出的任意一种文本分类方法。为了实现上述目的,根据本申请的又一方面,提供了一种文本分类装置。根据本申请的文本分类装置包括:本申请提供的任意一种文本分类的特征处理装置,用于特征提取,得到用于文本分类的学习特征;训练模块,用于对学习特征进行训练,得到分类模型;以及分类模块,用于采用分类模型对待分类文本进行文本分类。通过本申请,采用本申请提供的文本分类的特征处理方法,按照信息增益值之和大小,提取预定数量的部分特征词作为文本分类的学习特征,将整个特征集合中去除停用词后的剩余特征词中的部分特征词组成特征库,缩小了特征库,减小了占用内存。进一步地,由于特征集合中的噪声词对应的信息增益值之和小于非噪声词对应的信息增益值之和,因此,只要采用特征集合中信息增益值之和较大的部分特征词作为特征库,便能够去除非停用词中的部分或全部噪声词,从而使得文本分类的学习特征中不包含或包含较少噪声词,提高了文本训练的效果,使得采用该特征处理方法进行特征提取的文本分类方法的分类精度更高,解决了现有技术中文本分类的特征库大,导致机器学习时占用内存大的问题,进而达到减小文本分类的特征库,减小机器学习时占用内存的效果。


为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:图1是根据本申请实施例的文本分类装置的框
图2是根据本申请第一实施例的文本分类的特征处理装置的框图;图3是根据本申请第二实施例的文本分类的特征处理装置的框图;图4是根据本申请实施例的文本分类方法的流程图;图5是根据本申请第一实施例的文本分类的特征处理方法的流程图;以及图6是根据本申请第二实施例的文本分类的特征处理方法的流程图。
具体实施例方式为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请保护的范围。首先,对本申请实施例的一种文本分类装置进行说明,如图1所示,该文本分类装置包括:特征处理装置20,训练模块40和分类模块60。在文本分类的机器学习任务之前,必须要有一定量的学习资料提供给机器,这里的机器指一种能够按照程序运行,自动、高速处理海量数据的现代化智能电子设备。比如说我们常见的PC,服务器等。所谓学习资料,可以是指经过人工标注类别的文本资料。这些文本一般来自我们实际使用的环境。以对图书馆的图书进行分门别类为例,需要随机抽取涵盖所有类别图书,通过人工先标注这些图书的类别,这部分标注好的书籍就可以作为机器学习的资料了。获取到学习资料后,特征处理装置20用于对这些学习资料进行特征提取,得到用于文本分类的学习特征。本实施例的特征处理装置20与现有技术不同,不是直接将对学习资料进行分词得到特征词去掉停用词后作为文本分类的学习特征,而是将由学习资料分词得到的特征词进行选取,选取部分特征词作为文本分类的学习特征。其中,选取的判断条件为特征词在所有分类类别中的信息增益值之和的大小,将较大的信息增益值之和对应的特征词作为用于文本分类的学习特征,其中,用于文本分类的学习特征为去掉停用词后的剩余特征词中的部分特征词,提取到的特征词对应的信息增益值之和均大于未提取的特征词对应的信息增益值之和。其中,停用词可以是电脑检索用的虚字,即非检索用词,例如,中文中的“的”、“了”等词,英文中的“a”、“of”等词。停用词对文本分类没有特别贡献,因为几乎所有的文本中都会出现该类词,不具有显著的区分性。训练模块40用于对特征处理装置20提取到的学习特征进行训练,得到分类模型,该处的训练模块40用于完成机器学习过程,训练时可以采用任意的模式识别方法,例如支持向量机,神经网络等。在通过训练模块40得到文本分类的分类模型后,分类模块60用于采用分类模型对待分类文本进行文本分类。机器可以通过对部分作为学习资料的图书进行学习,得到图书分类的分类模型后,便可实现其他的图书的分类。在本申请技术方案中,特征处理装置20提取预定数量的、较大的信息增益值之和对应的特征词作为文本分类的学习特征,训练模块40对该学习特征进行训练,得到分类模型,分类模块60采用该分类模型对待分类文本进行文本分类。应用本申请技·术方案,在文本分类时,特征处理装置20提取预定数量的特征词组成特征库,采用合适大小的预订数量,使特征库在去除停用词的基础上进一步缩小,从而减小了训练模块40学习时的占用内存。进一步地,特征处理装置20能够实现提取包含较少或不包含噪声词的学习特征,从而能够提高训练模块40的训练精度,进而使得分类模块60的分类精度提闻。其次,对本申请实施例的一种文本分类的特征处理装置进行说明,如图2所示,该文本分类的特征处理装置包括:获取模块22,计算模块24和提取模块26。获取模块22用于获取用于文本分类的学习资料的特征集合,其中,特征集合包括多个特征词,获取模块22可直接接收用户输入的特征集合,也可接收用户输入的学习资料,对学习资料进行分词得到特征词。计算模块24用于计算每个特征词在所有文本类别中的信息增益值之和。其中,信息增益值是指期望信息或者信息熵的有效减少量(通常用“字节”衡量),根据它能够确定在什么样的层次上选择什么样的变量来分类。信息增益值用来表示一个特征词对该类别带来的信息量,信息增益值越大越表示该特征词对于该类别越好,也即该特征词越归属于该类别,从而采用该特征词进行分类时,分类的准确性越高,具体地,可采用如下的方法计算一个特征词在所有分类类别中的信息增益值之和:假设特征为t,类别为Cl Cn,则特征t的信息增益之和为:
权利要求
1.一种文本分类的特征处理方法,其特征在于,包括: 获取用于文本分类的学习资料的特征集合,其中,所述特征集合包括多个特征词; 计算每个特征词在所有分类类别中的信息增益值之和;以及 提取所述特征集合中预定数量的特征词作为用于文本分类的学习特征,以使所述用于文本分类的学习特征为所述特征集合中除去停用词后的剩余特征词中的部分特征词,其中,提取到的特征词对应的信息增益值之和大于未提取的特征词对应的信息增益值之和。
2.根据权利要求1所述的文本分类的特征处理方法,其特征在于, 在获取所述多个特征词之后,所述方法还包括:去除所述多个特征词中的停用词, 其中,计算每个特征词在所有分类类别中的信息增益值之和的步骤包括:计算去除停用词后的每个特征词在所有分类类别中的信息增益值之和。
3.根据权利要求1所述的文本分类的特征处理方法,其特征在于,获取文本分类的学习资料的特征集合的步骤包括: 获取用于文本分类的学习资料; 对所述用于文本分类的学习资料进行分词处理,得到多个特征词;以及 统计所述多个特征词,得到用于文本分类的学习资料的特征集合。
4.根据权利要求1至3中任一项所述的文本分类的特征处理方法,其特征在于,提取所述特征集合中 预定数量的特征词作为用于文本分类的学习特征的步骤包括: 按照信息增益值之和的大小对所述特征集合中的特征词进行排序;以及按照信息增益值之和的大小顺序,提取所述特征集合中预设百分比数量的特征词作为用于文本分类的学习特征。
5.根据权利要求1至3中任一项所述的文本分类的特征处理方法,其特征在于,提取所述特征集合中预定数量的特征词作为用于文本分类的学习特征的步骤包括: 判断所述每个特征词对应的信息增益值之和是否大于预设值;以及提取所述特征集合中信息增益值之和大于所述预设值的特征词作为用于文本分类的学习特征。
6.一种文本分类方法,其特征在于,包括: 采用权利要求1至5中任一项所述的文本分类的特征处理方法进行特征提取,得到用于文本分类的学习特征; 对所述学习特征进行训练,得到分类模型;以及 采用所述分类模型对待分类文本进行文本分类。
7.一种文本分类的特征处理装置,其特征在于,包括: 获取模块,用于获取用于文本分类的学习资料的特征集合,其中,所述特征集合包括多个特征词; 计算模块,用于计算每个特征词在所有分类类别中的信息增益值之和;以及提取模块,用于提取所述特征集合中预定数量的特征词作为用于文本分类的学习特征,以使所述用于文本分类的学习特征为所述特征集合中除去停用词后的剩余特征词中的部分特征词,其中,提取到的特征词对应的信息增益值之和大于未提取的特征词对应的信息增益值之和。
8.根据权利要求7所述的文本分类的特征处理装置,其特征在于,所述获取模块还包括:筛选子模块,用于在获取所述多个特征词后,去除所述多个特征词中的停用词, 其中,所述计算模块用于计算去除停用词后的每个特征词在所有分类类别中的信息增益值之和。
9.根据权利要求7所述的文本分类的特征处理装置,其特征在于,所述获取模块包括: 获取子模块,用于获取用于文本分类的学习资料; 分词子模块,用于对所述用于文本分类的学习资料进行分词处理,得到多个特征词;以及 统计子模块,用于统计所述多个特征词,得到用于文本分类的学习资料的特征集合。
10.一种文本分类装置,其特征在于,包括: 权利要求7至9中任一项所述的文本分类的特征处理装置,用于特征提取,得到用于文本分类的学习特征 ; 训练模块,用于对所述学习特征进行训练,得到分类模型;以及 分类模块,用于采用所述分类模型对待分类文本进行文本分类。
全文摘要
本申请公开了一种文本分类方法和装置及文本分类的特征处理方法和装置。该文本分类的特征处理方法包括获取用于文本分类的学习资料的特征集合;计算每个特征词在所有分类类别中的信息增益值之和;以及提取特征集合中预定数量的特征词作为用于文本分类的学习特征,以使用于文本分类的学习特征为特征集合中除去停用词后的剩余特征词中的部分特征词,其中,提取到的特征词对应的信息增益值之和大于未提取的特征词对应的信息增益值之和。应用本申请方案,在文本分类的特征提取时,能够有效地避免将噪声特征纳入机器学习流程,提高了文本分类的精度,同时极大地缩减了特征库规模,降低了内存占用。
文档编号G06F17/30GK103246686SQ201210033208
公开日2013年8月14日 申请日期2012年2月14日 优先权日2012年2月14日
发明者许文奇 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1