一种文档分类的方法及装置的制造方法

文档序号:9865655阅读:264来源:国知局
一种文档分类的方法及装置的制造方法
【技术领域】
[0001 ]本发明涉及计算机技术领域,特别涉及一种文档分类的方法及装置。
【背景技术】
[0002]随着可续技术的发展,自然语言处理技术得到了前所未有的重视和长足的进展,并已发展成为一门相对独立的学科,备受关注,而如今随着互联网+、大数据等热门理念和技术的备受瞩目,各行业对网络上网页文本数据的充分利用正在展开各种尝试,而自然语言处理技术则是在这些网页文本处理和分析、利用的任务中充当主力军作用。
[0003]现有技术中,对网页文本数据的处理主要基于预先设定固定的分类方法,该分类方法的难以根据用户的需求进行调整。举例来说,分类结果的准确率难以满足用户的需求,但是,用户也很难对分类方法进行调整,已到达用户的准确率要求。通过上述描述可见,现有技术中的分类方法不够灵活。

【发明内容】

[0004]本发明提供了一种文档分类的方法及装置,能够更加灵活地进行文档分类。
[0005]—方面,本发明提供了一种文档分类的方法,包括:
[0006]S1:获取多个训练文档,确定每个训练文档对应的类别;
[0007]S2:根据每个类别对应的训练文档,确定每个类别的特征向量,所述特征向量包括:在对应的当前类别中出现的词串,每个词串出现在当前类别的出现概率;
[0008]S3:获取当前待分类文档,从当前待分类文档中,提取当前待分类文档的匹配特征向量,所述匹配特征向量包括:当前待分类文档中出现的待匹配词串;
[0009]S4:根据所述匹配特征向量中的待匹配词串和每个类别的特征向量中的出现概率,确定所述匹配特征向量与每个类别的特征向量的相似度;
[0010]S5:将相似度最高的特征向量对应的类别作为所述当前待分类文档的类别。
[0011]进一步地,所述S2,包括:
[0012]将每个类别对应的训练文档处理成纯文本文档,对每个训练文档对应的纯文本文档进行分词,获得每个训练文档对应的多个单词;
[0013]将每个训练文档中相邻的预设值个单词组成词串,确定每个词串对应的类别的出现概率;
[0014]根据每个类别对应的训练文档中的每个词串在对应的类别的出现概率,确定每个类别的特征向量。
[0015]进一步地,所述S3,包括:
[0016]将当前待分类文档处理成纯文本文档,对当前待分类文档对应的纯文本文档进行分词,获得当前待分类文档对应的多个单词;
[0017]将当前待分类文档中相邻的所述预设值个单词组成词串;
[0018]根据当前待分类文档中的词串确定所述匹配特征向量。
[0019]进一步地,所述S4,包括:
[0020]根据每个类别的特征向量,确定每个所述待匹配词串在每个类别的出现概率;
[0021]针对每个类别,确定所述当前待分类文档的所有待匹配词串在当前类别的出现概率之和,将当前类别对应的出现概率之和作为当前类别对应的相似度。
[0022]进一步地,在所述S2之后,在所述S3之前,还包括:
[0023]Al:获取多个测试文档,确定每个测试文档的实际类别;
[0024]A2:从每个测试文档中,获取待测试词串;
[0025]A3:根据每个类别的特征向量,确定每个待测试词串在每个类别的出现概率;
[0026]A4:针对每个类别,确定所述当前测试文档的所有待测试词串在当前类别的出现概率之和;
[0027]A5:将出现概率之和最大的类别作为所述当前测试文档对应的匹配类别;
[0028]A6:根据每个测试文档的匹配类别和每个测试文档的实际类别,确定每个类别对应的分类准确率;
[0029]A7:分别判断每个类别对应的分类准确率是否大于等于预设准确率阈值,如果是,则执行步骤S3,否则,执行步骤AS;
[0030]AS:将所述多个测试文档作为所述训练文档,执行步骤SI。
[0031]另一方面,本发明提供了一种文档分类的装置,包括:
[0032]第一获取单元,用于获取多个训练文档,确定每个训练文档对应的类别;
[0033]训练单元,用于根据每个类别对应的训练文档,确定每个类别的特征向量,所述特征向量包括:在对应的当前类别中出现的词串,每个词串出现在当前类别的出现概率;
[0034]第二获取单元,用于获取当前待分类文档,从当前待分类文档中,提取当前待分类文档的匹配特征向量,所述匹配特征向量包括:当前待分类文档中出现的待匹配词串;
[0035]确定单元,用于根据所述匹配特征向量中的待匹配词串和每个类别的特征向量中的出现概率,确定所述匹配特征向量与每个类别的特征向量的相似度;
[0036]分类单元,用于将相似度最高的特征向量对应的类别作为所述当前待分类文档的类别。
[0037]进一步地,所述训练单元,用于将每个类别对应的训练文档处理成纯文本文档,对每个训练文档对应的纯文本文档进行分词,获得每个训练文档对应的多个单词,将每个训练文档中相邻的预设值个单词组成词串,确定每个词串对应的类别的出现概率,根据每个类别对应的训练文档中的每个词串在对应的类别的出现概率,确定每个类别的特征向量。
[0038]进一步地,所述第二获取单元,用于将当前待分类文档处理成纯文本文档,对当前待分类文档对应的纯文本文档进行分词,获得当前待分类文档对应的多个单词,将当前待分类文档中相邻的所述预设值个单词组成词串,根据当前待分类文档中的词串确定所述匹配特征向量。
[0039]进一步地,所述确定单元,用于根据每个类别的特征向量,确定每个所述待匹配词串在每个类别的出现概率,针对每个类别,确定所述当前待分类文档的所有待匹配词串在当前类别的出现概率之和,将当前类别对应的出现概率之和作为当前类别对应的相似度。
[0040]进一步地,该装置还包括:测量单元,用于执行:
[0041 ] Al:获取多个测试文档,确定每个测试文档的实际类别;
[0042]A2:从每个测试文档中,获取待测试词串;
[0043]A3:根据每个类别的特征向量,确定每个待测试词串在每个类别的出现概率;
[0044]A4:针对每个类别,确定所述当前测试文档的所有待测试词串在当前类别的出现概率之和;
[0045]A5:将出现概率之和最大的类别作为所述当前测试文档对应的匹配类别;
[0046]A6:根据每个测试文档的匹配类别和每个测试文档的实际类别,确定每个类别对应的分类准确率;
[0047]A7:分别判断每个类别对应的分类准确率是否大于等于预设准确率阈值,如果是,则触发所述第二获取单元,否则,执行步骤AS;
[0048]AS:将所述多个测试文档作为所述训练文档,执行所述第一获取单元。
[0049]本发明提供的一种文档分类的方法及装置,通过训练文档对每种类别进行训练,得到每种类别对应的特征向量,确定待分类文档的匹配特征向量与每种类别的特征向量的相似度,确定与匹配特征向量相似度最高的特征向量对应的类别作为待分类文档的类另IJ,当分类结果不能达到用户要求时,可以通过调整训练文档来更新特征向量,使得分类结果能够更加符合用户需求,能够更加灵活地进行文档分类。
【附图说明】
[0050]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0051]图1是本发明一实施例提供的一种文档分类的方法的流程图;
[0052]图2是本发明一实施例提供的另一种文档分类的方法的流程图;
[0053]图3是本发明一实
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1