文本分类方法和装置与流程

文档序号:13108762阅读:来源:国知局
技术特征:
1.一种文本分类方法,其特征在于,所述文本分类方法包括:获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本;获取所述预处理后的待分类文本中的关键词,以生成关键词集合;根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别。2.如权利要求1所述的文本分类方法,其特征在于,所述根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别步骤包括:按照TF-IDF算法计算所述关键词集合中的各个关键词对应的权重值,将所述权重值大于预设阈值的关键词记为待对比关键词;将所述待对比关键词与预设的分类参数进行对比,确定所述待对比关键词与所述预设的分类参数之间的相关程度;根据所述待对比关键词与预设的分类参数之间相关程度确定所述待分类文本所属类别。3.如权利要求2所述的文本分类方法,其特征在于,所述按照TF-IDF算法计算所述关键词集合中的各个关键词对应的权重值的步骤之后,还包括:确定所述权重值小于或者等于所述预设阈值所对应的关键词;将所述权重值小于或者等于所述预设阈值的关键词从所述关键词集合中删除。4.如权利要求2所述的文本分类方法,其特征在于,所述根据所述待对比关键词与预设的分类参数之间相关程度确定所述待分类文本所属类别的步骤之后,还包括:将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引。5.如权利要求1至4任一项所述的文本分类方法,其特征在于,所述获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本的步骤包括:获取待分类文本,删除所述待分类文本中的非相关文本和停用词;通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的待分类文本。6.一种文本分类装置,其特征在于,所述文本分类装置包括:预处理模块,用于获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本;获取模块,用于获取所述预处理后的待分类文本中的关键词,以生成关键词集合;计算模块,用于根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别。7.如权利要求6所述的文本分类装置,其特征在于,所述计算模块包括:计算单元,用于按照TF-IDF算法计算所述关键词集合中的各个关键词对应的权重值,将所述权重值大于预设阈值的关键词记为待对比关键词;对比单元,用于将所述待对比关键词与预设的分类参数进行对比,确定所述待对比关键词与所述预设的分类参数之间的相关程度;确定单元,用于根据所述待对比关键词与预设的分类参数之间相关程度确定所述待分类文本所属类别。8.如权利要求7所述的文本分类装置,其特征在于,所述确定单元,还用于确定所述权重值小于或者等于所述预设阈值所对应的关键词;所述计算模块还包括:第一删除单元,用于将所述权重值小于或者等于所述预设阈值的关键词从所述关键词集合中删除。9.如权利要求7所述的文本分类装置,其特征在于,所述文本分类装置还包括:存储模块,用于将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引。10.如权利要求6至9任一项所述的文本分类装置,其特征在于,所述预处理模块包括:第二删除单元,用于获取待分类文本,删除所述待分类文本中的非相关文本和停用词;分词处理单元,用于通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的待分类文本。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1