文本分类方法和装置与流程

文档序号:13108762
技术领域本发明涉及数据处理技术领域,尤其涉及一种文本分类方法和装置。

背景技术:
随着网络技术的快速发展,海量的信息资源以文本的形式存在。人们迫切的希望从爆炸式的信息浪潮中快速有效的找到自己感兴趣的内容。文本分类作为信息处理的重要研究方向,是解决文本信息发现的常用方法。文本分类技术在很多领域都有应用,例如,将文本进行分类,分类后的文本用于指导机器翻译中翻译模型的训练。可见,文本分类的精度很重要,精度高的分类文本,可以在其应用领域带来有益效果,而如果文本分类的精度不够,就会给使用这些分类文本的应用带来不利影响。在现有的文本分类方法中,通常都是采用训练语料进行分类器训练,然后用训练后的分类器对文本进行分类的方式进行,分类效率低。

技术实现要素:
本发明的主要目的在于提供一种文本分类方法和装置,旨在解决现有文本分类效率低下的技术问题。为实现上述目的,本发明提供的一种文本分类方法,所述文本分类方法包括:获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本;获取所述预处理后的待分类文本中的关键词,以生成关键词集合;根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别。优选地,所述根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别步骤包括:按照TF-IDF算法计算所述关键词集合中的各个关键词对应的权重值,将所述权重值大于预设阈值的关键词记为待对比关键词;将所述待对比关键词与预设的分类参数进行对比,确定所述待对比关键词与所述预设的分类参数之间的相关程度;根据所述待对比关键词与预设的分类参数之间相关程度确定所述待分类文本所属类别。优选地,所述按照TF-IDF算法计算所述关键词集合中的各个关键词对应的权重值的步骤之后,还包括:确定所述权重值小于或者等于所述预设阈值所对应的关键词;将所述权重值小于或者等于所述预设阈值的关键词从所述关键词集合中删除。优选地,所述根据所述待对比关键词与预设的分类参数之间相关程度确定所述待分类文本所属类别的步骤之后,还包括:将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引。优选地,所述获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本的步骤包括:获取待分类文本,删除所述待分类文本中的非相关文本和停用词;通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的待分类文本。此外,为实现上述目的,本发明还提供一种文本分类装置,所述文本分类装置包括:预处理模块,用于获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本;获取模块,用于获取所述预处理后的待分类文本中的关键词,以生成关键词集合;计算模块,用于根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别。优选地,所述计算模块包括:计算单元,用于按照TF-IDF算法计算所述关键词集合中的各个关键词对应的权重值,将所述权重值大于预设阈值的关键词记为待对比关键词;对比单元,用于将所述待对比关键词与预设的分类参数进行对比,确定所述待对比关键词与所述预设的分类参数之间的相关程度;确定单元,用于根据所述待对比关键词与预设的分类参数之间相关程度确定所述待分类文本所属类别。优选地,所述确定单元,还用于确定所述权重值小于或者等于所述预设阈值所对应的关键词;所述计算模块还包括:第一删除单元,用于将所述权重值小于或者等于所述预设阈值的关键词从所述关键词集合中删除。优选地,所述文本分类装置还包括:存储模块,用于将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引。优选地,所述预处理模块包括:第二删除单元,用于获取待分类文本,删除所述待分类文本中的非相关文本和停用词;分词处理单元,用于通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的待分类文本。本发明通过对所获取的待分类文本进行预处理,在预处理后的待分类文本中获取关键词集合,根据预设算法计算所述关键词集合中各个关键词所对应的权重值,根据关键词的权重值确定所述待分类文本所属类别。实现了在对比文本分类过程中,不需要采用训练语料进行分类器训练,提高了文本分类的效率。附图说明图1为本发明文本分类方法的第一实施例的流程示意图;图2为本发明实施例中根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别的一种流程示意图;图3为本发明文本分类方法的第二实施例的流程示意图;图4为本发明文本分类装置的第一实施例的功能模块示意图;图5为本发明实施例中计算模块的一种功能模块示意图;图6为本发明文本分类装置的第二实施例的功能模块示意图。本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明提供一种文本分类方法。参照图1,图1为本发明文本分类方法第一实施例的流程示意图。在本实施例中,所述文本分类方法包括:步骤S10,获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本;获取待分类文本,所述获取待分类文本的方法包括但不限于从所储存文本的数据库获取,或者从其它终端,如手机、个人计算机中获取等,所述待分类文本包括但不限于word文本、excel文本、PDF(PortableDocumentFormat,便携式文档格式)文本等。当获取到所述待分类文本时,解析所述待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本。进一步地,所述步骤S10包括:步骤a,获取待分类文本,删除所述待分类文本中的非相关文本和停用词;当获取到所述待分类文本后,解析所述待分类文本,得到所述待分类文本中非相关文本和停用词,所述待分类文本的非相关文本包括但不限于word文本中的照片、数学公式、数字等,所述待分类文本的停用词是在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,如“一个”、“三天两头”、“不再”、“么”、“今天”、“具体来说”、“大多数”等。当得到所述待分类文本中的非相关文本和停用词之后,删除所述待分类文本中的非相关文本和停用词。步骤b,通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的待分类文本。当将所述待分类文本中的非相关文本和停用词删除后,通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的待分类文本。所述分词算法就是将连续的字序列按照一定的规范重新组合成词序列的过程,现有的分词算法包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法;而按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。进一步地,当得到所述预处理后的待分类文本时,获取所述预处理后的待分类文本中的人名、地名、机构名、产品名、商标名等,将所述预处理后的待分类文本中的人名、地名、机构名、产品名、商标名等删除。如得到的所述预处理后的待分类文本中某句话为“小明\/朋友\/湖南\/凤凰古城\/旅游”,则删除该句话中的“小明\/湖南\/凤凰古城”,得到的这句话为“朋友\/旅游”。步骤S20,获取所述预处理后的待分类文本中的关键词,以生成关键词集合;当得到所述预处理后的待分类文本时,获取所述预处理后的待分类文本中的关键词,以生成关键词集合。如在所述预处理后的待分类文本中所获取的关键词集合为“上班族\/社会\/发展\/生力军\/身体状况\/健康\/保健\/关注\/养生\/故事\/专版\/指导\/作用”。步骤S30,根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别。当得到所述关键词集合时,根据预设算法计算所述关键词集合各个关键词对应的权重值,并根据所述权重值确定所述待分类文本所属类别。具体地,参照图2,图2为本发明实施例中根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别的一种流程示意图。,所述步骤S30包括:步骤S31,按照TF-IDF算法计算所述关键词集合中的各个关键词对应的权重值,将所述权重值大于预设阈值的关键词记为待对比关键词;当得到所述关键词集合时,按照TF-IDF(TermFrequency–InverseDocumentFrequency)算法计算所述关键词集合中的各个关键词对应的权重值,所述TF-IDF是一种统计算法,用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度,权重值越大,该关键词对所述待分类文本越重要。所述TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF(TermFrequency,词频)高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。所述TF-IDF实际上是:TF*IDF,TF词频,IDF(InverseDocumentFrequency,逆向文件频率)。所述TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。当得到所述关键词集合中各个关键词所对应的权重值时,判断各个关键词所对应的权重值是否大于预设阈值。若所述关键词的权重值大于所述预设阈值,则将权重值大于所述预设阈值所对应的关键词记为待对比关键词。所述预设阈值可以根据具体需要而设置,若想将所述待分类文本进行一个简单的分类,则可以将所述预设阈值设置小一点,反之,可以将所述预设阈值设置大一点。步骤S32,将所述待对比关键词与预设的分类参数进行对比,确定所述待对比关键词与所述预设的分类参数之间的相关程度;步骤S33,根据所述待对比关键词与预设的分类参数之间相关程度确定所述待分类文本所属类别。当得到所述待对比关键词时,将所述待对比关键词与预设的分类参数进行对比,确定所述待对比关键词与所述预设的分类参数之间的相关程度,根据所述待对比关键词与预设的分类参数之间的相关程度确定所述待分类文本所属类别。根据所述待对比关键词与所述预设的分类参数之间的相关程度确定所述待分类文本所属类别有两种方式,第一种为:当得到所述待对比关键词与所述预设的分类参数之间的相关程度时,将所述待对比关键词与所述预设的分类参数之间相关程度按照从大到小的顺序排列,确定与所述预设的分类参数相关程度最大的待对比关键词,则该待对比关键词所对应的所述预设的分类参数所在的类别为所述待分类文本所属类别;第二种为:当得到所述待对比关键词与所述预设的分类参数之间的相关程度时,将所述待对比关键词与所述预设的分类参数之间相关程度按照从大到小的顺序排列,确定与所述预设的分类参数相关程度大于某个设定值所对应的待对比关键词,将所述待对比关键词与所述预设的分类参数之间相关程度大于所述设定值所对应的关键词记为分类关键词,所述分类关键词所对应的所述预设的分类参数所在的类别为所述待分类文本所属类别,即所述待分类文本可能会属于多个类别。需要说明的是,可以通过K最邻近分类算法确定所述待对比关键词与所述预设的分类参数之间的相关程度,所述K最邻近分类算法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。进一步地,在所述按照TF-IDF算法计算所述关键词集合中的各个关键词对应的权重值的步骤之后,还包括:步骤c,确定所述权重值小于或者等于所述预设阈值所对应的关键词;步骤d,将所述权重值小于或者等于所述预设阈值的关键词从所述关键词集合中删除。当所述权重值小于或者等于所述预设阈值时,确定所述权重值小于或者等于所述预设阈值所对应的关键词,将所述权重值小于或者等于所述预设阈值的关键词从所述关键词集合中删除。本实施例通过对所获取的待分类文本进行预处理,在预处理后的待分类文本中获取关键词集合,根据预设算法计算所述关键词集合中各个关键词所对应的权重值,根据关键词的权重值确定所述待分类文本所属类别。实现了在对比文本分类过程中,不需要采用训练语料进行分类器训练,提高了文本分类的效率。参照图3,图3为本发明文本分类方法的第二实施例的流程示意图,基于第一实施例提出本发明文本分类方法的第二实施例。在本实施例中,所述文本分类方法还包括:步骤S40,将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引。当确定所述待分类文本所属类别后,获取属于同一类别的待分类文本,将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引,进一步地,还可以根据所述待分类文本中的待对比关键词所对应的分类参数,以及所述分类参数所对应的类别为所述待分类文本建立索引,以供用户根据所建立的索引管理和查找所述待分类文本。如将属于“菜谱”这一类别的待分类文本存储于同一个文件夹中。如菜谱”这一类别中某个待分类文本的待对比关键词为“青瓜\/鸡蛋\/油\/盐”,所对应的分类参数为“青瓜\/鸡蛋”,且该分类参数所对应的类别为“菜谱”,则为该待分类文本建立的索引为“青瓜”、“鸡蛋”、“菜谱”。本实施例通过将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引,方便了用户对待分类文本的管理和查看。本发明进一步提供一种文本分类装置。参照图4,图4为本发明文本分类装置的第一实施例的功能模块示意图。在本实施例中,所述文本分类装置包括:预处理模块10,用于获取待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本;获取待分类文本,所述获取待分类文本的方法包括但不限于从所储存文本的数据库获取,或者从其它终端,如手机、个人计算机中获取等,所述待分类文本包括但不限于word文本、excel文本、PDF(PortableDocumentFormat,便携式文档格式)文本等。当获取到所述待分类文本时,解析所述待分类文本,对所述待分类文本进行预处理操作,得到预处理后的待分类文本。进一步地,所述预处理模块10包括:第二删除单元,用于获取待分类文本,删除所述待分类文本中的非相关文本和停用词;当获取到所述待分类文本后,解析所述待分类文本,得到所述待分类文本中非相关文本和停用词,所述待分类文本的非相关文本包括但不限于word文本中的照片、数学公式、数字等,所述待分类文本的停用词是在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,如“一个”、“三天两头”、“不再”、“么”、“今天”、“具体来说”、“大多数”等。当得到所述待分类文本中的非相关文本和停用词之后,删除所述待分类文本中的非相关文本和停用词。分词处理单元,用于通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的待分类文本。当将所述待分类文本中的非相关文本和停用词删除后,通过分词算法对删除所述非相关文本和停用词的待分类文本进行分词处理,得到预处理后的待分类文本。所述分词算法就是将连续的字序列按照一定的规范重新组合成词序列的过程,现有的分词算法包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法;而按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。进一步地,当得到所述预处理后的待分类文本时,获取所述预处理后的待分类文本中的人名、地名、机构名、产品名、商标名等,将所述预处理后的待分类文本中的人名、地名、机构名、产品名、商标名等删除。如得到的所述预处理后的待分类文本中某句话为“小明\/朋友\/湖南\/凤凰古城\/旅游”,则删除该句话中的“小明\/湖南\/凤凰古城”,得到的这句话为“朋友\/旅游”。获取模块20,用于获取所述预处理后的待分类文本中的关键词,以生成关键词集合;当得到所述预处理后的待分类文本时,获取所述预处理后的待分类文本中的关键词,以生成关键词集合。如在所述预处理后的待分类文本中所获取的关键词集合为“上班族\/社会\/发展\/生力军\/身体状况\/健康\/保健\/关注\/养生\/故事\/专版\/指导\/作用”。计算模块30,用于根据预设算法计算所述关键词集合中的各个关键词对应的权重值,根据所述权重值确定所述待分类文本所属类别。当得到所述关键词集合时,根据预设算法计算所述关键词集合各个关键词对应的权重值,并根据所述权重值确定所述待分类文本所属类别。具体地,参照图5,图5为本发明实施例中计算模块的一种功能模块示意图。所述计算模块30包括:计算单元31,用于按照TF-IDF算法计算所述关键词集合中的各个关键词对应的权重值,将所述权重值大于预设阈值的关键词记为待对比关键词;当得到所述关键词集合时,按照TF-IDF(TermFrequency–InverseDocumentFrequency)算法计算所述关键词集合中的各个关键词对应的权重值,所述TF-IDF是一种统计算法,用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度,权重值越大,该关键词对所述待分类文本越重要。所述TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF(TermFrequency,词频)高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。所述TF-IDF实际上是:TF*IDF,TF词频,IDF(InverseDocumentFrequency,逆向文件频率)。所述TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。当得到所述关键词集合中各个关键词所对应的权重值时,判断各个关键词所对应的权重值是否大于预设阈值。若所述关键词的权重值大于所述预设阈值,则将权重值大于所述预设阈值所对应的关键词记为待对比关键词。所述预设阈值可以根据具体需要而设置,若想将所述待分类文本进行一个简单的分类,则可以将所述预设阈值设置小一点,反之,可以将所述预设阈值设置大一点。对比单元32,用于将所述待对比关键词与预设的分类参数进行对比,确定所述待对比关键词与所述预设的分类参数之间的相关程度;确定单元33,用于根据所述待对比关键词与预设的分类参数之间相关程度确定所述待分类文本所属类别。当得到所述待对比关键词时,将所述待对比关键词与预设的分类参数进行对比,确定所述待对比关键词与所述预设的分类参数之间的相关程度,根据所述待对比关键词与预设的分类参数之间的相关程度确定所述待分类文本所属类别。根据所述待对比关键词与所述预设的分类参数之间的相关程度确定所述待分类文本所属类别有两种方式,第一种为:当得到所述待对比关键词与所述预设的分类参数之间的相关程度时,将所述待对比关键词与所述预设的分类参数之间相关程度按照从大到小的顺序排列,确定与所述预设的分类参数相关程度最大的待对比关键词,则该待对比关键词所对应的所述预设的分类参数所在的类别为所述待分类文本所属类别;第二种为:当得到所述待对比关键词与所述预设的分类参数之间的相关程度时,将所述待对比关键词与所述预设的分类参数之间相关程度按照从大到小的顺序排列,确定与所述预设的分类参数相关程度大于某个设定值所对应的待对比关键词,将所述待对比关键词与所述预设的分类参数之间相关程度大于所述设定值所对应的关键词记为分类关键词,所述分类关键词所对应的所述预设的分类参数所在的类别为所述待分类文本所属类别,即所述待分类文本可能会属于多个类别。需要说明的是,可以通过K最邻近分类算法确定所述待对比关键词与所述预设的分类参数之间的相关程度,所述K最邻近分类算法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。进一步地,所述确定单元33,还用于确定所述权重值小于或者等于所述预设阈值所对应的关键词;所述计算模块还包括:第一删除单元,用于将所述权重值小于或者等于所述预设阈值的关键词从所述关键词集合中删除。当所述权重值小于或者等于所述预设阈值时,确定所述权重值小于或者等于所述预设阈值所对应的关键词,将所述权重值小于或者等于所述预设阈值的关键词从所述关键词集合中删除。本实施例通过对所获取的待分类文本进行预处理,在预处理后的待分类文本中获取关键词集合,根据预设算法计算所述关键词集合中各个关键词所对应的权重值,根据关键词的权重值确定所述待分类文本所属类别。实现了在对比文本分类过程中,不需要采用训练语料进行分类器训练,提高了文本分类的效率。参照图6,图6为本发明文本分类装置的第二实施例的功能模块示意图,基于第一实施例提出本发明文本分类装置的第二实施例。在本实施例中,所述文本分类装置还包括:存储模块40,用于将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引。当确定所述待分类文本所属类别后,获取属于同一类别的待分类文本,将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引,进一步地,还可以根据所述待分类文本中的待对比关键词所对应的分类参数,以及所述分类参数所对应的类别为所述待分类文本建立索引,以供用户根据所建立的索引管理和查找所述待分类文本。如将属于“菜谱”这一类别的待分类文本存储于同一个文件夹中。如菜谱”这一类别中某个待分类文本的待对比关键词为“青瓜\/鸡蛋\/油\/盐”,所对应的分类参数为“青瓜\/鸡蛋”,且该分类参数所对应的类别为“菜谱”,则为该待分类文本建立的索引为“青瓜”、“鸡蛋”、“菜谱”。本实施例通过将属于同一类别的待分类文本存储于同一个文件夹中,并根据所述待分类文本中的待对比关键词所对应的分类参数为所述待分类文本建立索引,方便了用户对待分类文本的管理和查看。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM\/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。...
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1