一种文本分类方法、装置、介质及设备与流程

文档序号:16208428发布日期:2018-12-08 07:25阅读:135来源:国知局
一种文本分类方法、装置、介质及设备与流程
本发明涉及自然语言处理
技术领域
,尤其涉及一种文本分类方法、装置、介质及设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。目前常用的文本分类方法为:利用卡方检验算法提取待分类文本中的特征词;针对每个特征词,从样本库中的文本类别与样本特征词的对应关系中,查找该特征词对应的文本类别;将该特征词在同一文本类别中的出现概率作为该特征词在该文本类别下的权重;根据各个特征词在对应文本类类别下的权重,确定待分类文本所属的类别;其中,同一文本类别下的特征词的权重越大,待分类文本所属类别为该类别的可能性越大。发明人发现,待分类文本中有一些特征明显的特征词会对该待分类文本所属的分类起到关键作用,而现有的文本分类方法,可能会由于样本特征词数量不够而导致特征明显的特征词的权重较低的问题,进而导致确定出的文本所属文本类别不够准确的问题。技术实现要素:本发明提供一种文本分类方法、装置、介质及设备,用于提高待分类文本所属文本类别的准确性。第一方面,本发明实施例提供一种文本分类方法,包括:针对待分类文本中的每个关键特征词,根据样本库中词类别对应的样本特征词,确定该关键特征词对应的词类别;以及根据样本库中的文本类别与样本文本的对应关系,确定具有该关键特征词的样本文本对应的文本类别,并将确定的文本类别作为该关键特征词对应的文本类别,其中,每个文本类别对应的样本文本包括多个样本特征词;确定该关键特征词在对应的每个文本类别下的权重,其中,该关键特征词在对应的任一文本类别下的权重为:与该关键特征词属于同一词类别的样本特征词在该任一文本类别下的权重的和值;根据各个关键特征词在对应的每个文本类别下的权重,确定所述待分类文本所属的文本类别。可选地,本发明实施例提供的文本分类方法,进一步包括:预先保存词类别权重,其中,每个词类别权重用于表征属于同一词类别的样本特征词在同一文本类别下的权重的和值;则确定该关键特征词在对应的任一文本类别下的权重,包括:从保存的词类别权重中,获取该关键特征词所属的词类别对应的词类别权重;将获取的词类别权重作为该关键特征词在该任一文本类别下的权重。可选地,所述方法中,根据各个关键特征词在对应的每个文本类别下的权重,确定所述待分类文本所属的文本类别,具体包括:针对各个关键特征词对应的每个文本类别,根据对应该文本类别的各个关键特征词在该文本类别下的权重的和值以及所述待分类文本中的非关键特征词在该文本类别下的条件概率的和值,确定待分类文本在该文本类别对应的样本文本中的出现概率;根据待分类文本在该文本类别对应的样本文本中的出现概率,确定所述待分类文本所属的文本类别。可选地,所述方法中,根据各个关键特征词在对应的每个文本类别下的权重,确定所述待分类文本所属的类别,具体包括:针对各个关键特征词对应的每个文本类别,根据对应该文本类别的各个关键特征词在该文本类别下的权重的乘积以及所述待分类文本中的非关键特征词在该文本类别下的条件概率的乘积,确定所述待分类文本在该文本类别对应的样本文本中的出现概率;根据所述待分类文本在该文本类别对应的样本文本中的出现概率、该文本类别的先验概率以及所述待分类文本的先验概率,确定所述待分类文本属于该文本类别的概率;根据所述待分类文本属于各个文本类别的概率,确定所述待分类文本所属的文本类别。可选地,所述方法中,采用如下公式,确定所述待分类文本属于任一文本类别的概率:其中,x表示所述待分类文本,yi表示所述任一文本类别,p(yi|x)表示所述待分类文本属于文本类别yi的概率,p(yi)表示文本类别yi的先验概率,aj表示所述待分类文本中第j个关键特征词,m表示待分类文本中关键特征词的个数,p(aj)表示第j个关键特征词在文本类别yi下的权重,p(x)表示所述待分类文本的先验概率,at表示所述待分类文本中第t个非关键特征词,n表示待分类文本中的非关键特征词的个数,p(at|yi)表示第j个关键特征词在文本类别yi下的条件概率。第二方面,本发明实施例提供一种文本分类装置,包括:第一确定模块,用于针对待分类文本中的每个关键特征词,根据样本库中词类别对应的样本特征词,确定该关键特征词对应的词类别;以及第二确定模块,用于根据样本库中的文本类别与样本文本的对应关系,确定具有该关键特征词的样本文本对应的文本类别,并将确定的文本类别作为该关键特征词对应的文本类别,其中,每个文本类别对应的样本文本包括多个样本特征词;第三确定模块,用于确定该关键特征词在对应的每个文本类别下的权重,其中,该关键特征词在对应的任一文本类别下的权重为:与该关键特征词属于同一词类别的样本特征词在该任一文本类别下的权重的和值;第四确定模块,用于根据各个关键特征词在对应的每个文本类别下的权重,确定所述待分类文本所属的文本类别。可选地,本发明实施例提供的文本分类装置,进一步包括:存储模块,用于预先保存词类别权重,其中,每个词类别权重用于表征属于同一词类别的样本特征词在同一文本类别下的权重的和值;则第三确定模块在确定该关键特征词在对应的任一文本类别下的权重时,具体用于:从保存的词类别权重中,获取该关键特征词所属的词类别对应的词类别权重;将获取的词类别权重作为该关键特征词在该任一文本类别下的权重。可选地,所述装置中,所述第四确定模块,具体用于:针对各个关键特征词对应的每个文本类别,根据对应该文本类别的各个关键特征词在该文本类别下的权重的和值以及所述待分类文本中的非关键特征词在该文本类别下的条件概率的和值,确定待分类文本在该文本类别对应的样本文本中的出现概率;根据待分类文本在该文本类别对应的样本文本中的出现概率,确定所述待分类文本所属的文本类别。可选地,所述装置中,所述第四确定模块,具体用于:针对各个关键特征词对应的每个文本类别,根据对应该文本类别的各个关键特征词在该文本类别下的权重的乘积以及所述待分类文本中的非关键特征词在该文本类别下的条件概率的乘积,确定所述待分类文本在该文本类别对应的样本文本中的出现概率;根据所述待分类文本在该文本类别对应的样本文本中的出现概率、该文本类别的先验概率以及所述待分类文本的先验概率,确定所述待分类文本属于该文本类别的概率;根据所述待分类文本属于各个文本类别的概率,确定所述待分类文本所属的文本类别。可选地,所述装置中,所述第四确定模块具体用于采用如下公式,确定所述待分类文本属于任一文本类别的概率:其中,x表示所述待分类文本,yi表示所述任一文本类别,p(yi|x)表示所述待分类文本属于文本类别yi的概率,p(yi)表示文本类别yi的先验概率,aj表示所述待分类文本中第j个关键特征词,m表示待分类文本中关键特征词的个数,p(aj)表示第j个关键特征词在文本类别yi下的权重,p(x)表示所述待分类文本的先验概率,at表示所述待分类文本中第t个非关键特征词,n表示待分类文本中的非关键特征词的个数,p(at|yi)表示第j个关键特征词在文本类别yi下的条件概率。第三方面,本发明实施例提供一种非易失性计算机存储介质,所述计算机存储介质存储有可执行程序,该可执行程序被处理器执行实现上述任一实施例的文本分类方法的步骤。第四方面,本发明实施例提供一种文本分类设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述程序时实现上述任一实施例的文本分类方法的步骤。利用本发明实施例文本分类方法、装置、介质及设备,具有以下有益效果:预先将样本库中的样本特征词进行了词类别划分,能够将具有相同特征但表达方式不同的样本特征词归纳为同一词类别的样本特征词,针对待分类文本中的关键特征词进行词类别划分,并将该关键特征词在对应的任一文本类别下的权重确定为与该关键特征词属于同一词类别的样本特征词在该文本类别下的权重的和值,从而提高了该关键特征词在该文本类别下的权重,进而能够提高确定的待分类文本所属文本类别的准确性。附图说明通过参考附图阅读下文的详细描述,本发明示例性实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:图1为本发明实施例一提供的文本识别方法的流程示意图;图2为本发明实施例一提供的确定各个样本特征词在任一文本类别下的权重的方法流程示意图;图3为本发明实施例一提供的一确定待分类文本所属的文本类别的方法流程示意图;图4为本发明实施例一提供的另一确定待分类文本所属的文本类别的方法流程示意图;图5为本发明实施例二提供的文本分类装置的结构示意图;图6为本发明实施例四文本分类设备的硬件结构示意图。具体实施方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明可能的实施方式作进一步描述。实施例一本发明实施例提供一种文本分类方法,如图1所示,包括:步骤101,针对待分类文本中的每个关键特征词,根据样本库中词类别对应的样本特征词,确定该关键特征词对应的词类别。具体实施时,预先划分多个用于表示特征词所属类别的词类别,将样本文本中的样本特证词划分到对应的词类别,并在样本库中保存词类别与样本特征词的对应关系。具体可按照特证词的语义划分得到多个词类别,进一步将具有相同语义或者相近语义的特证词划分到同一词类别中。也可以按照特征词的应用场景或者所属
技术领域
划分得到多个词类别,这里不做限定。本发明实施例在不同的应用场景中实施时,对应划分的词类别不同,比如,对新闻对应的文本进行分类的应用场景下,可将词类别划分为科技、娱乐、财经、生活等类别,对医学文章进行分类的情况下,可将词类别划分为内科、外科、妇科等类别。相应地,对待分类文本中的关键特征词进行词类别的划分,从而确定关键特征词对应的词类别,可选地,根据样本库中词类别对应的样本特征词,确定该关键特征词对应的词类别,具体包括:从样本库中的词类别与样本特征词的对应关系中,查找与该关键特征词相同的样本特征词;将查找到的样本特征词对应的词类别,确定为该关键特征词对应的词类别。其中,提取待分类文本中的关键特征词的方式为:对待分类文本进行分词处理,并过滤掉分词处理后的待分类文本中的介词、连词、停顿词,得到待分类文本中的特征词;利用卡方检验算法从待分类文本中的特证词中选择出关键特征词。需要说明的是,待分类文本中的特征词包括关键特征词和非关键特征词,其中,非关键特征词为待分类文本的特征词中,不属于关键特征词的特征词。提取样本文本中的样本特征词的方式可以:对样本文本进行分词处理,并过滤掉分词处理后的样本文本中的介词、连词、停顿词,得到样本文本中的特征词。可选地,待分类文本中的关键特证词为待分类文本中的实体词,实体词包括:名词、专有词汇、人名、地名等具有实际意义的词语。当然,也可将待分类文本中所有的特征词作为关键特征词,其中,将样本文本中所有的特征词作为样本特征词。需要说明的是,同一词类别对应的各个样本特征词互不相同,即,同一词类别下没有完全相同的两个样本特征词。同一词类别下的样本特征词可能为属于不同文本类别的样本文本中的样本特征词,也可能为属于同一文本类别的样本文本中的样本特证词。步骤102,根据样本库中的文本类别与样本文本的对应关系,确定具有该关键特征词的样本文本对应的文本类别,并将确定的文本类别作为该关键特征词对应的文本类别,其中,每个文本类别对应的样本文本包括多个样本特征词。具体实施时,预先划分多个用于表示文本所属类别的文本类别,将样本文本划分到对应的文本类别,并在样本库中保存文本类别与样本文本的对应关系。具体可根据样本文本的内容划分得到多个文本类别,进一步将属于相同领域或者相近领域的样本文本划分到同一文本类别中。本发明实施例在不同的应用场景中实施时,待分类文本以及样本库中存储的样本文本为该应用场景中的文本,比如,应用于对新闻进行分类的场景下,可将第一数量篇新闻对应的文本作为第一数量的样本文本,此应用场景下划分得到的文本类别可以为科技、娱乐、财经、生活、体育等类别,即有些新闻属于科技类别,有些新闻属于财经类别;应用于对医学进行分类的场景下,可将第一数量篇医学对应的文本作为第一数量的样本文本,此应用场景下划分得到的文本类别可以为内科、外科、妇科等类别。本步骤中,从各个样本文本中查找与该关键特征词相同的样本特征词,将查找的样本文本对应的文本类别,作为该关键特证词对应的文本类别,即,将具有与该关键特征词相同的样本特征词的样本文本对应的文本类别,作为该关键特证词对应的文本类别。当在属于不同文本类别的样本文本中均查找到与该关键特征词相同的样本特征词时,该关键特征词对应多个文本类别,当仅在属于一个文本类别的样本文本中查找到与该关键特征词相同的样本特征词时,该关键特征词仅对应一个文本类别。需要说明的是,同一文本类别对应的任意两个文本包括的特征词中,可能存在相同的特征词,并且同一文本包括的特征词互不相同,举例说明,文本a中包括的特征词为a1、a2、a3,文本b中包括的特征词为a1、b2、b3,该文本a和该文本b对应的文本类别均为文本类别1,文本a和文本b中包括的特证词存在相同的特证词a1,文本a中包括的特征词互不相同,文本b中包括的特征词互不相同。同一文本包括的特证词可能属于不同的词类别,比如,文本a中的特征词a1属于词类别1,a2和a3属于词类别2;其中,当文本为样本文本时,文本包括的特征词为样本文本中的特征词,当文本为待分类文本时,文本包括的特征词为待分类分本中的特征词。步骤103,确定该关键特征词在对应的每个文本类别下的权重,其中,该关键特征词在对应的任一文本类别下的权重为:与该关键特征词属于同一词类别的样本特征词在该任一文本类别下的权重的和值。具体实施时,确定该关键特征词在对应的每个文本类别下的权重,包括:针对该关键特征词对应的每个文本类别,确定该文本类别对应的样本文本包括的样本特征词中,与该关键特征词所属的任一词类别相同的样本特征词,得到该文本类别下该任一词类别对应的特征词集合,其中,任意一个样本特征词集合中的样本特征词均属于同一词类别并且均为该文本类别对应的样本文本包括的样本特征词;针对每个样本特征词集合,计算该样本特征词集合中各个样本特征词在该文本类别下的权重的和值,将该和值作为该关键特征词在对应的该文本类别下的权重,从而得到该关键特征词在对应的每个文本类别下的权重。也可以预先计算并存储存储各个文本类别下各个词类别对应的和值,则确定该关键特征词在对应的每个文本类别下的权重,包括:针对该关键特征词对应的每个文本类别,查询存储的该文本类别下与该关键特征词所属的词类别对应的和值,并将提取的和值作为该关键特征词在该文本类别下的权重。由于预先存储了各个文本类别下各个词类别对应的和值,仅通过查询操作即可确定该关键特征词在对应的每个文本类别下的权重,能够在一定程度上提高计算速度。举例说明,假设文本类别1对应的样本文本包括样本文本1和样本文本2,样本文本1中的样本特征词为11、12、13、14,样本文本2中的样本特征词为11、21、22、23、24,文本类别2对应的样本文本包括样本文本3,样本文本3中的样本特征词为31、32,文本类别1对应的样本文本包括的样本特征词为11、12、13、14、、11、21、22、23以及24,文本类别2对应的样本文本包括的样本特征词为31和32,其中,样本特征词11、12、21、22、23以及31属于同一词类别,比如均属于词类别1,样本特征词13、14、24以及32属于同一词类别,比如均属于词类别2;则,文本类别1下词类别1对应的特征词集合为:s1={11,12,21,22,23},词类别2对应的特征词集合为:s2={13,14,24};计算特征词集合s1中每个样本特征词在文本类别1下的权重p11、p12、p21、p22、p23,并计算sum1=p11+p12+p21+p22+p23,将sum1作为文本类别1下词类别1对应的和值,以及计算特征词集合s2中的每个特征词在文本类别1下的权重p13、p14、p24,并计算sum2=p13+p14+p24,将sum2作为文本类别1下词类别2对应的和值。步骤104,根据各个关键特征词在对应的每个文本类别下的权重,确定所述待分类文本所属的文本类别。具体实施时,确定待分类文本中的每个关键特征词在对应的每个文本类别下的权重。可将属于同一文本类别的关键特征词在该文本类别下的权重的和值,作为该待分类文本属于该文本类别的概率,并将最大概率对应的文本类别,确定为待分类文本所属的文本类别。需要说明的是,本发明实施例中所涉及的属于同一词类别等同于对应同一词类别,属于同一文本类别等同于对应同一文本类别。本发明实施例,预先将样本库中的样本特征词进行了词类别划分,能够将具有相同特征但表达方式不同的样本特征词归纳为同一词类别的样本特征词,针对待分类文本中的关键特征词进行词类别划分,并将该关键特征词在对应的任一文本类别下的权重确定为与该关键特征词属于同一词类别的样本特征词在该文本类别下的权重的和值,从而提高了该关键特征词在该文本类别下的权重,进而能够提高确定的待分类文本所属文本类别的准确性。可选地,本发明实施例提供的文本分类方法,进一步包括:预先保存词类别权重,其中,每个词类别权重用于表征属于同一词类别的样本特征词在同一文本类别下的权重的和值,则确定该关键特征词在对应的任一文本类别下的权重,包括:从保存的词类别权重中,获取该关键特征词所属的词类别对应的词类别权重;将获取的词类别权重作为该关键特征词在对应的该任一文本类别下的权重。具体实施时,预先计算属于同一词类别的样本特征词在同一文本类别下的权重的和值,并将该和值作为一个词类别权重并保存,比如,将属于词类别1的样本特征词在文本类别1下的权重的和值,保存为词类别权重r,其中,在确定关键特征词在对应的任一文本类别下的权重时,从保存的各个词类别权重中,查找与该关键特征词所属的词类别对应的词类别权重,此时查找到的词类别权重可能为多个,从查找到的多个词类别权重中获取在该任一文本类别下的词类别权重,将获取的词类别权重作为该关键特征词在该任一文本类别下的权重。可选地,本发明实施例提供的文本分类方法,进一步包括:预先保存词类别、文本类别和词类别权重的对应关系,其中,根据词类别和文本类别共同确定唯一一个词类别权重,每个词类别权重用于表征属于同一词类别的样本特征词在同一文本类别下的权重的和值,则确定该关键特征词在对应的任一文本类别下的权重,包括:从预先保存的词类别、文本类别和词类别权重的对应关系中,查找该任一文本类别以及与该关键特征词所属的词类别相同的词类别对应的词类别权重,将查找到的词类别权重作为该关键特征词在对应的该任一文本类别下的权重。具体实施时,可预先保存词类别权重表格,该表格中的同一表项包括词类别、文本类别以及词类别权重,该表项中的词类别权重用于表征属于该表项中的词类别的样本特征词在该表项中的文本类别下的权重的和值,同时根据词类别权重表格中任一词类别和任一文本类别,可唯一确定一个词类别权重。词类别权重表格举例如表一所示:表一词类别文本类别词类别权重词类别1文本类别113%词类别1文本类别214%表一中,词类别1、文本类别1以及13%属于同一表项,词类别1、文本类别2以及14%属于同一表项,由表一可以看出,当获知关键特征词对应的词类别以及关键特征词对应的文本类别的情况下,可确定唯一一个词类别权重。可选地,本发明实施例预先按照图2提供的内容,确定各个样本特征词在任一文本类别下的权重:步骤201,针对每个样本特征词,确定该样本特征词在该任一文本类别对应的样本文本中出现的次数以及该任一文本类别对应的样本文本中的样本特征词总个数。步骤202,根据所述次数以及所述总个数,确定该样本特征词在该任一文本类别下的权重。具体实施时,预先统计该样本特征词在任一文本类别对应的样本文本包括的样本特征词中出现的次数,作为该样本特征词在该任一文本类别对应的样本文本中出现的次数,预先统计该任一文本类别对应的样本文本中的样本特征词的总个数,将次数与总个数的比值作为该样本特征词在该任一文本类别下的权重,或者,将次数与总个数的比值换算为百分比,作为该样本特征词在该任一文本类别下的权重。继续沿用上文中,步骤103与步骤104之间解释说明中的举例,进一步举例说明样本特征词11在文本类别1下的权重,样本特征词11在文本类别1对应的样本文本中出现的次数为2,文本类别1对应的样本文本中的样本特征词总个数为9,则或者,可选地,按照图3提供的内容,根据各个关键特征词在对应的每个文本类别下的权重,确定所述待分类文本所属的文本类别:步骤301,针对各个关键特征词对应的每个文本类别,根据对应该文本类别的各个关键特征词在该文本类别下的权重的和值以及所述待分类文本中的非关键特征词在该文本类别下的条件概率的和值,确定待分类文本在该文本类别对应的样本文本中的出现概率。其中,对应该文本类别的各个关键特征词在该文本类别下的权重的和值越大,待分类文本在该文本类别对应的样本文本中的出现概率越大,相应地,所述待分类文本中的非关键特征词在该文本类别下的条件概率的和值越大,待分类文本在该文本类别对应的样本文本中的出现概率越大。具体可将对应该文本类别的各个关键特征词在该文本类别下的权重的和值加上所述待分类文本中的非关键特征词在该文本类别下的条件概率的和值所得的结果,作为待分类文本在该文本类别对应的样本文本中的出现概率。步骤302,根据待分类文本在各个文本类别对应的样本文本中的出现概率,确定所述待分类文本所属的文本类别。其中,待分类文本在该文本类别对应的任一样本文本中的出现概率越大,待分类文本属于该任一文本类别的概率越大。步骤302的具体实施方式为:将待分类文本在各个文本类别对应的样本文本中的出现概率中,不小于设定概率阈值的出现概率对应的文本类别,确定为所述待分类文本所属的文本类别;其中,设定概率阈值可根据实际应用场景设定。举例说明,待分类文本在文本类别1对应的样本文本中的出现概率为p1,在文本类别2对应的样本文本中的出现概率为p2,在文本类别3对应样本文本中的出现概率为p3,预设概率阈值为p4,其中,p1大于p4,p2和p3均小于p4,则将文本类别3确定为待分类文本所属的文本类别。或者,步骤302的具体实施方式为:将所述待分类文本属于对应文本的概率中的最大概率对应的文本类别,确定为所述待分类文本所属的文本类别。举例说明,待分类文本在文本类别1对应的样本文本中的出现概率为p1,在文本类别2对应的样本文本中的出现概率为p2,其中,p1大于p2,则将文本类别1确定为待分类文本所属的文本类别。可选地,按照图4提供的内容,根据各个关键特征词在对应的每个文本类别下的权重,确定所述待分类文本所属的文本类别:步骤401,针对各个关键特征词对应的文本类别,根据对应该文本类别的各个关键特征词在该文本类别下的权重的乘积以及所述待分类文本中的非关键特征词在该文本类别下的条件概率的乘积,确定所述待分类文本在该文本类别对应的样本文本中的出现概率。其中,对应该文本类别的各个关键特征词在该文本类别下的权重的乘积越大,待分类文本在该文本类别对应的样本文本中的出现概率越大,所述待分类文本中的非关键特征词在该文本类别下的条件概率的乘积越大,待分类文本在该文本类别对应的样本文本中的出现概率越大。具体可将对应该文本类别的各个关键特征词在该文本类别下的权重的乘积乘以所述待分类文本中的非关键特征词在该文本类别下的条件概率的乘积所得的结果,作为所述待分类文本在该文本类别对应的样本文本中的出现概率。步骤402,根据所述待分类文本在该文本类别对应的样本文本中的出现概率、该文本类别的先验概率以及所述待分类文本的先验概率,确定所述待分类文本属于该文本类别的概率。可选地,采用如下公式,确定所述待分类文本属于任一文本类别的概率:其中,x表示所述待分类文本,yi表示所述任一文本类别,p(yi|x)表示所述待分类文本属于文本类别yi的概率,p(yi)表示文本类别yi的先验概率,aj表示所述待分类文本中第j个关键特征词,m表示待分类文本中关键特征词的个数,p(aj)表示第j个关键特征词在文本类别yi下的权重,p(x)表示所述待分类文本的先验概率,at表示所述待分类文本中第t个非关键特征词,n表示待分类文本中的非关键特征词的个数,p(at|yi)表示第j个关键特征词在文本类别yi下的条件概率。步骤403,根据所述待分类文本属于各个文本类别的概率,确定所述待分类文本所属的文本类别。具体实施时,步骤403的具体实施方式为:将所述待分类文本属于各个文本类别的概率中,不小于设定概率阈值的概率对应的文本类别,确定为所述待分类文本所属的文本类别。举例说明,待分类文本属于文本类别1的概率为pa,属于文本类别2的概率为pb,预设概率阈值为pc,其中,pa大于pc,pb小于pc,则将文本类别1确定为待分类文本所属的文本类别。或者,步骤403的具体实施方式为:将所述待分类文本属于对应的各个文本的概率中的最大概率对应的文本类别,确定为所述待分类文本所属的文本类别。举例说明,待分类文本属于文本类别1的概率为pa,属于文本类别2的概率为pb,其中,pa大于pb,则将文本类别1确定为待分类文本所属的文本类别。实施例二本发明实施例提供一种文本分类装置,如图5所示,包括:第一确定模块501,用于针对待分类文本中的每个关键特征词,根据样本库中词类别对应的样本特征词,确定该关键特征词对应的词类别;以及第二确定模块502,用于根据样本库中的文本类别与样本文本的对应关系,确定具有该关键特征词的样本文本对应的文本类别,并将确定的文本类别作为该关键特征词对应的文本类别,其中,每个文本类别对应的样本文本包括多个样本特征词;第三确定模块503,用于确定该关键特征词在对应的每个文本类别下的权重,其中,该关键特征词在对应的任一文本类别下的权重为:与该关键特征词属于同一词类别的样本特征词在该任一文本类别下的权重的和值;第四确定模块504,用于根据各个关键特征词在对应的每个文本类别下的权重,确定所述待分类文本所属的文本类别。可选地,本发明实施例提的文本分类装置,进一步包括:存储模块505,用于预先保存词类别权重,其中,每个词类别权重用于表征属于同一词类别的样本特征词在同一文本类别下的权重的和值;则第三确定模块在确定该关键特征词在对应的任一文本类别下的权重时,具体用于:从保存的词类别权重中,获取该关键特征词所属的词类别对应的词类别权重;将获取的词类别权重作为该关键特征词在该任一文本类别下的权重。可选地,所述第四确定模块,具体用于:针对各个关键特征词对应的每个文本类别,根据对应该文本类别的各个关键特征词在该文本类别下的权重的和值以及所述待分类文本中的非关键特征词在该文本类别下的条件概率的和值,确定待分类文本在该文本类别对应的样本文本中的出现概率;根据待分类文本在该文本类别对应的样本文本中的出现概率,确定所述待分类文本所属的文本类别。可选地,所述第四确定模块,具体用于:针对各个关键特征词对应的每个文本类别,根据对应该文本类别的各个关键特征词在该文本类别下的权重的乘积以及所述待分类文本中的非关键特征词在该文本类别下的条件概率的乘积,确定所述待分类文本在该文本类别对应的样本文本中的出现概率;根据所述待分类文本在该文本类别对应的样本文本中的出现概率、该文本类别的先验概率以及所述待分类文本的先验概率,确定所述待分类文本属于该文本类别的概率;根据所述待分类文本属于各个文本类别的概率,确定所述待分类文本所属的文本类别。可选地,所述第四确定模块具体用于采用如下公式,确定所述待分类文本属于任一文本类别的概率:其中,x表示所述待分类文本,yi表示所述任一文本类别,p(yi|x)表示所述待分类文本属于文本类别yi的概率,p(yi)表示文本类别yi的先验概率,aj表示所述待分类文本中第j个关键特征词,m表示待分类文本中关键特征词的个数,p(aj)表示第j个关键特征词在文本类别yi下的权重,p(x)表示所述待分类文本的先验概率,at表示所述待分类文本中第t个非关键特征词,n表示待分类文本中的非关键特征词的个数,p(at|yi)表示第j个关键特征词在文本类别yi下的条件概率。实施例三本发明实施例提供一种非易失性计算机存储介质,所述计算机存储介质存储有可执行程序,该可执行程序被处理器执行实现实施例一中的任一文本分类方法的步骤。实施例四本发明实施例提供一种文本分类设备,用于执行实施例一中的任一文本分类方法,如图6所示,为本发明实施四中所述的文本分类设备的硬件结构示意图,该文本分类设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑等。具体地,该文本分类设备可以包括存储器601、处理器602及存储在存储器上的计算机程序,所述处理器执行所述程序时实现实施例一的任一文本分类方法的步骤。其中,存储器601可以包括只读存储器(rom)和随机存取存储器(ram),并向处理器602提供存储器601中存储的程序指令和数据。进一步地,本发明实施例四中所述的文本分类设备还可以包括输入装置603以及输出装置604等。输入装置603可以包括键盘、鼠标、触摸屏等;输出装置604可以包括显示设备,如液晶显示器(liquidcrystaldisplay,lcd)、阴极射线管(cathoderaytube,crt)等。存储器601,处理器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。处理器602调用存储器601存储的程序指令并按照获得的程序指令执行实施例一提供的文本分类方法。利用本发明实施例文本分类方法、装置、介质及设备,具有以下有益效果:预先将样本库中的样本特征词进行了词类别划分,能够将具有相同特征但表达方式不同的样本特征词归纳为同一词类别的样本特征词,针对待分类文本中的关键特征词进行词类别划分,并将该关键特征词在对应的任一文本类别下的权重确定为与该关键特征词属于同一词类别的样本特征词在该文本类别下的权重的和值,从而提高了该关键特征词在该文本类别下的权重,进而能够提高确定的待分类文本所属文本类别的准确性。应当注意,尽管在上文详细描述中提及了文本分类装置的若干模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1