文本分类方法和装置的制造方法

文档序号:9261388阅读:243来源:国知局
文本分类方法和装置的制造方法
【技术领域】
[0001] 本发明涉及电子组织归类领域,特别涉及一种文本分类方法和装置。
【背景技术】
[0002] 文本分类是指计算机将一篇文本归于预先给定的某一类或某几类的过程。通常, 在对文本进行人工分类的时候,如果判断一个文本属于哪一类或者是获取文本所传达的信 息时,往往并不需要通读全文W确定文本的主题进而得到正确的判断,而是对某一个或某 几个段落进行阅读。该是因为一个作者在撰写文本时,通常会将对一个事物特定方面的描 述语句放在一个自然段中,也就是说,对于文本主题的表达或类别的暗示而言,段落通常是 与主题相关的单元,而段内的句子之间则存在较强的相关性。
[0003] 现有技术中的文本分类方法是基于孤立的特征词进行文本表示的,因此得出的文 本向量中包括的信息量较少,从而使得根据文本向量得出的文本分类器获取到的文本的信 息量也较少。因此,现有技术中,采用上述文本分类器对待分类文本向量进行文本分类时, 导致文本分类的准确率和召回率较低。

【发明内容】

[0004] 本发明提供一种文本分类方法和装置,用于提高文本分类的准确率和召回率。
[0005] 为实现上述目的,本发明提供了一种文本分类方法,包括:
[0006] 根据训练集文本的特征词对和与所述训练集文本的特征词对对应的训练集文本 的特征词对的权重,生成训练集文本向量;
[0007] 对所述训练集文本向量进行训练,得出文本分类器;
[0008] 根据待分类文本的特征词对和与所述待分类文本的特征词对对应的待分类文本 的特征词对的权重,生成待分类文本向量;
[0009] 通过所述文本分类器对所述待分类文本向量进行分类,得出分类结果。
[0010] 可选地,所述根据训练集文本的特征词对和与所述训练集文本的特征词对对应的 训练集文本的特征词对的权重,生成训练集文本向量之前还包括:
[0011] 从所述训练集文本中获取训练集文本的特征词;
[0012] 通过特征词权重量化方法计算出所述训练集文本的特征词的权重;
[0013] 根据所述训练集文本的特征词的权重,对所述训练集文本的特征词进行组合形成 所述训练集文本的特征词对,所述训练集文本的特征词对形成训练集文本的特征词对集 合;
[0014] 根据所述训练集文本的特征词对中的训练集文本的特征词的权重,得出所述训练 集文本的特征词对的原始权重;
[0015] 根据所述训练集文本的特征词对中的训练集文本的特征词之间的块间隔数,生成 所述训练集文本的特征词对的权重系数;
[0016] 根据所述训练集文本的特征词对的权重系数和所述训练集文本的特征词对的原 始权重,生成所述训练集文本的特征词对的权重。
[0017] 可选地,所述从所述训练集文本中获取训练集文本的特征词包括;对所述训练集 文本的自然段进行划分得出训练文本块,并为所述训练文本块设置块标记;对所述训练文 本块进行分词处理和去停用词处理,得出训练集文本的待处理特征词;通过特征词提取方 法,从所述训练集文本的待处理特征词中提取出所述训练集文本的特征词;
[0018] 所述根据所述训练集文本的特征词的权重,对所述训练集文本的特征词进行组合 形成所述训练集文本的特征词对包括:获取与某一训练集文本的特征词位于同一自然段不 同训练文本块中的权重最大的另一训练集文本的特征词;将某一训练集文本的特征词与权 重最大的另一训练集文本的特征词进行组合,形成所述训练集文本的特征词对;
[0019] 所述根据所述训练集文本的特征词对中的训练集文本的特征词的权重,得出所述 训练集文本的特征词对的原始权重包括;从所述训练集文本的特征词对中的训练集文本的 特征词的权重中选取较小的权重作为所述训练集文本的特征词对的原始权重;
[0020] 所述根据所述训练集文本的特征词对中的训练集文本的特征词之间的块间隔数, 生成所述训练集文本的特征词对的权重系数包括:通过公式/(々J) =l〇g:(;^ + 2)对训练块 间隔数进行计算处理得出训练集文本的特征词对的权重系数,其中,hd为训练集文本的特 征词之间的块间隔数,f化d)为训练集文本的特征词对的权重系数,所述训练集文本的特征 词之间的块间隔数为所述训练集文本的特征词对中训练集文本的特征词所在的训练文本 块之间的最小间隔;
[0021] 所述根据所述训练集文本的特征词对的权重系数和所述训练集文本的特征词对 的原始权重,生成所述训练集文本的特征词对的权重包括:将所述训练集文本的特征词对 的权重系数和所述训练集文本的特征词对的原始权重相乘,得出所述训练集文本的特征词 对的权重。
[0022] 可选地,所述根据待分类文本的特征词对和与所述待分类文本的特征词对对应的 待分类文本的特征词对的权重,生成待分类文本向量之前还包括:
[0023] 从所述待分类文本中获取待分类文本的待处理特征词;
[0024] 将所述待分类文本的待处理特征词与所述训练集文本的特征词进行比较,保留与 所述训练集文本的特征词相同的所述待分类文本的待处理特征词W得出所述待分类文本 的特征词;
[00巧]根据所述待分类文本的特征词的权重,对所述待分类文本的特征词进行组合形成 待分类文本的待处理特征词对,所述待分类文本的特征词的权重为与该待分类文本的特征 词相同的训练集文本的特征词的权重;
[0026] 将所述待分类文本的待处理特征词对与所述训练集文本的特征词对进行比较,保 留与所述训练集文本的特征词对相同的所述待分类文本的待处理特征词对得出所述待分 类文本的特征词对;
[0027] 根据所述待分类文本的特征词对中的待分类文本的特征词的权重,得出所述待分 类文本的特征词对的原始权重;
[0028] 根据所述待分类文本的特征词对中的待分类文本的特征词之间的块间隔数,生成 所述待分类文本的特征词对的权重系数;
[0029] 根据所述待分类文本的特征词对的权重系数和所述待分类文本的特征词对的原 始权重,生成所述待分类文本的特征词对的权重。
[0030] 可选地,所述从所述待分类文本中获取待分类文本的待处理特征词包括;对所述 待分类文本的自然段进行划分得出待分类文本块,并为所述待分类文本块设置块标记;对 所述待分类文本块进行分词处理和去停用词处理,得出待分类文本的待处理特征词;
[0031] 所述根据所述待分类文本的特征词的权重,对所述待分类文本的特征词进行组合 形成待分类文本的待处理特征词对包括:获取与某一待分类文本的特征词位于同一自然段 不同待分类文本块中的权重最大的另一待分类文本的特征词;将某一待分类文本的特征 词与权重最大的另一待分类文本的特征词进行组合,形成所述待分类文本的待处理特征词 对;
[0032] 所述根据所述待分类文本的特征词对中的待分类文本的特征词的权重,得出所述 待分类文本的特征词对的原始权重包括;从所述待分类文本的特征词对中的待分类文本的 特征词的权重中选取较小的权重作为所述待分类文本的特征词对的原始权重;
[0033] 所述根据所述待分类文本的特征词对中的待分类文本的特征词之间的块间隔数, 生成所述待分类文本的特征词对的权重系数包括:通过公式/(&:.) = 1曰g:(^ + 2)对待分类 文本的特征词之间的块间隔数进行计算处理得出待分类文本的特征词对的权重系数,其 中,h。为待分类文本的特征词之间的块间隔数,f化。)为待分类文本的特征词对的权重系 数,所述待分类文本的特征词之间的块间隔数为所述待分类文本的特征词对中待分类文本 的特征词所在的待分类文本块之间的最小间隔;
[0034] 所述根据所述待分类文本的特征词对的权重系数和所述待分类文本的特征词对 的原始权重,生成所述待分类文本的特征词对的权重包括:将所述待分类文本的特征词对 的权重系数和所述待分类文本的特征词对的原始权重相乘,得出所述待分类文本的特征词 对的权重。
[0035] 为实现上述目的,本发明提供了一种文本分类装置,包括:
[0036] 第一生成模块,用于根据训练集文本的特征词对和与所述训练集文本的特征词对 对应的训练集文本的特征词对的权重,生成训练集文本向量;
[0037] 训练模块,用于对所述训练集文本向量进行训练,得出文本分类器;
[0038] 第二生成模块,用于根据待分类文本的特征词对和与所述待分类文本的特征词对 对应的待分类文本的特征词对的权重,生成待分类文本向量;
[0039] 分类模块,用于通过所述文本分类器对所述待分类文本向量进行分类,得出分类 结果。
[0040] 可选地,还包括:获取模块、计算模块、组合模块、第H生成模块、第四生成模块和 第五生成模块;
[0041] 所述获取模块,用于从所述训练集文本中获取训练集文本的特征词;
[0042] 所述计算模块,用于通过特征词权重量化方法计算出所述训练集文本的特征词的 权重;
[0043] 所述组合模块,用于根据所述训练集文本的特征词的权重,对所述训练集文本的 特征词进行组合形成所述训练集文本的特征词对,所述训练集文本的特征词对形成训练集 文本的特征词对集合;
[0044] 所述第H生成模块,用于根据所述训练集文本的特征词对中的训练集文本的特征 词的权重,得出所述训练集文本的特征词对的原始权重;
[0045] 所述第四生成模块,用于根据所述训练集文本的特征词对中的训练集文本的特征 词之间的训练集文本的特征词之间的块间隔数,生成所述训练集文本的特征词对的权重系 数;
[0046] 所述第五生成模块,用于根据所述训练集文本的特征词对的权重系数和所述训练 集文本的特征词对的原始权重,生成所述训练集文本的特征词对的权重。
[0047] 可选地,所述获取模块包括;划分子模块、分词子模块和提取子模块;
[0048] 所述划分子模块,用于对所述训练集文本的自然段进行划分得出训练文本块,并 为所述训练文本块设置块标记;
[0049] 所述分词子模块,用于对所述训练文本块进行分词处理和去停用词处理,得出训 练集文本的待处理特征词;
[0050] 所述提取子模块,用于通过特征词提取方法,从所述训练集文本的待处理特征词 中提取出所述训练集文本的特征词;
[0051] 所述组合模块包括;获取子模块和组合子模块;
[0052] 所述获取子模块,用于获取与某一训练集文本的特征词位于同一自然段不同训练 文本块中的权重最大的另一训练集文本的特征词;
[0053] 所述组合子模块,用于将某一训练集文本的特征词与权重最大的另一训练集文本 的特征词进行组合,形成所述训练集文本的特征词对;
[0054] 所述第H生成模块具体用于从所述训练集文本的特征词对中的训练集文本的特 征词的权重中选取
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1