文本主题的分类方法及系统的制作方法_2

文档序号：9326898阅读：来源：国知局

具有较高的效率，但是降低了最终的分类精度。

【发明内容】

[0031] 本发明解决的问题在于提供一种文本主题的分类方法及系统，使得对文本分类更准确。
[0032] 为解决上述技术问题，本发明的实施方式提供了一种文本主题的分类方法，包含以下步骤：
[0033] 采集语料；其中，所述语料包含各个主题类型的文本；
[0034] 对所述语料进行分词，并对分词后的语料进行文本特征提取，得到各主题类型文本的特征向量；
[0035] 根据动态对数激励函数调整各主题类型文本的特征向量中的特征值，得到新的各主题类型文本的特征向量；
[0036] 根据待分类文本与新的各主题类型文本的特征向量的相似度，对待分类文本进行分类，确定待分类文本的主题类型。
[0037] 本发明的实施方式还提供了一种文本主题的分类系统，包含：采集模块、分词模块、提取模块、调整模块与分类模块；
[0038] 所述采集模块，用于采集语料；所述语料包含各个主题类型的文本；
[0039] 所述分词模块，用于对所述语料进行分词；
[0040] 所述提取模块，用于对分词后的语料进行文本特征提取，得到各主题类型文本的特征向量；
[0041] 所述调整模块，用于根据动态对数激励函数调整所述提取模块提取的各主题类型文本的特征向量中的特征值，得到新的各主题类型文本的特征向量；
[0042] 所述分类模块，用于根据待分类文本与新的各主题类型文本的特征向量的相似度，对待分类文本进行分类，确定待分类文本的主题类型。
[0043] 本发明实施方式相对于现有技术而言，利用动态对数激励函数对提取的各主题类型文本的特征向量中的特征值进行调整，可以使各种主题类型的文本的特征属性具备更强的指向性，进而，可以提高文本在分类过程中的准确率和召回率，使待分类文本能够更加准确的分到所属主题类别中。而且，模型简单，计算效率高，分类速度快；上述方法及系统可以直接利用，避免了近似处理带来的分类错误率；计算简单，提高了分类的精度。
[0044] 另外，所述动态对数激励函数为1
为动态对数激励函数值，X为一个词语在一个主题类型中的占比与该词语在所有主题类型中的占比之比，a为包含同一个词语的主题类型的数目，k与b均为常数。
[0045] 另外，a e [1，2, 3, · · · ·，1-1，l]、k e [1. 3, I. 5]、b e [0, 1];其中，1 为文本主题类型的数目。
[0046] 进一步地，在对所述语料进行分词之后，还包含以下步骤：去除分词后的语料中的停用词；在对分词后的语料进行文本特征提取，得到各主题类型文本的特征向量的步骤中，对去除停用词的语料进行文本特征提取，得到各主题类型文本的特征向量。去除停用词，可以降低计算量，提高文本分类的速度与准确度。
[0047] 另外，在根据待分类文本与新的各主题类型文本的特征向量的相似度，对待分类文本进行分类的步骤中，采用以下任意一种相似度计算方法计算待分类文本与新的各主题类型文本的特征向量的相似度：余弦相似度、欧氏距离、Tanimoto系数、对数似然相似度、曼哈顿相似度、Spearman相似度。计算文本相似度的方法的多样性，保证了本发明实施方式的灵活性。尤其是余弦相似度计算方法，计算简单，且可以提高文本分类的准确度。
【附图说明】
[0048] 图1是现有技术中的LDA模型的三层生成式贝叶斯网络结构示意图；
[0049] 图2是根据本发明第一实施方式的文本主题的分类方法的流程图；
[0050] 图3是根据本发明第二实施方式的文本主题的分类方法的流程图；
[0051] 图4是根据本发明第三实施方式的文本主题的分类系统的原理框图；
[0052] 图5是根据本发明第四实施方式的文本主题的分类系统的原理框图。
【具体实施方式】
[0053] 为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请各权利要求所要求保护的技术方案。
[0054] 本发明的第一实施方式涉及一种文本主题的分类方法，具体流程如图2所示，包含以下步骤：
[0055] 步骤201，采集语料。具体地说，可以通过爬虫技术，采集各个主题类型的文本（语料），并将语料分为训练集、验证集与测试集。其中，测试集中的文本是待分类文本；采集的语料可以包含网页、文档等。文本的主题类型可以是娱乐、财经、游戏、体育、科技等。本实施方式中，假设采集的训练集合中文本的数目为M，主题类型的数目为1。
[0056] 步骤202,对语料进行分词。具体地说，对语料进行分词，就是将语料中的词语分解出来，并统计得出各个词语出现的次数（即词频）。分词技术是现有成熟的技术，在此不再赘述。
[0057] 步骤203,进行文本特征提取，得到各个主题类型文本的特征向量。在本实施方式中，米用 TF-IDF (Term frequency-inverse document frequency，词频-逆文本率）模型来提取文本的特征向量。其中，TF为训练集中的词频，IDF为训练集中的逆文本频率。由于逆文本率反映的是一个词在其中一个文本中出现的次数多，而在另外一个文本中出现的次数少的特性，这样，利用TF-IDF模型提取的特征向量更加具有代表性。根据TF-IDF模型，则有：
[0061] 其中，^_?代表该词（W0rcI1)在训练样本中出现的次数，N 1为训练样本文本的总词数；tf为测试集文本词频，代表该词（Word1)在测试样本中出现的次数，N2代表该测试集中样本文本的总词数。每个词在所有主题类别中的词频-逆文本频率矩阵如下：
[0063] 其中，tfidf为测试集的逆文本频率，且tfidf = tf · IDF，η为测试集中词语的数目，avg〇为取平均数函数，t为主题的种类数。
[0064] 根据（9)式所示的矩阵，可以训练得出各个主题类型文本的特征向量。其中，每一个特征向量唯一地表征一个主题类型。
[0065] 步骤204,根据动态对数激励函数调整各主题类型文本的特征向量中的特征值，得到新的各主题类型文本的特征向量。具体地说，在本步骤中，是在如（9)式所示的矩阵中的每一项矩阵元素中，减去该词属于每种主题类型的平均概率与函数动态对数激励函数 (f(x))的乘积，得到新的矩阵如下
[0067] 其中，avgn为第η个词语属于每一个主题类型的平均概率，且
[0069] 其中，Topiclwl= avg(tf ; · IDF)，i = 1，2,…，n，Topicl 为第 1 个主题类型， Topiclwl为词语属于第1个主题类型的概率。
[0070] 在本实施方式中，利用动态对数激励函数对（10)的矩阵进行调整的具体过程如下：
[0071] 首先，f(x)的值取1。也就是，每个词语对应的矩阵元素减去该词语属于每一个主题类型的平均概率。
[0072] 接着，动态对数激励函数采用如下形式
[0074] 其中，f为动态对数激励函数值，X为一个词语在一个主题类型中的占比与该词语在所有主题类型中的占比之比，a为包含同一个词语的主题类型的数目，b均为常数，且 a e [1，2, 3, . . . .，1_1，1]、b e [0, 1]，b的取值范围是经试验得到的值。经过上述调整以后，若求得分类准确率高，b取0,如果分类准确率低，将调整激励函数中的b的值为1。 [0075] 最后，动态对数激励函数采用如下形式
(13)
[0077] 其中，k为常数，且k e [1. 3, 1. 5]，k的取值范围是经试验得到的值，k是决定对 a进行开几次方。k的初始值（即在特征向量趋向性不强的情况下）取1. 3,在特征向量趋向性强的时候（也即特征向量经过求余弦值，所得到的值准确率高时）情况下取1. 5 ;经过上述调整以后，若求得分类准确率高，b取0，如果分类准确率低，将调整激励函数中的b的值为1。
[0078] 在本步骤中，可以根据主题的种类，通过调整a与k调整激励函数的值，再通过调整b的值，进一步调整激励函数的值。调整参数a、b、k的值后，得到新的矩阵。根据（10) 式所示的矩阵，可以训练得出新的

完整全部详细技术资料下载

当前第2页1 2 3 4