文本主题的分类方法及系统的制作方法_2

文档序号:9326898阅读:来源:国知局
具有较 高的效率,但是降低了最终的分类精度。

【发明内容】

[0031] 本发明解决的问题在于提供一种文本主题的分类方法及系统,使得对文本分类更 准确。
[0032] 为解决上述技术问题,本发明的实施方式提供了一种文本主题的分类方法,包含 以下步骤:
[0033] 采集语料;其中,所述语料包含各个主题类型的文本;
[0034] 对所述语料进行分词,并对分词后的语料进行文本特征提取,得到各主题类型文 本的特征向量;
[0035] 根据动态对数激励函数调整各主题类型文本的特征向量中的特征值,得到新的各 主题类型文本的特征向量;
[0036] 根据待分类文本与新的各主题类型文本的特征向量的相似度,对待分类文本进行 分类,确定待分类文本的主题类型。
[0037] 本发明的实施方式还提供了一种文本主题的分类系统,包含:采集模块、分词模 块、提取模块、调整模块与分类模块;
[0038] 所述采集模块,用于采集语料;所述语料包含各个主题类型的文本;
[0039] 所述分词模块,用于对所述语料进行分词;
[0040] 所述提取模块,用于对分词后的语料进行文本特征提取,得到各主题类型文本的 特征向量;
[0041] 所述调整模块,用于根据动态对数激励函数调整所述提取模块提取的各主题类型 文本的特征向量中的特征值,得到新的各主题类型文本的特征向量;
[0042] 所述分类模块,用于根据待分类文本与新的各主题类型文本的特征向量的相似 度,对待分类文本进行分类,确定待分类文本的主题类型。
[0043] 本发明实施方式相对于现有技术而言,利用动态对数激励函数对提取的各主题类 型文本的特征向量中的特征值进行调整,可以使各种主题类型的文本的特征属性具备更强 的指向性,进而,可以提高文本在分类过程中的准确率和召回率,使待分类文本能够更加准 确的分到所属主题类别中。而且,模型简单,计算效率高,分类速度快;上述方法及系统可以 直接利用,避免了近似处理带来的分类错误率;计算简单,提高了分类的精度。
[0044] 另外,所述动态对数激励函数为1
为动态对数激励函数值,X为一个词语在一个主题类型中的占比与该词语在所有主题类型 中的占比之比,a为包含同一个词语的主题类型的数目,k与b均为常数。
[0045] 另外,a e [1,2, 3, · · · ·,1-1,l]、k e [1. 3, I. 5]、b e [0, 1];其中,1 为文本主题 类型的数目。
[0046] 进一步地,在对所述语料进行分词之后,还包含以下步骤:去除分词后的语料中的 停用词;在对分词后的语料进行文本特征提取,得到各主题类型文本的特征向量的步骤中, 对去除停用词的语料进行文本特征提取,得到各主题类型文本的特征向量。去除停用词,可 以降低计算量,提高文本分类的速度与准确度。
[0047] 另外,在根据待分类文本与新的各主题类型文本的特征向量的相似度,对待分类 文本进行分类的步骤中,采用以下任意一种相似度计算方法计算待分类文本与新的各主题 类型文本的特征向量的相似度:余弦相似度、欧氏距离、Tanimoto系数、对数似然相似度、 曼哈顿相似度、Spearman相似度。计算文本相似度的方法的多样性,保证了本发明实施方 式的灵活性。尤其是余弦相似度计算方法,计算简单,且可以提高文本分类的准确度。
【附图说明】
[0048] 图1是现有技术中的LDA模型的三层生成式贝叶斯网络结构示意图;
[0049] 图2是根据本发明第一实施方式的文本主题的分类方法的流程图;
[0050] 图3是根据本发明第二实施方式的文本主题的分类方法的流程图;
[0051] 图4是根据本发明第三实施方式的文本主题的分类系统的原理框图;
[0052] 图5是根据本发明第四实施方式的文本主题的分类系统的原理框图。
【具体实施方式】
[0053] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实 施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中, 为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基 于以下各实施方式的种种变化和修改,也可以实现本申请各权利要求所要求保护的技术方 案。
[0054] 本发明的第一实施方式涉及一种文本主题的分类方法,具体流程如图2所示,包 含以下步骤:
[0055] 步骤201,采集语料。具体地说,可以通过爬虫技术,采集各个主题类型的文本(语 料),并将语料分为训练集、验证集与测试集。其中,测试集中的文本是待分类文本;采集的 语料可以包含网页、文档等。文本的主题类型可以是娱乐、财经、游戏、体育、科技等。本实 施方式中,假设采集的训练集合中文本的数目为M,主题类型的数目为1。
[0056] 步骤202,对语料进行分词。具体地说,对语料进行分词,就是将语料中的词语分解 出来,并统计得出各个词语出现的次数(即词频)。分词技术是现有成熟的技术,在此不再 赘述。
[0057] 步骤203,进行文本特征提取,得到各个主题类型文本的特征向量。在本实施方式 中,米用 TF-IDF (Term frequency-inverse document frequency,词频-逆文本率)模型 来提取文本的特征向量。其中,TF为训练集中的词频,IDF为训练集中的逆文本频率。由于 逆文本率反映的是一个词在其中一个文本中出现的次数多,而在另外一个文本中出现的次 数少的特性,这样,利用TF-IDF模型提取的特征向量更加具有代表性。根据TF-IDF模型, 则有:
[0061] 其中,^_?代表该词(W0rcI1)在训练样本中出现的次数,N 1为训练样本文本的总 词数;tf为测试集文本词频,代表该词(Word1)在测试样本中出现的次数,N2代表该 测试集中样本文本的总词数。每个词在所有主题类别中的词频-逆文本频率矩阵如下:
[0063] 其中,tfidf为测试集的逆文本频率,且tfidf = tf · IDF,η为测试集中词语的数 目,avg〇为取平均数函数,t为主题的种类数。
[0064] 根据(9)式所示的矩阵,可以训练得出各个主题类型文本的特征向量。其中,每一 个特征向量唯一地表征一个主题类型。
[0065] 步骤204,根据动态对数激励函数调整各主题类型文本的特征向量中的特征值, 得到新的各主题类型文本的特征向量。具体地说,在本步骤中,是在如(9)式所示的矩阵 中的每一项矩阵元素中,减去该词属于每种主题类型的平均概率与函数动态对数激励函数 (f(x))的乘积,得到新的矩阵如下
[0067] 其中,avgn为第η个词语属于每一个主题类型的平均概率,且
[0069] 其中,Topiclwl= avg(tf ; · IDF),i = 1,2,…,n,Topicl 为第 1 个主题类型, Topiclwl为词语属于第1个主题类型的概率。
[0070] 在本实施方式中,利用动态对数激励函数对(10)的矩阵进行调整的具体过程如 下:
[0071] 首先,f(x)的值取1。也就是,每个词语对应的矩阵元素减去该词语属于每一个主 题类型的平均概率。
[0072] 接着,动态对数激励函数采用如下形式
[0074] 其中,f为动态对数激励函数值,X为一个词语在一个主题类型中的占比与该词 语在所有主题类型中的占比之比,a为包含同一个词语的主题类型的数目,b均为常数,且 a e [1,2, 3, . . . .,1_1,1]、b e [0, 1],b的取值范围是经试验得到的值。经过上述调整以 后,若求得分类准确率高,b取0,如果分类准确率低,将调整激励函数中的b的值为1。 [0075] 最后,动态对数激励函数采用如下形式
(13)
[0077] 其中,k为常数,且k e [1. 3, 1. 5],k的取值范围是经试验得到的值,k是决定对 a进行开几次方。k的初始值(即在特征向量趋向性不强的情况下)取1. 3,在特征向量趋 向性强的时候(也即特征向量经过求余弦值,所得到的值准确率高时)情况下取1. 5 ;经过 上述调整以后,若求得分类准确率高,b取0,如果分类准确率低,将调整激励函数中的b的 值为1。
[0078] 在本步骤中,可以根据主题的种类,通过调整a与k调整激励函数的值,再通过调 整b的值,进一步调整激励函数的值。调整参数a、b、k的值后,得到新的矩阵。根据(10) 式所示的矩阵,可以训练得出新的
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1