一种基于主题特征的文档分类方法

文档序号:9287739阅读:227来源:国知局
一种基于主题特征的文档分类方法
【技术领域】
[0001] 本发明涉及一种文档分类装置,特别涉及一种适用于具有多个主题的分档分类方 法。
【背景技术】
[0002] 随着互联网技术的高速发展,网络文档的数量正经历着爆炸式地增长。海量的文 档为用户方便地获取文档提供了基础,同时也为获得可用的、用户期望的文档带来了巨大 挑战。文档分类技术是一种高效地将文档进行归类的技术,该方法通过用户提交给分类装 置的样例文档,将文档库中未被分类的文档快速、准确地进行分类。一种有效的文档分类策 略是将分类过程看作一个学习过程,利用用户提交的样例文档作为学习所需的样本,使用 机器学习技术学习得到一个预测模型,从而实现对文档的分类。
[0003]目前的文档分类技术主要涉及单一主题文档,该类型的文档对应于单一的概念 类,因此,其语义是确定且没有分歧的。然而,在真实世界中,多主题文档是广泛存在的。例 如,一篇报道北京奥运的文档可能同时对应于运动、经济、旅游等多个概念类;一篇关于苹 果对美国宏观经济影响的报道可能同时隶属于科技、经济、IT等多个概念类。由于已有的 文档分类技术只能处理单主题文档,因此无法利用多主题文档所蕴含的多种类别信息,无 法对文档所有可能的主题进行分类,进而影响文档分类的效果。

【发明内容】

[0004] 本发明的主要目的是针对目前的文档分类技术只能处理单主题文档的问题,提出 一种能够有效地处理多主题文档的方法,该方法通过对文档的初始向量特征进行主题特征 转换,显示地描述多主题文档中与每个主题最相关、最具有判别能力的特征属性,从而提高 文档分类装置的性能。
[0005] 为实现上述目的,本发明采用适于处理多主题文档的多标记学习技术,提供了一 种多主题文档分类方法:该方法包括以下步骤:(1)用户从已有的多主题文档库中选择样 例文档,其中样例文档需涵盖各种类型的文档;(2)使用属性特征转换的方法显式地描述 样例文档中各主题特有的属性特征;(3)使用预设的分类方法对转换后的样例文档进行学 习得到一个预测模型;(4)基于预测模型预测文档存储设备中待分类文档的概念标记,并 返回分类结果;(5)如果用户对分类结果满意,则执行步骤6,否则从多主题文档库中选择 更多的样例文档进行反馈,执行步骤2 ; (6)结束。
[0006] 下面将结合附图对最佳实施例进行详细说明。
【附图说明】
[0007] 图1是文档分类装置的工作流程图
[0008] 图2是本发明方法的流程图
[0009] 图3是本发明采用的文档主题特征转换的流程图
[0010] 图4是本发明使用的分类方法的流程图
【具体实施方式】
[0011] 如图1所示,文档存储设备中存放了待分类的文档,此外还存在一个多主题文档 库,该文档库中含有一些多主题文档,每个多主题文档均对应了一组人工标注的概念标 记。用户从多主题文档库中选取M篇样例文档提交给文档分类装置,选取的样例文档应尽 可能涵盖各个主题。可以使用文档属性特征生成的经典方法生成适当的文档特征,如词 频(TermFrequency,简记为TF)、词频-逆文档频率(TermFrequency-InverseDocument Frequency,简记为TF-IDF)等。由此,每篇文档可由一个特征向量进行表示。在得到文档特 征后,采用属性特征转换的方法对多主题文档进行处理,然后使用预设的分类方法训练得 到相应的预测模型,基于此对文档存储设备中的待分类文档进行分类,如图1所示。如果用 户对所得结果不满意,可以从多主题文档库中选取更多的样例文档反馈给文档分类装置。
[0012] 本发明涉及的方法如图2所示。步骤10是起始动作。假设用户提交的样例文档对 应于集合D= {(心,於)^ 5M+},其中Yl为与文档对象x^目关的多义信息,由一组概念标 记集合= …表示(Q为所有可能的概念标记个数)。步骤11对所有的样例文档进 行主题特征转换,以显式地描述文档对象的多义信息,其详细说明如图3所示。接下来步骤 12从转换后的文档对象中使用预设的分类方法训练得到所需的预测模型,其详细说明如图 4所示。步骤13利用训练得到的预测模型,对文档存储设备中的待分类文档进行分类。具 体地说,分类装置首先采用与步骤11相同的方法将待分类文档进行主题特征转换,然后将 转换后的文档对象提交给训练所得的模型进行预测。在得到待分类文档隶属的概念标记集 合后,即可根据预测所得的概念标记集合返回待分类文档的分类结果。在输出分类结果后, 分类装置即进入步骤14所示的结束状态。
[0013] 图3给出了图2中步骤11的详细描述,具体说明了如何对文档的属性特征进行主 题特征转换。图3中的步骤1100是起始状态。步骤1101至1105构成了一个循环体,在循 环的每一轮中生成与第q类主题对应的聚类中心…用于构 造该主题的主题特征。其中,步骤1103首先构造集合?VAV如果某个文档对象(xi,Yi)含 有标记q,则将向量xi置于集合&中,否则置于集合M中。步骤1104对集合巧及X冲所有 文档向量分别使用k-means进行聚类,分别得到%个聚类中心彳於P%}、… 从直观上说,聚类中心近似地描述了第q类的概要信息。在上述过程完成后,步骤1106至 1109构成了另一个循环体,在循环的每一轮中对每个样例文档进行主题特征转换。具体来 说,步骤1108基于聚类中心将每个文档对象转换为新的表示形式(Ul其中Xl 由一个单一的向量变成了一组向量构成的集合Xi,集合所含向量由Xl与各聚类中心的欧式 距离值组合而成。从直观上看,每个距离值向量反映了Xl与各个类之间的空间关系。在上 述转换过程完成之后,初始的样例文档数据集S即变为了新的文档对象数据集Sn6W,如步骤 1110所示。步骤1111是结束状态。
[0014] 图4给出了图2中步骤12的详细描述,具体说明了如何使用预设的分类方法 学习得到相应的预测模型。图4中的步骤1200是起始状态。步骤1201至1205构成了 一个循环体,在循环的每一轮中学习得到对应于每个主题标记的二类分类器。其中,步 骤1203利用步骤11中生成的主题特征构建第q个主题标记对应的二类训练数据集合 民二{:(麵(斯) 姒而)SH在此之后,步骤12〇4利用艮在二类分类算法0上 学习得到第q个主题标记对应的二类分类器%。所有的主题标记对应的二类分类器学习完 毕后,装置进入结束状态。步骤1209为结束状态。
[0015] 本发明给出了一种用于多主题文档的分类方法,该方法基于主题特征转换技术, 显式地处理文档的多种主题信息,解决了目前大部分文档分类方法只能处理单主题文档的 局限。
[0016] 熟知本领域的人士将理解,虽然这里为例便于解释已描述了具体实施例,但是可 在不背离本发明精神和范围的情况下作出各种改变。因此,除了所附权利要求之外不能用 于限制本发明。
【主权项】
1. 一种基于主题特征的文档分类方法,该方法包括w下步骤: (1) 用户从已有的多主题文档库中选择样例文档,其中样例文档需涵盖各种类型的文 档; (2) 使用属性特征转换的方法显式地描述样例文档中各主题特有的属性特征; (3) 使用预设的分类方法对转换后的样例文档进行学习得到一个预测模型; (4) 基于预测模型预测文档存储设备中待分类文档的概念标记,并返回分类结果; (5) 如果用户对分类结果满意,则执行步骤6,否则从多主题文档库中选择更多的样例 文档进行反馈,执行步骤2; 化)结束。2. 根据权利要求1所述的基于主题特征的文档分类方法,其中,步骤(2)中包括对所有 的样例文档进行主题特征转换,W显式地描述文档对象的多义信息,具体包括: 设用户提交的样例文档对应于集合0:::: 0取,村i1 <i<j/h其中Yi为与文档对象X1相 关的多义信息,由一组概念标记集合Yi= (1,2,…,Q}表示,其中,Q为所有可能的概念标 记个数;所述步骤(2)具体过程如下: ?对于每一个类别q(1《q《Q),执行W下循环体: a) 构造集合巧、馬,如果某个文档对象(Xi,Yi)含有标记q,则将向量X遺于集合%中, 否则置于集合中; b) 对集合馬及為中所有文档向量分别使用k-means进行聚类,分别得到m。个聚类中 必徐…,趴。。}、'{的料,。J':; ?对于每一个样例文档Xi(l《i《M),执行W下循环体: a)构造主题特征向量集合Xi= {(!)q(Xi)|l《q《Q},其中向量(l)q(Xi)为第i个文档 对象对应于第q个标记的主题特征抑许,)贼呜,蛾,鸣斬、.憔礙恥,斯,,鸣斬喊。沫 ?得到转换后的文档对象集合S"6"= {狂1,Yi)I1《i《M}。3. 根据权利要求2所述的基于主题特征的文档分类方法,其中,步骤(3)中从转换后的 文档对象中使用预设的分类方法训练得到所需的预测模型,具体包括W下步骤: ?对于每一个类别q(l《q《Q),执行W下循环体: a) 针对第q个标记构造相应的二类数据集馬K病碱},巧触i蘇知)S我4《*适 其中若qGYi,则Yi(q)为+1,否则为-1 ; b) 基于心如利用二类分类算法0学习对应于第q个标记的二类分类器gq。
【专利摘要】本发明提供了一种基于主题特征的文档分类方法,采用适于处理多主题文档的多标记学习技术。该方法包括以下步骤:(1)用户从已有的多主题文档库中选择样例文档,其中样例文档需涵盖各种类型的文档;(2)使用属性特征转换的方法显式地描述样例文档中各主题特有的属性特征;(3)使用预设的分类方法对转换后的样例文档进行学习得到一个预测模型;(4)基于预测模型预测文档存储设备中待分类文档的概念标记,并返回分类结果;(5)如果用户对分类结果满意,则执行步骤6,否则从多主题文档库中选择更多的样例文档进行反馈,执行步骤2;(6)结束。
【IPC分类】G06F17/27
【公开号】CN105005559
【申请号】CN201510506904
【发明人】张敏灵, 吴磊
【申请人】东南大学
【公开日】2015年10月28日
【申请日】2015年8月18日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1