专利名称:参考外部知识构建文本分类器的方法和设备的制作方法
参考外部知识构建文本分类器的方法和设备技术领域
本发明一般地涉及信息检索和文本分类。更具体而言,本发明涉及参考外部知 识构建文本分类器的方法和设备。
背景技术:
随着电子化办公和因特网的飞速发展,电子文本的信息量成爆炸趋势增长,并 且大规模的自动信息处理已经成为人们更好地利用这种大规模信息的必要手段和挑战。
信息检索是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的 信息的过程和技术。而文本自动分类是实现信息检索的主要支撑技术之一,其基本目的 是将文本划分到预定义的类中,帮助人们检索、查询、过滤和利用信息的有效手段。早 期的文本分类采用的是基于知识工程和专家系统的方法,可是这样的方法非常复杂和缺 乏灵活性。随着机器学习的兴起和发展,很多机器学习的分类器模型被引入的文本分 类领域中,从不同的方面取得了不错的效果,目前已经成为实现自动文本分类的主流技 术。
基于机器学习的文本分类通过最终构建的文本分类器来实现,而其性能很大程 度上依赖于所使用的训练数据(文本)集合,这样就造成训练数据的选择成为其中的关 键。
所谓训练数据的选择是指从给定的具有类别标签的文本集合(标注文本集)中选 择其中的一个子集用来训练相应的文本分类器。好的训练数据选择方法一方面通过减少 训练文本的数量能够大幅度提高构建分类器的效率,另一方面通过提高训练文本的质量 提高训练得到分类器的泛化能力和鲁棒性,从而保证分类的精度。
目前已经存在一些相关的用于训练文本选择的专利和研究技术。
例如,在题为"Creating taxonomies and training data for document categorization” 的美国专利US 7409404B2中提供了一种训练文本选择技术,其主要在尽量消除扩类别的 特征的干扰的前提下,通过给定标注文本的统计信息来精化训练文本数据的质量。
另外,在Wang,J、Neskovic, P 和 Cooper,L.N 所编写的题为 “Training data selection for support vector machines” 的非专利文献(In LNCS vol.3610 2005)(下称非专 利文献1)中也描述了两种利用给定标注文本集合的内部统计特征来进行训练文本选择并 进而学习生成文本分类器的设备和方法。其具体结构框图和工作流程如图1和图2所示。
如图1所示,根据该现有技术的文本分类器构建设备100由输入装置101、文本 向量化装置102、基于统计方法的训练文本选择装置103和分类器学习装置104构成。输 入装置101从标注文本存储单元105输入一组标注文本。文本向量化装置102对输入的 每个标注文本进行向量化,并将生成的对应于每个标注文本的向量空间模型(VSM)存储 到向量空间模型(VSM)存储单元106中。然后,基于统计方法的训练文本选择装置103 基于统计方法对已经向量化的每个标注文本进行打分并从中选出适当的训练文本。选出 的训练文本随后被分类器学习装置104用于学习生成文本分类器。6
图2示出了图1所示文本分类器构建设备100的示意性工作流程。在非专利文献 1所公开的技术内容中记载了两种根据标注文本集合的内部特征来进行训练文本选择并进 而学习生成文本分类器的示例性方法,即示例方法1和示例方法2。在示例方法1中,以 每个标注文本xi为中心的最大的不包含其他类别的标注文本的圆形区域中所包含的标注 文本的个数被记作N(Xi);并且挑选其中具有最小N(Xi)的圆形区域中的标注文本,作为 训练文本集。在示例方法2中,计算每个标注文本xi到其他类别的标注文本的凸集的距 离d(xi);并且挑选具有最小d(xi)的标注文本,作为训练文本。
无论示例方法1还是示例方法2,作为计算统计量的特征都只来源于给定的标注 文本集自身,其中只考虑了给定标注文本集内部的样本分布。因此,最后构建的文本分 类器必然完全受给定标注文本的影响,从而造成此分类器的泛化能力和鲁棒性差。
虽然现有技术中还存在其他训练文本选择方法,但是,目前的训练文本选择方 法主要都是利用给定标注文本集中的内部知识来实现的,即,所采用的特征及权重完全 依赖于给定标注文本集合的数据分布,从而使选择出来的训练文本会具有很强的偏向 性。这种偏向性会传播到最终构建的分类器的分类取向,使其泛化能力和鲁棒性受到很 大的影响,最终造成分类器性能不理想。发明内容
本发明正是考虑到上述现有技术中存在的问题而研制的。
根据本发明的思想,来源于外部知识源(例如,词义词典)的外部特征被引入到 训练文本的选择过程中,具体讲,本发明的核心实现主要体现在以下两个方面
(1)外部特征的构建其主要利用外部词义词典中关于词义或者概念的定义, 以类别名或者准类别名中蕴含的概念为输入,构建独立于给定标注文本集的外部特征; 以及
(2)基于混杂方法的训练文本选择不同于只考虑来源于标注文本集的内部特 征的传统标注文本打分排序方法,本发明给出的方法综合考虑来源于外部知识源的外部 特征(从上到下)和来源于给定标注文本集的内部特征(从下向上)来实现标注文本的打 分排序。这一过程不但利用了给定标注文本集所蕴含的知识而且利用了外部知识源关于 类别名或者准类别名的语义知识来进行训练文本数据的选择。
根据本发明第一方面,提供了一种用于构建文本分类器的方法,其包括输入 标注文本集;参考外部知识源构建标注文本集的外部特征;综合考虑标注文本集的内部 特征和外部特征从标注文本集中选择训练文本;以及利用所选择的训练文本来学习生成 文本分类器。在本发明的实施例中,内部特征可以由对标注文本进行向量化而生成的向 量空间模型所包含的词汇构成,而外部特征可以是通过参考词义词典中关于词义的定义 以及词汇之间的语义关系,由类别名(或准类别名)扩展出来的多个此类别中具有代表性 的特性词汇。
根据本发明第二方面,提供了一种用于构建文本分类器的设备,其包括输入 装置,用于输入标注文本集;外部特征构建装置,用于参考外部知识源构建标注文本集 的外部特征;训练文本选择装置,用于综合考虑标注文本集的内部特征和外部特征,从 标注文本集中选择训练文本;以及分类器学习装置,用于利用所选择的训练文本来学习7生成文本分类器。
根据本发明,来源于外部知识源的外部特征被引入到训练文本的选择以及分类 器的创建过程中。由于来源于给定标注文本集的数据偏向性得到了校正控制,因此可以 大大提高训练文本的类别代表性,而且增加了不同类别之间训练文本的差异性,从而最 终达到提高训练得到的分类器的泛化能力和鲁棒性的目的。
结合附图,从下面对本发明实施例的详细描述,将更好地理解本发明,附图中 类似的标号指示类似的部分,其中
图1是根据现有技术的文本分类器构建设备100的结构框图2是示出图1所示设备100的工作流程的示意性流程图3是根据本发明的实施例的文本分类器构建设备300的结构框图4是示出图3所示设备300的工作过程的流程图5是详细示出根据本发明实施例的文本分类器构建设备300中的外部特征构建 装置的内部结构的框图6是示出图5所示外部特征构建装置的另一示例的内部结构的框图7是详细示出根据本发明实施例的文本分类器构建设备300中的基于混杂方法 的训练文本选择装置的第一示例的内部结构的框图8是示出图7所示基于混杂方法的训练文本选择装置的第一示例的工作流程 图9是示出根据本发明实施例的文本分类器构建设备300中的基于混杂方法的训 练文本选择装置的第二示例的内部结构的概括性框图10是更详细示出图9所示的基于混杂方法的训练文本选择装置的第二示例的 内部结构的详细框图11是示出图10所示基于混杂方法的训练文本选择装置的第二示例的工作流程 图;以及
图12是示出根据本发明实施例的文本分类器构建设备300的工作流程的示意性 流程图。
具体实施方式
这里,为了方便描述,首先对本发明中将使用的一些专业术语进行简要说明
权利要求
1.一种用于构建文本分类器的方法,包括 输入标注文本集;提取所述标注文本集的内部特征;参考外部知识源构建所述标注文本集的外部特征;综合考虑所述标注文本集的内部特征和外部特征,从所述标注文本集中选择训练文 本;以及利用所选择的训练文本来学习生成所述文本分类器。
2.如权利要求1所述的方法,其中提取所述标注文本集的内部特征的步骤包括对所述标注文本集中的每个标注文本进行向量化,以得到对应于该标注文本的向量 空间模型,其中各个标注文本的向量空间模型所包含的词汇一起构成所述标注文本集的内部特征。
3.如权利要求1所述的方法,其中创建所述标注文本集的外部特征的步骤包括 针对每个类别对相应的类别名进行分词处理以将其分解为一组词汇; 对每个所述词汇在所述外部知识源中的每个词义进行打分; 根据打分结果选择所述词汇的得分高的一个或多个词义;以及 将所述一组词汇和每个词汇的得分高的一个或多个词义词汇组合起来,以构成所述 标注文本集的针对所述类别的外部特征。
4.如权利要求3所述的方法,其中所述类别的类别名不具有自然语言的语义信息,并 且创建所述标注文本集的外部特征的步骤还包括通过分析所述类别所包含的标注文本来自动创建所述类别的准类别名;并且 其中,所述准类别名作为所述类别的类别名被用于外部特征的创建。
5.如权利要求3所述的方法,其中创建所述标注文本集的外部特征的步骤还包括 从分解得到的所述一组词汇中去除停用词。
6.如权利要求3所述的方法,其中所选择的每个词义在所述外部知识源中通过语义关 系外延出来的词汇也被用作所述类别的外部特征。
7.如权利要求1所述的方法,其中所述外部知识源是词典。
8.如权利要求3所述的方法,其中从所述标注文本集中选择训练文本的步骤包括 通过计算所述向量空间模型之间的相似性来计算两两标注文本之间的距离; 利用所述标注文本集的外部特征调整计算出的所述两两标注文本之间的距离;以及 利用统计方法、根据调整后的所述标注文本之间的距离来选择所述训练文本。
9.如权利要求8所述的方法,其中选择所述训练文本的步骤包括计算以每个标注文本为中心的最大不包含其他类别的标注文本的圆形区域中所包含 的标注文本的个数;并且选择具有最少个数的标注文本的圆形区域中所包含的标注文本,作为所述训练文本。
10.如权利要求8所述的方法,其中选择所述训练文本的步骤包括 计算每个标注文本到其他类别的标注文本的凸集的距离;并且选择具有最小距离的标注文本,作为所述训练文本。
11.如权利要求8所述的方法,其中利用所述外部特征调整计算出的所述两两标注文 本之间的距离的步骤包括对同时出现在所述标注文本集的内部特征和外部特征中的词汇赋予更高的权重;并且根据所述权重来调整计算出的所述两两标注文本之间的距离。
12.如权利要求3所述的方法,其中从所述标注文本集中选择训练文本的步骤包括 利用所述标注文本集的所述外部特征对每个所述标注文本进行初始化打分;利用所述标注文本集的所述内部特征来精化所述初始化打分结果;以及 根据各个标注文本的精化后的打分结果来选择所述训练文本。
13.如权利要求12所述的方法,其中对每个所述标注文本进行初始化打分的步骤包括对于所述标注文本集中的每个类别,利用相应的外部特征所包含的词汇作为查询关 键字对该类别中的标注文本进行查询;并且将所述查询的返回结果所反映出的每个标注文本与相应类别的所述外部特征的相似 度作为该标注文本的所述初始化打分结果。
14.如权利要求13所述的方法,其中精化所述初始化打分结果的步骤包括(a)根据每个所述标注文本的所述初始化打分结果,将每个类别的前的标注文本 作为训练文本集合来进行分类器学习,以获得一中间分类器;(b)利用所述中间分类器对所述标注文本集中的标注文本进行分类;(C)对于所述分类得到的每个类别,根据其中包含的每个标注文本的内部特征对该类 别中的标注文本进行新的打分排序;以及(d)根据新的打分排序结果,选择每个类别的前的标注文本作为新的训练文本集 合来进行分类器学习,以获得新的中间分类器,重复上述步骤(b)、(c)和(d),直到所选择的训练文本的集合不再发生变化为止。
15.如权利要求14所述的方法,其中当根据每个标注文本的内部特征对标注文本进行 新的打分排序时,标注文本根据其所述中间分类器的超平面或者标注文本分布期望的距 离被打分排序。
16.如权利要求14所述的方法,其中选择每个类别的前的标注文本作为新的训练 文本集合的步骤包括对于每个类别c 选择该类别c的前的标注文本作为针对该类别c的正例样本, 选择其他类别的前p-%的标注文本作为针对该类别c的负例样本。
17.—种用于构建文本分类器的设备,包括 输入装置,用于输入标注文本集;内部特征提取装置,用于提取所述标注文本集的内部特征; 外部特征构建装置,用于参考外部知识源构建所述标注文本集的外部特征; 训练文本选择装置,用于综合考虑所述标注文本集的内部特征和外部特征,从所述 标注文本集中选择训练文本;以及分类器学习装置,用于利用所选择的训练文本来学习生成所述文本分类器。
18.如权利要求17所述的设备,其中所述内部特征提取装置包括文本向量化装置,用于对所述标注文本集中的每个标注文本进行向量化,以得到对 应于该标注文本的向量空间模型,其中各个标注文本的向量空间模型所包含的词汇一起构成所述标注文本集的内部特征。
19.如权利要求17所述的设备,其中所述外部特征构建装置包括分词处理单元,用于针对每个类别,对相应的类别名进行分词处理以将其分解为一 组词汇;词义打分单元,用于对每个词汇在所述外部知识源中的每个词义进行打分;词义选择单元,用于根据所述词义打分单元的打分结果选择所述词汇的得分高的一 个或多个词义;以及组合单元,用于将所述词汇和其得分高的一个或多个词义词汇组合起来,以构成所 述标注文本集的针对所述类别的外部特征。
20.如权利要求19所述的方法,其中所述类别的类别名不具有自然语言的语义信息, 并且所述外部特征构建装置还包括准类别名生成单元,用于通过分析所述类别所包含的标注文本来自动创建所述类别 的准类别名;并且其中,所述准类别名作为所述类别的类别名被用于外部特征的创建。
21.如权利要求19所述的方法,其中所述外部特征构建装置还包括过滤单元,用于从分解得到的所述一组词汇中去除停用词。
22.如权利要求17所述的设备,其中所述外部知识源是词典。
23.如权利要求19所述的设备,其中所述训练文本选择装置包括距离计算单元,用于通过计算所述向量空间模型之间的相似性来计算两两标注文本 之间的距离;距离调整单元,用于利用所述标注文本集的外部特征调整计算出的所述两两标注文 本之间的距离;以及基于统计方法的训练文本选择单元,用于利用统计方法、根据调整后的所述标注文 本之间的距离来选择所述训练文本。
24.如权利要求23所述的设备,其中所述训练文本选择装置还包括权重生成单元,用于对同时出现在所述标注文本集的内部特征和外部特征中的词汇 赋予更高的权重;并且所述距离调整单元根据权重生成单元所生成的所述权重来调整计算出的所述两两标 注文本之间的距离。
25.如权利要求19所述的设备,其中所述训练文本选择装置包括初始化打分单元,用于利用所述标注文本集的所述外部特征对每个所述标注文本进 行初始化打分;打分结果精化单元,用于利用所述标注文本集的所述内部特征来精化所述初始化打 分结果,并且根据各个标注文本的精化后的打分结果来选择所述训练文本。
26.如权利要求25所述的设备,其中所述初始化打分单元包括查询部件,用于对于所述标注文本集中的每个类别,利用相应的外部特征所包含的 词汇作为查询关键字对该类别中的标注文本进行查询;并且外部特征打分部件,用于将所述查询的返回结果所反映出的每个标注文本与相应类 别的所述外部特征的相似度作为该标注文本的所述初始化打分结果。
27.如权利要求沈所述的设备,其中所述打分结果精化单元包括初始学习部件,用于根据每个所述标注文本的所述初始化打分结果,将每个类别的 前的标注文本作为训练文本集合来进行分类器学习,以获得一中间分类器,该中间分 类器用于对所述标注文本集中的标注文本进行分类;内部特征打分部件,用于对于所述分类得到的每个类别,根据其中包含的每个标注 文本的内部特征对该类别中的标注文本进行新的打分排序;以及中间学习部件,用于根据新的打分排序结果,选择每个类别的前的标注文本作为 新的训练文本集合来进行分类器学习,以获得新的中间分类器,其中所述内部特征打分部件和所述中间学习部件循环迭代操作,直到所选择的训练 文本的集合不再发生变化为止。
28.如权利要求27所述的设备,其中所述中间学习部件包括正例样本选择器,用于针对每个类别c,选择该类别c的前的标注文本作为针对 该类别c的正例样本,以及负例样本选择器,用于选择其他类别的前p-%的标注文本作为针对该类别c的负例 样本。
全文摘要
本发明提出了参考外部知识构建文本分类器的方法和设备。所述方法包括输入标注文本集;提取标注文本集的内部特征;参考外部知识源(例如词典)构建标注文本集的外部特征;综合考虑标注文本集的内部特征和外部特征,从标注文本集中选择训练文本;以及利用所选择的训练文本来学习生成文本分类器。根据本发明,可能由标注文本集合产生的样本分布偏差可以受到外部知识源自动生成的外部特征的调整,从而保证了最后训练得到的分类器具有较好的泛化能力和鲁棒性。
文档编号G06F17/30GK102023986SQ20091017194
公开日2011年4月20日 申请日期2009年9月22日 优先权日2009年9月22日
发明者刘博 , 李建强, 赵彧 申请人:日电(中国)有限公司