一种文本分类方法和系统的制作方法

文档序号:6498940阅读:309来源:国知局
一种文本分类方法和系统的制作方法
【专利摘要】本申请提供一种文本分类系统和方法。该方法包括从具有类目关联规则的资源提取词条以及所述词条之间的关联规则,生成类目关联规则库;基于已有各领域的基础类目生成基础类目词库;预处理测试文本,提取测试文本的特征词条;比对基础类目词库中的词条和类目关联规则库中的词条,利用词条的关联规则对基础类目词库中的词条进行权重计算,并计算关联规则库中的词条权重;用分类器依提取的特征词条以及计算的词条的权重,对测试文本进行分类。本申请的技术方案避免了不同语言环境下传统文本分类中的跨语言平台技术障碍问题,进而对一些新词以及旧词新概念仅对树形关联规则稍作修改,就实现新的文本分类器,无需顾虑传统文本分类器中文本分部均匀问题。
【专利说明】一种文本分类方法和系统
【技术领域】
[0001]本申请专利申请涉及文本处理领域,尤其涉及一种文本分类的方法和系统。
【背景技术】
[0002]文本处理中最常见的是进行文本分类处理。文本分类一般包括文本的表达、分类器的选择与训练、结果分类的评价与反馈等过程,其中文本的表达又可以细分为文本预处理、索引和统计、特征抽取等步骤。如图1所示的文本分类流程图。预处理是将原始语料格式化为同一格式,便于后续的统一处理;索引主要将文档分解为基本处理单元,同时降低后续处理的开销;统计的主要工作是总结出词频、项与分类的相关概率,生成关联规则库;特征抽取是从文档中抽取出反应特征文档主题的特征;而分类器的主要工作是把测试文本的特征向量基于生成的关联规则库,进行文本的分类。在完成文本的分类后,要对分类器分类结果进行分析,进一步优化分类规则,充实训练库等。
[0003]目前文本分类技术的研究主要放在特征值抽取和分类器建模方面,以下是国内现有的集中关于文本分类方面的专利技术:
[0004]一种基于领域知识的短文本分类方法及文本分类系统,用于解决信息【技术领域】中传统文本分类方法不能较好的对对短文本进行分类的缺点。训练数据获取模块用来获取进行训练的数据得到学习库;数据与处理模块,对所述学习库进行信息抽取将无结构化的数据处理为结构化数据;文本表示模块采用向量空间模型对数据进行数学化表示;特征抽取模块依据TFIDF算法对词项集的重要性进行排序;模型建立模块对每个词项权值赋予不同的权重,并根据预先设定的分类规则分类。该方法和系统,对传统的分类器进行了一定的创新,在分类器中引入了领域词语的概念,有效地增加了短文本的信息量,对短文本数据特别是网页商品数据做基于不同词项集的语义分析,并将语义分析的结果注入到分类器中,为商品数据信息注入了新的信息,从而提高文本分类的准确率。
[0005]一种基于块划分及位置权重的文本分类方法包括:对输入的训练或测试文本经过基本的预处理后,提取文本中的段信息;将每一段视为一个基本的文本块,对块信息做统计分析,根据块大小分布或预定义的块比率,对文本内容重新进行块划分,包括文本块的合并等操作。提取特征词、量化权重,并获取特征词对类别的后验概率,然后分析具有最大后验概率类别与文本类别标签相符的特征词的分布,最后生成文本向量;利用分类器完成分类模型训练或文本分类。该方法可用于文本分类系统的文本表示阶段,通过丰富传统的利用特征词构建文本向量时对文本内容信息的表达,提升文本分类效果。
[0006]一种基于领域知识的文本分类特征选择及权重计算方法,该方法结合样本统计与领域术语构造领域分类特征空间,利用领域内部知识关系,计算术语间的相似度,依此来调整分类特征向量相应特征维权重。并采用支持向量机学习算法,建立领域文本分类模型,实现领域文本分类。对云南旅游领域与非旅游领域文本分类实验结果表明,该方法分类准确率比改进TFIDF特征权重方法的文本分类效果提高了 4个百分点。
[0007]—种基于概率主题词的两级组合文本分类方法采用的:一级分类:基于朴素贝叶斯分类方法,利用概率主题词特征和拒绝条件判断对测试文本分类;二级分类:再基于传统特征提取方法提取出特征词对被第一级拒绝分类的测试文本进行分类。此分级组合方法对文本进行分类,融和不同分类器的特点能够非常快的在一级分类中对很多文本进行正确分类,大大提高文本分类系统效率,为文本分类系统实用化提供很好的处理方式;考虑文本特点提出概率主题词,在适当的拒绝条件下,概率主题词以很高的正确率完成大量文本分类任务。实验证明本申请两级组合与传统单一分类相比,能够大大减少时间消耗并能提高系统分类正确率。
[0008]传统的文本分类技术如图1所示首先需要制定一个边界效应较好的类目体系,并按照该类目体系搜集足够的具有类目代表性的文本集合作为训练样本,这一步工作往往是传统的文本分类工作中时间开销最大的工作。在搜集了足够多,足够好的训练文本101集合后,要对单个文本分类的预处理得到处理后的训练文本102,预处理,例如:包括中文分词、生成停用词表、中文特征选择、文本向量表示等工作。成熟的中文分词方法已经有很多,如CDWS、n-gram、隐马尔科夫模型等。文本语法组成部分的虚词不仅在文章中出现频率高,并对分词几乎没有意义,即干扰分类,有是的文本维度过高,影响分类效率。如果原始数据是一些网页数据,还需要剔除掉网页的插件、页眉、页脚等结构噪声。停用词的自动生成技术还不成熟,目前主要通过导入已有的通用停用词和人工标注项目特需停用的方式来实现,需要一定的时间开销并给系统带来一定的人为不稳定性。大量的文本特征一方面会增加分类算法的空间复杂度和时间复杂度,另一方面可能包含了大量的噪音数据,最终影响分类精度。目前主流的文本特征值选取方式有TFIDF、信息增益、互信息、X统计交叉熵等。对处理后的训练文本102进行特征选择得到特征词库103。随着文本长度以及文本数量的增加,文本特征值选取的计算开销也呈线性增长趋势。基于特征等选定训练文本向量104后,传统文本分类方法通过挖掘频繁项集生成关联规则库105,再规则剪枝等方式生成分类器106。测试文本107经过类似的预处理,得到处理后的测试文本108,基于特征等选定测试文本向量109后,利用分类器106分类得到类目200。
[0009]而且,现有的分类技术中,其关键规则库对于新词和停用词的动态调节能力有限,随着计算机技术的不断发展和互联网的迅速普及,越来越多的人们开始使用互联网进行信息获取。其网络的海量的资源和不断涌现出的文本资源不断地挑战着现有的关联规则库的扩展性和适应性。华中师范大学苏小康的硕士论文《基于维基百科构建语义知识库及其在文本分类领域的应用研究》基于互联网上存在的海量真实文本(比如维基百科),提出了一种分类数据库的构建方法。此方法采用语义标签为指代,语义指纹刻画语义的形式化知识表示方法,从中提出一定规模的语料库,对维基百科网页之间的连接关系进行挖掘,自动构建语义知识库。但是此现有技术的重点是提供一种语义知识库,并没有给出基于此类知识库的关联规则相对应的文本分类技术。

【发明内容】

[0010]针对现有文本分类技术的缺陷,本申请的技术方案要解决的技术问题是提供了基于资源自动生成关联规则库并与基础类目词库结合实现文本分类的方法和系统,如,基于词条关联规则和基础类目词库,通过分析资源的组织关联结果,生成文本关键字关联规则分类体系,构造朴素贝叶斯分类器,对测试文本进行文本分类。[0011]本申请一种文本分类系统,包括:关联规则库生成模块,通过从具有类目关联规则的资源提取词条以及所述词条之间的关联规则,以生成类目关联规则库;基础类目词库生成模块,基于已有各领域的基础类目生成基础类目词库;文本预处理模块,用于对测试文本进行预处理,以提取文本特征词条;规则剪枝模块,比对所述基础类目词库中的词条和所述类目关联规则库中的词条,利用所述类目关联规则库中的词条的关联规则,对所述基础类目词库中的词条进行权重计算,并计算所述类目关联规则库中的词条权重;分类器模块,基于所述词条的权重和提取的所述文本特征词条,对所述测试文本进行分类。
[0012]对应本申请的系统的一种文本分类方法,包括:从具有类目关联规则的资源提取词条以及所述词条之间的关联规则,以生成类目关联规则库;基于已有各领域的基础类目,生成基础类目词库;预处理测试文本,提取测试文本的特征词条;比对所述基础类目词库中的词条和所述类目关联规则库中的词条,利用所述类目关联规则库中的词条的关联规贝U,对所述基础类目词库中的词条进行权重计算,并计算所述关联规则库中的词条权重;使用分类器,依据提取的所述特征词条以及计算的词条的权重,对所述测试文本进行分类。
[0013]本申请的技术方案,基于类目关联规则和基础类目词库的进行文本分类,避免了不同语言环境下传统文本分类中的跨语言平台技术障碍问题。与此同时,对一些新词以及旧词新概念,只要对各种类型(树型、网状、链型等)的关联规则稍作修改,就可以实现新的文本分类器,无需顾虑传统文本分类器中文本分部均匀问题。
【专利附图】

【附图说明】
[0014]为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0015]图1为传统的文本分类示意图。
[0016]图2为本申请【具体实施方式】的文本分类系统图。
[0017]图3为本申请【具体实施方式】的树形关联规则示例。
[0018]图4为本申请【具体实施方式】的复杂关联规则示例。
[0019]图5为本申请【具体实施方式】的根节点无标注的单链路。
[0020]图6为本申请【具体实施方式】的某些根节点无标注的多链路。
[0021]图7为本申请【具体实施方式】的环链剪枝策略。
【具体实施方式】
[0022]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0023]本申请基于类目关联规则和基础类目词库进行文本分类的技术,在下面的【具体实施方式】中,将以维基百科作为类目关联规则库的构建基础作为例子,但并不限于此。维基百科是一个基于Wiki技术的多语言百科全书协作计划,也是一部用不同语言写成的网路百科全书,其目标及宗旨是为全人类提供自由的百科全书——用他们所选择的语言来书写而成的。截至2011年11月,已经有超过3172万的注册用户以及为数众多的未注册用户贡献了 282种语言超过2024万篇的条目,其编辑次数已经超过12亿3192万次。由于维基百科具有多语言参照类目体系,采用该树形结构关联规则所建立的文本关联规则分类体系,完全可以应用到不同的语言系统中。其他的类似的各种百科数据库,比如,百度数据库,中国百科网等,和数字图书馆的分类索引词条,都可以作为关联规则库的构建基础。对于其他拓扑结构的关联规则,比如,网状结构,链状结构等(任意或至少一种)关联规则或其组合,本申请的方法和系统同样适用。下文将结合附图对本申请的技术方案进行介绍。
[0024]图2是本申请的文本分类系统图。该系统包含关联规则库生成模块201,基础类目词库生成模块202,文本预处理模块203,规则剪枝模块204,分类器205几部分组成。本实施例是基于维基百科的树状文本类目关联规则,但并不限于此。
[0025]关联规则库生成模块201,通过从具有类目关联规则的资源提取词条和这些词条之间的规则,以生成类目关联规则库,在类目关联规则库中存储这些词条以及这些词条之间的关联规则。
[0026]比如,从维基百科(Wikipedia)等具有一定类目关联规则的网络资源中利用数据挖掘技术或者爬虫技术提取词条和词条之间的规则,生成类目关联规则库,如利用爬虫工具爬去维基百科的分类索引词条,保存到一数据库中。其需要根据一定的网页分析算法以过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列,进而根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复抓取、选择的动作,直到达到停止条件。以爬虫程序进行网页抓取为例,爬虫抓取的网页将会被系统存贮,进而进行分析、过滤,并建立索引,以便之后的查询和检索。其常用的搜索策略为深度优先和广度优先。爬虫程序获得维基百科的分类索引词条,比如:通信_>手机_〉频率,中的三个词条以及三个词条之间的关联关系,如此例子中即为一对一的父子关联规则,通信(父)、手机(子),手机(父)、频率(子),也可能一对多的关联规则,即一个父,多个子。并将这些词条以及词条之间的关联规则(类目关联规则)保存到一个数据库中,形成例如:页面分类_>社会_>军事_>军事学_>线式作战,这样的形式,生成类目关联规则库即关联规则库。参考链接如:
[0027]http://zh.wikipedia.0rg/wiki/ffikipedia:%E5%88%86%E9%A1%9E%E7%B4%A2%E5%BC%95。
[0028]基础类目词库生成模块202,生成基础类目词库,其生成各领域的基础类目,用于类目查询,以确定文本分类领域。此模块202基于现有/已有的各领域的基础类目来生成基础类目词库,可以通过下载现有/已有的基础类目词库,比如QQ输入法分类词库,保存到本地文件,以备使用。参考链接如:http://dict.py.qq.com/
[0029]基于上述类目关联规则和基础类目词库,能利用诸如树形结构的关联规则建立文本关联规则,有助于应用于不同的语言系统,即能跨语言平台。类目关联规则库和基础类目词库做好了后续剪枝处理和文本分类的数据准备。
[0030]文本预处理模块203用于对测试文本进行处理,提取文本特征词条。其具有文本特征向量提取功能,对测试文本进行预处理,一个待测文本通过简单的中文分词处理,剔除一些助词、副词等虚词,得到该文本的关键词列表,并通过例如TFIDF以及关键词长度计算出关键词的分数作为类目分类器205的输入。[0031 ] 规则剪枝模块204,用于比对所述基础类目词库中的词条和所述类目关联规则库中的词条,利用所述类目关联规则库内的词条关联规则,对所述基础类目词库中的词条进行权重计算,并计算所述关联规则库中的词条的权重。规则剪枝模块204在分类前,对上述类目关联规则和基础类目词库进行处理,利用诸如树形结构关联规则建立词条关联规则和基础类目词库的比对、分析、计算、修改,简易地变更分类方式,保证跨语言平台的文本分类,而无需顾虑传统文本分类器的文本分布均匀。
[0032]根据规则剪枝算法,基于关联规则库生成模块201和基础类目词库生成模块202(二者准备的数据),分析词条在关联规则库的关联规则,对基础类目词库中的词条进行权重分析计算,并把权重信息送给分类器205,以备分类使用。规则剪枝模块204的工作原理将在下文中介绍。
[0033]分类器模块205,利用计算出来的词条的权重,作为朴素贝叶斯分类器的先验条件概率,即此词条属于某一类目的条件概率,对测试文本进行分类。最后完成文本分类获得需要的类目。本实施方案采用朴素贝叶斯文本分类器对文本分类,其他类型的文本分类器,经过适当修改,也可以应用到本申请中。
[0034]下面对规则剪枝模块204的工作原理进行描述。规则剪枝模块204接受来自对关联规则库模块201的词条关联规则和来自于基础类目词库生成模块中生成的基础类目词库的词条,对词库中的词条的权重进行计算。其剪枝处理包括了:1)进行基础类目词库权重估计、2)初始化维基树型结构的类目关联规则库(关联关系初始化)、3)采用迭代算法对关联规则库中所有节点权重进行计算、4)对特殊节点进行处理、5)对关联规则中环状关系进行剪切处理。
[0035]I)基础 类目词库权重估计
[0036]假设存在N个不同类目的词典⑶={Dict_l, Dict_2,…Dict_N},每个Diet文件中,含有M个单词/词组,Dict_i={fford_il, Word_i2,...., Word_iM},计算每个词典内单词/词组的权重w_weight: w_weight=l/DF, DF 即 Dictionary Frequency,当前 word在不同词典内出现的频度(次数)。生成基础类目词库权重表。比如,词组“芯片频率”出现在出_计算机}类和{D_手机}类中出现,因此,此词组的DF值为2,其属于{D_计算机}类的条件概率P ({D_计算机} /”芯片频率” )=1/2。并将词条及其对应的权重生成权重表。
[0037]2)初始化维基树形结构的关联规则库
[0038]查询类目关联规则库中的词条,例如,查询维基百科的树形文本类目词库中的词条,如果在基础类目词库的权重表中存在当前词条,则将权重表中的权重赋给当前词条,否则该词条的类目信息为零(为未标注节点),并把当前节点记做“标注节点”,并存储各节点的信息于类目关联规则库中,该节点信息包括与其有关系的所有类目以及其相应的权重,其格式比如:{类目1:权重1,类目2:权重2......}。例如:
[0039]维基百科中的词条“纺织城街道”未在此词典中出现,则“纺织城街道”节点不做任何处理;
[0040]当维基百科中的节点的词条“涡轮增压”只出现在词典{D_机械}类中时,对“涡轮增压”节点赋予W_ {涡轮增压} = {D_机械:1};
[0041]当维基百科节点中的词条“芯片频率”出现在{D_计算机}类和{D_手机}类中时,对“芯片频率”节点赋予W_{芯片频率}=出_计算机:0.5,手机:0.5}。[0042]3)采用迭代算法对类目关联规则库中所有节点进行权重计算
[0043]在初始化标注节点后,对于没有标注的节点,需要考虑以下几种关联规则:如一对一、一对多的词条之间的关联规则。
[0044]查询类目关联规则库中的词条,如果在基础类目词库的权重表中并不存在当前词条,在设置其类目信息为O后,存储当前词条为未标注节点在该类目关联规则库中。并依据当前词条与那些存在于基础类目词库中的词条之间的词条规则关系,如一对一、一对多(参见a)、b)、C))来处理,以计算当前词条的权重。
[0045]a)当未标注的节点X自下而上检索到某个标注节点A,并且与节点A存在“1-1”的单链关系时(如图3 (a)),节点X与节点A的深度比重为1,则节点X的与A的关联规则为:X=A0 节点 w_we i ght_X=w_we i ght_A
[0046]b)当节点X和上一层节点{A,B,...}存在“1-η”的多链关系时(如图3 (b)),这η个父节点深度相同且均为标注节点,则该节点到所有父节点的深度权值为1/η,则节点X与节点A之间的关联规则为:
[0047]
【权利要求】
1.一种文本分类系统,其特征在于,包括: 关联规则库生成模块(201),通过从具有类目关联规则的资源提取词条以及所述词条之间的关联规则,以生成类目关联规则库; 基础类目词库生成模块(202),基于已有各领域的基础类目生成基础类目词库; 文本预处理模块(203),用于对测试文本进行预处理,以提取文本特征词条; 规则剪枝模块(204),比对所述基础类目词库中的词条和所述类目关联规则库中的词条,利用所述类目关联规则库中的词条的关联规则,对所述基础类目词库中的词条进行权重计算,并计算所述类目关联规则库中的词条权重; 分类器模块(205),基于所述词条的权重和提取的所述文本特征词条,对所述测试文本进行分类。
2.如权利要求1所述的系统,其特征在于, 所述资源包括:百科知识库和数字图书馆系统中的至少一个; 所述基础类目词库中的 词条的权重计算是基于该词条在所述基础类目词库中的各类目中出现的频度; 所述词条之间的关联规则结构包括:树型结构、链型结构和网状结构中至少一种。
3.如权利要求1所述的系统,其特征在于,所述关联规则库生成模块(201)进一步被配置成:使用爬虫程序生成所述类目关联规则库。
4.如权利要求1所述的系统,其特征在于,所述规则剪枝模块(204)进一步被配置成:将所述类目关联规则库中的词条与所述基础类目词库中的词条比对,如果所述类目关联规则库中的词条存在于所述基础类目词库中,则根据所述基础类目词库中的词条的权重对所述关联规则库中的词条进行权重赋值。
5.如权利要求4所述的系统,其特征在于,所述规则剪枝模块(204)进一步被配置成:如果所述类目关联规则库中的词条不存在于所述基础类目词库中,则根据在所述类目关联规则库中的该词条、与存在于所述基础类目词库中的所述类目关联规则库中的其他词条的词条关联规则进行权重计算。
6.如权利要求5所述的系统,其特征在于, 所述词条关联规则包括词条之间:一对一关系或一对多关系; 所述关联规则库中的权重计算考虑所述类目关联规则库中各节点间的相对深度; 所述类目关联规则库中的词条的权重计算通过迭代算法进行。
7.如权利要求1所述的系统,其特征在于,所述分类器模块(205)为朴素贝叶斯分类器,所述词条的权重作为所述分类器的先验条件概率,对所述测试文本进行分类。
8.一种文本分类方法,其特征在于,包括: 从具有类目关联规则的资源提取词条以及所述词条之间的关联规则,以生成类目关联规则库; 基于已有各领域的基础类目,生成基础类目词库; 预处理测试文本,提取测试文本的特征词条; 比对所述基础类目词库中的词条和所述类目关联规则库中的词条,利用所述类目关联规则库中的词条的关联规则,对所述基础类目词库中的词条进行权重计算,并计算所述关联规则库中的词条权重;使用分类器,依据提取的所述特征词条以及计算的词条的权重,对所述测试文本进行分类。
9.如权利要求8所述的方法,其特征在于, 所述资源包括百科知识库和数字图书馆系统中的至少一个; 所述基础类目词库中的词条的权重计算是基于该词条在所述基础类目词库中的各类目中出现的频度; 所述词条之间的关联规则结构包括:树型结构、链型结构和网状结构中至少一种。
10.如权利要求8所述的方法,其特征在于,所述类目关联规则库是由爬虫程序提取生成。
11.如权利要求8所述的方法,其特征在于,将所述类目关联规则库中的词条与所述基础类目词库中的词条比对,如所述类目关联规则库中的词条存在于所述基础类目词库中,则根据所述基础类目词库中的词条的权重对所述关联规则库中的词条进行权重赋值。
12.如权利要求11所述的方法,其特征在于,如果所述类目关联规则库中的词条不存在于所述基础类目词库中,则根据在所述类目关联规则库中的该词条、与存在于所述基础类目词库中的所述类目关联规则库中的其他词条的词条关联规则进行权重计算。
13.如权利要求12所述的方法,其特征在于, 所述词条关联规则包括词条之间一对一关系或一对多关系; 所述关联规则库中的权重计算考虑所述类目关联规则库中各节点间的相对深度; 所述类目关联规则库中的词条的权重计算通过迭代算法进行。
14.如权利要求8所述的方法,其特征在于,所述分类器为朴素贝叶斯分类器,将所述词条权重作为所述分类器的先验条件概率,对所述测试文本进行分类。
【文档编号】G06F17/30GK103927302SQ201310009087
【公开日】2014年7月16日 申请日期:2013年1月10日 优先权日:2013年1月10日
【发明者】陈俊波, 李华康, 曾鹏程, 薛贵荣 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1