一种基于领域知识的短文本分类方法及文本分类系统的制作方法

文档序号:6426959阅读:205来源:国知局
专利名称:一种基于领域知识的短文本分类方法及文本分类系统的制作方法
技术领域
本发明涉及信息技术领域,尤其涉及一种基于领域知识的文本分类方法及文本分类系统。
背景技术
在信息技术飞速发展的今天,用户可通过多种渠道获得大量的信息。例如,通过浏览网页、利用搜索引擎进行信息检索、接收邮件,但常常出现的问题是,海量数据但有效信
息缺乏ο例如,在Baidu、google等网页中检索一关键词时,获得大量的包括该关键词的网页链接,其中,有些网页链接能够体现出其对应的网页具备与该关键词相关的内容,有些网页链接的相关性则较差。当用户由于工程浩大不愿或不能遍历到每条数据时,如何从大量数据中获取有效的数据或潜在有用的数据,又或是排除不必要的数据,获得我们所需要的行业内专、精、深的数据信息,是亟待解决的问题。当前,大量数据以短文本的形式存在,如短信、邮件、网页检索等,尤其是购物网页的数据,若能够实现对商品数据、短信、邮件名称、网页链接进行内在联系的自动分类,再由用户对感兴趣的类别或内容进行逐条读取,将大幅减少用户在定位有效信息时的时间,总之,缩小用户需要逐条察看的范围,可大幅提高用户的查阅便利性和操作效率,改善用户体验。因此,出现了垂直搜索引擎的概念。垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。在电子商务领域,为了实现垂直购物搜索,最重要的一步就是web数据结构化, web数据结构化主要是针对网页库中的商品数据进行分类、规整、使数据结构化。对于现在 web数据结构化目前业内的做法大多数应用基于数据挖掘算法的智能分类技术,但是也有少许地方应用人工干预的方式进行分类。现有技术中,存在通过计算文本之间的相似度进行类别区分的方法,其通过对文本用其词频向量(或称为文本词频向量,term-frequency vector)表示,然后计算词频向量间的距离得到文本相似度。例如,目前业内大多数应用基于数据挖掘算法的web文本分类技术,其主要步骤可以分为预处理、文本表示、特征抽取、信息获取(分类器模型建立)、模型评估和应用五个阶段,如

图1所示,为现有技术基于数据挖掘算法的WEB文本分类的处理过程。(1)文本信息预处理亦即文本信息初始化,主要是对文本数据运用分词算法进行分词,除去其中的一些连词;以及在语义结构分析中,除去一些应该删去的语句段等,使得文本信息初始化为词项集,为文本表示做准备。
(2)文本表示一般都采用向量空间模型表示,在这种表示方法中,每篇文档表示成形如d= < tl , Wl ; t2 , w2 ; ? ; tn,wn >的向量,其中ti表示词项,wi表示ti 在文档d中的权值,其权值wi —般采用TF-IDF来进行表示。其计算公式为
其中tf (ti,d)表示词项ti在文档d中出现的次数,N为训练文总数,η为出现词项ti 的训练文本的总数,m为向量维数。(3)特征抽取是在初始全特征集基础上提取出一个特征子集的过程,能够起到降低向量空间维度、简化计算、防止过度拟合作用。主要做法是依据特征抽取算法对词项集的重要程度进行排序,然后根据提取阈值或提取比例完成提取。(4)信息获取(模型建立)主要是根据已标注类标签的训练数据,应用一些机器学习算法,建立分类函数的函数,目前主要应用的一些机器学习算法有KNN算法、朴素贝叶斯分类等。(5)模型的评估和应用直接反应了建立的分类器能否应用,目前分类器的评估方法有召回率(recall) P评估、准确率(precision) R评估和Fl值评估。这三个值的计算方法如下
Recall=分类正确的条数/应该分到该类的条数 Precision=分类正确的条数/分入到该类的条数 F1-2 氺 Recall 氺 Precision/( Recall + Precision)
虽然应用上述方法能够实现商品智能分类,但是分类效果上并不理想,所以在大多数网站的数据展现上,数据分类的准确率和类数据的查全率都比较低,效果不是很好。这主要是由web商品的数据形式决定的,由于大多数现有的计算文本相似度的方法只适用于长文本,传统的计算长文本相似度方法之所以有效,是因为相似的长文本通常包含了一定数量的相同的词汇,但对于短文本,相似的短文本不一定具有相同的词,自然语言的灵活性使得人们可以通过不同的措辞表达相同的意思,尤其对于待分类的数据,其基本上都是文本长度小于50字的短文本,其特点是描述概念的信号弱,类属性比较强的数据的文本特征却严重不足。因此导致待分类文本矢量带入到分类器中,标注类的特征信息比较弱,导致分类的错误率大大提升。

发明内容
本发明实施例的目的是针对传统文本分类方法不能较好的对短文本进行分类的缺点,并针对短文本描述概念信号比较弱,文本特征严重不足的特点,提出一种适用于像商品网页数据这样的短文本数据的分类方法及文本分类系统,从而提高文本分类的准确率。为了达到上述发明目的,本发明实施例提出的一种基于领域知识的文本分类系统是通过以下的技术方案实现的
一种基于领域知识的文本分类系统,所述文本分类系统包括 训练数据获取模块,用来获取进行模型训练的数据得到训练知识库;数据预处理模块,用来进行信息抽取以将无结构化的所述数据处理为结构化数据,得到建立模型或模型应用进行分类的原始数据,并对所述原始数据进行特征信息获取,应用基于字符串匹配的分词算法,对原始数据的字段信息进行分词,并应用知识库进行信息提取,得到单位词项、产品参数信息、特殊字符信息和/或领域词项信息;
知识库,用来根据所述特征信息建立模型或模型应用中用到的词项集,其中,所述词项集包括需进行分词的词项集、特殊标识符词项集、汉语语义转换词项集、单位词项集和/或领域词项集;
文本表示模块,用来采用向量空间模型对数据进行数学化表示,所述数据的向量空间 IlM^ Sd=(attributel<tl , wl ; t2 , w2 ; ??; tn , wn >;attribute2< tl , wl ; t2 , w2 ; ??; tn , wn >;...; attributek< tl , wl ; t2 , w2 ; ? ; tn , wn >;),其中,attribute j表示数据的第j个属性,ti表示词项,wi表示ti在数据sd中的词项权值, 所述权值wi采用频数来表示;
特征抽取模块,用来依据TF-IDF算法对词项集的重要性进行排序,并根据预先设定的阈值,抽取低于阈值的数据,再依据DF值设定权值进行反向筛选,得到每个商品类别下的噪声词集;
模型建立模块,用来根据词项在数据中的属性字段,对每一个词项权值赋予不同的权重,并累加得到类别得分,根据预先设定的分类规则,筛选在规则允许下,类别得分最高的类别作为这条数据的类别标签。进一步优选地,所述训练数据获取模块通过网络爬虫程序获取进行模型训练的数据得到学习库。进一步优选地,所述数据预处理模块具体包括
初始化子模块,用来进行信息抽取以将无结构化的所述数据处理为结构化数据,得到建立模型或模型应用进行分类的原始数据,所述原始数据包含各个文本属性等字段信息;
分词子模块,用来对所述原始数据进行特征信息获取,应用基于字符串匹配的分词算法,对字段信息进行分词;
信息提取子模块,用来应用所述知识库进行信息提取,得到进行分词的词项、特殊标识符信息、汉语语义转换信息、单位词项和领域词项。进一步优选地,所述权值Wi的计算公式为
权利要求
1.一种基于领域知识的文本分类系统,其特征在于,所述文本分类系统包括训练数据获取模块,用来获取进行模型训练的数据得到学习库;数据预处理模块,对所述学习库进行信息抽取以将无结构化的所述数据处理为结构化数据,得到建立模型或模型应用进行分类的原始数据,所述原始数据包含各个文本属性等字段信息,并对所述原始数据进行特征信息获取,应用基于字符串匹配的分词算法,对原始数据的字段信息进行分词,并应用知识库进行信息提取,得到进行分词的词项、特殊标识符信息、汉语语义转换信息、单位词项和/或领域词项;知识库,用来根据所述特征信息建立模型或模型应用中用到的词项集,其中,所述词项集包括需进行分词的词项集、特殊标识符词项集、汉语语义转换词项集、单位词项集和/或领域词项集;文本表示模块,用来采用向量空间模型对数据进行数学化表示,所述数据的向量空间 IlM^ Sd=(attributel<tl , wl ; t2 , w2 ; ??; tn , wn >;attribute2< tl , wl ; t2 , w2 ; ??; tn , wn >;...; attributek< tl , wl ; t2 , w2 ; ? ; tn , wn >;),其中,attribute」表示数据的第j个属性,ti表示词项,wi表示ti在数据sd中的词项权值, 所述权值wi采用频数来表示;特征抽取模块,用来依据TF-IDF算法对词项集的重要性进行排序,并根据预先设定的阈值,抽取低于阈值的数据,再依据DF值设定权值进行反向筛选,得到每个商品类别下的噪声词集;模型建立模块,用来根据词项在数据中的属性字段,对每一个词项权值赋予不同的权重,并累加得到类别得分,根据预先设定的分类规则,筛选在规则允许下,类别得分最高的类别作为这条数据的类别标签。
2.根据权利要求1所述的系统,其特征在于,所述训练数据获取模块通过网络爬虫程序获取进行模型训练的数据得到训练知识库。
3.根据权利要求2所述的系统,其特征在于,所述数据预处理模块具体包括初始化子模块,用来进行信息抽取以将无结构化的所述数据处理为结构化数据,得到建立模型或模型应用进行分类的原始数据,所述原始数据包含各个文本属性等字段信息;分词子模块,用来对所述原始数据进行特征信息获取,应用基于字符串匹配的分词算法,对字段信息进行分词;信息提取子模块,用来应用所述知识库进行信息提取,得到进行分词的词项、特殊标识符信息、汉语语义转换信息、单位词项和领域词项。
4.根据权利要求2所述的系统,其特征在于,所述权值wi的计算公式为其中,f(wi, j)表示词项ti在类别j下的权重,m为类别数。
5.根据权利要求4所述的系统,其特征在于,所述词项的权值还表现为结合语义本体联系规则,即训练数据中类标签和属性词项集之间特定的语义关系。
6.根据权利要求1至5任意一项所述的系统,其特征在于,所述领域词具体为在领域出现的比重大于阈值的词项,并作为领域之间互相区别的特征词。
7.根据权利要求6所述的系统,其特征在于,所述领域词通过特征抽取算法获得领域词语候选集,并对所述领域词语候选集进行人工整理获取。
8.根据权利要求7所述的系统,其特征在于,所述领域词为文本数据中反序第一个词项出现的特征词。
9.根据权利要求1至8任意一项所述的系统,其特征在于,所述数据ρ属于类别c的类别得分的计算公式为其中,cj (0<j<=p)表示一个数据属于类别c的得分,%表示对于不同数据属性赋予的权值,ν,表示对于不同词项集赋予不同的权重。
10.根据权利要求9所述的系统,其特征在于,所述预先设定的规则包括如下(1)最大类别得分和第二大类别得分差大于某一个特定的数值;(2)一个类别标签的类别得分不得小于某一个特定的数值。
11.一种基于领域知识的短文本分类方法,其特征在于,所述方法包括以下步骤获取进行模型训练的数据得到学习库;对所述学习库进行信息抽取以将无结构化的数据处理为结构化数据,得到建立模型或模型应用进行分类的原始数据;对所述原始数据进行特征信息获取,应用基于字符串匹配的分词算法,对原始数据的字段信息进行分词,应用知识库进行信息提取,得到进行分词的词项、特殊标识符信息、汉语语义转换信息、单位词项和/或领域词项;根据获取的特征信息建立模型或模型应用中用到的词项集,其中,所述词项集包括进行分词的词项集、特殊标识符词项集、汉语语义转换词项集、单位词项集和/或领域词项集;采用向量空间模型对数据进行数学化表示,所述数据的向量空间模型为 Sd= (attributeKtl , wl ; t2 , w2 ; ??; tn , wn >;attribute2< tl , wl ; t2 , w2 ; ? ; tn , wn >;·..; attributek< tl , wl ; t2 , w2 ; ??; tn , wn >;),其中, attributej表示数据的第j个属性,ti表示词项,wi表示ti在数据sd中的词项权值,所述权值wi采用频数来表示;依据TF-IDF算法对词项集的重要性进行排序,并根据预先设定的阈值,抽取低于阈值的数据,再依据DF值设定阈值进行反向筛选,得到每个类别下的噪声数据集;根据所述词项集在数据中的属性字段,对词项集中的每一个词项权值赋予不同的权重,并累加得到类别得分,根据预先设定的分类规则,筛选在规则允许下,类别得分最高的类别作为这条数据的类别标签。
12.根据权利要求11所述的方法,其特征在于,所述获取进行模型训练的数据得到学习库具体包括通过网络爬虫程序获取进行模型训练的数据得到学习库。
13.根据权利要求12所述的方法,其特征在于,所述原始数据包含名称name、标题 title、类标签class或参数param字段信息。
14.根据权利要求11至13任意一项所述的方法,其特征在于,所述词项权值wi的计算公式为
15.根据权利要求14所述的方法,其特征在于,所述词项权值还表现为结合语义本体联系规则,即训练数据中类标签和属性词项集之间特定的语义关系。
16.根据权利要求11至15任意一项所述的方法,其特征在于,所述领域词具体为在领域出现的比重大于阈值的词项,并作为领域之间互相区别的特征词。
17.根据权利要求16所述的方法,其特征在于,所述领域词通过特征抽取算法获得领域词语候选集,并对所述领域词语候选集进行人工整理获取。
18.根据权利要求17所述的方法,其特征在于,所述领域词为文本数据中反序第一个词项出现的特征词。
19.根据权利要求11至18任意一项所述的方法,其特征在于,所述数据ρ属于类别c 的类别得分的计算公式为
20.根据权利要求19所述的方法,其特征在于,所述预先设定的规则包括如下(1)最大类别得分和最小类别得分差小于某一个特定的数值;(2)一个类别标签的类别得分不得小于某一个特定的数值。
全文摘要
本发明公开了一种基于领域知识的文本分类系统及文本分类方法,用于信息技术领域,以解决传统文本分类方法不能较好的对短文本进行分类的缺点,并针对短文本描述概念信号比较弱,文本特征严重不足的特点,提出一种适用于像商品网页数据这样的短文本数据的分类方法及文本分类系统,本发明实施例对传统分类器加以改造,注入新的元素和致力于算法和数据的匹配应用,得到分类效果优异的商品分类器。其中新的元素包括引入了领域词语的概念并将其注入到分类器中,有效的增加了短文本的信息量;其次,对短文本数据特别是网页商品数据做基于不同词项集的语义分析,并将语义分析的结果注入到分类器中,为商品数据信息注入了新的信息,从而提高文本分类的准确率。
文档编号G06F17/30GK102194013SQ20111017243
公开日2011年9月21日 申请日期2011年6月23日 优先权日2011年6月23日
发明者刘敏, 陈吕祥 申请人:上海毕佳数据有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1