一种针对互联网涉税数据的文本分类方法

文档序号:6627427阅读:369来源:国知局
一种针对互联网涉税数据的文本分类方法
【专利摘要】本发明提出了一种针对互联网涉税数据的文本分类方法,可以有效的组织、管理、挖掘文本信息,伴随着互联网的快速发展,网络上的多媒体信息快速的增长,我们如何从浩瀚的网络资源中,高效地挖掘出有用信息,是文本分类中一项非常艰巨的任务,本发明可以通过文本分类技术,使网页自动的按照类别的方式进行组织和管理,满足税务人员方便快捷的信息处理需求,准确定位所需信息资源减少和避免税款流失,成为优化税收征管方式的现实问题。同时,文本分类技术作为信息过滤、信息检索、搜索引擎等领域的技术基础,有着广泛的应用前景,可产生巨大的社会效益和经济效益。
【专利说明】一种针对互联网涉税数据的文本分类方法

【技术领域】
[0001]本发明涉及互联网电商数据,短文本,用户评论等相关文本领域,使互联网中的有关数据得到有效组织和管理,满足人们方便快捷的信息处理需求,准确定位所需信息资源满足客户的需求。具体地说是一种针对互联网涉税数据的文本分类方法。

【背景技术】
[0002]随着互联网和信息技术的快速发展,电子信息资源急剧增长,互联网正深刻的影响着人们的生活。同时大多数的电子信息是以文本形式存在的。如何有效的组织和管理这些资源,并快速、准确地找到用户所需信息成为当前信息【技术领域】面临的一大问题。对于海量文本内容的处理,文本分类是基础的且非常重要的。文本分类是指根据文本内容,将给定文本划分到预定义的类别中。文本分类在信息过滤、信息检索、垃圾邮件过滤、词义消歧、中有重要应用。
[0003]文本分类是一个复杂的过程,主要包括文档预处理、文本表示、分类算法设计、性能评估等主要步骤,文本分类的主要任务有文本的形式化表示以及在此基础上的分类算法设计。从自然语言的角度看文本其核心的内容是它的语义信息。最理想的境界是计算机能准确地揣测和摹拟人们所理解的语义,把人们认为语义相近的文本分成一类。但是,计算机并不具有人的智能,根本不可能在读懂文档的基础上对其进行分类。对于计算机,它只能从文本的外部特征来反映它们的语义信息。因此,要利用它完成文本的分类,必须将它表示成计算机可以接受的模型,必须要对文本进行形式化表示。这种形式化表示应该尽可能多地反映文本所蕴涵的语义信息,同时应该是便于计算的,也就是说,从文本的形式化表示能比较容易地计算出文本所蕴涵的语义信息来,也正是因为把文档以向量的形式定义到实数域中,才使得模式识别和其他领域中各种成熟的计算方法得以采用,极大地提高了自然语言文档的可计算性和可操作性。因此,向量空间模型文档表示的形式化方法是基于文档处理的各种应用得以形式化的基础和前提,如何让这种向量尽量准确有效地表达出文本内容一直是该模型中的基础性问题。在向量空间模型中,词作为文本特征存在着表达能力有限的问题。这种方法仅仅用词作为文本特征,并没有使用人们掌握的知识,国内外研究人员为了处理同义和概念之间的上下级关系,提出基于概念的文本分类方法。在基于向量空间模型的文本分类算法中,文档中出现的词是按照词形考虑的,使用这种简单的表示方法,会使得内容相近的文档由于使用不同的词语而被认为不是同一类。
[0004]文本分类作为数据挖掘中一种见的研究热点方向,主要步骤:文本预处理,特征选择(计算特征词的权重和选择特征词),表示文本的特征模型的建立,训练分类器,用分类器进行分类。其中特征选择是文本分类中最重要的,能否利用特征选择选出合适的特征词对分类的效果有重要影响。能否利用特征选择选出合适的特征词会直接影响分类的效率和效果。由于之前方法没有充分考虑词的层次结构,没有考虑到语义树状结构中的深度以及语义之间的相互独立性,因此,造成了分类结果不够精确,如何提高分类精确度一直是文本分类领域研究的热点,相关领域的研究者提出了许多改进的算法,本发明也对文本分类提出了一种改进的方法。


【发明内容】

[0005]本发明的目的是提供一种针对互联网涉税数据的文本分类方法。
[0006]本发明的目的是按以下方式实现的,步骤包括(I)对文本进行特征提取,(2 )对文中词语的特征进行降维处理,(3)针对基于语义的文本信息进行分类,其中:
(1)对文本进行特征提取,文本分类存在的特点是训练集较大,并且向量空间的维数较高,高维度的特征数据会加剧机器学习的负担,在不影响分类准确度的情况下,减少文本描述空间的高维特征数量是很有必要的,这个过程就是特征提取;
(2)对文中词语的特征进行降维处理,依据特征的分类能力,采用AdaBoost算法同时进行特征选择和分类器增强;
(3)针对基于语义的文本信息进行分类,根据概念之间的语义关系,提出了如何计算两个词语之间相似度的公式如下:
Sim(A, B)= log p(common ( A, B))/log p(descript1n (A, B)) (1.1)
其中,分子部分是描述A、B共性所需要的信息量的大小,分母部分是完整的描述出A、B所需要的信息量大小,算法过程如下:
O计算两个义原间的相似度
义原是最基本的不可分割的最小单位,常用的义原之间的关系有上下位关系,反义关系,同义关系等,计算义原之间的相似度采用了义原之间的主要关系即上下位关系,利用层次结构树中各个义原之间的一些关系来得到词语的相似度,两个义原间的相似度公式如式(1.2)所示:

【权利要求】
1.一种针对互联网涉税数据的文本分类方法,其特征在于步骤包括(I)对文本进行特征提取,(2)对文中词语的特征进行降维处理,(3)针对基于语义的文本信息进行分类,其中: (1)对文本进行特征提取,文本分类存在的特点是训练集较大,并且向量空间的维数较高,高维度的特征数据会加剧机器学习的负担,在不影响分类准确度的情况下,减少文本描述空间的高维特征数量是很有必要的,这个过程就是特征提取; (2)对文中词语的特征进行降维处理,依据特征的分类能力,采用AdaBoost算法同时进行特征选择和分类器增强; (3)针对基于语义的文本信息进行分类,根据概念之间的语义关系,提出了如何计算两个词语之间相似度的公式如下:
Sim(A, B)= log p(common ( A, B))/log p(descript1n(A, B)) (1.1) 其中,分子部分是描述A、B共性所需要的信息量的大小,分母部分是完整的描述出A、B所需要的信息量大小,算法过程如下: O计算两个义原间的相似度 义原是最基本的不可分割的最小单位,常用的义原之间的关系有上下位关系,反义关系,同义关系等,计算义原之间的相似度采用了义原之间的主要关系即上下位关系,利用层次结构树中各个义原之间的一些关系来得到词语的相似度,两个义原间的相似度公式如式(1.2)所示:
其中,上式中的α表示一个可以改变的参数,代表了相似度为0.5时的路径的长度,依据义原树的深度通常取a = 1.6, dist(si, s2)代表两个义原在义原树中的距离,在研究中发现,义原之间的距离并不代表义原之间的相互关系,其实,义原之间的相对位置对他们之间的相互关系也产生较大的影响; 2)计算出两个义项的相似度 现实生活中面对的文本不仅包含实词还有虚词,基于实词和虚词在现实中是不可以相互替换的,这里将实词和虚词之间的相似度记为零,结合虚词的概念均用句法义原或关系义原方式简单描述,仅仅计算其对应的句法义原或关系义原之间的相似度即可,两个义项的整体相似度表达式如式(1.3)所示:
其中1(1≤i≤4)是可变化的,一般根据经验指定,且有
因为一个概念的最主要的特征由第一义原描述式所反映的,所以其取值一般要大于0.5,当我们在实例验证时候发现,当Sim1非常小,但是Sim3或sim4比较大时,由表达式(1.3)将得出的整体的相似度仍然较大此现象是不合理的,将表达式(1.3)进行7修改,给出如式(1.4)所示:
至此,比较精确的表达出义项的相似度,但当考虑第一独立义原在整个概念描述中起至关重要的作用,同时该部分与其余部分是相互独立的,当第一义原部分的相似度比较低时,其余次要的三部分相似度对于整体相似度所起的作用也会降低,因此,对公式(1.4)进行修改为(1.5):
至此,比较精确的表达出义项的相似度; 3)得出词语的相似度 假设有两个词语W1和W2,其中W1是由m个义项所组成,W2是由η个义项所组成,Cli (i=l, *.., m )和 C2j ( j=l,...,η )分别代表每个词语的义项,W1 = { C11, C 12,…,C lm},W2 = { C21, C 22,…,C2n },两个词语的相似度为义项Cli和所有组合中相似度的最大值,如式(1.6)所示: 即词语的相似度为所有义项相似度的加权平均值,
【文档编号】G06F17/30GK104199959SQ201410477312
【公开日】2014年12月10日 申请日期:2014年9月18日 优先权日:2014年9月18日
【发明者】刘丽娜, 徐宏伟, 黄兴柱 申请人:浪潮软件集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1