学术文献自动分类的方法

文档序号:6602063阅读:166来源:国知局

专利名称::学术文献自动分类的方法
技术领域
:本发明涉及一种学术文献分类方法,尤其涉及一种学术文献自动分类的方法。
背景技术
:随着信息技术的发展,互联网数据及资源呈现海量特征.为了有效地管理和利用这些分布的海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域.其中,文本分类(textcategorization,简称TC)技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用。20世纪90年代逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典范例。基于机器学习文本分类的基础技术由文本的表示(!^presentation)、分类方法及效果(effectiveness)评估3部分组成。在分类中,文本的表示一般被抽象化为一组特征词,并根据特征词的属性去计算文本的类别。1、常用的特征选择算法文档频度(df);信息增益(InformationGain,IG);交叉熵(CrossEntropy);互信息(MutualInformation);χ2统计量(CHI);期望交叉熵,文本证据权优势率,基于词频覆盖度的方法,主分量分析方法等。2、常用的分类算法有朴素贝叶斯分类;K近邻(KNN);决策树;支持向量机(SVM)。3、分类效果评估指标正确率(precision)、召回率(recall)、均衡点(BEP)、Fi3(常用Fl)和精度(accuracy)等。现有技术文本分类的通用流程包括将文本的训练语料进行特征选择,特征选择是对文本的特征词进行选择,其特征词选择只是选择有代表性的词,作为分类器的输入,为分类器提供必要的信息;训练器通过学习训练语料,得到特征词和类别的对应关系,并以一定的数学模型表示;输入测试文本到分类器,利用训练器得到的数学模型,为测试文本计算并标注分类号(如图1所示)。现有专利文献如专利号为03121034.1名称为《一种文本自动分类方法》公开是一种基于非二元平滑的二元特征权重计算的文本自动分类方法,它将二元权重计算方法引入到基于向量空间模型的线性分类器,并结合复杂的非二元权重对二元权重进行平滑。还有专利申请号为=200410062789.X名称为《一种新的面向文本分类的特征向量权重的方法》公开的技术方案为按领域训练语料和测试语料,去除网页文本中的一些垃圾、分词、词形标注;从训练语料中提取出每个领域的词表,同时提取出总词表,然后根据总词表和领域词表建立用于分类的具有不同关键词数目的信息词表,对测试文本进行分类,优化得到最优阈值,并根据分类结果确定最优的关键词数目。专利申请号为200510086462.0名称为《基于类别概念空间的自动文本分类方法》包括训练阶段和分类阶段,其步骤主要包括构造类别词语矩阵数据,建立每个词语的倒排类别频率数据表,构造有效词语集;构造类别词语矩阵数据;建立每个类别的倒排词语频率数据表;建立基于类别概念空间的词语向量表示;构造类别概念向量空间中的待分类文档向量数据;获得待分类文档的所述类别。上述现有发明技术实施起来比较烦琐,而且分类的准确率不高。现有技术的技术方案还有以下面向中国法的分类,主要应用在文献的数据加工过程。每一批新的文献都要经过分类,然后再存入系统数据库。其实施学术文献的分类主要依靠编辑的人工分类,并经检查后入库,具体流程为输入新的论文资源;利用该论文的原始专题代码,将其分配给不同专业的编辑;进行人工分类,给出文献的中图分类号;进行网络检查,如果经检查分类号正确,则提交为日更新数据,加入到数据库中;否则将检查后修改的数据和一定比例的未修改数据提出,进行复查;编辑抽样审查;达到合格比例后,按月更新到数据库。现有技术的缺点1、分类号的获取主要依靠编辑的人工审核,不但耗费了大量的人力物力,而且效率较低;大量的人员常年从事着重复性的劳动,造成比较严重的资源浪费。2、人工分类标准不统一,跨学科文章在分类时容易产生歧义。
发明内容为解决上述中存在的问题与缺陷,本发明提供了一种学术文献自动分类的方法。所述技术方案如下一种学术文献自动分类的方法,包括输入文献;对文献的自动分类;判断自动分类结果是否为高准确率;如果不是高准确率结果,则进行人工分类;否则,直接进入网络检查,如果检查分类号正确,则提交为日更新数据,加入到数据库中;否则将检查后修改的数据和一定比例的未修改数据提出,进行复查;编辑抽样审错;达到合格比例后,按月更新到数据库;文献的自动分类包括A、输入训练文献于数据库中,所述训练文献包含文献分类号;B、对训练文献进行一元特征词、二元特征词的选择及二元词对的生成;C、读取数据库中的训练文献,并分别计算一元特征词、二元特征词与文献分类号的概率关系,形成一元分类词典与二元分类词典;D、读取待标注文献,根据一元二元分类词典及一元特征词与二元特征词在待标注文献中的权重,计算文献对应的图分类号,并自动标注;E、将一元二元分类结果根据置信度大小分为高准确率结果集和低准确率结果集,并输出分类结果。本发明提供的技术方案的有益效果是实现对大规模学术文献,面向中图法37个大类5万余子类的自动分类。通过训练分类器,形成统一的分类标准,有良好的学科识别能力;分类准确率高,要求达到80%以上。提出了二元分类的思想,以此修正一元分类的结果,进一步提升系统的自动标注比例。自动标注文献分类号,并根据置信度将结果分为高准确率的结果集和低准确率结果集,其中高准确率的结果直接利用自动分类的结果替代以往人工分类,大大节省了人工成本,提高了数据处理效率。图1是现有技术流程;图2是现有技术方案流程图;图3是本发明含学术文献自动分类的整体流程图;图4是学术文献自动分类的方法流程图;图5是一元特征选择方法具体流程图;图6是二元特征选择方法具体流程图;图7是一元文献训练方法流程图;图8是二元文献训练方法流程图;图9是一元与二元分类阶段的方法流程图。具体实施例方式为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述本实施例提供了一种学术文献自动分类的方法,具体实施过程如图3所示,所述方法包括以下步骤步骤10输入新的论文资源。步骤20通过自动分类器对全部文献进行自动分类。步骤30判断自动分类结果是否为高准确率。如果不是高准确率结果,则执行步骤40,否则,则执行步骤50。步骤40则人工分类。步骤50直接进入网络检查;如果经检查分类号正确,则执行步骤60;否则执行步骤70。步骤60提交为日更新数据,加入到数据库中。步骤70将检查后修改的数据和一定比例的未修改数据提出,进行网络复查。步骤80编辑抽样审错。步骤90达到合格比例后,按月更新到数据库。参见图4,其上述自动分类器进行分类包括以下步骤步骤20a输入训练文献于数据库中,所述训练文献包含文献分类号。步骤20b特征选择;对训练文献进行一元特征词、二元特征词的选择及二元词对的生成。步骤20c训练阶段读取数据库中的训练文献,并分别计算一元特征词、二元特征词与文献分类号的概率关系,形成一元分类词典与二元分类词典。步骤20d分类阶段读取待标注文献,根据一元二元分类词典及一元特征词与二元特征词在待标注文献中的权重,计算文献对应的图分类号,并自动标注。步骤20e结果集区分。上述在特征选择之前要以数据库的形式存储学术文献文献,包括训练文献和待标注文献。存储时,表的结构统一,包括文献的篇名、中文摘要、中文关键词、全文、刊名、引文和文献分类号等。其中,训练文献的分类号是已知的,待标注文献的分类号字段初始为空。特征选择特征选择包括一元特征选择和二元特征选择。根据文献和分类号的关系,并通过文中词语和分类号的对应关系及数量关系进行度量,其词语选择有代表性的,且能够体现类别关系的,称为特征词。一元特征选择参见图5,计算文献中每一个词在每一分类号下的权重,进行特征词筛选。具体包括以下步骤201^统计文献中所包含类别特征词,且属于所述特征词分类号的文献数量。20ba2统计文献中不包含类别特征词,但属于所述特征词词分类号的文献数量。20ba3统计文献中所包含类别特征词,但不属于所包含特征词分类号的文献数量。20ba4统计文献总数;20ba5计算所有词语的权重;根据CHI统计方法度量词条t和文献类别c之间的相关程度,并假设t和c之间符合具有一阶自由度的X2分布。具体计算公式如下ΓπI1、N{AD-BC)2(1z2(i’c)=------、丄J上述N为训练语料中的文献总数;c为某一特征类别;t为特定的词条;A是属于c类且包含t的文献频数;B为不属于c类但是包含t的文献频数;C是属于c类但是不包含t的文献频数;D即不属于c也不包含t的文献频数。20ba6根据计算的权重进行词语的排序、筛选,得到合适的特征词;在大概5百万的词语库中,通过上述一元特征选择算法从5百万的词语中选择要作为分类特征的词语,经上述公式1计算筛选,最后保留约270万的专业词汇作为研究中分类需要的特征词。二元特征选择二元特征选择的具体步骤参见图6,具体包括以下步骤20bbl输入一篇文献的机标关键词并得到每个词语的关键词权重。20bb2查询机标关键词在训练语料中的全部文献频度及机标关键词在训练语料中与文献同类的文献频度。201^3根据机标关键词的权重、机标关键词在训练语料中的全部文献频数及机标关键词在训练语料中与文献同类的文献频度计算特征词语的特征权重;其计算公式如下weight(term)=Λ1*weight(key)+λ2*,Κ、+。)、(2)其中,Weight(term)是特征词选择时的权重;Weight(key)是机标关键词的权重;df(C)是在本类所有文献中,该机标关键词一共出现的次数;df(all)是该机标关键词在训练语料中的文献频度。如果λ1取0.8,λ2取0.2,选择时将df(all)=1的词语过滤掉,如果log(df(all)/log(DF)>0.5,则是比较常用的词,也过滤掉,其中DF指输入语料的全部文献数。20bb4根据上述计算的特征权重的结果对其词语进行排序。20bb5取排序的前5个词语作为文献的特征词。其上述二元词词对的生成方法包括将得到的文献的特征词进行排序并去重’然后对特征词两两组合,进行排序、去重;最后形成二元特征。训练阶段包括一元训练和二元训练。一元训练读取数据库中的训练文献,计算每个特征词与分类号的概率关系,形成分类词典。参见图7其具体包括以下步骤20cal读取数据库中的训练文献,以每个字段作为输入。20ca2获得特征词在数据库中对应的文献分类号;在查找时,首先输入训练文献中的篇名、中文关键词、全文、中文摘要字段,然后在字段内查找特征词,统计所查找到特征词的对应分类号。20ca3获得相关文献数。首先获得总的训练文献数;对训练文献进行统计,获得训练文献中出现该特征词的文献数量。20ca4统计每个特征词与分类号的概率关系;针对篇名、中文关键词、全文及中文摘要字段统计特征词对应分类号出现数目;然后按照不同字段位置进行加权;最好按照权重对分类号由高到低进行排序。20ca5将词形、分类号、文献频度及权值存入一元分类词典中,形成一元分类词典;其一元分类词典举例如表1所示。表1<table>tableseeoriginaldocumentpage9</column></row><table>以上步骤的实现原理为利用了学术文献的格式特点,考虑了特征词语在文献中不同位置的权重,能够充分利用特征词和类别的关系,从而达到了比较好的分类结果。具体如下对输入的特征词语W,训练其对于不同分类号的权重。在训练语料中,设词语W出现在篇名、中文关键词、中文摘要或全文时,有m篇文章,他们对应的分类号有η种,分别为C1,C2...Cn。把同一分类号在不同位置的出现的权重设为篇名=PosWeight=4;中文关键词posffeight=2;巾tiling:posffeight=1.5;±JC:posffeight=1。每个分类号对所有文献、所有位置的权重取和,公式如下<formula>formulaseeoriginaldocumentpage10</formula>分类号Ci的最终权重计算如下<formula>formulaseeoriginaldocumentpage10</formula>其中,weight(Ci)是类别Ci的权重,分母是所有分类号的权重和,乘以1η2作平滑。此结果分类号训练的最终结果。它体现了对于词语W,其可能出现的分类号的概率大小,WeightTrain(W,Ci)越大,说明词语W对应类别Ci的可能性越大。训练完成后,形成了270万特征词语的分类词典,存储了词语及其可能对应的前几个分类号和分类号的权重,以便用于后续分类的查找和计算。二元训练与一元训练算法类似,把训练字段设为只有机标关键词,查询条件由一个词语变为两个词语同现。利用上述公式3,4计算二元词对和分类号的关系。只是输入变为两个词语,即所有的一元“特征词”,变为“二元词对”。参见图8其具体包括以下步骤20cbl读取基础数据库中的训练文献,以每个字段作为输入。20cb2查找二元词对在数据库中对应的文献分类号。20cb3获得相关文献数。20cb4统计每个二元词对与分类号的概率关系。20cb5形成“二元分类词典”。分类阶段包括一元分类阶段和二元分类阶段。参见图9具体包括以下步骤20d,分析文献中特征词的频度信息;输入待处理文献文件,利用一元特征词词典对待处理文献分词;获得词语在文献不同位置的频度并去除重复词项。20d2获得词语权重及分类号信息;利用tf/idf计算词条w权重,研究中对现有标准tf/idf公式进行了改进,引入了词语长度和词语在文献中的位置信息,其计算词语权重的公式为<formula>formulaseeoriginaldocumentpage10</formula>(5)其中,L为词W的长度;TFiSW在待处理文献中出现的频度;D是训练总文献数目;DF(Wi)是词在其中出现至少一次的训练文献数目。改进后的词语w权重计算公式<formula>formulaseeoriginaldocumentpage10</formula>(6)a根据词语在文中的不同位置,不同种类的文献,取不同的值。例如,当词语出现在标题、关键词中,a=30;当词语出现在摘要中,a=20;如果出现在正文第一段中,a=2。由上述公式,即可结合词语w的词频、文献频度、长度以及在文中的信息,得到该词语的权重,而整篇文献对于某个分类号的权重就由文中每个词语的权重利用该词和分类号的对应概率加权得到。20d3—元分类,根据所述词语权重和词语对应分类号的权重,获得每个词语对应每个分类号的总权重;计算文献的分类号,一篇文献对于类别C的权重计算为设文献在类别C下有η个特征词,分别为Wl、w2...wn,每个词语对应类别C的训练概率为WeightTrain(Wi),则文献对于类别C的权重计算公式如下<formula>formulaseeoriginaldocumentpage11</formula>最后,利用总权重将各类别的权重归一化,取权重最大的类别作为文献分类结果,至此,便得到了待分类文献的类别。二元分类计算机标关键词,并存储机标关键词的权重;二元词对在文中的权重计算使用两个机标关键词的权重相乘后开方,计算公式如下<formula>formulaseeoriginaldocumentpage11</formula>其中,keyWeight(Wl)表示机标关键词wl的权重,由机标关键词算法得到(其算法为现有技术,在此不再叙述);keyWeight(W2)同理。利用文献的机标关键词组成二元词对,作为二元分类;查找二元分类词典,获得二元词对所有分类号下的相应权值;根据所述公式7计算文献的分类号;对其分类号总权重排序,将排序前几位的分类号作为二元分类结果。20d4合并一元二元分类结果;分别利用一元和二元分类算法,算出每个类别的权重后,将一元二元的结果加权,其公式如下<formula>formulaseeoriginaldocumentpage11</formula>其中<formula>formulaseeoriginaldocumentpage11</formula>经实验,确定a=0.7,β=0.3。将一元和二元分类结果根据置信度大小分为了高准确率结果集和低准确率结果集。其中,高准确率结果的准确率要达到80%左右,这部分分类结果可以直接输出,并存入期刊数据库,其置信度算法公式如下<formula>formulaseeoriginaldocumentpage11</formula>每一篇文献,计算机都给出多个中图分类号,每一个分类号的都有相应的权重,对中图分类号按照权重由高到低排序,通过实验,设定如下规则第一个分类号权重/所有分类号权重和>α;第一个分类号权重/所有分类号权重和<=α,且所有分类号权重和(第一个分类号权重+第二个分类号权重)>a。当上述分类号权重满足上述两个规则之一时,我们认为该分类结果是较好的结果。放入高准确率结果集,高准确率结果集输出的结果和置信度等于1。以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本
技术领域
的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。权利要求学术文献自动分类的方法,包括输入文献;对文献的自动分类;判断自动分类结果是否为高准确率;如果不是高准确率结果,则进行人工分类;否则,直接进入网络检查,如果检查分类号正确,则提交为日更新数据,加入到数据库中;否则将检查后修改的数据和一定比例的未修改数据提出,进行复查;编辑抽样审错;达到合格比例后,按月更新到数据库;其特征在于,文献的自动分类包括A、输入训练文献于数据库中,所述训练文献包含文献分类号;B、对训练文献进行一元特征词、二元特征词的选择及二元词对的生成;C、读取数据库中的训练文献,并分别计算一元特征词、二元特征词与文献分类号的概率关系,形成一元分类词典与二元分类词典;D、读取待标注文献,根据一元二元分类词典及一元特征词与二元特征词在待标注文献中的权重,计算文献对应的中图分类号,并自动标注;E、将一元二元分类结果根据置信度大小分为高准确率结果集和低准确率结果集,并输出分类结果。2.根据权利要求1所述的学术文献自动分类的方法,其特征在于,所述训练文献包括文献的篇名、中文摘要、中文关键词、全文、刊名、引文及文献分类号。3.根据权利要求1所述的学术文献自动分类的方法,其特征在于,所述步骤B中一元特征词的选择包括计算每一个词在每一分类号下的权重,进行特征词筛选,其具体步骤包括Bal统计文献中所包含类别特征词,且属于所述特征词分类号的文献数量;Ba2统计文献中不包含类别特征词,但属于所述特征词分类号的文献数量;Ba3统计文献中所包含类别特征词,但不属于所包含特征词分类号的文献数量;Ba4统计文献总数;Ba5计算每一特征词在每一分类号下的权重;Ba6根据获得的权重进行排序、筛选,得到合适的特征词;所述步骤B中二元特征词的选择步骤具体包括Bbl输入文献的机标关键词并得到每个机标关键词的权重;Bb2查询机标关键词在训练语料中的全部文献频度及机标关键词在训练语料中与文献同类的文献频度;Bb3根据机标关键词的权重、机标关键词在训练语料中的全部文献频度及机标关键词在训练语料中与文献同类的文献频度计算二元特征词语的特征权重;Bb4根据计算词语的特征权重结果对所述机标关键词进行排序;Bb5取排序的前5个词语作为文献的特征词;所述步骤B中二元词对的生成具体包括步骤将所述得到的特征词排序、去重;将特征词两两组合、排序并去重;形成二元特征。4.根据权利要求3所述的学术文献自动分类的方法,其特征在于,所述步骤Ba5中特征词权重算法公式为<formula>formulaseeoriginaldocumentpage3</formula>N是训练语料中的文献总数;c是某一特定类别;t是特定的词条;A属于c类且包含t的文献频数;B不属于c类但是包含t的文献频数;C属于c类但不包含t的文献频数;D既不属于c也不包含t的文献频数;所述步骤Bb3中词语特征权重的计算<formula>formulaseeoriginaldocumentpage3</formula>其中,Weight(term)特征词选择时的权重,Weight(key)机标关键词的权重,df(C)在本类所有文献中所述机标关键词一共出现的次数,df(all)所述机标关键词在训练语料中的文献频度。5.根据权利要求1所述的学术文献自动分类的方法,其特征在于,所述步骤C训练文献中一元分类词典的形成步骤具体包括Cal读取数据库中的训练文献,并以每个字段作为输入;Ca2查找特征词在数据库中对应的文献分类号;Ca3获得相关的文献数;Ca4统计每个特征词与分类号的概率关系;Ca5形成一元分类词典;所述步骤C训练文献中二元分类词典的形成步骤具体包括Cbl读取数据库中的训练文献,以每个字段作为输入;Cb2查找二元词对在数据库中对应的文献分类号;Cb3获得相关的文献数;Cb4统计每个二元词对与分类号的概率关系;Cb5形成二元分类词典。6.根据权利要求5所述的学术文献自动分类的方法,其特征在于,所述步骤Ca2具体包括输入训练文献中的篇名、中文关键词、全文及中文摘要字段;在字段内查找特征词;统计词语的对应分类号;步骤Ca3具体包括获得总的训练文献;对训练文献进行统计,获得训练文献中出现该特征词的文献数量;步骤Ca4具体包括针对篇名、中文关键词、全文及中文摘要字段,统计特征词对应分类号的出现数目;根据不同字段位置进行加权;按照权重对分类号由高到低排序;步骤Ca5中一元分类词典包括词形、分类号、文献频度及权值。7.根据权利要求1所述的学术文献自动分类的方法,其特征在于,所述步骤D具体包括D1分析训练文献中特征词的频度信息;D2计算获得词语权重并获得词语的分类号信息;D3进行一元分类与二元分类;D4合并一元和二元分类结果获得文献分类号。8.根据权利要求5所述的学术文献自动分类的方法,其特征在于,所述步骤D1具体包括以下步骤输入待处理文献文件,利用特征词典对待处理文献分词;获得词语在文献不同位置的频度,去除重复的词项;步骤D2具体包括获得词语在待处理文献中出现的频数及词语的文献频度,计算获得词语的权重;输入词形;根据词形查找一元分类词典并获得所有词形分类号下的相应权值;步骤D3中一元分类具体包括根据词语权重和词语对应分类号的权重,计算获得文献中每个词语对应每个分类号的总权重;计算文献的分类号;对文献分类号总权重排序;将排序前几位的分类号作为一元分类结果;二元分类的具体步骤包括获得机标关键词,并存储其机标关键词的权重;利用文献的机标关键词组成二元词对,并计算了二元词对在文献中的权重,作为二元分类;查找二元分类词典,获得二元词对所有分类号下的相应权值;计算获得文献的分类号;对分类号的总权重进行排序,并将排序在前几位的分类号作为二元分类结果。9.根据权利要求8所述的学术文献自动分类的方法,其特征在于,所述步骤队中权重的计算包括词语权重的计算及改进后词语权重的计算,其计算公式为Weight(w)=log(L+l)XTFiXlog(D/DF(Wi)+0.01)其中,L是词W的长度;TFi是W在待处理文献中出现的频度;D,训练总文献数目;DF(Wi),词在其中出现至少一次的训练文献数目;改进后词语W权重的计算公式5fVeight'(w)=ΣWeight(w)^a=\其中,α根据词语在文中的不同位置,不同种类的文献,取不同的值;所述步骤D3—元与二元分类中文献分类号的计算公式ηWeight(C)=IWeightTrainiwUC)*Weight,(wi)其中,η为特征词;C每个词语对应类别;WeightTrain(wi)每个词语对应类别C的训练概率。10.根据权利要求1所述的学术文献自动分类的方法,其特征在于,所述置信度大小的计算公式为置佇产二输出分类号权值_所有结果分类号权值之和所述一元分类结果通过置信度计算及设定的规则,获得一元高准确率结果;在一元低准确率结果中,二元分类通过置信度计算获得二元高准确率结果,并输出一元高准确率结果与二元高准确率结果的总和。全文摘要本发明公开了一种学术文献自动分类的方法,包括输入训练文献于数据库中,所述训练文献包含文献分类号;对训练文献进行一元特征词、二元特征词的选择及二元词对的生成;读取数据库中的训练文献,并分别计算一元特征词、二元特征词与文献分类号的概率关系,形成一元分类词典与二元分类词典;读取待标注文献,根据一元二元分类词典及一元特征词与二元特征词在待标注文献中的权重,计算文献对应的中图分类号,并自动标注;将一元二元分类结果根据置信度大小分为高准确率结果集和低准确率结果集,并输出分类结果。文档编号G06F17/30GK101819601SQ201010168290公开日2010年9月1日申请日期2010年5月11日优先权日2010年5月11日发明者张振海,罗霄申请人:同方知网(北京)技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1