一种专利文本自动分类方法与流程

文档序号:16087859发布日期:2018-11-27 22:39阅读:283来源:国知局

本发明属于专利文献的计算机分析技术领域,具体涉及一种基于概率超图半监督学习的专利文本自动分类方法。



背景技术:

随着科技的迅速发展及全球经济一体化趋势加剧,专利的作用越来越受到人们的重视。面对海量的专利数据,现有的专利文本分类主要依靠专家的人工分类,耗费大量的人力物力财力,同时难以保证分类的准确率。因此,如何借助于计算机技术来有效地解决专利文本自动分类问题具有重要的理论意义和实用价值。

相对于传统的文本而言,专利文本具有领域词汇多、结构性及专业性强等特点,因此专利文本自动分类更具有挑战性。目前,基于传统文本分类方法,国内外学者已经提出了许多针对专利文本自动分类的方法。较早提出来的且比较有代表性的方法主要有支持向量机SVM、朴素贝叶斯、kNN(k近邻)等。Trappey等采用后向传播神经网络算法对IPC分类的小类和大组两个层级的专利文献进行自动分类,实验结果表明该方法取得比之前的分类方法更好的分类效果。He等提出了一种利用创新型关联规则自动构建基于TRIZ的专利分类方法,该方法能够发现专利文档特征的语义关系。Wu等提出的遗传算法与支持向量机融合的新算法(HGA-SVM),能够对支持向量机的所有参数进行优化,利于开发高精度的专利分类系统。Liu等基于文本内容、引文分析及专利元数据提出了一种新颖的基于专利网络的分类方法。Chen等提出了一种新的三阶段分类(three phase categorization,TPC)算法,并且在专利的IPC小组层面上取得较高的准确率。Zhu等提出了使用有监督机器学习技术作为一种互补方法的以需求为导向的专利分类方案,能够将专利数据集分类到用户定义的分类上。上述方法都是基于监督学习、分类器的精度及推广性能,需要依赖大量的训练样本。当以IPC分类体系作为分类目标时,由于积累了大量的人工分类的专利文献,因此比较容易满足分类器的训练要求。然而,有信息分析专家认为IPC更适合用于专利的检索而非分类,在特定需求下并不能较好地定位用户所需的技术信息,因此从实际应用环境出发,设置具有针对性的类目的价值更高。当以某种满足特定需求的类别体系作为分类目标,或是现有的IPC分类体系发生变化需要重新分类时,采用上述基于监督学习的分类方法需要人工标注大量的训练样本。由于训练样本的标注是一项费时费力并且比较有技术含量的工作,因而给专利文本自动分类带来了一定的不便和困难。

为了解决训练样本不足所带来的问题,基于半监督学习的分类方法应运而生,它旨在通过未标记样本提供的样本分布信息提高分类精度。目前现有的半监督学习方法有很多,其中广受国内外学者关注的是基于图的半监督学习方法。超图学习是对普通图学习的泛化和扩展,在超图中一条边可以包含任意数量的顶点,因而相对于普通图而言,超图具备描述多元关系的能力,这使得超图学习具有更好的性能表现。近年来超图理论的应用领域不断拓展和延伸,代表性的主要有移动用户细分、图像分类、用户创造内容、微博用户群落感知、科研合作网络等。



技术实现要素:

现有的基于监督学习的专利文本分类方法需要依赖大量的训练样本,由于训练样本的标注是一项费时费力并且比较有技术含量的工作,因而给专利文本自动分类带来了一定的不便和困难。针对上述问题,本发明提出了一种基于概率超图半监督学习的专利文本自动分类方法,该方法可以利用待测样本提供的样本结构分布信息来提高分类精度。

一种专利文本自动分类方法,包括以下步骤:

步骤一、基于概率超图的专利文本建模

选取代表专利技术主题和法律特性的专利文本组成部分,分词处理后得到特征词,统计每个特征词在组成部分中的词频,最后通过引入位置加权因子来计算最终的特征词权重;将超边内各顶点与超边相应类簇质心的相似度作为关联矩阵中相应元素的取值,并将超边内各顶点与超边相应类簇质心的相似度之和作为该超边的权重;

步骤二、基于超图半监督学习的专利文本分类

计算每个顶点对应各个类别的得分值,然后分别选取得分值最高的类别作为每个顶点的最终类别。

上述方案中,所述代表专利技术主题和法律特性的专利文本组成部分为标题、摘要及主权项。

上述方案中,所述超边相应类簇质心的获取过程为:将每篇专利文本作为超图中的一个顶点,然后分别以每个顶点为基准构建一条超边,连接该顶点及其k个近邻顶点,对于每条超边,将该超边连接的k+1个顶点看成一个类簇,然后计算相应类簇的质心。

上述方案中,所述相应类簇的质心计算公式为其中表示质心,表示顶点的第s个分量。

上述方案中,所述超边内各顶点与超边相应类簇质心的相似度计算方法为:其中vi为顶点,顶点vi可表示为一个r维向量,即vi=(wi1,wi2,…,wir),wir表示向量的一维。

上述方案中,所述计算每个顶点对应各个类别的得分值公式为:F=(1-α)(I-αΘ)-1Y,其中初始标记矩阵Y表示各顶点对应各类别的初始类别,类别得分矩阵F表示各顶点对应各类别的得分值,H是关联矩阵、W是权重对角阵、Dv是顶点度对角阵、De是超边度对角阵,α=1/(1+μ),μ为正则化参数;所述矩阵Y和F为n×l矩阵,其中n为数据集中专利文本总数,l是类别的数量。

本发明的有益效果:1、本发明在专利文本特征表示方面选取标题、摘要及主权项三个最能代表专利技术主题和法律特性的元素,然后分别统计每个特征词在三个部分中的词频,最后通过引入位置加权因子来计算最终的特征词权重,相对于将整个专利文本看成一个整体处理的方式能够更加有效地描述专利文本的特征。2、本发明在专利文本分类方面采用了基于概率超图半监督学习的方法,可以充分利用待测样本提供的样本结构分布信息来提高分类精度,从而可以在提供少量训练样本的情况下获得比较理想的分类精度和召回率。

附图说明

图1为基于超图学习的专利文本分类算法工作流程图;

图2为本发明分类方法与传统分类方法的总体分类精度对比图。

具体实施方式

下面将结合附图对本发明的内容作进一步的说明,但是本发明的保护范围并不限于此。

本发明将基于超图的半监督学习方法引入到专利文本分类中,提出了一种基于近邻策略的专利文本概率超图构建方法,并在此基础上给出了基于超图学习的专利文本自动分类算法,最后通过与传统基于监督学习的方法SVM以及kNN的大量对比实验来验证该方法的有效性。

一种基于概率超图半监督学习的专利文本自动分类方法,包括步骤:

步骤一、基于概率超图的专利文本建模

1.1超图相关定义

超图是普通图的泛化,在普通图中一条边只能连接两个顶点,而在超图中一条边可以连接任意数量的顶点。一个超图可由二元组G=(V,E)表示,其中有限集V={v1,v2,…,vn}为超图的顶点集,而有限集E={e1,e2,…,em}为超图的超边集,在超边集E中的每条超边都是V的非空子集且满足若在超边集E上定义正值权重函数w(e),则超图G=(V,E,w)称为加权超图。加权超图G一般可以由4个矩阵描述:关联矩阵H、权重对角阵W、顶点度对角阵Dv及超边度对角阵De。关联矩阵H描述了超图中的顶点与超边之间的对应关系,可由一个|V|×|E|的矩阵定义:

权重对角阵W的对角元素由E中的各超边权值组成,顶点度对角阵Dv的对角元素由V中各顶点的度组成,而超边度对角阵De的对角元素由E中各超边的度组成。对于顶点vi∈V,它的度而对于超边ej∈E,它的度由公式(1)可知,在上述标准超图中各个超边内的所有顶点被同等地对待,忽略了超边内各顶点之间的差异,从而引起某些信息的丢失。为了弥补标准超图的不足,Huang等提出了概率超图模型。在概率超图中,对于超边ej∈E中的某个顶点vi,对应关联矩阵H中的取值h(vi,ej)被定义为顶点vi属于超边ej的概率,即h(vi,ej)=p(vi|ej)∈[0,1]。概率超图不但可以表示多个顶点之间的多元聚合信息,而且还能描述超边内各顶点之间的差异,因而相对于标准超图具有更好的性能和表现。

1.2专利文本特征描述

在专利文本分类中,目前最常用的特征表示方法是基于向量空间模型的文本表示法。设分词处理得到的词表中特征词的数量为r,则专利文本p可表示为一个由二元组组成的r维向量F(p)=((t1,w1),(t2,w2),…,(tr,wr)),其中ti(1≤i≤r)表示第i个特征词,wi表示特征词ti对应的权重。在传统文本分类中,特征词权重的计算主要是基于TF-IDF算法,具体计算方法如下:

其中:TFk(ti)为特征词ti在文本pk中的词频,n为数据集中的文本总数,ni为数据集中出现特征词ti的文本数。

TF-IDF算法将整个文本看成一个整体处理,但由于专利文本是一种同时具有技术和法律特性的结构特殊文本,因而该方法并不能有效地描述专利文本的特征。针对上述问题,一些学者提出了多要素融合的专利文本特征表示方法。本实施例选取标题、摘要及主权项三个最能代表专利技术主题和法律特性的元素,进行分词处理,得到特征词,然后分别统计每个特征词在三个部分中的词频,最后通过引入位置加权因子来计算最终的特征词权重。

设TFk(ti)、分别表示特征词ti在专利文本pk的标题、摘要及主权项中的词频,则特征词ti在pk中的综合词频TFk(ti)计算方法如下:

其中wt、wa、wc分别表示特征词出现在标题、摘要及主权项中的位置权重。将公式(3)计算得到的综合词频TFk(ti)代入公式(2)中,即可计算得到特征词ti在pk中的最终权重wk(ti)。

1.3专利文本概率超图模型构建

由超图相关定义可知,构建专利文本概率超图模型需要确定构成超图的顶点、超边以及超边权重的计算方法。本实施例将每篇专利文本作为超图中的一个顶点,然后分别以每个顶点为基准构建一条超边连接该顶点及其k个近邻顶点。对于每条超边,将该超边连接的k+1个顶点看成一个类簇,然后计算相应类簇的质心,最后分别将超边内各顶点与其质心的相似度作为关联矩阵中相应元素的取值,并将超边内各顶点与其质心的相似度之和作为该超边的权重。

设超图中的顶点vi对应专利文本pi,则基于专利文本特征的向量表示,顶点vi可表示为一个r维向量,即vi=(wi1,wi2,…,wir)。wir表示向量的一维,设以顶点vj为基准构建的超边为ej,则其中表示顶点vj的第i近邻顶点。由上可知,超边ej内各顶点的质心可表示为其中而则表示顶点的第s个分量。基于上述定义,可将超图的关联矩阵H定义如下:

其中:表示超边ej内的顶点vi与其质心之间的相似度,而对于超边ej的权重则可按以下方法计算:

因而超边内各个顶点之间的相似程度越高,则超边的权重取值越大。对于各个顶点之间以及顶点与相应质心之间的相似度,本实施例采用向量夹角的余弦值来度量。因此,超边ej内的顶点vi与其质心之间的相似度的计算方法如下:

同理可以计算顶点vi与vj之间的相似度S(vi,vj)。

步骤二、基于超图半监督学习的专利文本分类

2.1超图半监督学习原理

给定一个加权超图G=(V,E,w)及一个类别标记集L={0,1},设顶点集V的某个非空子集S中的各顶点的类别标记已给定,则超图半监督学习的任务就是预测S的补集Sc中的各顶点的类别标记。为了解决该问题,通常是先求解一个关于超图的分类函数f:V→R,然后根据各个顶点对应的得分值f(v)来确定顶点v∈V的类别标记。

基于结构风险最小化原则,分类函数f一般需要满足两个条件:(1)在整个超图上尽可能保持光滑,即对相似顶点的分类应该接近;(2)对已标记顶点的分类尽可能不改变原有的标记。基于上述目标,分类函数f可以通过以下正则化框架来求解:

其中:Ω(f)为正则化项,Remp(f)为损失函数,而正则化参数μ>0用于实现Ω(f)与Remp(f)之间的一个平衡。在超图学习中,正则化项Ω(f)可定义为:

其中:I为单位矩阵,Δ=I-Θ为超图的拉普拉斯矩阵;而对于损失函数Remp(f)则通常可将其定义为:

其中:向量y定义了V中各顶点对应的初始类别标记。基于上述定义,通过对式(7)的求解可以得到最终的分类函数为:

f=(1-α)(I-αΘ)-1y (10)

其中:α=1/(1+μ),即等价于求解线性方程组[(1+μ)I-Θ]f=μy。

2.2基于超图学习的专利文本分类算法

专利文本分类通常是一个多分类问题,基于超图半监督学习原理,本实施例分别计算每个顶点对应各个类别的得分值,然后分别选取得分值最高的类别来作为每个顶点的最终类别。设超图G=(V,E,w)中的各顶点V={v1,v2,…,vn}分别对应n个专利文本,待分类的目标类别集为C={c1,c2,…,cl},则各顶点对应各类别的初始类别标记可以表示为一个n×l的初始标记矩阵Y,而各顶点对应各类别的得分值可以表示为一个n×l的类别得分矩阵F。对于初始标记矩阵Y中元素的取值,若顶点vi被标记为类别cj,则Yij=1,否则Yij=0。由此,基于公式(10)可以得到类别得分矩阵:

F=(1-α)(I-αΘ)-1Y (11)

因而对于给定顶点vi可以确定其所属类别为其中

综合专利文本概率超图构建过程以及上述超图学习分类过程,下面给出一个完整的基于超图学习的专利文本自动分类算法,具体步骤如图1所示。

专利文本分类方法的有效性验证:

为了验证上述基于超图学习的专利文本分类方法的有效性,从上海知识产权公共服务平台的中国专利数据库中选取水处理技术领域的1000篇专利文献作为语料库。该语料库由上海知识产权公共服务平台提供的“题录文摘下载”功能直接导出,每件专利主要包含标题、摘要、分类号、主权项等信息。通过专业人员进行人工分类,将语料库中的专利文献分为油水分离技术、废水污水处理技术、织物水处理技术以及给排水技术4类。

实验采用C#语言开发自主程序来实现本实施例提出的专利文本分类方法,由于算法实现中涉及到大量矩阵运算,因而采用了Math.NET Numerics工具包。在分词阶段,采用jieba中文分词的.NET版本并通过精确分词模式来实现,主要包括原始分词、自定义词典分词及词频统计三个步骤。在特征选择阶段,通过信息增益方法最终选择了998个特征词作为专利文本的索引词。对于特征词对应于标题、摘要及主权项的位置权重,设置wt=0.42、wa=0.36、wc=0.22;对于超图构造过程中的近邻顶点数量选取k=10;对于公式(11)设置α=0.1。

表1 998个特征词在1000篇专利文献的摘要位置的分布(部分)

表1只显示了998个特征词在1000篇专利文献的摘要位置的部分分布,表头的横向为特征词,纵向为专利文献的编号,表1中0代表特征词没有出现在某篇专利中,1代表特征词出现在某篇专利中。

在实验过程中,分别随机地从语料库中选取了不同数量的专利文献作为已标记样本,并将基于超图学习的专利文本分类方法(PHGraph)与传统的基于监督学习的方法SVM与kNN进行了对比。为了客观地评价各个方法的实验结果,选取了准确率(Precision)和召回率(Recall)作为评价指标。当分别选取10、30、50个专利文献作为已标记样本时,PHGraph、SVM及kNN三种方法对应于各个类别的准确率和召回率分别如表2和表3所示。对应于不同数量的已标记样本,上述三种方法的总体分类精度的对比如图2所示。

表2标记样本数分别为10、30及50时三种方法对应各个类别的准确率(%)

表3标记样本数分别为10、30及50时三种方法对应各个类别的召回率(%)

由表2和表3可知,给排水技术的准确率和召回率均明显高于其它三类,这是由于它与其它三类的相关性相对偏小,因而容易识别。此外,废水污水处理技术的召回率明显高于油水分离技术及织物水处理技术,但准确率比较低,这是由于相比而言废水污水处理技术涉及的面更广,因而容易错误地将油水分离技术及织物水处理技术类别中的专利识别为废水污水处理技术类别。相比较之下,PHGraph方法对应各类别的准确率和召回率均要优于SVM和kNN,特别是当标记样本数量达到50个时,PHGraph对应于给排水技术及织物水处理技术的准确率分别达到了92.68%和84.19%,而对应于给排水技术及废水污水处理技术的召回率分别达到了95.8%和83.97%,明显高于SVM和kNN的相应数值。

由图2可知,随着标记样本数量不断增加,三种方法的总体分类精度逐渐提高。总体来说,PHGraph的分类精度要明显高于SVM及kNN,而当标记样本数量达到40个时,SVM的分类精度超过了kNN。由于SVM及kNN仅仅利用已标记样本的信息,因而当标记样本数量比较少时,这两种方法的推广性能比较差,而随着标记样本数量不断增加,分类器的泛化能力逐渐增强,从而分类精度也逐渐地提高。对于PHGraph来说,通过超图对样本之间多元聚合信息的描述,样本的标记可以在超图中进行相互传递,因而PHGraph不仅可以利用已标记样本的信息,它还可以充分利用待测样本提供的样本结构分布信息来提高分类精度,从而可以在提供少量训练样本的情况下获得比较理想的分类精度和召回率。

所述实施例为本发明的优选的实施方式,但本发明并不限于上述实施方式,在不背离本发明的实质内容的情况下,本领域技术人员能够做出的任何显而易见的改进、替换均属于本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1