一种中文专利文本相似度计算方法与流程

文档序号:18465570发布日期:2019-08-17 02:25阅读:516来源:国知局

本发明属于文本处理技术领域,具体涉及一种中文专利文本相似度计算方法。



背景技术:

专利文献作为技术的载体,全球大多数的90%以上的技术都是以专利文献的形式保存下来的。随着知识的爆炸性增长,专利剽窃和抄袭也在进一步增加,企业或者专利持有者为了维护个人正当的知识产权,可以进行专利诉讼、专利无效申请和专利侵权判定。在这其中,一个很重要的工作就是到专利数据库中寻找相关的或者相似的专利。然而,面对海量的专利文献库,传统方法是在搜索框中简单地输入关键词来搜索相关的专利,这种方法搜索出来的结果虽然有很多,但对于搜索的结果没有针对性,很有可能把不相关的专利排在搜索结果的前面,相关的专利排在后面,这就大大增加工作人员的工作量,降低了专利审查的效率。因此,准确而高效地从专利库中查找相似的专利,对于实现专利诉讼和侵权判定有重要的现实意义。随着人工智能技术的发展,目前已经提出了许多文本相似度的算法,比如在学术论文的防抄袭检测方面,利用文本相似度算法,可以检测论文的复制比率,帮助高校更好地提高论文的质量和水平。这些文本相似度算法对于专利的侵权检测也有一定的借鉴价值。

目前的文本相似度算法包括:将文本转化为向量的形式,利用向量来进行计算;一种是利用大规模的语义词典或者领域本体来计算文本相似度;基于字符串匹配的方法、基于大规模语料库统计的方法、基于领域本体或者语义词典的方法。

在文本相似度的研究中,传统的基于字符串的方法仅从字面上考虑了字符串的匹配或者共现,没有考虑到文本中包含的语义信息;基于本体的方法,受限于人类构建的本体规模,不在本体中的词语无法计算相似度;而基于语料库的方法,通过神经网络训练词向量,把句子表示成向量形式,在一定程度上能够捕获文本中的语法和语义的信息,但是该方法没有考虑到句子中的词的位置关系。基于sao结构的方法,考虑到了文本中主谓宾的顺序,但却无法抽取句子中更多的关键词。



技术实现要素:

针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的中文专利文本相似度计算方法。

为了实现上述发明目的,本发明提供的技术方案如下:

一种中文专利文本相似度计算方法,基于sao结构和向量空间模型相融合来计算文本相似度。

进一步地,所述中文专利文本相似度计算方法包括:

从专利文本中抽取出sao三元组;计算sao三元组中词语的相似度;计算sao之间相似度;基于sao计算专利文本相似度;把向量空间模型方法和基于sao结构的方法进行融合。

进一步地,从专利文本中抽取出sao三元组,包括对主体、客体以及关系词的抽取;对于关系词的抽取,包括:首先从专利文本中提取出专利术语及它们之间的动词作为候选sao三元组结构,手工标注其是否满足sao结构,如果满足,标记为正例,不满足,标记为负例;然后提取候选sao三元组的特征;最后把提取的特征和标注的结果集成在一起作为训练数据和预测数据,放到xgboost算法中进行5折交叉验证,把训练好的模型直接用于中文专利文本的sao结构抽取。

进一步地,sao三元组的特征包括词法特征、上下文特征、距离特征和句法语义特征;

利用word2vec对候选三元组里的词进行向量化表示作为词法特征;

把候选三元组中的实体对和关系词在句子中的前后几个词提取出来,然后采用向量化表示,作为上下文特征;

把两个词语之间的个数作为距离特征;

利用哈工大的ltp对语料进行依存句法分析和浅层语义角色标注,然后提取其中的句法语义特征。

进一步地,词语相似度计算方法包括:

首先从百度词典中抽取出词语的解释句子或者段落,然后利用textrank算法从句子或者段落中抽取出一定数量的关键词,计算这些关键词之间的相似度,其相似度计算公式如下:

其中,k1i和k2j分别是词语w1和词语w2的关键词集合;

其中,s是专利本体中的概念术语集合,如果两个词语均在本体概念术语集中,则利用基于本体的相似度算法和基于word2vec的算法相结合;如果两个词语有一个不在本体概念术语中,则采用基于hownet的词语相似度算法、基于同义词词林的词语相似度算法、基于word2vec的词语相似度算法、基于百度词典的词语相似度算法这四者相结合的方法。

进一步地,计算sao之间相似度包括:

对于sao结构中的主体s和客体o之间的相似度,采用word2vec和专利本体相结合的方法进行计算,对于行为a之间的相似度,采用hownet、同义词词林、word2vec和百度词典四者相结合的方法,计算公式为:

simsao(i,j)=sima(i,j)*sims-o(i,j)

其中,simsao(i,j)表示第i个sao三元组和第j个sao三元组之间的相似度;sima(i,j)表示第i个sao三元组和第j个sao三元组中行为a之间的相似度;sims-o(i,j)表示第i个sao三元组和第j个三元组中主体s、客体o之间的相似度。

进一步地,基于sao计算专利文本相似度包括:

从专利文本中抽取出多个sao三元组,对于每篇专利文本di,由一个sao三元组集合来表示

对每个sao三元组在专利文本中出现的次数进行统计,作为每个sao三元组的权重值进行计算,每篇专利文档中的sao三元组的权值为di={wi1,wi2,...,wik},公式如下:

其中,wik表示第i篇专利文本中第k个sao三元组的权重值,count(saoik)表示第i篇专利文本中第k个sao三元组在专利文本中出现的次数,ni表示第i篇专利文本中所有sao三元组出现的总次数;

在计算两个专利文本di和dj之间的相似度时,把一方作为基数;

专利文本di和专利文本dj之间的相似度计算公式为:

进一步地,计算专利文本相似度包括:

步骤(1)计算两个专利文本中sao三元组集合内部中所有sao两两之间的相似度;

步骤(2)从所有的sao三元组相似度中选择最大的一个,将这个相似度值对应的sao三元组对应的两个元素对应起来;

步骤(3)从集合中删除那些已经建立对应关系的sao三元组;

步骤(4)重复步骤(2)和步骤(3),直到有一方的sao集合中元素为空时停止;

步骤(5)没有建立起对应关系的sao三元组,将其与空元素对应。

进一步地,把向量空间模型方法和基于sao结构的方法进行融合,包括:

对于基于向量空间模型的专利文本相似度算法,表示为simvsm(di,dj),基于sao结构的专利文本相似度算法,表示为simsao(di,dj),其中di和dj分别表示第i篇和第j篇专利文本,融合的专利文本相似度计算公式为:

sim(di,dj)=α·simvsm(di,dj)+β·simsao(di,dj)

其中,α+β=1(0≤α≤1,0≤β≤1)。

本发明提供的中文专利文本相似度计算方法,基于sao结构和向量空间模型相融合的方法计算专利文本相似度,充分发挥了二者的优点,克服了二者的缺陷,得到了极佳的正确率、召回率和f值,可以很好地满足实际应用的需要。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,下面结合具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一种中文专利文本相似度计算方法,是基于sao结构和向量空间模型相融合的文本相似度计算方法,包括:首先从专利文本中抽取出sao三元组结构,然后加入领域本体,重新对词语相似度计算方法进行了改进;接着利用词语相似度计算方法,提出了sao之间相似度的计算方法,利用抽取出的sao结构和sao之间相似度计算方法,提出了基于sao结构的专利文本相似度计算方法;最后把向量空间模型方法和基于sao结构的方法进行了融合,融合后的实验结果比二者单独计算的效果要好,从而验证了本发明提出的方法的有效性。

1基于向量空间模型(vsm)的相似度算法

vsm(vectorspacemodel)向量空间模型首先把文本表示成一个多维的向量,将文本看做多维向量空间中的一个点,假设文本相似度的计算只与文本中出现的词语及词语出现的频率有关,而与词语在文本中的位置和词语之间的顺序无关。

vsm向量空间模型计算过程中的一些相关概念如下:

文档(document):由文字组成的片段,包括单字、词组、句子、段落、句群等构成。

特征项(term):从文档中抽取出一部分能够表示文档主题内容的特征项,一般为字或者词语。

特征项权重(termweight):用来表征每个特征词在文档中的重要程度,特征项权重越大,说明其越能代表文档的主题内容。

根据上面的表述,把文本表示成向量空间模型的过程如下所示:

假设存在文档集合d,该集合中包含n篇文档,那么文档集合d就可以表示为(d1,d2,...,dn),每一个文档可以由提取出来的m个特征词t来表示,则第i篇文档就可以表示为di=(t1,t2,...,tm)。其中,每个特征项ti的权重为wi,那么第i篇文档用特征项权重可表示为:di=(wi1,wi2,...,wim)。整篇文档集合d就可以表示为如下的一个矩阵:

1.1特征项的选择

用来表示文档主题内容的特征项一般包括多种类别,可以是字、词、短语、句子、段落等甚至更高层次的单位。当然,特征项也可以是词或者短语的语义概念。

特征项作为文档主题内容的代表,在选择时,应该考虑两个方面:一是应该选择包含语义信息内容较多,对文档有较强表示能力的词或者短语;二是能够全面体现文档的特点和主题内容。

在中文文档中,一般选取词或者短语作为特征项,但是如果直接选取词或者短语作为文档的特征项,也会存在一些问题。一是构成文档的词汇众多,如果直接把每个词作为文档中的一维,可能会出现维度爆炸的问题,计算量骤然增加,所以必须采用一些降维的方法来处理文档矩阵;二是文档中可能会包含一些出现频率很高,但是又没有实际表示能力的词,比如:“的”、“了”、“是”、“尽管”等字或者词,这些词的出现可能会是噪声,把一些能够表示主题内容的特征词给淹没了,可以通过构建停用词表来解决这个问题;三是对于同义词或者相关度较高的词语,比如“电脑”、“计算机”、“pc”等,不同的场景、不同的人可能会采用不同的表述方式,对于这种类型的词,可以采用构建同义词表或者概念词典来解决。

1.2特征项权重计算

如何确定特征项权重的大小,对于利用vsm模型进行文本相似度计算至关重要。目前常用的特征项权重计算方式是tf-idf(词频-逆文档频率)方法,即通过计算文档中词的tf值和idf值,通过二者共同决定权值的大小。

tf值(termfrequency):表示的是特征项在文档中出现的频率。一般特征项在文档中出现的频率越高,表明该特征项对于文档的重要程度越高。其计算公式如下:

tfij=nij

其中,tfij表示在文档di中第j个特征项出现的次数为nij。

由于文档的长度不同,其词语出现的频率也会有差别,为了对不同的文档进行比较,对tf值进行标准化,则:

idf值(inversedocumentfrequency):表示在所有的文档中,总共有多少篇文档中出现了某个特征项。如果一个特征项只在少数文档中出现,那么它很有可能成为该文档的特有的中心词,因此其idf值也更大;如果一个特征项在多篇文档中都出现,说明其对该篇文档的表征能力较弱,因此其idf值也就越小。其计算公式如下:

其中,n表示文档集的文档总数,n表示文档集中包含特征项tij的文档数量,加1是为了防止分母为0而出现错误,α表示一个常数,通常由自己设定。

则tf-idf的权值计算公式为:

1.3文档相似度计算

通过特征项的选择和特征项的权重计算方法,可以得到文档的向量表示。这样,就可以通过计算两个向量空间的相似度来得出文档的相似度。假设两个文档di和dj对应的空间向量表示如下所示:

计算向量之间的相似度有多种方法,一种是以计算向量之间的夹角作为目标,另一种是通过计算向量之间的距离为目标。

(1)夹角度量法

①余弦相似度计算方法

利用数学中的夹角余弦定理,来计算两个空间向量之间的相似度,即空间向量之间的夹角越大,则其相似度越小;空间向量之间的夹角越小,其相似度越大。具体的计算公式如下:

②jaccard相似性计算方法

jaccard相似性系数两个空间向量中的交集与并集之比,具体的计算公式如下:

(2)距离度量法

即通过计算向量之间的空间距离来度量向量之间的相似度大小,假设以dis(di,dj)来表示向量之间的距离,目前的向量之间的空间距离计算方法主要由以下几种方法:

①欧氏距离:也是传统的距离度量方法,公式如下:

②切比雪夫距离

③曼哈顿距离

夹角度量法通过夹角的大小来计算向量之间的相似性,而距离度量法则通过计算向量在空间中的距离或者差异为目的,由于在计算文档相似度时,其相似度值的大小应该在[0,1]的范围内,这对于夹角度量法来说正好适用。因此本发明拟打算采用余弦相似度的度量方法来计算向量空间模型中的文档相似度,具体的计算过程如下:

(1)利用停用词表,过滤文本中的停用词;

(2)将每篇专利通过词袋构成的特征向量进行表示;

(3)对专利文本中的词计算tf-idf值,并将其权重用tf-idf值表示;

(4)对专利文本进行相似度计算,相似度计算公式如下:

2基于sao结构的文本相似度计算方法

2.1sao结构的抽取

sao(subject-action-object)结构用来表示解决问题的基本函数单元。其中,主体s和客体o表示系统中的实体,一般由特定的名词或者名词性短语来表示,行为a表示主体和客体之间的关系,一般由动词充当,在专利文本的sao结构中,主体s和客体o一般为专利术语,行为a是两个专利术语之间的动词。比如:“燃料电池具有输出电路”,其中,“燃料电池”是主体s,“输出电路”是客体o,“具有”表示主体与客体之间的action,抽取出的sao结构用三元组的形式可表示为“(燃料电池,具有,输出电路)”。对专利文本中的sao结构进行抽取,包括对主体s、客体o以及关系词a的抽取。

(1)主体和客体的抽取

对于主体s和客体o的抽取,实际上是一个实体识别的过程,一般采用crf机器学习方法进行抽取。由于已经有积累的专利本体,所以直接采用双向最大匹配算法再加上人工校对即可达到较高的准确率。

(2)关系词抽取

对于关系词a的抽取,把其转化为了一个二分类的问题,由于关系词一般多为动词,所以首先从专利文本中提取出专利术语及它们之间的动词作为候选sao三元组结构,然后手工标注其是否满足sao结构,如果满足,标记为正例,不满足,标记为负例;然后提取候选sao三元组的特征,包括词法特征、上下文特征、距离特征和句法语义特征等。

词法特征:利用word2vec对候选三元组里的词进行向量化表示。

上下文特征:把候选三元组中的实体对和关系词在句子中的前后几个词提取出来,然后采用向量化表示,作为特征。

距离特征:一般词语之间的距离越近,他们之间越有可能存在关系。本发明把两个词语之间的个数作为距离。

句法语义特征:利用哈工大的ltp对语料进行依存句法分析和浅层语义角色标注,然后提取其中的句法语义特征。

最后把提取的特征和标注的结果集成在一起作为训练数据和预测数据,放到xgboost算法中进行5折交叉验证,把训练好的模型直接用于中文专利文本的sao结构抽取。

2.2词语相似度计算方法

词语相似度计算是中文信息处理领域的基础性研究课题,其反映的是词语之间的语义距离和可替换性,词语之间的相似度越高,它们之间的语义距离越小,相应的在文本中可被替换性也就越强。专利sao三元组结构中词语的相似度计算,其中用到的词语相似度计算方法如下:

(1)基于hownet的词语相似度计算

其中,p1,p2代表义原,α是一个调节参数,distance(p1,p2)表示两个义原在义原树之间的距离,sim(p1,p2)表示的是义原之间的相似度,sim(c1,c2)表示词语之间的相似度。

(2)基于同义词词林的词语相似度计算

其中,α由两个词语的公共父节点所处的层数来决定,n表示分支层的节点总数,k表示两个分支间的距离。

(3)基于本体的词语相似度计算

专利领域本体其实跟hownet、同义词词林的结构有点相似,是一种基于概念间的上下位分类关系所构成的层次树。所以在利用专利本体来计算专利术语之间的相似度时,也可以借鉴基于hownet和同义词词林的方法,利用本体层次树中概念间的距离来计算。

本发明提出本体的相似度计算公式为:

其中,com表示词语w1和词语w2之间的公共节点,r表示根节点;dis(com,w1)表示公共节点com到词语w1之间的距离,dis(com,w2)表示公共节点com到w2之间的距离,dis(r,com)表示根节点r到公共节点com之间的距离。

(4)基于word2vec的词语相似度计算

word2vec是google的开源词向量工具,是一种无监督的训练方法,使用该工具,可以很方便的把语料库中的词语表示成向量的形式。如前文所述,基于word2vec的词语相似度计算的主要思想就是,首先把语料库中的所有词语训练成词向量,在计算词语之间的相似度时,就可以转换为计算词语所对映的向量之间的相似度,因此,可以利用数学中的余弦公式来计算向量之间的相似度。公式如下:

其中,v1和v2分别表示经过word2vec训练后的词向量,x1i和x2i分别表示v1和v2的第i维的值。

(5)基于百度词典的词语相似度计算

由于百度词典中包含的词语来自于互联网,词库比较全面,所以,可以通过百度词典解决未登录词的问题。对于利用百度词典来计算词语相似度,如前文所述,本发明的思想是,首先从百度词典中抽取出词语的解释句子或者段落,然后利用textrank算法从句子或者段落中抽取出一定数量的关键词,由于这些关键词是用来解释词语的,可能跟词语的相关性或者相似性会很强,所以只需计算这些关键词之间的相似度,就可以得到词语之间的相似度,其相似度计算公式如下:

其中,k1i和k2j分别是词语w1和词语w2的关键词集合。

其中,s是专利本体中的概念术语集合,如果两个词语均在本体概念术语集中,则利用基于本体的相似度算法和基于word2vec的算法相结合;如果两个词语有一个不在本体概念术语中,则采用基于hownet的词语相似度算法、基于同义词词林的词语相似度算法那、基于word2vec的词语相似度算法、基于百度词典的词语相似度算法这四者相结合的方法。

2.3基于sao结构的专利文本相似度计算

(1)sao结构三元组的相似度计算方法

sao结构是由(s,a,o)的三元组结构组成的,对于sao结构中的主体s和客体o这类专利术语之间的相似度,本发明采用word2vec和专利本体相结合的方法进行计算,对于行为a之间的相似度,由于其不是专利术语,而且一般是动词,用法不固定,为了可以把所有动词的相似度计算都包含进来,采用hownet、同义词词林、word2vec和百度词典四者相结合的方法,具体的计算方法,公式为:

simsao(i,j)=sima(i,j)*sims-o(i,j)

其中,simsao(i,j)表示第i个sao三元组和第j个sao三元组之间的相似度;sima(i,j)表示第i个sao三元组和第j个sao三元组中行为a之间的相似度;sims-o(i,j)表示第i个sao三元组和第j个三元组中主体s、客体o之间的相似度。

(2)基于sao结构的专利文本的相似度计算

在专利文本中,利用sao结构抽取算法,从专利文本中抽取出多个sao三元组结构,对于每篇专利文本di,可以由一个sao三元组集合来表示。

由于在专利文本中抽取的sao三元组有可能会有多个重复的三元组,因此,可以对每个sao三元组在专利文本中出现的次数进行统计,作为每个sao三元组的权重值进行计算,每篇专利文档中的sao三元组的权值为di={wi1,wi2,...,wik},其具体的公式如下:

其中,wik表示第i篇专利文本中第k个sao三元组的权重值,count(saoik)表示第i篇专利文本中第k个sao三元组在专利文本中出现的次数,ni表示第i篇专利文本中所有sao三元组出现的总次数。

最后,在计算两个专利文本di和dj之间的相似度时,由于每篇专利文本中的sao三元组的个数不同,因此,在计算时考虑把一方作为基数,比如说,要在专利库中检索和某篇专利相似的专利时,只需把该篇专利中的所有sao三元组都计算一遍即可。具体步骤如下:

1.首先计算两个专利文本中sao三元组集合内部中所有sao两两之间的相似度;

2.从所有的sao三元组相似度中选择最大的一个,将这个相似度值对应的sao三元组对应的两个元素对应起来;

3.从集合中删除那些已经建立对应关系的sao三元组;

4.重复上面所述的第2步和第3步,直到有一方的sao集合中元素为空时停止;

5.没有建立起对应关系的sao三元组,将其与空元素对应。

专利文本di和专利文本dj之间的相似度计算公式如下:

3专利文本相似度算法融合方法

传统的文本相似度计算通过计算文本中每个词语的权重,抽取文本中的关键词,将文本表示成向量,利用夹角余弦公式,通过计算向量之间的相似度来计算文本之间的相似度。该方法的计算比较简单,优点是通过tf-idf算法抽取出来的文本关键词可以比较全面的表示专利文本的主题,因此,有比较高的准确率和召回率,缺点也是显而易见的,就是没有考虑到关键词在文本中出现的位置,以及关键词与关键词之间的顺序,因为中文的表达方式比较复杂,即使在两个文本中抽取出来的关键词全部都一样,由于其在文本中出现的位置不同,其表达的意思也有可能千差万别。

对于传统的向量空间模型来计算文本相似度时出现的这个问题,通过基于sao结构的文本相似度计算方法恰好可以弥补这个缺陷,因为sao结构就是从文本中抽取出来的三元组(subject,action,object),这个三元组内部本身就包含了词的位置和顺序关系,通过上文提到的基于sao结构的文本相似度计算方法,可以较好的计算专利文本之间的相似度,但是该方法的缺点就是抽取出来的sao三元组数量有限,不能够覆盖所有的专利文本的主题词,这个问题可以通过基于向量空间模型的文本相似度算法来解决。因此,这两种算法之间可以互相弥补,二者相融合可以发挥更好的效果。

对于基于向量空间模型的专利文本相似度算法,表示为simvsm(di,dj),基于sao结构的专利文本相似度算法,表示为simsao(di,dj),其中di和dj分别表示第i篇和第j篇专利文本,融合的专利文本相似度计算公式如下:

sim(di,dj)=α·simvsm(di,dj)+β·simsao(di,dj)

其中,α+β=1(0≤α≤1,0≤β≤1),α和β的值可以根据在实际计算专利文本相似度时的效果,灵活进行调整。

4.实验

4.1实验语料

本实验采用的是从国家知识产权局网站上爬取的新能源汽车语料8000篇,并从中选取100篇专利文本作为实验语料。由于专利摘要是对整个专利内容的整体概括,包含了专利的创新内容和效果等,而专利说明书是对专利内容的详细说明和解释,这两者可以更加全面的表示专利文本。因此,本实验从100篇专利文本中抽取出其中的专利摘要和说明书作为实验语料。

4.2实验过程

本实验选取其中1篇专利作为待对比专利q,剩下的专利作为对比专利d。具体的实验过程如下:

(1)对语料中的所有专利文档进行预处理,从中抽取出摘要和详细说明书;

(2)利用nlpir汉语分词系统,同时加入新能源汽车领域的专利术语词典,对专利语料进行分词和词性标注;

(3)通过停用词表,过滤掉专利文本中的停用词;

(4)计算专利文本中所有词的tf-idf值,将tf-idf值比较大的关键词作为专利文本的关键词。

(5)计算专利文本的相似度simvsm;

(6)利用基于sao结构的中文专利实体关系抽取算法,提取出专利文本中的sao结构三元组。

(7)采用基于sao结构的中文专利文本相似度算法,计算出专利文本之间的相似度simsao。

(8)利用专利文本相似度算法融合策略,计算出最终的文本相似度结果。

4.3评价指标

本实验选取10篇专利作为待对比专利,对其中的每篇专利进行改写操作,包括:同义词、句子结构、表达方式、语法语义等层面进行改写得到了5篇内容相近的专利文本,然后选取余下的50篇专利文本,共100篇专利作为对比专利。采用人工方式对待对比专利和对比专利之间的相似度进行标注,标注值与本实验方法的计算值之间的误差如下公式所示:

error=y标注值-y计算值

当误差值error的范围控制在[-0.1,0.1]之间时,可以认为计算结果正确,如果error不在误差范围内,认定计算结果错误。把正确率(p)、召回率(r)和f值(f)作为实验效果的性能评价指标。

正确率p:

4.4实验结果与分析

4.4.1实验语料

本实验采用的是从国家知识产权局网站上爬取的新能源汽车语料8000篇,并从中选取100篇专利文本作为实验语料。由于专利摘要是对整个专利内容的整体概括,包含了专利的创新内容和效果等,而专利说明书是对专利内容的详细说明和解释,这两者可以更加全面的表示专利文本。因此,本实验从100篇专利文本中抽取出其中的专利摘要和说明书作为实验语料。

4.4.2实验过程

本实验选取其中1篇专利作为待对比专利q,剩下的专利作为对比专利d。具体的实验过程如下:

(1)对语料中的所有专利文档进行预处理,从中抽取出摘要和详细说明书;

(2)利用nlpir汉语分词系统,同时加入新能源汽车领域的专利术语词典,对专利语料进行分词和词性标注;

(3)通过停用词表,过滤掉专利文本中的停用词;

(4)计算专利文本中所有词的tf-idf值,将tf-idf值比较大的关键词作为专利文本的关键词;

(5)利用第2章中的公式(2.13),计算专利文本的相似度simvsm;

(6)利用第3章的基于sao结构的中文专利实体关系抽取算法,提取出专利文本中的sao结构三元组;

(7)采用5.2.3节中提到的基于sao结构的中文专利文本相似度算法,计算出专利文本之间的相似度simsao;

(8)利用5.3节中提到的专利文本相似度算法融合策略,计算出最终的文本相似度结果。

4.4.3评价指标

本实验选取10篇新能源汽车领域的专利作为待对比专利,对其中的每篇专利进行改写操作,包括:同义词、句子结构、表达方式、语法语义等层面进行改写得到了5篇内容相近的专利文本,然后再选取50篇专利,共100篇专利作为对比专利。采用人工方式对待对比专利和对比专利之间的相似度进行标注,本实验将文本相似度的标注结果分为6个档次t(0.0,0.2,0.4,0.6,0.8,1.0),具体说明如表5.1:

表5.1文本相似度标注结果说明

实验计算的专利文本之间的相似度在标注值范围内的,则认定为计算结果正确,不在其标注范围内的,则认定为计算结果错误。然后使用正确率(p)、召回率(r)和f值作为实验结果的评价指标。定义t(t)表示标注值为t的数量,r(t)表示计算的文本相似度值在标注范围内的数量,tr(t)表示标注值为t并且文本相似度值在标注范围内的数量。具体的公式如下:

正确率p:

召回率r:

f值:

4.4.4结果与分析

前面已经系统的描述了各种文本相似度的计算方法,将基于传统的vsm向量空间模型的文本相似度算法标记为vsm,把基于sao的文本相似度算法标记为sao,将向量空间模型和sao相结合的算法标记为vsm+sao,对于融合算法,把调节参数β分别设置为:0.1,0.3,0.5,0.7,0.9,具体的实验结果如下表5.2所示:

表5.2文本相似度实验结果

从表5.2可以看出,单独使用vsm和sao进行专利文本相似度计算时,vsm的准确率、召回率和f值要比sao的高21%、22.5%和21.7%,主要是因为基于向量空间模型(vsm)的方法可以从专利文本中抽取出更多的特征关键词,而基于sao结构的方法,从专利文本中抽取出的sao三元组数量有限,覆盖的专利文本的特征项较少。根据实验统计可知,从100篇专利文本中抽取出来的关键词数量平均每篇为45.3个,而抽取出来的sao三元组数量平均每篇为14.6个,可见关键词覆盖了更多的特征项;而将vsm和sao的方法合并后的最好效果,比单独使用vsm的正确率、召回率和f值分别高8.3%、7.1%和7.7%,比单独使用sao时的正确率、召回率和f值分别高29.3%、29.6%、29.4%。可见,sao和vsm方法相结合后的优势,可以显著地提高文本相似度的计算效果,其主要原因还是因为vsm的方法虽然可以覆盖大多数的关键词,但是没有考虑到关键词在专利文本中的位置和顺序,因为在中文表达方式中,即使文本中的关键词数量一样,其表达的意思也未必相同,例如:“并行驱动可减少上坡时的电力驱动功率,自充电能使下坡时不超速和提高能源使用效率”,抽取出的关键词包括:“并行驱动”、“减少”、“上坡”、“电力驱动功率”、“自充电”、“下坡”、“超速”、“提高”、“能源”、“效率”等。如果改成“并行驱动可提高下坡时的能源使用效率,自充电能使上坡时不超速和减少电力驱动功率”,两个句子所包含的关键词是一样的,只不过关键词在句子中的顺序和位置变了,其表达的意思也就变了,但是使用vsm方法计算时,其相似度仍然为1,可见vsm方法对关键词的在专利文本中的位置和顺序不敏感;如果使用sao结构抽取方法,可以从上面的两个句子中可分别抽取出[(并行驱动,减少,电力驱动功率)、(自充电,提高,效率)]和[(并行驱动,提高,效率)、(自充电,减少,电力驱动功率)]这两对sao三元组,当使用sao的方法计算相似度时,由于句子中关键词的位置和顺序发生了改变,其计算结果为0.686,可见sao的方法对于关键词在文本中的位置和顺序是敏感的。将二者结合后,既发挥了vsm在关键词覆盖完整性方面的优势,也突显了sao在关键词在文本中的位置和顺序上的敏感性优势,所以准确率、召回率和f值得到了明显的提高,在测试的调节参数β的取值范围中,发现随着β的增大,出现了先增加,后急剧减少的趋势,当β=0.1时,vsm方法的权重更大,所以计算的相似度结果更趋近与单独使用vsm的结果;当β=0.9时,sao方法的权重更大,所以计算的相似度结果更接近与单独使用sao的结果;当β=0.5时,效果最好,充分发挥了两种方法的优势。

以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1