一种基于知识本体的专利文献相似性度量方法与流程

文档序号:11323325阅读:257来源:国知局
一种基于知识本体的专利文献相似性度量方法与流程

本发明公开了一种基于知识本体的专利文献相似性度量方法及使用该方法的专利文献主题词语义检索系统,涉及面向专利文本的自然语言信息处理技术领域。



背景技术:

现今的社会是一个信息型社会,海量的数据在社会的各个领域产生,如何能从海量数据中挖掘出有价值的信息一直是学术界研究的热点。专利作为一种特殊的信息战略资源,是国家战略资源的发展一个重要的组成部分。

专利信息记载着人类社会发明创造的成就,其将技术性、法律性和经济性集合于一体,是当代社会中最重要的技术知识宝库。专利具有新颖性,创造性和实用性的特点,随着世界经济和技术的竞争越来越激烈,专利因其作为国家科技创新成果的重要表现形式和载体,具有非常高的知识含量,成为推动现代社会进步和经济技术发展的重要杠杆。

专利检索是专利行业中最常用的工具,包括专利申请人、审查员以及从事专利运营活动的相关企业都会用到,能否将最相关的专利从数千万的文献中检索出来是衡量一个专利检索工具的重要因素。

目前比较常见的专利文献检索方式主要有:传统的基于布尔逻辑的检索技术,需要制定合适的检索策略,编写复杂的检索式,检索效率较低,如soopat专利搜索引擎;比较流行的基于概念的相似度计算,主要包括向量空间模型(vectorspacemodel,vsm)和概率模型(probabilisticmodel),基于统计分析词共现信息,完成检索关键词的语义扩展,如国家知识产权局专利检索与服务系统中的语义检索模块。但是,上述两种方式在检索过程中,均未充分考虑专利文献本身数据的特点,造成查全和查准率低,检索不方便等问题。



技术实现要素:

本发明的主要目的是提供一种基于知识本体的专利文献相似性度量方法及使用该方法的专利文献关键词语义检索系统,在基于传统的基于概念的检索方法的基础上,进一步挖掘专利文本的数据特点,提高专利文献表示的全面性、深入性和准确性,同时通过相关手段,进一步提高专利文献相似性或者相关性计算的准确率。

本发明的目的是通过以下技术方案实现的:

一种基于知识本体的专利文献相似性度量方法,包括以下步骤:

步骤一,根据专利文献结构特点、位置特征和关键词特征,从专利全文文本中提取核心技术方案信息;

作为优选,所述核心技术方案信息包括标题,分类号,发明解决的技术问题,达到的有益效果,技术方案应用的领域,权利要求中的发明内容。

作为优选,所述专利全文文本为xml格式,符合国家知识产权局公布的cn-txts-10-a数据编码规范,包括著录项目、摘要、权利要求书、说明书、说明书附图和索引信息。

步骤二,构建专利文献分类号主题词词间关系模型;

基于专利文献数据集,人工提取每篇专利文献的主题词和分类号,建立分类号与主题词联系,同时结合主题词的语义信息和领域表达方式特点,建立主题词之间的相关关系:上、下位关系,同义关系和近义关系。利用分类号主题词之间的联系以及主题词相互间的关系,构建分类号主题词词间关系模型。

作为优选,所述主题词词间关系模型为一个有向图结构,图的结点为主题词,主题词的属性包括分类号、该主题词的同义词和近义词,如果主题词之间存在直接上、下位关系,则有一条连接两个词的有向边,起点为下位词,终点为上位词,权重为常量w,大小介于0到1之间,本方案中w的值为0.8。

步骤三,基于步骤二构建的分类号主题词词间关系模型生成领域词典,使用领域词典对核心技术方案信息的文本分词,使用停用词库对分词结果去停用词,得到语料文本;

其中,由分类号主题词关系模型得出领域词典,领域信息由分类号唯一决定,不同的分类号划分为不同的领域,根据核心技术方案的分类号,采用对应的领域词典分词。停用词库由常见的限定词、介词或副词等无实际检索意义的词组成,通过去停用词节省存储空间和提高检索效率。

步骤四,使用关键词提取工具,提取步骤三中得到的语料文本中的关键词及其权重;

作为优选,所述关键词提取方法为:首先,训练语料文本的tf-idf模型,然后,使用textrank方法提取关键词及词权重,其中词初始权重为其tf-idf值,textrank方法中迭代次数范围为5-20。

步骤五,基于步骤四得到的关键词,提取经过训练的词向量模型中对应的词向量;

作为优选,经过训练的词向量模型为使用词嵌入工具对专利文献数据集训练而得。

作为优选,所述词嵌入工具为word2vec或fasttext。

训练词向量的实施步骤为:针对专利文献数据集中的每一篇专利文本,结合上述步骤一中的方法得出核心技术方案信息;利用上述步骤三中的方法处理核心技术方案信息,得到分词和去停用词后的结果,最终每篇专利文本处理成以空格分割的连续若干词;使用词嵌入工具,将处理的结果作为输入,即可训练出词向量模型,在词向量模型中,每个词被量化为一个向量,向量的维度一般50-100,本方案中向量维度为100。

步骤六,基于步骤四和步骤五得到的关键词,词权重和词向量信息,得出该专利文献的量化表示其中pi为第i个关键词,为pi的词权重,为pi的词向量;1≤i≤n,n为关键词的总数量;

步骤七,使用emd(earthmovingdistance)工具,计算不同专利文献的量化表示之间的距离,关键emd距离越小,语义越近似。

作为优选,所述使用emd计算不同专利文献的量化表示之间的距离的步骤为:

步骤7-1,存在专利文献di和dj的量化表示结果为特征词集合setp,setp为di和dj中关键词的并集;

步骤7-2,由di、dj和setp,将专利文献di和dj的量化表示结果转变为其中p'i和p'j为setp中的元素,如果di中存在p'i,则否则为0,如果dj中存在p'j,则否则为0;

步骤7-3,由d'i、d'j和setp构造特征距离矩阵{mij},其中为向量之间的余弦值;

步骤7-4,根据d'i,d'j和{mij},使用emd工具计算d'i和d'j之间的特征分布距离,该特征分布距离即emd距离。

有益效果

本发明在基于传统的基于概念的检索方法的基础上,通过进一步挖掘专利文本的数据特点:引入位置特征和关键词相似度特征,提取专利核心技术方案;构建专利分类号主题词模型,丰富技术主题关键词的语义信息和领域信息;将专利文本量化表示为由关键词、词权重和词向量为元组信息的集合,通过使用emd工具来计算文本量化结果之间的距离,进一步得出专利文献的相似度,提高了专利文献表示的全面性、深入性和准确性,提高了专利数据的检索结果的准确度和相关度。

此外,本发明提供的语义相似主题词推荐功能,可以帮助用户在检索过程中及时调整搜索关键词,加快检索速度;命中结果集分类号分布信息,可以帮助确定搜索文本的分类号信息,对专利分类员分类业务起到帮助作用。

附图说明

图1为本发明实施例一种基于知识本体的专利文献相似性度量方法流程示意图;

图2为专利文献结构图提取准确度示意图;

图3为分类号主题词模型示意图;

图4为专利文献关键词语义检索结果示意图。

具体实施方式

为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。

实施例1

如图1所示为一种基于知识本体的专利文献相似性度量方法的流程示意图,该方法包括以下步骤:

步骤1),根据专利文献结构特点、位置特征和关键词特征提取核心技术方案信息;

此处,专利文献结构特点为专利文献说明书的类目与其xml文件标签之间的对应关系;位置特征为提取核心技术方案信息所在的文档中的段落信息,如发明内容第一段,关键词特征为提取核心技术方案信息类目的特殊描述词语,如优化、改进、解决等。

众所周知,《中华人民共各国专利法》规定:申请发明或者实用新型专利的,应当提交请求书、说明书及其摘要和权利要求书等文件。说明书应当对发明或者实用新型作出清楚、完整的说明,以所属技术领域人员能够实现为准,并且说明书应当包括下列内容:技术领域、背景技术、发明内容、附图说明和具体实施方式。权利要求书应当以说明书为依据,清楚、简要地限定要求专利保护的范围。

因此,本实施例就以上述法规作为依据,设定核心技术方案信息包括以下内容:标题,分类号,发明解决的技术问题,达到的有益效果,技术方案应用的领域,权利要求中的发明内容信息等。当上述法规变化的时候,可以根据法规内容的调整调整相应的核心技术方案信息。当然,对于其它的很多应用场合,也都可以类推地根据相关规定构建核心技术方案信息。

由于专利文本一般具有标准的结构化特征,因此可以利用该特点,采用位置特征和关键词相似度匹配等技术,提取出专利文本的上述核心技术方案信息,主要包括:加入关键技术特征的标题、专利要解决的技术问题、所达到的有益效果、专利技术可以应用的领域信息、专利的核心技术方案等。本实施例中,基于位置特征和关键词匹配技术提取核心技术方案信息的方法见表1,根据位置特征在专利文本的特定位置,查找匹配关键词特征,即可以提取出专利文本的核心技术信息。

目前,专利文本大部分是xml格式,因此,需要对xml格式的文本进行解析,分析其中各个不同类目的标签路径信息,根据标签路径提取文本,结合表1的位置特征和关键词特征信息,即可提取特定类目的信息。基于此,针对国家知识产权局专利局公布的专利xml文本,分析结构信息,表2中包含专利文本各个类目的xpath信息。

表1提取核心技术方案信息的位置特征和关键词特征

表2专利文本各类目标签路径信息

结合表1中的位置特征和表2中的类目与标签路径的对应关系,解析专利文本xml文件,获取对应类目的文本信息。利用表1中的关键词进行相似度匹配,提取对应类目的文本数据。对比提取出的文本数据和人工深加工的数据,使用最长字串算法,计算准确度如附图2所示,标题,分类号和技术问题准确率达到80%以上,有益效果,用途领域和核心方案的准确率在70%-80%之间,说明本步骤的根据专利文献结构特点、位置特征和关键词特征提取核心技术方案信息方案的高度可行性。

步骤2),构建专利文献分类号主题词词间关系模型;

基于专利文献数据集,人工提取每篇专利文献的主题词和分类号,建立分类号与主题词联系,同时结合主题词的语义信息和领域表达方式特点,建立主题词之间的相关关系:上、下位关系,同义关系和近义关系。利用分类号主题词之间的联系以及主题词相互间的关系,构建分类号主题词词间关系模型,如附图3所示为以主题词“电容传感器”为例说明主题词词间关系模型。

分词结果的好坏很大程度上决定后续关键词提取、信息检索等步骤,由于专利文献有很强的领域特性,存在构成技术特征的主题词在不同的领域表述相同而含义不同的现象。因此,本发明建立了分类号主题词模型,该模型为一个有向图结构,图的结点为主题词,主题词的属性包括分类号,同义词,近义词等,如果主题词词之间存在直接上、下位关系,则有一条连接两个词的有向边,起点为下位词,终点为上位词,权重为常量w,大小介于0到1之间,本实施例中w=0.8。附图3为所述有向图中每个节点的属性信息,由领域特征和关系特征构成,领域特征主要通过分类号体现,关系特征通过族首词、上位词、下位词和同义词体现。基于此模型,一方面可以实现针对不同领域的专利文本,采用不同的领域词典进行分词,可以进一步提高分词的准确度,另一方面,加入了主题词的关系特征,可以对主题词进一步进行语义扩展。

步骤3),根据步骤2中分类号主题词词间关系模型生成领域词典以及由常见的介词、语气词等无实际意义的词构成的停用词库,对步骤一中提取的核心技术方案文本分词和去停用词,得到语料文本;

分词过程包括:根据关系模型中的领域特征,提取分类号和主题词信息,生成由分类号标识的领域词典,结合当前专利文本的分类号信息,依据该分类号的领域词典,使用中文分词工具对核心技术方案文本进行分词,实施方案中选取的中文分词工具为结巴分词;

去停用词过程包括:对分词结果中的所有词汇,查询是否出现在停用词库中,如果出现,则过滤掉。

步骤4),使用关键词提取工具,提取语料文本中的关键词及其权重;

tf-idf算法和textrank算法均可以用于提取文本的关键词。

tf-idf是一种基于统计的模型的算法,其中tf为词频,特指某一个词在指定文档中出现的频率,idf为逆文档频率,即数据集文档的总数与包含该词的文档数的比的对数,本算法的思想是某一个词在文档中出现的次数越多,其tf权重就越高,同时包含该词的文档数越多,其idf权重就越小,既考虑本片中词的重要度,也考虑了全局中该词的区分度。但是其问题在于:tf权重部分仅考虑了词的统计频率,忽略了词与词之间的联系;idf基于整个语料库计算,忽略了语料库的类别信息。

textrank是一种基于图结构的模型,由pagerank的思想演化而来,其主要思想是:初始化图的顶点为文档中所有的词,默认顶点的权重为1或者词总数的倒数,针对特定词w,可以给其后大小为span的窗口内的各个词投票,同时增加一条从该特定词连接窗口内其余词的边,并将该条边的权重设置为1,如果该条边已经存在,则将该边的权重加1,计算公式为公式(2),经过特定次迭代后,每个顶点的权重代表该词的重要程度。本算法的优势在于一定程度上考虑了词的位置关系,不足之处为:初始化的时候每个词的权重相等。基于此,本实施例将tf-idf计算的词权重信息引入textrank中,作为词的初始权重,具体计算公式为公式(1),其中vi为文本中的词,n为迭代次数,实验结果表明,n的范围应为5-20,d为阻尼系数,方案中,阻尼系数设置为0.85,wji为词vj到vi的边的权重,wn(vi)为第n次迭代的权重结果,w1通过tf-idf的权重进行迭代计算。试验结果表明,使用该方法后,可以一定程度上改善textrank提取的关键词的准确度,准确率提高了5%,如表3所示,准确率为提取结果中准确数据量与结果集数量之间的比值,召回率为提取结果中准确数量与标准数据准确数量的比值,f-值使用公式(2)计算,其中p为准确率,q为召回率。

表3引入tf-idf作为初始权重的textrank关键词提取准确度

不限于此,本领域技术人员还可以类似的通过其他关键词提取工具提取关键词及其权重。

步骤五,基于步骤四得到的关键词,提取经过训练的词向量模型中对应的词向量;

本步骤中经过训练的词向量模型为使用词嵌入工具对专利文献数据集训练而得。

词嵌入工具为:word2vec或fasttext。

训练词向量的实施步骤为:针对专利文献数据集中的每一篇专利文本,结合上述步骤一中的方法得出核心技术方案信息;利用上述步骤三中的方法处理核心技术方案信息,得到分词和去停用词后的结果,最终每篇专利文本处理成以空格分割的连续若干词;使用词嵌入工具,将处理的结果作为输入,即可训练出词向量模型,在词向量模型中,每个词被量化为一个向量,向量的维度一般50-100,本实施例中向量维度为100。

fasttext是2016年facebook推出一个用于文本分类和计算词向量的工具,其优点在于模型简单,训练速度快。与常用的word2vec的cbow模型在结构上是一样的,不同之处在于word2vec目标是通过当前词的前后若干的词来预测当前词,在使用层次softmax的时候,huffman树的叶子节点处是训练语料里所有词的词向量;而fasttext在进行文本分类时,huffman树叶子节点处是每一个类别标签的词向量,但是在训练过程中,每一个词也会得出对应的词向量。本实验采用fasttext作为词向量的训练模型,主要由于fasttext可以实现ngram切分,将长词通过ngram切分为几个短词,这样对于未登录词也可以通过切出来的ngram词向量合并为一个词,表4是分别通过fasttext模型和word2vec模型计算一组特征词,计算最相似的前20个词,可见,对比fasttext模型和word2vec模型计算的结果,可以发现fasttext的结果一方面词意更接近,计算结果均与汉字编码相关,另一方面相似度更高,word2vec的相似度分布在0.899-0.916之间,fasttext的相似度分布在0.934-0.963之间,因此,fasttext效果更优。

表4fasttext和word2vec最相似词对比

步骤6),基于上述得到的关键词,词权重和词向量信息,得出专利文本的量化表示其中pi为关键词,为词权重,为词向量;

步骤7),使用emd(earthmovingdistance)工具,计算不同专利文本的量化表示之间的距离,emd距离越小,语义更近似。

emd(earthmovingdistance)算法为评估特征空间中两个多维分布之间的不相似性的方法,利用单个特征之间的距离成本及各自的权重,emd可以将各特征的距离转变为特征集合分布的距离。其优点在于:如果文本中的主题词表达不同,但是语义距离接近,词向量余弦值小,则理论上主题词集合的距离也会小。

本实施例中,专利文献之间emd距离的计算通过以下过程实现:

基于步骤6完成专利文献di和dj的量化表示结果为特征词集合setp,setp中元素为di和dj中关键词的并集;由di、dj和setp,专利文献di和dj的量化表示结果转变为其中p'i和p'j为setp中的元素,如果di中存在p'i,则否则为0,如果dj中存在p'j,则否则为0,setp中元素的总数为n,0≤i≤n,0≤j≤n;由d'i、d'j和setp构造特征距离矩阵{mij},其中为向量之间的余弦值;根据d'i,d'j和{mij},使用公式(3)到公式(8)完成专利文献emd距离的计算,其中,公式(3)中的p为d'i,q为d'j,f为矩阵{fij},fij满足公式(5)到公式(8)的约束,得到fij后使用公式(4)得到专利文献之间的emd距离。

fij≥0,i=1,2,...n;j=1,2,...n(5)

表5为检索文本与语料集中专利文本之间emd距离最小的前5条的计算结果,其中,检索文本为若干空格分开的词,语料集为若干篇专利文献,计算结果包括标题和emd距离。分析检索结果,可以发现:语义上近似的文本其emd距离更小,所以,可以使用emd距离衡量文本之间语义相似程度,emd值越大,语义越不相关,emd值越小,语义越近似。

表5emd距离计算结果

实施例2

使用基于知识本体的专利文献相似性度量方法的专利文献关键词语义检索系统,包括以下模块:关键词输入模块,关键词语义扩展模块,检索引擎匹配相关词模块,语义距离计算模块,相关信息统计模块,结果展示模块。

关键词输入模块用于接收用户输入的文本,生成关键词集合。本模块接收的输入可以是由空格分隔的关键词或一段文本,如果输入为空格分隔的关键词,以空格为分隔符,提取每一个关键词组成关键词集合;如果输入为一段文本,结合步骤三中的方法,如果用户输入的文本无领域信息,则采用由所有主题词构成的全领域词典,对输入的文本处理,进行分词和去停用词操作,将得到的词组成关键词集合;否则采用领域词典对输入的文本处理,进行分词和去停用词操作,将得到的词组成关键词集合。

关键词语义扩展模块,根据关键词输入模块的关键词集合进行语义扩展得到相关词集合,该集合中每个元素由相关词和该相关词的相关性权重组成。

作为优选,本实施例通过如下三种方式进行关键词语义扩展:

1、基于步骤五训练的词向量模型,利用词向量训练工具,以关键词输入模块得到的关键词集合为输入,即可得出与关键词集合最相关的若干词汇及相关性的权重,权重范围为0到1,权重越大,越相关,实施方案中取最相关10条词汇作为扩展结果;

2、使用主题词词间关系模型得出关键词集合中所有词的上位词和下位词,即在主题词词间关系模型的有向图中,如果关键词集合中的词为图中一个结点的主题词,则取出与该结点存在连接关系的结点中的主题词作为相关词,相关词权重为图中连接两个词的边权重,实施方案中边权重取0.8;

3、针对关键词输入模块得到的关键词集合,如果关键词在相关词集合中不存在,则加入相关词集合,并设置其相关性权重为1。

上述三种优选方案,可单独实施,也可相互结合实施,根据扩展得到的相关词及相关性权重信息,得到相关词集合。

检索引擎匹配相关词模块,使用全文检索引擎对基于已有专利文献构建的全文索引根据关键词语义扩展模块输出的相关词集合中的相关词进行检索,得到命中专利文献结果集,集合中的每个元素为一个二元组(weightj,docj),其中weightj为第j个命中文档权重,其是根据文档中包含的语义扩展模块输出的相关词的权重求和取平均计算而得,docj为第j个命中文档的量化表示;

语义距离计算模块,通过公式(9)计算关键词输入模块输入内容与检索引擎匹配相关词模块输出的命中专利文献结果集中的专利文献的相似度距离sim,其中doci为输入文本的量化表示:

sim=weightj*emd(doci,docj)(9)

其中,docj的量化表示同实施例1中步骤6)中的量化表示;emd()函数计算过程同实施例1中步骤7)中emd距离的计算过程。

相关信息统计模块,统计检索相似专利文献过程的相关信息,统计的信息包括数据总量,检索时间,命中结果总数,命中结果分类号分布,语义扩展的相关词及权重等。

展示模块,在屏幕上展示与关键词输入模块输入内容相似的检索结果及相关信息,展示的信息包括:对命中的专利文献按照相似度由高到低显示,即sim值由低到高显示,相关信息统计模块统计的相关信息的展示。

附图4为一个网页页面,包括输入框,可以输入关键词或一段文本,点击检索按钮后,用户可以得到按照相似度排序的专利文献信息,如标题,申请号,技术方案等信息,同时页面右侧分为三块,第一块为本次检索结果信息,如检索关键词,命中结果,使用时间,数据总量;第二块为检索技术主题词推荐,包括一系列相关词及相关度,即语义扩展模块输出的相关词及权重;第三块为检索结果中专利文本的领域分布,包括分类号及数量。

综上所述,本发明方法基于专利文献数据特点建模,提供一种简单有效的专利文献相似性度量方法,该方法以及基于该方法构建的系统可以应用于专利文献的检索、审查、分类和分析等相关业务领域,检索相关专利文献和评价技术方案相关性等。

为了说明本发明的内容和实施方法,本说明书给出了具体实施例:使用基于知识本体的专利文献相似性度量方法的专利文献关键词语义检索系统。本实施例中引入的细节的目的不是限制权利要求书的范围,而是帮助理解本发明所述方法。本领域的技术人员应理解:在不脱离本发明及其权利要求的精神和范围内,对最佳实施例步骤的各种修改、变化或替换都是可能的。因此,本发明不应局限于最佳实施例及附图所公开的内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1