一种专利文献关键短语自动提取方法

文档序号:6538087阅读:320来源:国知局
一种专利文献关键短语自动提取方法
【专利摘要】本申请提供一种专利文献关键短语自动提取方法,包括:步骤1:文本的预处理;步骤2:识别专利发明的主题类型;步骤3:提取候选关键短语并进行短语过滤;步骤4:对候选关键短语进行权重计算并选出关键短语。
【专利说明】—种专利文献关键短语自动提取方法
【技术领域】
[0001]本发明涉及文本信息处理技术,更具体地,涉及一种专利文献关键短语自动提取方法。
【背景技术】
[0002]随着专利文献数量的迅速增长,专利文献专业和社会化查询日益普遍,实现专利文献数据的查全率和查准率成为专利文献信息检索的难点和重点。长期以来,利用原始专利数据来完成的专利信息的检索,往往使得查全率和查准率很差并且通常会相互矛盾。由于专利文献原始信息来源于 申请人:的原始提交资料,往往存在大量相关的技术资料和引用技术,使得在检索过程中,为了保证查全率,就会引入过多文件,出现大量的噪音数据或者噪音文献。而为了保证查准率,就会限制过多的条件并且加载较为严格的检索要求,往往会丢失很多有用的检索结果。
[0003]为了解决这个问题,通用的方法就是对于专利文献进行前期的数据加工,在全面了解专利技术的基础上,按照一定的加工规则对于文献进行区分和标引,而使得数据较为集中和降低数据量。并且通过整理之后,提取的文献信息还保证和技术主题相关。但是,由于数据加工需要耗费大量的时间、人力和财力,建设成本非常之高,加工效率目前也不尽如人意。
[0004]但是目前缺乏专业、精准的标引工具,大部分都是通过手工标引来提高准确率,使得标引工作在目前日益增加的专利申请量面前更是难以满足需要。中国发明专利CN1818906A提供了一种专利文献的标引方法,该方法通过建立技术分类和关键词对应,并且提供通过修正来提高准确率,但是该方法还是依赖于人工,没有实现完全自动,并且该方法处理的数据较大,难以实用。

【发明内容】

[0005]为克服现有技术的上述缺陷,本发明提出一种专利文献关键短语自动提取方法。
[0006]根据本发明的一个方面,提出了一种专利文献关键短语自动提取方法,包括:步骤1:文本的预处理;步骤2:识别专利发明的主题类型;步骤3:提取候选关键短语并进行短语过滤;步骤4:对候选关键短语进行权重计算并选出关键短语。
[0007]本发明通过选取3000篇专利文献为训练集对上述方法构建的实验系统进行训练,另选取100篇专利文献为测试集,根据上述本发明涉及的方法,对每篇专利文档提取15个关键短语。同时,使用现有的基于统计的方法提取相同数量关键短语作为对比。同时,人工对同样的100篇专利文献提取关键短语,人工提取的关键短语作为判定提取的关键短语是否正确的标准。使用上述数据计算方法的准确率,使用公式如下:
[0008]测试方法提取的关键短语的数量X 100%
[0009]人工提取的关键短语的数量X 100%
[0010]实验结果如下:使用本发明涉及的方法的准确率为95.24%,使用传统方法的准确率为81.61%。使用本发明涉及的方法的召回率为85.5%,使用传统方法的召回率为84.2%。可见,使用本发明涉及的方法,明显提高了关键短语的抽取准确率,召回率也略有提高,对专利文献的关键短语提取显示了较好的效果。
【专利附图】

【附图说明】
[0011]图1为根据本发明的专利文献自动抽取关键短语方法的流程图;
[0012]图2为根据本发明的专利文献自动抽取关键短语方法提取出的关键短语-文本域关联的不意图。
[0013]为了能明确实现本发明的实施例的结构,在图中标注了特定的尺寸、结构和器件,但这仅为示意需要,并非意图将本发明限定在该特定尺寸、结构、器件和环境中,根据具体需要,本领域的普通技术人员可以将这些器件和环境进行调整或者修改,所进行的调整或者修改仍然包括在后附的权利要求的范围中。
【具体实施方式】
[0014]下面结合附图和具体实施例对本发明提供的一种专利文献关键短语自动提取方法进行详细描述。
[0015]在以下的描述中,将描述本发明的多个不同的方面,然而,对于本领域内的普通技术人员而言,可以仅仅利用本发明的一些或者全部结构或者流程来实施本发明。为了解释的明确性而言,阐述了特定的数目、配置和顺序,但是很明显,在没有这些特定细节的情况下也可以实施本发明。在其他情况下,为了不混淆本发明,对于一些众所周知的特征将不再进行详细阐述。
[0016]在本说明书中使用的术语仅用于更好的理解本发明的实施方案的目的,不用于限制本发明。本说明书中使用的“一个”、“一种”、“该”也可以包括复数形式,除非上下文明确指出。
[0017]术语“短语”,是指包括由一个及以上单词构成的名词性短语、以及嵌套了短语的名词性结构,本发明的“短语”最小单位是单个词,是广义的短语概念。
[0018]图1示出根据本发明的一种专利文献关键短语自动提取方法的流程图,如图1所示,该方法包括:步骤1:文本的预处理,包括文本域标注、分句、分词、词性标注等;步骤2:识别专利发明的主题类型;步骤3:提取候选关键短语并进行短语过滤;步骤4:权重计算并选出关键短语。
[0019]其中,步骤I用于文本域的识别和分句、词性标注等预处理。进一步,步骤I包括:步骤11、识别专利文献各文本域;步骤12、对专利全文进行分句,根据需要进行分词处理,分词后进行词性标注;步骤13、对于文本特殊位置进行识别。
[0020]其中,步骤11中,识别专利文献各文本域,包括识别权利要求书、说明书、说明书摘要、【专利附图】
附图
【附图说明】、
【发明内容】
等文本域;优选的,各文本域可以进一步细分识别,例如
【发明内容】
进而可以分为所要解决的技术问题、技术方案和有益效果。识别后以标签标注,例如,〈Claims>〈/Claims>0
[0021]其中,步骤I中,识别文本域的方法可以包括:对于XML格式存储的专利文档,使用专利文档原有的XML标签进行分析;对纯文本格式存储的专利文档,对全文进行内容的识另|J,通过识别各文本域标题来识别,识别方法可以是模板规则等常用方法。
[0022]其中,步骤12中,对专利全文进行分句,根据需要进行分词处理,例如中文、日语等没有明显分词标志的语种。分词后进行词性标注。上述处理均可以采用本领域常用的现
有工具。
[0023]其中,步骤13中,对于各文本域中的特殊位置的识别,例如独立权利要求、从属权利要求、权利要求主题名称、【专利附图】
附图
【附图说明】、独立权利要求前序、特征部分,从属权利要求引用、限定部分进行进一步的识别处理。其中,识别方法可以包括XML标签加规则匹配或模板匹配的方法。
[0024]例如,
[0025]2.根据权利要求1所述的保温壶,其特征在于,所述保温壶具有一个带密封垫圈的盖子。
[0026]通过模板匹配,得出“根据权利要求1所述的保温壶”为引用部分,“所述保温壶具有一个带密封垫圈的盖子”为限定部分。
[0027]其中,步骤2中,识别专利发明的主题类型,专利按技术主题类型分为产品发明、方法发明。根据发明类型的不同,抽取关键词应当有不同的侧重点,经过对专利文献的深入分析,本申请设置了以下具有关键短语提取侧重点的主要类型:一、方法类型:1.制备方法(有机物、组合物、食品等的制备);2.加工方法(成形、纺织等);3.建筑方法;4.使用方法;
5.信息的处理和传输方法;二、产品类型:1.制造的物品;2.织物;3.建筑物;三、设备类型:1.工艺设备;2. 机器;3.工具;4.操作仪器;四、材料:1.化合物、组合物、微生物;2.生活用品材料;3.建筑、工程材料;五、应用类型:已知产品新用途、转用发明等。
[0028]步骤2主要用于对待提取关键短语的专利文献进行技术主题类型分析,其中包括:步骤21、对于技术主题类型的分析训练;步骤22、获取发明名称、分词、词性标注信息、核心词;步骤23、基于经过训练后的分类器,通过特征词表、核心词概率和核心词文档概率以及核心词本身作为特征,标注技术主题类型。
[0029]其中,步骤21的技术主题类型分析方法的训练步骤包括:
[0030]步骤211、选取I万篇以上专利文档作为训练语料,从著录项目中获取发明名称和独立权利要求的主题名称及其分词、词性标注信息。其中,独立权利要求的主题名称,可通过现有技术识别出独立权利要求,再通过模板等常用方法获取其主题名称。例如,一种音频特征提取方法,其特征在于:…,则获取主题名称为“音频特征提取方法”。
[0031]步骤212、获取核心词。其中,如果发明名称是两个或多个并列短语,分别获取每个短语的核心词。例如:一种音频特征提取方法和系统,应分别获取“方法”、“系统”两个核心词。获取独立权利要求的主题名称核心词,例如:音频特征提取方法,应获取“方法”。核心词获取采用常用的工具。
[0032]步骤213、对上述训练人工标注其技术主题类型,标注为前述划分的5种类型。
[0033]步骤214、根据步骤213的标注结果,分别建立上述5种技术主题类型的特征词表。即,根据每篇文档被人工标注的技术主题类型,将其核心词存入相应技术主题类型的特征词表中。同时,计算核心词概率,即该核心词在每种类型中出现的概率;以及核心词文档概率,即出现该核心词的文档在上述选取的作为训练语料的专利文档集中出现的概率。将上述概率存储并与对应核心词关联。[0034]步骤215、使用常用的自动分类方法作为技术类型分类方法,对待分类的专利文档主题名称进行分类。其中自动分类方法包括条件随机场方法,k近邻法、决策树、朴素贝叶斯、贝叶斯网络或者支持向量机(SVM)等。使用上述步骤211-步骤214收集的训练语料对分类器进行训练。
[0035]步骤22中,对新专利文档进行技术主题分类的步骤包括:使用步骤211和步骤212的方法获取发明名称、分词、词性标注信息、核心词。
[0036]步骤23包括以经过步骤215训练后的分类器,使用步骤214中获得的特征词表、核心词概率和核心词文档概率以及核心词本身作为特征,标注技术主题类型,然后将标注的技术主题类型进行存储。
[0037]步骤2的方法比人工添加规则的方法适应性好,对于一些发明名称和权利要求主题名称比较模糊的情况也能很好的进行分类。由于专利的发明名称和权利要求主题名称撰写方式繁多,例如,“用于中药煎煮锅的防烫型倒药架”、“一种棋盘和棋子自动定位识别棋”、“一种Asial型口蹄疫病毒抗原”,如果使用模板或规则的方法要全面覆盖这样各异的名称,就需要针对大量产品名称撰写规则模板,造成规则、模板的数量过多。同时,如果为了提高模板的匹配效率,将模板撰写得比较宽泛,例如:[名词短语]+棋,又容易带入一些噪声。
[0038]其中,步骤3中,提取候选关键短语并进行短语过滤。其中,步骤3的方法包括:步骤31、提取候选的关键短语;步骤32、提取后对停用短语和低信息度短语进行过滤。
[0039]候选短语是作为关键短语的候选,以便进一步对其进行权重计算等处理的短语。其中,步骤31中获取候选短语的方法有词表法、规则方法、模板方法和前后指示词方法。
[0040]其中,词表法中,词表是预先人工编撰或用统计方法收集的专利关键短语。短语按照短语词长度降序排列,以首词为索引进行编撰。在待抽取关键短语的专利经过分词之后,对分词的结果的每个词,均在上述词表中进行搜索,当索引中含有相同词时,从该词位置起,按照长度由长至短依次进行匹配。匹配成功则将候选短语储存留用。重复该步骤直到搜索完待抽取关键短语的专利中每个词。
[0041]其中,规则方法中,先使用n-gram法对分词后的词语进行组合,以便从中筛选候选短语,选取1-η长度的所有组合作为候选的短语。η可以根据经验选择,η优选5。利用词性标注的结果和根据语法现象预先设定的规则进行提取,例如,提取名词+名词、形容词+名词、形容词+名词+名词,具体规则可以为下表1例子中所示。下表1仅作为示例不用于限制本发明,所述规则可以是Ι-m个词的组合,优选m=4。根据以下规则保留的n-gram短语作为候选短语等待进一步处理。
[0042]表1
【权利要求】
1.一种专利文献关键短语自动提取方法,包括: 步骤1:进行文本域的预处理; 步骤2:识别专利发明的主题类型; 步骤3:提取候选关键短语并进行短语过滤; 步骤4:对过滤后的候选关键短语进行权重计算并选出关键短语。
2.根据权利要求1所述的方法,其中,步骤I包括: 步骤11、识别专利文献各文本域; 步骤12、对专利全文进行分句,根据需要进行分词处理,分词后进行词性标注; 步骤13、对于文本特殊位置进行识别。
3.根据权利要求2所述的方法,其中,步骤11中,识别专利文献各文本域,包括识别权利要求书、说明书、说明书摘要、【专利附图】
附图
【附图说明】或者
【发明内容】
的文本域;其中,步骤13中,对于各文本域中的特殊位置进行识别。
4.根据权利要求1 所述的方法,其中,步骤2包括: 步骤21、对于技术主题类型进行分类训练,获取分类器; 步骤22、获取发明名称、分词、词性标注信息、核心词; 步骤23、基于经过训练后的分类器,通过特征词表、核心词概率和核心词文档概率以及核心词本身作为特征,标注技术主题类型。
5.根据权利要求4所述的方法,其中,步骤21包括: 步骤211、选取I万篇以上专利文档作为训练语料,从著录项目中获取发明名称和独立权利要求的主题名称及其分词、词性标注信息; 步骤212、获取核心词; 步骤213、对上述训练人工标注其技术主题类型; 步骤214、根据技术主题类型的标注结果,分别建立上述技术主题类型的特征词表;步骤215、使用自动分类方法作为技术类型分类方法,对待分类的专利文档主题名称进行分类,获取分类器。
6.根据权利要求5所述的方法,其中,步骤22中,对新专利文档进行技术主题分类的步骤包括:使用步骤211和步骤212的方法获取发明名称、分词、词性标注信息、核心词; 步骤23包括以经过步骤215训练后的分类结果,使用步骤214中获得的特征词表、核心词概率和核心词文档概率以及核心词本身作为特征,标注技术主题类型,然后将标注的技术主题类型进行存储。
7.根据权利要求1所述的方法,其中,步骤3包括: 步骤31、使用词表法、规则方法、模板方法或者前后指示词方法来提取候选关键短语; 步骤32、提取后对停用短语和低信息度短语进行过滤。
8.根据权利要求1所述的方法,其中,步骤4中,权重计算包括频率权重和IPC权重; 步骤4还包括计算权重的修正因子,该修正因子包括位置因子、文本域因子。
9.根据权利要求8所述的方法,其中,步骤4中,计算频率权重包括统计与短语频率等统计信息相关的权重,计算方法包括TF-1DF、TFC、ITC或者TF-1WF法。
10.根据权利要求8所 述的方法,其中,步骤4中,位置因子是短语首次出现的位置带来的权重影响,位置因子分为文本位置因子和专利位置因子,文本位置因子是指因关键短语出现在文档的不同位置带来的对权重的影响,专利位置因子是指由于专利特殊撰写格式带来的对权重的影响;其中,文本域因子是指短语位于专利文献不同文本域对其权重的影响。
11.根据权利要求1所述的方法,其中,步骤4还包括: 提取出关键词后,将关键词-文本域信息进行关联显示;或者 提取出关键短语后,根据所述【技术领域】-近义词表,显示与提取出来的关键短语相似的技术术语,作为近似检索词推荐给查询者。
12.根据权利要求11所述的方法,其中,显示与提取出来的关键短语相似的技术术语的步骤包括:根据待标引文档的IPC分类号,定位到所属【技术领域】-近义词表的相关【技术领域】,如果该【技术领域】中仅存在一个词义,同时显示出该关键词的相关【技术领域】共使用者参考;或者 如果存在多个词义,则 根据现有方法使用【技术领域】-近义词表分别对每个词义与其他关键短语以短语为元素构建词汇链,计算词的集聚特征值,计算后取集聚特征值最大的词义。
【文档编号】G06F17/27GK103885934SQ201410056332
【公开日】2014年6月25日 申请日期:2014年2月19日 优先权日:2014年2月19日
【发明者】任智军, 张威, 李进, 杨婧, 张江涛, 肖湘 申请人:中国专利信息中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1