科技术语的自动化抽取方法

文档序号:6579617阅读:269来源:国知局

专利名称::科技术语的自动化抽取方法
技术领域
:本发明涉及一种利用计算机对科技术语自动识别和抽取的方法,特别是涉及一种利用计算机对中文专利文献科技术语自动识别和人工辅助抽取的方法。
背景技术
:随着信息技术的发展,人们掌握的科技文献越来越多,而手工进行加工处理显然已经成为不可能,因此自动化技术的引入是必然的趋势。然而,要对这些信息进行自动文摘、自动标引、自动分类甚至是机器翻译等加工处理,科技术语是一大障碍。自动识别并抽取文献中的科技术语,是一件非常紧迫、也是一件非常有意义的工作中国专利申请03148989.3公开了一种从双语语料库中自动抽取多词翻译等价单元的方法。该发明方法采用平均关联度和关联度的归一化差值作为双语多词翻译等价单元的关联衡量标准;在对齐的过程中同时识别多词单元。该发明方法的改进使得算法能有效地同时抽取高频和低频双语多词翻译等价单元,提高抽取的正确率和降低计算复杂度。该方法是一种基于共现概率的方法,而且仅限于中英对齐语料库,并没有对中文文献进行深入的研究。中国专利申请200710121839.0公开了一种专业术语抽取方法和系统,按照专利文献所属领域的不同将专利文献划分到不同领域的文献库中;而后以划分后的不同领域的专利文献库,组成语料库,并根据专业术语的特点,从语料库中抽取所包含的专业术语。该发明还提出了一种专业术语抽取系统。采用本发明的方法和系统,不仅可以改进专业术语的提取结果,还可以把改进的规则和概率应用到下次提取中,以提高准确率。但是,此方法没有加入汉语本身的一些成词规则,仍是一种基于频次等的概率方法,准确率达到一定程度的时候就会很难有所突破,瓶颈明显。
发明内容本发明提供的方法是基于词性标注的基本信息,采用基于统计和基于规则的双重手段,并以汉语词组构词法的角度出发,自动判别并抽取出可能成词的中文术语,并在人工辅助的基础上,对术语进行精细加工和收集。与普通词汇相比,科技术语具有以下一些特征-科技术语主要是名词性的组合型词组;科技术语主要由实词和实词性语素构成;科技术语具有普遍性,重复出现的几率很高;科技术语具有单义性,与应用领域密切相关;基于以上特点,本发明提出一种科技术语抽取方法,包括以下步骤步骤A,按照专利文献所属领域的不同将专利文献划分到不同领域的文献库中;步骤B,以划分后的不同领域的专利文献库,组成语料库,并根据科技术语的特点,从语料库中抽取所包含的科技术语。所述科技术语的特点包括字符串重复出现的频次、字符串分词信息的完整度、字符串成词概率、在文献中出现位置等因素的综合。所述方法中的语料库以划分后的不同领域的专利文献的标题、摘要、权利要求和全文作为语料所组成。步骤C,将自动抽取出的术语,组成术语库,再由人工辅助确认。所述步骤B中,进一步包括以下步骤-步骤B1,以专利领域文献库为单位,根据统计的方法,寻找重复出现的字串,并记录重复字串的特征。所述重复字符串的特征包括字符串的出现的文档率、总频次、出现位置。步骤B2,根据文档率和总频次以及出现位置计算重复串的特征值,计算方法如下特征值分为两部分,文档内特征值(Wi)和文档间特征值(Wg)。文档内特征值由文档内部的分布情况计算,文档间特征值主要根据重复串在文档集合中出现的情况计算。最后的特征值为二者的乘积W=WjXWg文档内特征值由于专利文本具有明确的篇章结构,不同的章节具有不同的重要性,因此,我们可以对每一个章节进行主观评价特征值,那么一个重复串在全文的特征值(即文档内特征值)就可以是由若干个章节内的特征值(Wip)的总和。尸我们主要研究在一个章节内的特征值分配方案。假设一个章节的特征值为wp,那么重复串在该章节内的特征值可表示为其中Wipf为词频特征值,Wipd为共现因子。词频特征值在一个章节内,词的频率代表一个词语的特征值,SP,频率越高,特征值越大,艮P:6共现因子同时,我们对章节内,对词语的共现程度进行评估。假设两个重复串共现距离分别是dl,d2,d3......dm。那么两个词语的共现因子可以定义为W1z》d产'A文档间特征值文档间特征值意味着如果某重复串的分布在文档集合中是均匀的,说明该重复串在很多文本中出现,故认为其代表某一文本的能力较弱,该重复串的文档间特征值应为0;如果该词只在一个文本中出现,这时认为该重复串代表这一文本的能力强,其文档间特征值则最大。采用均方差来评估一个重复串在各个文档中的分布情况假设重复串T在文档集合中的特征值分别是Wk(k=l,2,...|D|)。现在主要评估这些特征值在各个文档中均衡分布情况。利用均方差的特性,计算特征值的分布情况<formula>formulaseeoriginaldocumentpage7</formula>也就是说Wg越大,那么该重复串在各篇文档中的特征值差异性很大,如果在各篇分布均匀,那么Wg-O,则该重复串将从术语库中排出。考虑到重复串空间稀疏问题,可简化为步骤B3,设定一阈值,将小于该阈值的重复串删除。所述方法中的阈值由语料训练得到。步骤B4,对重复串进行分词,获取其中的实词串。所述方法中的实词包括名词、动词、形容词、副词词类。步骤B5,结合词法规则,对实词串进行头部和尾部校验,以进一步确定术语的合法边界,直到头部和尾部均校验完毕。本发明还公开了一种科技术语抽取系统,用于从文献中抽取科技术语,包括领域划分模块,用于按照文献所属领域的不同将文献划分到不同领域的文献库中;术语抽取模块,用于以划分后的不同领域的文献库,组成语料库,并根据专利术语的特点,从语料库中抽取所包含的科技术语。所述系统中的语料库以划分后的不同领域的专利文献的标题、摘要、权利要求和全文作为语料所组成。所述术语抽取模块包括第一过滤模块,以及第二过滤模块、第三过滤模块和第四过滤模块四个中的至少一个;所述第一过滤模块,用于在语料库中进行检索,依据所述第一阀值,将语料库中出现次数小于所述第一阀值的重复串删除,保留出现次数多于第一阀值的重复串,作为候选字符串,并记录所述重复串在语料库中出现的次数;重复串所述第二过滤模块,用于统计每个重复串的左右两边所相邻的不同的字或词的数目,并以其中数值较小的作为一个字符串分词信息完整度的对比值;同时,设定一第二阀值,将字符串分词信息完整度的对比值的数值小于所述第二阀值的重复串删除;切头切尾所述第三过滤模块,用于分别统计重复串的串首字和串尾字的位置成词概率;同时,设定一个第三阀值,将串首字和串尾字的位置成词概率低于所述第三阀值的重复串删除;去头去尾所述第四过滤模块,用于设定一规则库,如果保留下来的重复串满足了所述规则库中的任意一条规则,就将其删除。词组规则所述系统中的第一阀值、第二阀值、位置成词概率和第三阀值是由语料训练得来的。所述第一阀值、第二阀值、位置成词概率和第三阀值的获取,是以历史训练的语料库为基础,分别通过第一过滤模、第二过滤模、第三过滤模块抽取出所有的重复串,并和人工从该语料中抽取出的术语数量做对比,其比值就设为第一阀值、第二阀值、位置成词概率和第三阀值。所述第三过滤模块,还用于在得到的过滤结果中,如果发现以一字符为首字或尾字的垃圾串比较多于预设值,则设定将该字的位置成词概率调低,并删除所述以一字符为首字或尾字的垃圾串。所述第四过滤模块还用于,在得到的过滤结果中,如果发现包含一字符的垃圾串出现的次数多于预设值,则在所述规则库中增加设定相应的规则,并删除包含所述字符的重复串。所述系统还包括一第五过滤模块,用于从所述重复串中,删除在一通用词典库中出现过的重复串。本发明的有益效果是在双语词典编辑和中文检索索引编制中,都会存在自动分词粒度过小和分词不准确的问题,从而影响了检索的准确性,并造成了大量的未登录词。采用在基于词典的分词后,采用规则方式和人工辅助方式优化未登录词提取的技术,可以显著提高文~本挖掘中新术语的发现数量,有利于信息检索和查全率和查准率,并有利于双语翻译词典的编辑和收录。图1为本发明的结构示意图。图2为本发明核心程序流程图。具体实施方式以下结合中国专利文献科技术语自动提取的实施例,进一步详细说明本发明的方法。实施例一本具体实施方式描述的是对中文专利中具有比较普遍使用的名词性词组进行自动提取,所涉及的领域包括安全、地质、电力、房地产、纺织、航空、核科学、化工、机械、计算机、建筑、交通、军事、科、旅游、能源、农业、生物、生物库、通信、物理、冶金、医学、质检等24个领域。如图1所示,在本实施例中,对科技术语提取包含以下几个步骤领域分选专利具有IPC,对于专利来讲,主IPC体现了专利的适用领域,以IPC将专利分别建立不同的专利文献库。科技术语一般具有领域相关性,建立专利文献库的主要目的是发现行业内常用的科技术语。下面以化工领域专利文献库为例进行实施例介绍。建立重复串采用统计的方法,在特定领域的专利文献库中建立重复串,并按照特定的公式计算出特征值,具体计算过程如下首先对单篇专利的文本进行基础词切分,形成带有词性标注的词语序列。切分所用的基础词由通用词和用户词两部分组成。当前所用的基础词切分方法是采用从后向前最大匹配法,即从字符串尾部取字,到基础词库获取以该字为尾字的所有词条,并一一和字符串比较,取其中可匹配的最大词条作为切分结果,然后跳过该匹配部分,取出下一个未经匹配的尾字,重复匹配过程,直到字符串出头为止。本方法所用基础词库的词语词性符号如下-<table>tableseeoriginaldocumentpage9</column></row><table><table>tableseeoriginaldocumentpage10</column></row><table>现在切分如下一段摘要"本发明涉及一种三元聚合纳米乳液的制备方法,所述的纳米乳液由含氢聚硅氧垸、苯乙烯、丙烯酸丁酯、甲基丙烯酸等三元聚合而成,在聚合过程中加入第2种子乳液,加入第3种子乳液,制备出具有三元分散粒径分布的乳液,其特征是:本工艺技术归纳溶液聚合、乳液聚合中用三次加料法生成纳米涂料乳液。"切分的结果为"本id.l发明,v.L涉及iv.L—nm.L种iq.L三im.L元iq.L聚合iv.L纳nv.L米nn.L乳液iEX.l的nu.L制备nv.L方法nn.L,.L.L所述nr.L的,u.L纳iv.L米nn.L乳液iEX.L由1.1含氢聚硅氧烷[含>氢>聚>硅>氧>烷]1TM.L、.l苯乙烯"in.L、.L丙烯斷n;丁酯nEX.L、.l甲in.L基丙烯酸[基.L丙烯酸hTM.l等ic.l三im.L元nq;聚合iv.l而ic.l成nv.l,.l在,d.l聚合iv.l过程nn.l中if.l加入,v.l第m.L种子in,乳液iEX;,.l加入nv.l第31m.l种子in.l乳液iEX.l,.l制各,v.l出nv.l具有,v.l三,m.l元,q.l分散na.L粒nq.L径nEX.l分布,v.L的nu.l乳液iEX.l,.l其ir.L特征nn.l是nc.l:.l本id.l工艺技术[工艺.L技术],TM.L归纳iv.L溶液in.L聚合,v.l、.l乳液,EX.L聚合"iv.l中用,a.L三1m.l次iq.L加料iv.l法in.L生成iv.L纳米涂料[纳.L米.L涂料]iTM.L乳液nEX.L。"根据以上切分结果,寻找重复串,并统计各个重复串在本章节内的频次以及共现距离。<table>tableseeoriginaldocumentpage10</column></row><table>现在对专利按照章节不同分配不同的权重标题-0.2,摘要-0.4,主权项-0.1,正文-0.3。对于本摘要,根据前面所介绍的方法,计算重复串在指定章节中的权重<formula>formulaseeoriginaldocumentpage11</formula>由三个式子计算得到本摘要中6个重复串的权重:重复串章节内权重三元0.188纳米乳液0.235聚合0.336纳米0.523乳液0.150二兀聚合0.357同样,对专利的其他章节做同样的处理,并得到其他章节的重复串及其权重。再按照公式计算全文的特征值<formula>formulaseeoriginaldocumentpage11</formula>比如,以化工领域专利为例,抽取的重复串的特征值。<table>tableseeoriginaldocumentpage11</column></row><table><table>tableseeoriginaldocumentpage12</column></row><table>建立实词串从以上步骤取得的重复串中获取特征值较高的字串,根据需要,设定最小特征值为0.030;那么,小于最小特征值的重复串将被删除。大于最小特征值的重复串,再按照基本词表所列词语和词性,并在切分的结果中,寻找连续的实词组成的片段,这里要求实词串至少由2个实词组成。如"mNm数量级"被切分成"mNm,e,数量in.L级,g.L"。从其中可以获得实词串"数量nn.L级ng.L"。又如'."金属钝合剂配方"被切分成"金属in,钝,砂合iv.L剂,n;配方nnL"。从其中可以获得实词串"金属in.L钝,"合,v.L齐^n.L配方inL"。再如"低碳"被切分成"低碳in>"。从其中可以获得实词串"低碳in>",由于其中只内含l个实词,因此,将从重复串中删除。实词串检验按照中文词法结构规则,对实词串的首字和尾字进行删除。如实词串"a化发芽糙米膨化粉制备方法",进行切分的结果n.L化in.L发芽糙米^)n.L膨化,v.L粉,n.L制备方法,n.L"根据中文词法规则"科技术语尾部不能出现抽象的名词",因此,可以去掉"制备方法",最终形成术语"a化发芽糙米膨化粉"。经过以上步骤获取的科技术语,即具有普遍性,又具有明显的领域针对性,基本上具有实用价值,为了切实做到科技术语的科学性,将提取到的术语,还可以通过一定的人工方式,进行核査,并将适合的术语收录到正式的术语库中,术语库的术语将成为下次训练的基本词表。实施例二本具体实施方式描述的是对中文专利自动提取主题词,抽取范围主要基于各个专利文献的摘要内容。由于所涉及的内容较少,省去了基于领域统计的环节,直接依靠词法规则来进行自动识别和抽取。本具体实施方式包含以下几个步骤词语切分按照基本词表所列词语和词性,对专利文献的摘要进行切分。比如"一inum.1个iqua.1检目艮镜,n.L附件nn.L—(10)—nnum.L包括iv.L—inum.L个,qua.l面具in.L一C22)一nnum.L和,conj.L一,num.L上iadj.L安装^f牛,n.L—(36)—inum.L以iprep.L帮助iv.l把iprep.L个人"!adj.L的,defL视线方向in.L聚焦iv.L至U,v.L检眼镜in.L—(12)—inum.L正面nadj.L支柱nn.L—(18)—,num.L中idir.L的ndefL目镜in.L—(32)—inum.1"上idir.L。iw.L面具in.L—(22)—inum.1用iprep.L安装件in.L—(36)—"inum.1固定iv.L检眼镜in.L—(12)—inum.L的idefL支柱in.L—(18)—,num.L的,defL正面in.L_(20)—,num.L。,w.L面具,n.L—(22)jnum.L被,prep,交叉地,adv.L设置iv.L于iprep.L检眼镜,n.L—(12)—飞num.L的idefL正面in.L以便iprep.L当iprep.L面具in.L—(22)jnum.L被iprep,L交叉地iadv.L固定在iv.L支柱in.L一(18)一inum.L的idefL正面inl—(20)—■!num.L上idir.L时,dir.L它in.L不nadv.L会!aux.L对nprep.L检眼镜nn.L_(12)—"inum.L的idefL目镜in.L—(32)jnum.L造成iv.L干扰,n.L,.L"寻找实词串从第l步骤切分的章节中,获取长度至少为2个实词的实词串、实词是指名词、动词、形容词、副词、方位词及其短语,不包含数词、介词、连词、助词等等,在实词串中的数词,如果置于圆括号内,则视为文献引用编号,可以被忽略而跳过。对于上面的摘要,可以分析出以下一些实词串-<table>tableseeoriginaldocumentpage13</column></row><table><table>tableseeoriginaldocumentpage14</column></row><table>实词串检验按照中文词法结构规则,对实词串进一步做精密的检查。如实词串"目镜in;造成iv;干扰,n>",根据中文词法规则"科技术语中不能有动补式合成动词",该实词串含有"造成"一词为动补合成词,因此,应该从该串中删除,这样该串将分成两个新的实词串"目镜,n>"和"干扰nn>",但是,这两个实词串的实词个数均为l,不具备组合原则,将不收入术语库。经过以上分析,实词串"目镜in.L造成iv.L干扰in>",将没有任何子串成为术语。只有完全通过所有的词法构成规则的实词串,才成为摘要的主题词。通过以上步骤,基本上可以不根据统计方法,也不根据领域信息,就能够直接从专利文献的摘要中抽取出专利文献的主题词。权利要求1、一种科技术语抽取方法,包括以下步骤步骤A,按照专利文献所属领域的不同将专利文献划分到不同领域的文献库中;步骤B,以划分后的不同领域的专利文献库,组成语料库,并根据科技术语的特点,从语料库中抽取所包含的科技术语;步骤C,将自动抽取出的术语,组成术语库,再由人工辅助确认。2、如权利要求1所述的方法,其特征在于所述语料库以划分后的不同领域的专利文献的标题、摘要、权利要求和全文作为语料所组成;所述科技术语的特点包括字符串重复出现的频次、字符串分词信息的完整度、字符串成词概率、在文献中出现位置等因素的综合。3、如权利要求l所述的方法,其特征在于所述步骤B中,进一步包括以下步骤步骤B1,以专利领域文献库为单位,根据统计的方法,寻找重复出现的字串,并记录重复字串的特征;步骤B2,根据文档率和总频次以及出现位置计算重复串的特征值,计算方法如下特征值分为两部分,文档内特征值Wi和文档间特征值Wg;步骤B3,设定一阈值,将小于该阈值的重复串删除;所述方法中的阈值由语料训练得到;步骤B4,对重复串进行分词,获取其中的实词串;所述方法中的实词包括名词、动词、形容词、副词词类。;步骤B5,结合词法规则,对实词串进行头部和尾部校验,以进一步确定术语的合法边界,直到头部和尾部均校验完毕;文档内特征值由文档内部的分布情况计算,文档间特征值主要根据重复串在文档集合中出现的情况计算,所述重复字符串的特征包括字符串的出现的文档率、总频次、出现位置,最后的特征值为二者的乘积w=WixWg。4、如权利要求3所述的方法,其特征在于-所述重复字符串的特征值是由若干章节内的特征值的总和为所述若千章节之一的重复串特征值为-其中,Wp为所述章节的特征值,Wipf为词频特征值,Wipd为共现因子;在一个章节内,词频特征值代表一个词语的特征值,即,频率越高,特征值越大,艮P:在一个章节内,用共现因子对词语的共现程度进行评估,假设两个重复串共现距离分别是dl,d2,d3......dm,那么两个词语的共现因子可以定义为-y=i5、如权利要求2所述的方法,其特征在于文档间特征值表示如果某重复串的分布在文档集合中是均匀的,说明该重复串在很多文本中出现,故认为其代表某一文本的能力较弱,该重复串的文档间特征值应为0;如果该词只在一个文本中出现,这时认为该重复串代表这一文本的能力强,其文档间特征值则最大。6、如权利要求2所述的方法,其特征在于-采用均方差来评估一个重复串在各个文档中的分布情况假设重复串T在文档集合中的特征值分别是wk(k=l,2,...|D|),要评估这些特征值在各个文档中均衡分布情况。利用均方差的特性,计算特征值的分布情况<formula>formulaseeoriginaldocumentpage3</formula>7、一种科技术语抽取系统,用于从文献中抽取科技术语,包括领域划分模块,用于按照文献所属领域的不同将文献划分到不同领域的文献库中;术语抽取模块,用于以划分后的不同领域的文献库,组成语料库,并根据专利术语的特点,从语料库中抽取所包含的科技术语;术语库库组成模块,用于将自动抽取出的术语,组成术语库,再由人工辅助确认。8、如权利要求7所述的系统,其特征在于所述术语抽取模块包括第一过滤模块,以及第二过滤模块、第三过滤模块和第四过滤模块四个中的至少一个;所述第一过滤模块,用于在语料库中进行检索,依据所述第一阀值,将语料库中出现次数小于所述第一阀值的重复串删除,保留出现次数多于第一阀值的重复串,作为候选字符串,并记录所述重复串在语料库中出现的次数;所述第二过滤模块,用于统计每个重复串的左右两边所相邻的不同的字或词的数目,并以其中数值较小的作为一个字符串分词信息完整度的对比值;同时,设定一第二阀值,将字符串分词信息完整度的对比值的数值小于所述第二阀值的重复串删除;所述第三过滤模块,用于分别统计重复串的串首字和串尾字的位置成词概率;同时,设定一个第三阀值,将串首字和串尾字的位置成词概率低于所述第三阀值的重复串删除;所述第四过滤模块,用于设定一规则库,如果保留下来的重复串满足了所述规则库中的任意一条规则,就将其删除。9、权利要求8所述的系统,其特征在于所述系统中的第一阀值、第二阀值、位置成词概率和第三阀值是由语料训练得来的;所述第一阀值、第二阀值、位置成词概率和第三阀值的获取,是以历史训练的语料库为基础,分别通过第一过滤模、第二过滤模、第三过滤模块抽取出所有的重复串,并和人工从该语料中抽取出的术语数量做对比,其比值就设为第一阀值、第二阀值、位置成词概率和第三阀值;所述第三过滤模块,还用于在得到的过滤结果中,如果发现以一字符为首字或尾字的垃圾串比较多于预设值,则设定将该字的位置成词概率调低,并删除所述以一字符为首字或尾字的垃圾串;所述第四过滤模块还用于,在得到的过滤结果中,如果发现包含一字符的垃圾串出现的次数多于预设值,则在所述规则库中增加设定相应的规则,并删除包含所述字符的重复串。10、权利要求7所述的系统,其特征在于-所述系统还包括第五过滤模块,用于从所述重复串中,删除在一通用词典库中出现过的重复串。全文摘要一种利用计算机对中文专利文献科技术语自动识别和人工辅助抽取的方法。本方法是基于词性标注的基本信息,采用基于规则的手段,从汉语词组构词法的角度出发,自动判别并抽取出可能成词的中文术语,并在人工辅助的基础上,对术语真实性进行判断和确认。主要步骤包括按照领域建立不同的专利文献库;以特定专利文献库为训练语料库提取重复串,用基础词汇对重复串进行切分和词性标注,然后利用中文的词法规则,对重复串的边界进行反复检验,直到可接受为候选术语为止。为进一步核实候选术语,可再由人工辅助确认。文档编号G06F17/30GK101655866SQ200910162380公开日2010年2月24日申请日期2009年8月14日优先权日2009年8月14日发明者丽任,迁张,张素兰,进王,王婷婷,王永生,贾学杰申请人:北京中献电子技术开发中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1