一种面向中文专利的实体间非分类关系抽取方法

文档序号：9911692阅读：292来源：国知局

一种面向中文专利的实体间非分类关系抽取方法
【技术领域】
[0001] 本发明属于中文专利中实体间非分类关系抽取技术领域，具体涉及一种面向中文专利的实体间非分类关系抽取方法。
【背景技术】
[0002] 本体学习的主要任务是概念获取和关系抽取。其中，关系抽取又分为分类关系抽取和非分类关系抽取。分类关系是指概念间的上下位关系，例如中国和国家，中国是国家的下位概念，国家是上位概念。除分类关系之外的关系为非分类关系，例如因果关系，领域专有关系、序列关系等。领域专有关系是非分类关系中的主要关系，同时也是某个领域内特有的关系。比如："混合动力车辆中使用的通用型电动机"。其中，混合动力车辆和电动机属于使用关系。这种关系具有名词动词名词(NVN)即第一个名词或者名词短语作为动作的主体，动词或动词短语作为实体间的操作或关系，第二个名词或者名词短语作为动作的客体。这种结构类似于专利文献分析中常用的SA0(Subject Action Object)结构。
[0003] 在SA0结构三元组抽取任务中，主体和客体抽取是实体抽取任务，可利用实体抽取的方法解决。本发明主要识别满足SA0结构的领域关系，关系词A的抽取是主要难点。传统关系抽取在抽取关系之前需先指定抽取的关系类型，如整体-部分关系、因果关系、伴随关系等。不同于传统关系抽取方法，SA0结构中的关系词Action是从概念间的动词中抽取。这种抽取方法和开放式关系抽取具有一定的共同点。开放式关系抽取不需要在抽取任务之前定义关系类型，而是在实体所在句子中抽取关系值。因此，SA0结构关系的抽取问题可以借鉴开放式关系抽取问题的相关研究方法。
[0004] 关系抽取是信息抽取的一项子任务，用以识别文本中实体之间的语义关系。传统的实体关系抽取方法需要有概念实体、领域专家定义的关系类型，然后对特定的语料进行标注，通过标注获取关系模板，从模板出发使用抽取器进行关系抽取。最后使用领域相关的评价方式评价抽取的关系。
[0005] 传统关系抽取方式需要人工制定抽取的关系类型，抽取关系的规则受到训练语料的约束。这些限制使得传统的关系抽取方式难以适应大规模和开放性的实体关系抽取。因此，开放式关系抽取方法应运而生。该方法不受制于关系类型和语料，适应性强。开放式关系抽取方法有基于特征的方法。该方法是将关系抽取任务转化为分类任务即使用机器学习的方法来判断该关系实例是否为实体关系。分类器主要有最大熵模型(Maximun Entropy，简称ME)、支持向量机（Support Vector Machine，简称SVM)和条件随机场模型 (Conditional Random Fie Id，简称CRF)等。基于特征的方法首先将关系实例通过词法、句法和统计规律分析转换为数字特征向量，然后通过分类器对特征向量进行分类进而识别出实体间的关系值和关系类型。该方法相对于传统方法具有特征提取灵活、有效、不需要专家进行大量人工操作的优点。目前，在中文专利领域的开放关系抽取的研究还比较少。
[0006] 在对中文专利领域SA0结构关系抽取的研究中，传统基于规则和机器学习的方法都不能有效解决抽取的关系实例结构上满足SA0关系的要求，但是语义上却没有关系的问题。例如："【发动机】#驱动#发电机发出【交流电】"，该实例抽取到的关系为"发动机驱动交流电"。

【发明内容】

[0007] 针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的面向中文专利的实体间非分类关系抽取方法。
[0008] 为了实现上述发明目的，本发明采用的技术方案如下：
[0009] -种面向中文专利的实体间非分类关系抽取方法，包括训练过程和测试过程，其训练过程和测试过程均包括以下步骤：
[0010] 步骤1):初始化概念对所在的基本关系集合；
[0011] 步骤2):使用基于领域关系强度的关系词标记算法自动标记候选关系词；
[0012] 其中，领域关系强度DRV(Domain Relation Value)表示该实体对与关系词形成的实例关系的强度。由于领域关系在领域语料的出现次数和概念对共现次数具有相关性。如果有非分类关系的二元组以&心），那么&、&和关系词R共现的概率较大。定义公式如下：
[0013]
[0014]
[00?5] 其中，Wi表示句子中的词汇，C= {wi，wi+i，. . .，wk}，（i<k)，集合C表示本体中的概念;?·(&，(：2)表示概念对CjPC2出现的次数，α的作用是过滤CjPC 2共现次数小于α的概念对， fXChR，。)表示二元组关系!?(&，0〇 ;
[0016] 步骤3):进行特征选择，获得特征向量；
[0017] 步骤4):采用支持向量机SVM对步骤3)获得的特征数据进行分类。
[0018]进一步地，所述步骤1)具体为：
[0019] 步骤A:对语料进行分词；
[0020] 步骤B:根据本体中的概念使用后向最大匹配算法标记出在句子中出现的概念实体；
[0021] 步骤C:选择同一个句子中有两个或两个以上概念的句子，这些句子构成候选句子集合S= {Sl，S2，S3, · · ·，Sn}，其中Si = {wi，W2, · · ·，wn};
[0022] 步骤D:输入步骤C产生的集合S，遍历集合S中的句子Si并抽取Si中的概念&的左侧 Win个词汇，C2右侧Win个词汇，以及CjPC 2之间的所有词汇;这些词汇和概念对CjPC2构成基本关系集合Ei;最后得到所有的基本关系集合E= {E^Eh . . .，En};
[0023] 步骤E:输入步骤D产生的集合E，遍历集合E中的基本关系Ei，判断Ei中的概念(^和 C2在结构上是否具有包含关系，在关系上是否具有上下位关系，若具有则在集合E中删除Ei;
[0024] 步骤F:遍历集合E中的基本关系Ei，判断概念CjPC2之间的词汇Wl中是否含有动词，若没有则在集合E中删除Ei。
[0025] 进一步地，所述变量Win表示窗口值，Win设定为2。
[0026]进一步地，所述参数α设定为3。
[0027] 进一步地，所述步骤2)具体为：
[0028] 步骤A:输入基本关系集合E，从该集合中取出一个元素 Ei，若概念对(^和(：2之间含有一个动词W v i则转到步骤E ;若有多个动词，取出其中的动词并组成动词集合V = {WvlWv2，· · ·，Wvn};
[0029] 步骤B:循环取出集合V中的动词Wvi，将其作为关系词R，然后将以(^，(：2)代入公式 (1)和公式(2)计算即动词 Wvl作为关系词时&(?，02)的领域关系强度）；
[0030] 步骤C:依据对候选关系进行排序；
[0031]步骤D:取其中值最大的情况作为候选二元关系，若出现并列第一的情况，就将所有并列第一的情况作为候选二元关系，转步骤F;
[0032] 步骤Ε:标记Wvi为候选关系词；
[0033]步骤F:若集合E为空则退出，否则转步骤A;
[0034]进一步地，所述步骤3)中选择的特征具体为：
[0035]特征一:实体词语及上下文特征；
[0036] 特征二:句法特征；
[0037] 特征三：词间距离；
[0038] 特征四：关系词词典。
[0039]进一步地，所述特征一具体为：
[0040] (1)词语特征:使用词袋模型来表示句子中出现的词汇，每一个词根据在词袋模型中出现的位置给予一个编号；
[0041] (2)上下文特征:实体

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕学强;徐丽萍;董志安;
技术所有人：北京信息科技大学;北京城市系统工程研究中心;
我是此专利的发明人

上一篇：一种基于svm技术的离散前向神经网络分类器的优化方法
上一篇：一种基于曲率的二维目标轮廓的编码方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。