一种基于语义信息的机构名抽取方法和装置与流程

文档序号：12470418阅读：来源：国知局

技术特征：

1.一种基于语义信息的机构名抽取方法，其特征在于,方法步骤如下：

第一步，从维基百科中自动抽取机构名，进行简称词典的构建，利用简称词典，形成机构名简称特征；

第二步，从训练数据中，结合分词、词性标注和依存树特征，形成最终的特征；

第三步，从维基百科文档中，进行正文提取、分词等预处理，使用CW聚类方法进行词语的聚类，使用词语的类别特征作为语义特征；

第四步，基于CRF进行训练时，提取机构名简称特征和词语类别的语义特征，利用CRF算法对标注的训练数据生成机构名是别的CRF模型，进行算法的测试和评估，标注结果；

第五步，对于未标注的数据，利用CRF识别进行算法的测试和评估，标注结果。

2.根据权利要求1所述的一种基于语义信息的机构名抽取方法，其特征在于，包括震荡监测的CW算法；

对于每一条边，除了存储权重信息之外，还需要存储端点的类别信息，以及震荡的次数；

在节点中增加震荡次数检验，当震荡超过一定阈值时，把该节点标记为同一类别。

3.根据权利要求1所述的一种基于语义信息的机构名抽取方法，其特征在于，包括简称词典的构建方法：

从维基百科中构建机构名简称词典，首先需要识别哪些条目是表示机构名，然后从该条目的文字内容中识别机构名的简称，或者从重定向关系中识别机构名的简称，或者从其它条目的锚文本中获取机构名的简称。

4.根据权利要求1所述的一种基于语义信息的机构名抽取方法，其特征在于，包括特征模板的设计，根据以下规则设计特征模板：

从句子中出现机构名的尾词位置开始向前所形成的名词短语，有可能是机构名；

某些特定词语可以指示其上下文可能包含机构名，这些词语成为边界词；

某些特定词语可以指示其所直接依赖或间接依赖的词语可为机构名，这些词语称为依赖词；

所述的特征模板为：

T01 W[n] 当前词语；

T02 W[n-1] 当前位置前一位置的词语；

T03 W[n+1] 当前位置后一位置的词语；

T04 POS[n] 当前词语的词性；

T05 POS[n-1] 当前位置前一位置的词语的词性；

T06 POS[n+1] 当前位置后一位置的词语的词性；

T07 Class[n] 当前位置的聚类类别；

T08 InDict[n] 当前位置的词语是否在简称词典中；

T09 LDDependency[n] 当前位置的词语的左边直接依赖词语；

T10 RDDependency[n] 当前位置的词语的右边直接依赖词语；

T11 LIDDependency[n] 当前位置的词语的左边间接依赖词语；

T12 RIDDependency[n] 当前位置的词语的右边间接依赖词语；

T13 W[n]&&Pos[n-1] 当前位置的词语与其前一个位置的词语的词性；

T14 W[n]&&Class[n-1] 当前位置的词语与其前一个位置的词语的类别；

每一个特征模板对应着所有具有该含义的特征的集合；其中T1-T3是基于词语的上下文的特征，T4-T6是基于词语的词性特征，T7是基于词语的类别特征，T8是为了处理简称的问题，T9-T12是基于依存句法的特征，T13-T14是组合特征。

5.一种基于语义信息的机构名抽取装置，其特征在于，机构名抽取装置包括简称词典构建模块、词语聚类模块、CRF训练模块和CRF识别模块4个模块；

其中，简称词典构建模块和词语聚类模块用于生成更加丰富的特征；

CRF训练模块是利用CRF算法对标注的训练数据进行训练学习模型；

CRF识别模块是利用训练好的模型对未标注的数据进行识别，也可以用来进行算法的测试和评估。

完整全部详细技术资料下载

当前第2页1 2 3