1.一种基于语义信息的机构名抽取方法,其特征在于,方法步骤如下:
第一步,从维基百科中自动抽取机构名,进行简称词典的构建,利用简称词典,形成机构名简称特征;
第二步,从训练数据中,结合分词、词性标注和依存树特征,形成最终的特征;
第三步,从维基百科文档中,进行正文提取、分词等预处理,使用CW聚类方法进行词语的聚类,使用词语的类别特征作为语义特征;
第四步,基于CRF进行训练时,提取机构名简称特征和词语类别的语义特征,利用CRF算法对标注的训练数据生成机构名是别的CRF模型,进行算法的测试和评估,标注结果;
第五步,对于未标注的数据,利用CRF识别进行算法的测试和评估,标注结果。
2.根据权利要求1所述的一种基于语义信息的机构名抽取方法,其特征在于,包括震荡监测的CW算法;
对于每一条边,除了存储权重信息之外,还需要存储端点的类别信息,以及震荡的次数;
在节点中增加震荡次数检验,当震荡超过一定阈值时,把该节点标记为同一类别。
3.根据权利要求1所述的一种基于语义信息的机构名抽取方法,其特征在于,包括简称词典的构建方法:
从维基百科中构建机构名简称词典,首先需要识别哪些条目是表示机构名,然后从该条目的文字内容中识别机构名的简称,或者从重定向关系中识别机构名的简称,或者从其它条目的锚文本中获取机构名的简称。
4.根据权利要求1所述的一种基于语义信息的机构名抽取方法,其特征在于,包括特征模板的设计,根据以下规则设计特征模板:
从句子中出现机构名的尾词位置开始向前所形成的名词短语,有可能是机构名;
某些特定词语可以指示其上下文可能包含机构名,这些词语成为边界词;
某些特定词语可以指示其所直接依赖或间接依赖的词语可为机构名,这些词语称为依赖词;
所述的特征模板为:
T01 W[n] 当前词语;
T02 W[n-1] 当前位置前一位置的词语;
T03 W[n+1] 当前位置后一位置的词语;
T04 POS[n] 当前词语的词性;
T05 POS[n-1] 当前位置前一位置的词语的词性;
T06 POS[n+1] 当前位置后一位置的词语的词性;
T07 Class[n] 当前位置的聚类类别;
T08 InDict[n] 当前位置的词语是否在简称词典中;
T09 LDDependency[n] 当前位置的词语的左边直接依赖词语;
T10 RDDependency[n] 当前位置的词语的右边直接依赖词语;
T11 LIDDependency[n] 当前位置的词语的左边间接依赖词语;
T12 RIDDependency[n] 当前位置的词语的右边间接依赖词语;
T13 W[n]&&Pos[n-1] 当前位置的词语与其前一个位置的词语的词性;
T14 W[n]&&Class[n-1] 当前位置的词语与其前一个位置的词语的类别;
每一个特征模板对应着所有具有该含义的特征的集合;其中T1-T3是基于词语的上下文的特征,T4-T6是基于词语的词性特征,T7是基于词语的类别特征,T8是为了处理简称的问题,T9-T12是基于依存句法的特征,T13-T14是组合特征。
5.一种基于语义信息的机构名抽取装置,其特征在于,机构名抽取装置包括简称词典构建模块、词语聚类模块、CRF训练模块和CRF识别模块4个模块;
其中,简称词典构建模块和词语聚类模块用于生成更加丰富的特征;
CRF训练模块是利用CRF算法对标注的训练数据进行训练学习模型;
CRF识别模块是利用训练好的模型对未标注的数据进行识别,也可以用来进行算法的测试和评估。