一种基于语义信息的机构名抽取方法和装置与流程

文档序号:12470418阅读:来源:国知局

技术特征:

1.一种基于语义信息的机构名抽取方法,其特征在于,方法步骤如下:

第一步,从维基百科中自动抽取机构名,进行简称词典的构建,利用简称词典,形成机构名简称特征;

第二步,从训练数据中,结合分词、词性标注和依存树特征,形成最终的特征;

第三步,从维基百科文档中,进行正文提取、分词等预处理,使用CW聚类方法进行词语的聚类,使用词语的类别特征作为语义特征;

第四步,基于CRF进行训练时,提取机构名简称特征和词语类别的语义特征,利用CRF算法对标注的训练数据生成机构名是别的CRF模型,进行算法的测试和评估,标注结果;

第五步,对于未标注的数据,利用CRF识别进行算法的测试和评估,标注结果。

2.根据权利要求1所述的一种基于语义信息的机构名抽取方法,其特征在于,包括震荡监测的CW算法;

对于每一条边,除了存储权重信息之外,还需要存储端点的类别信息,以及震荡的次数;

在节点中增加震荡次数检验,当震荡超过一定阈值时,把该节点标记为同一类别。

3.根据权利要求1所述的一种基于语义信息的机构名抽取方法,其特征在于,包括简称词典的构建方法:

从维基百科中构建机构名简称词典,首先需要识别哪些条目是表示机构名,然后从该条目的文字内容中识别机构名的简称,或者从重定向关系中识别机构名的简称,或者从其它条目的锚文本中获取机构名的简称。

4.根据权利要求1所述的一种基于语义信息的机构名抽取方法,其特征在于,包括特征模板的设计,根据以下规则设计特征模板:

从句子中出现机构名的尾词位置开始向前所形成的名词短语,有可能是机构名;

某些特定词语可以指示其上下文可能包含机构名,这些词语成为边界词;

某些特定词语可以指示其所直接依赖或间接依赖的词语可为机构名,这些词语称为依赖词;

所述的特征模板为:

T01 W[n] 当前词语;

T02 W[n-1] 当前位置前一位置的词语;

T03 W[n+1] 当前位置后一位置的词语;

T04 POS[n] 当前词语的词性;

T05 POS[n-1] 当前位置前一位置的词语的词性;

T06 POS[n+1] 当前位置后一位置的词语的词性;

T07 Class[n] 当前位置的聚类类别;

T08 InDict[n] 当前位置的词语是否在简称词典中;

T09 LDDependency[n] 当前位置的词语的左边直接依赖词语;

T10 RDDependency[n] 当前位置的词语的右边直接依赖词语;

T11 LIDDependency[n] 当前位置的词语的左边间接依赖词语;

T12 RIDDependency[n] 当前位置的词语的右边间接依赖词语;

T13 W[n]&&Pos[n-1] 当前位置的词语与其前一个位置的词语的词性;

T14 W[n]&&Class[n-1] 当前位置的词语与其前一个位置的词语的类别;

每一个特征模板对应着所有具有该含义的特征的集合;其中T1-T3是基于词语的上下文的特征,T4-T6是基于词语的词性特征,T7是基于词语的类别特征,T8是为了处理简称的问题,T9-T12是基于依存句法的特征,T13-T14是组合特征。

5.一种基于语义信息的机构名抽取装置,其特征在于,机构名抽取装置包括简称词典构建模块、词语聚类模块、CRF训练模块和CRF识别模块4个模块;

其中,简称词典构建模块和词语聚类模块用于生成更加丰富的特征;

CRF训练模块是利用CRF算法对标注的训练数据进行训练学习模型;

CRF识别模块是利用训练好的模型对未标注的数据进行识别,也可以用来进行算法的测试和评估。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1