一种柬埔寨语组织机构名识别方法与流程

文档序号:12464647阅读:来源:国知局

技术特征:

1.一种柬埔寨语组织机构名识别方法,其特征在于:具体步骤如下:

Step1、首先对抽取的柬埔寨语篇章进行切分,切分后的句子进行分词和词性标注,通过人工校对,然后标注柬埔寨语命名实体,得到相当规模的柬埔寨语组织机构名语料;

Step2、通过标注的语料提取命名实体指示词,构建指示词库,构建特征模板,通过改进的Tri-training算法学习得到组织机构名识别模型;

Step3、对选取的测试语料通过组织机构名识别模型进行训练得到组织机构名的标注结果。

2.根据权利要求1所述的柬埔寨语组织机构名识别方法,其特征在于:所述步骤Step1中组织机构名标注语料获取的具体步骤如下:

Step1.1、首先利用爬虫程序,从柬埔寨新闻网上爬取出网页信息;

Step1.2、把爬取出的网页信息,经过过滤处理,构建出柬埔寨语篇章语料库;

Step1.3、通过柬埔寨语的句子结束符将篇章切分为句子,形成柬埔寨语句子级语料库,并把柬埔寨语句子级语料库的语料存放到数据库中;

Step1.4、从数据库中取出柬埔寨语句子级的语料,通过柬埔寨语分词和词性标注系统进行分词和词性标注,并进行人工校对,得到含有正确结果的柬埔寨语词性标注分词库,并把柬埔寨语词性标注分词库的词语存放到数据库中;

Step1.5、根据柬埔寨语命名实体特点和标注规则,从数据库中取出柬埔寨语词性标注分词库的语料,通过人工标注柬埔寨语命名实体,得到含有正确标注结果的柬埔寨语命名实体语料库,并把柬埔寨语命名实体标注语料库的结果存放在数据库中。

3.根据权利要求1所述的柬埔寨语组织机构名识别方法,其特征在于:所述步骤Step2组织机构名识别模型构建的具体步骤:

Step2.1、从存放柬埔寨语命名实体标注语料库的数据库中取出已标注好的柬埔寨语命名实体的语料;

Step2.2、对Step2.1中的语料提取命名实体指示词,构建命名实体指示词库,其中提取的命名实体包括人名、地名和组织机构名;

Step2.3、通过组织机构名的词和词性特种构建基本特征模板,基本特征模板描述了当前词及其上下文中若干个词的词性;

Step2.4、通过Step2.3构建的基本特征模板进行特征组合构建复合特征模板,复合特征能够利用远距离的依存关系和丰富的上下文信息;

Step2.5、柬埔寨语组织机构名具有非常复杂的构成特点,这些复杂的特点为柬埔寨语组织机构名识别提供非常丰富的外部信息,因此基于这个特点,结合Step2.2构建的命名实体指示词库,构建实体特征模板;

Step2.6、根据分类器的特点,选取条件随机场、支持向量机和最大熵模型三个不同的分类器作为Tri-training算法中的三个基分类器;

Step2.7、通过三个基分类器和Step2.3、Step2.4、Step2.5构建的特征模板,利用已标注语料和未标注语料通过改进的Tri-training算法学习得到组织机构名识别模型。

4.根据权利要求2所述的柬埔寨语组织机构名识别方法,其特征在于:所述步骤Step1.2的具体步骤为:

Step1.2.1、对爬取的网页信息进行有效的过滤,去除无效网页;

Step1.2.2、对得到的有效网页进行去重、去噪音的预处理操作。

5.根据权利要求3所述的柬埔寨语组织机构名识别方法,其特征在于:所述步骤Step2.7的具体步骤为:

Step2.7.1、对原始的Tri-training算法中对于基分类器的选择进行改进,将原始算法中的单个分类器通过对已标注语料的可重复采样来训练出三个不同的分类器模型,改进为通过三个不同的分类器对已标注语料进行可重复采样来训练出三个不同的分类器模型;

Step2.7.2、通过Step2.7.1得到的三个分类器模型对未标注语料进行标注,并按照最优化样本选择策略选择样本子集,生成三个分类器的新训练集,并重新训练模型,直到未标注语料为空;

Step2.7.3、通过Step2.7.2得到联合分类器生成的模型按投票规则对测试语料进行分类标注,最终生成组织机构名标注结果。

6.根据权利要求3所述的柬埔寨语组织机构名识别方法,其特征在于:所述步骤Step2.4中由两个基本特征模板组合构成的复合特征模板。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1