融合实体特性的越南语命名实体识别方法与流程

文档序号:11950492阅读:327来源:国知局
融合实体特性的越南语命名实体识别方法与流程
本发明涉及融合实体特性的越南语命名实体识别方法,属于自然语言处理
技术领域

背景技术
:越南语命名实体识别是指自动识别越南语文本语料中的人名、地名、组织机构名、时间、数字、百分号和货币的过程,其是越南语词法分析、句法分析、文本分析、信息检索等工作中的主要环节,是上层机器翻译的重要基础,起着非常重要的作用。在上层的机器翻译中,越南语命名实体识别起到关键作用。随着互联网搜索技术的不断提高,命名实体也越来越备受重视,其决定着搜索的好坏;同时其对文本、语义分析、双语实体翻译等起到重要作用。技术实现要素:本发明提供了融合实体特性的越南语命名实体识别方法,以用于解决越南语命名实体识别正确率不高、不能有效识别复杂的命名实体、不能更好挖掘和结合实体特性等问题。本发明的技术方案是:融合实体特性的越南语命名实体识别方法,所述融合实体特性的越南语命名实体识别方法的具体步骤如下:Step1、首先根据越南语命名实体特点,提取越南语命名实体有效特征,对形成的越南语句子级命名实体语料进行识别建模,得到越南语最大熵命名实体识别模型;Step2、从越南语句子级命名实体语料中随机选取测试语料通过已建好的越南语最大熵命名实体识别模型进行识别,得到最大熵命名实体识别结果。作为本发明的优选方案,所述步骤Step1的具体步骤为:Step1.1、首先人工编写爬虫程序,从越南语网站和中越交流圈中收集越南语新闻语料网页信息;本发明考虑到由于不同的网页结构,爬虫程序中爬取的位置和标签也不同,且没有现成的程序,因此针对爬取不同任务要进行编写程序。要尽可能全面地选取不同方面的题材的语料,例如:新闻、政治、经济和文化等方面。Step1.2、获取到的越南语新闻语料网页信息进行过滤、去重、去垃圾信息等操作,得到越南语文本级语料库,并把越南语文本级语料库存放到数据库中,方便下一步分词工作使用;本发明考虑到爬取到的越南语网页语料中存在一些重复网页、网页标签、无效字符等噪音,这些噪音是无效的。因此,要通过过滤、去噪音等操作去除,得到只含有越南语的高质量的文本级语料,存放在数据库是为了能方便数据的管理和下一步越南语分词工作使用。所述步骤Step1.2的具体步骤为:Step1.2.1、对爬取的网页信息进行有效的过滤,去无效字符和网页;Step1.2.2、对得到的有效网页进行去重、去垃圾信息等预处理操作;Step1.2.3、对得到的越南语文本级语料存放在数据库中。考虑到爬取到的越南语网页语料中存在一些重复网页、网页标签等噪音,这些噪音是无效的。因此,要通过过滤、去垃圾信息等操作去除,得到只含有越南语的高质量的文本级语料,存放在数据库是为了能方便数据的管理和下一步使用。Step1.3、从Step1.2数据库中取出越南语文本级语料,越南语词与词之间空格隔开,不能按照空格来进行分词,但是分词是命名实体识别前期基础工作;因此,根据越南语分词工具进行越南语文本级语料库的语料分词,并进行人工校对,形成越南语分词句子级语料库,并把越南语分词句子级语料库的语料存放到数据库中,方便下一步词性标注工作使用;本发明中分词处理过程,是越南语命名实体识别工作的前提与基础,是不可缺少的一步,同时由于越南语的词是由一个或者多个音节构成,不能按照空格对来确定分词。使用越南语分词工具进行分词之后,需要人工校对,考虑到越南语分词工具不可能正确地切分所有的越南语词,分词错误会影响到下一步的越南语词性标注结果的正确性和兼类词消歧的正确性,存放到数据库为了能方便数据的管理和下一步词性标注工作使用。Step1.4、从Step1.3数据库中取出越南语分词句子级语料越南语词的词性有助于识别命名实体,同时也是命名前期工作不可缺少工作之一;因此根据越南语词性标注工具对越南语分词句子级语料进行越南语句子级词性标注;考虑到工具分词不是完全正确和防止错误向后累积,故再进行人工校对,形成越南语句子级词性标注语料库,并把越南语句子级词性标注语料库的语料存放到数据库中,方便下一步组块分析工作使用;本发明中词性标注过程,同时也是越南语命名实体识别工作的前提与基础,是不可缺少的一步,词性以及上下文信息是本专利最大熵模型中重要的识别特征,因此需要使用本实验室词性标注工具进行词性标记;考虑到越南语词性标注过程中,困难在于越南语兼类词的影响和考虑到越南语分词工具不可能正确地切分所有的越南语词,词性标注错误会影响到下一步的越南语组块标注结果的正确性和兼类词消歧的正确性,故词性标记之后需要进行人工校对;存放到数据库为了能方便数据的管理和下一步词性标注工作使用。Step1.5、从Step1.4数据库中取出越南语句子级词性标注语料,越南语组块类型和长度有利于命名实体识别,因此再应用越南语组块标注工具对越南语句子级词性标注语料进行越南语句子级组块标记,考虑到工具分词不是完全正确和防止错误向后累积,故再进行人工校对,形成越南语句子级组块标记语料库,并把越南语句子级组块标记语料库的语料存放到数据库中,方便下一步人工标记命名实体语料使用;本发明中组块分析与标记,同时也是越南语命名实体识别工作的前提与基础,是不可缺少的一步,组块类型和长度有利于识别命名实体边界和类型,因此,本专利需要使用本实验室的越南语组块分析工具进行组块标记。考虑到工具分词不是完全正确和防止错误向后累积,故进行人工校对,形成越南语句子级组块标记语料库,存放数据库是为了方便管理数据和下一步人工标记命名实体语料使用。Step1.6、从Step1.5数据库中取出越南语句子级组块标记语料根据定义的实体类型,考虑到越南语命名实体语料缺乏,故再人工标记越南语命名实体语料,形成越南语句子级命名实体语料,并把越南语句子级命名实体语料存入数据库中,方便下一步形成训练语料工作使用;本发明过程中标记越南语命名实体句子级语料,主要考虑目前还没有公开的越南语命名实体语料可供使用,且本专利需要大量的训练语料,因此要进行人工标记,形成一定规模的训练语料,存放数据库是为了方便数据的管理和下一步形成含有实体特性训练格式的语料做准备。Step1.7、根据越南语命名实体特点,并结合Step1.6步骤取出越南语句子级命名实体语料,提取越南语命名实体有效特征,包括局部特征和全局特征;全局特征包括:词上下文信息特征、词性上下文信息的特征、组块上下文信息特征;局部特征包括音节个数信息特征、指示词信息特征、首词素是否存在姓氏库信息特征、首字母是否为大写信息特征、字首字母是否为大写信息特征、外来词信息特征等;本发明中根据越南语言和实体特点,提取出有效的全局特征和局部特征。全局特征:针对所有的实体类型,并且满足所有实体类型的,主要包括有:词上下文信息特征、词性上下文信息的特征、组块上下文信息特征;局部特征:实体类型之间差别较大,各自有各自的特点,这样就可以更大限度区别实体类型,有利于实体类型的识别,主要包括有音节个数信息特征、指示词信息特征、首词素是否存在姓氏库信息特征、首字母是否为大写信息特征、字首字母是否为大写信息特征、外来词信息特征等。Step1.8、根据Step1.7中已选取的越南语命名实体有效特征,结合从Step1.6中取出的越南语句子级命名实体语料,制定最大熵模型训练所需要的训练格式;本发明中使用最大熵的统计分析方法,对于不同的机器学习方法,训练语料格式不一样,因此,本文将选取的最大熵训练语料结合所选取的越南语命名实体特征,生成最大熵模型训练时所需要的语料格式。Step1.9、从Step1.8中获取已标注好的训练格式语料,使用最大熵统计方法进行分析,生成越南语最大熵命名实体识别模型。此优选方案设计是本专利的重要组成部分,主要结合越南语实体特性,生成基于最大熵的越南语命名实体识别模型。主要包括语料的预处理过程;越南语语料进行分词、词性标注、组块标注和人工标记越南语命名实体语料,根据越南语言和实体特点,选取有效的识别特征(局部特征和全局特征);根据已标记的语料和选取的有效特征,生成模型训练时所需要的样式;使用最大熵统计分析方法进行建模。作为本发明的优选方案,所述步骤Step2的具体步骤为:Step2.1、随机选取越南语句子级命名实体语料,得到越南语句子级命名实体测试语料;本发明中要对已构建的融合实体特性的越南语最大熵命名实体模型进行测试,考查该模型的性能。测试需要测试语料,且来源于数据库中已人工标记好的越南语句子级命名实体语料,为了尽可能保证数据的准确性,尽量测试语料不包括在训练语料中。Step2.2、根据获得的越南语句子级的命名实体测试语料,经过已建好的越南语最大熵命名实体识别模型进行标注,得到越南语句子级命名实体标注序列化标记结果。本发明中使用最大熵统计分析方法对已获取的测试语料进行测试,生成测试语料标记结果,将识别的结果与正确结果进行比较。此优选方案设计是对生成的模型的进行测试其性能的好坏以及通过测试比较每个特征对模型的贡献,为以后的研究提供一定的依据。本发明的有益效果是:1、本发明的融合实体特性的越南语最大熵命名实体识别方法,与现有的越南语命名实体相比,提高了越南语命名实体识别的正确率,本发明取得了较好的效果;2、本发明的融合实体特性的越南语最大熵命名实体识别方法,与现有的越南语命名实体识别方法(全局特征)相比较,本文结合越南语更多、更有效的和有利于识别越南语命名实体特征(局部特征和全局特征),能够更好识别越南语复杂实体。3、本发明的融合实体特性的越南语最大熵命名实体识别方法,对越南语命名实体识别实现了有效的识别,为后续工作的组块分析、句法分析、语义分析、信息抽取、信息检索和机器翻译等工作提供强有力的支撑。附图说明图1为本发明中的总的流程图;图2为本发明中的建模流程图。具体实施方式实施例1:如图1-2所示,融合实体特性的越南语命名实体识别方法,所述融合实体特性的越南语命名实体识别方法的具体步骤如下:Step1、首先根据越南语命名实体特点,提取越南语命名实体有效特征,对形成的越南语句子级命名实体语料进行识别建模,得到越南语最大熵命名实体识别模型;Step2、从越南语句子级命名实体语料中随机选取测试语料通过已建好的越南语最大熵命名实体识别模型进行识别,得到最大熵命名实体识别结果。实施例2,如图1-2所示,融合实体特性的越南语命名实体识别方法,本实施例与实施例1相同,其中:作为本发明的优选方案,所述步骤Step1的具体步骤为:Step1.1、首先人工编写爬虫程序,从越南语网站和中越交流圈中收集越南语新闻语料网页信息;本发明考虑到由于不同的网页结构,爬虫程序中爬取的位置和标签也不同,且没有现成的程序,因此针对爬取不同任务要进行编写程序。要尽可能全面地选取不同方面的题材的语料,例如:新闻、政治、经济和文化等方面。Step1.2、获取到的越南语新闻语料网页信息进行过滤、去重、去垃圾信息等操作,得到越南语文本级语料库,并把越南语文本级语料库存放到数据库中,方便下一步分词工作使用;本发明考虑到爬取到的越南语网页语料中存在一些重复网页、网页标签、无效字符等噪音,这些噪音是无效的。因此,要通过过滤、去噪音等操作去除,得到只含有越南语的高质量的文本级语料,存放在数据库是为了能方便数据的管理和下一步越南语分词工作使用。所述步骤Step1.2的具体步骤为:Step1.2.1、对爬取的网页信息进行有效的过滤,去无效字符和网页;Step1.2.2、对得到的有效网页进行去重、去垃圾信息等预处理操作;Step1.2.3、对得到的越南语文本级语料存放在数据库中。考虑到爬取到的越南语网页语料中存在一些重复网页、网页标签等噪音,这些噪音是无效的。因此,要通过过滤、去垃圾信息等操作去除,得到只含有越南语的高质量的文本级语料,存放在数据库是为了能方便数据的管理和下一步使用。Step1.3、从Step1.2数据库中取出越南语文本级语料,越南语词与词之间空格隔开,不能按照空格来进行分词,但是分词是命名实体识别前期基础工作;因此,根据越南语分词工具进行越南语文本级语料库的语料分词,并进行人工校对,形成越南语分词句子级语料库,并把越南语分词句子级语料库的语料存放到数据库中,方便下一步词性标注工作使用;本发明中分词处理过程,是越南语命名实体识别工作的前提与基础,是不可缺少的一步,同时由于越南语的词是由一个或者多个音节构成,不能按照空格对来确定分词。使用越南语分词工具进行分词之后,需要人工校对,考虑到越南语分词工具不可能正确地切分所有的越南语词,分词错误会影响到下一步的越南语词性标注结果的正确性和兼类词消歧的正确性,存放到数据库为了能方便数据的管理和下一步词性标注工作使用。Step1.4、从Step1.3数据库中取出越南语分词句子级语料越南语词的词性有助于识别命名实体,同时也是命名前期工作不可缺少工作之一;因此根据越南语词性标注工具对越南语分词句子级语料进行越南语句子级词性标注;考虑到工具分词不是完全正确和防止错误向后累积,故再进行人工校对,形成越南语句子级词性标注语料库,并把越南语句子级词性标注语料库的语料存放到数据库中,方便下一步组块分析工作使用;本发明中词性标注过程,同时也是越南语命名实体识别工作的前提与基础,是不可缺少的一步,词性以及上下文信息是本专利最大熵模型中重要的识别特征,因此需要使用本实验室词性标注工具进行词性标记;考虑到越南语词性标注过程中,困难在于越南语兼类词的影响和考虑到越南语分词工具不可能正确地切分所有的越南语词,词性标注错误会影响到下一步的越南语组块标注结果的正确性和兼类词消歧的正确性,故词性标记之后需要进行人工校对;存放到数据库为了能方便数据的管理和下一步词性标注工作使用。Step1.5、从Step1.4数据库中取出越南语句子级词性标注语料,越南语组块类型和长度有利于命名实体识别,因此再应用越南语组块标注工具对越南语句子级词性标注语料进行越南语句子级组块标记,考虑到工具分词不是完全正确和防止错误向后累积,故再进行人工校对,形成越南语句子级组块标记语料库,并把越南语句子级组块标记语料库的语料存放到数据库中,方便下一步人工标记命名实体语料使用;本发明中组块分析与标记,同时也是越南语命名实体识别工作的前提与基础,是不可缺少的一步,组块类型和长度有利于识别命名实体边界和类型,因此,本专利需要使用本实验室的越南语组块分析工具进行组块标记。考虑到工具分词不是完全正确和防止错误向后累积,故进行人工校对,形成越南语句子级组块标记语料库,存放数据库是为了方便管理数据和下一步人工标记命名实体语料使用。Step1.6、从Step1.5数据库中取出越南语句子级组块标记语料根据定义的实体类型,考虑到越南语命名实体语料缺乏,故再人工标记越南语命名实体语料,形成越南语句子级命名实体语料,并把越南语句子级命名实体语料存入数据库中,方便下一步形成训练语料工作使用;本发明过程中标记越南语命名实体句子级语料,主要考虑目前还没有公开的越南语命名实体语料可供使用,且本专利需要大量的训练语料,因此要进行人工标记,形成一定规模的训练语料,存放数据库是为了方便数据的管理和下一步形成含有实体特性训练格式的语料做准备。Step1.7、根据越南语命名实体特点,并结合Step1.6步骤取出越南语句子级命名实体语料,提取越南语命名实体有效特征,包括局部特征和全局特征;全局特征包括:词上下文信息特征、词性上下文信息的特征、组块上下文信息特征;局部特征包括音节个数信息特征、指示词信息特征、首词素是否存在姓氏库信息特征、首字母是否为大写信息特征、字首字母是否为大写信息特征、外来词信息特征等;本发明中根据越南语言和实体特点,提取出有效的全局特征和局部特征。全局特征:针对所有的实体类型,并且满足所有实体类型的,主要包括有:词上下文信息特征、词性上下文信息的特征、组块上下文信息特征;局部特征:实体类型之间差别较大,各自有各自的特点,这样就可以更大限度区别实体类型,有利于实体类型的识别,主要包括有音节个数信息特征、指示词信息特征、首词素是否存在姓氏库信息特征、首字母是否为大写信息特征、字首字母是否为大写信息特征、外来词信息特征等。所述步骤Step1.7具体步骤为:本文所选取的全局特征,针对所有的实体类型进行选取的:(1)词上下文信息特征:本文选取词以及上下文信息做为本文的特征,词字符包含丰富形态信息。(2)词性上下文信息的特征:本文选取词性以及上下文作为本文的词性特征,词性能够有效地判断词在句子中所起的角色,同时也影响当前词及周围词的大致信息。例如:中,词性顺序为“NNN”构成了一个组织机构名;中“Np”表示人名的名词;“1//M”其中词性“M”在识别数字时,起到了很明显的作用;“十亿”翻译为:等等;在越南语的句子中,句子中的动词、形容词、副词等等不可能成为实体的标志,这样可以减小搜索范围,同时也降低了识别错误率,提高处理效率。因此,本文选取词性和词性前后两个词性作为本文的特征。(3)组块上下文信息特征:用组块技术处理命名实体识别技术是可行的,因为名词性组块的定义和命名实体名称结构有很强的相似性,所以只考虑越南语的名词性组块、时间组块、数词组块等来分析越南语的命名实体识别问题是可行的,其他类型组块(形容词组块、副词组块等)不可能成为实体,这样可以减少识别范围和模型搜索范围。本文选取组块以及上下文信息特征,组块标记能够有效的帮助识别实体的边界和类型。首先,“阮芳去学校。”翻译为在句子中是一个名词组块,确定了人名实体边界,同时也确定了名词组块的实体类型;可以确定数字的类型和数字的边界等等;组块的标记有利于命名实体边界和类型的识别,同时对组块的长度可以有效地辅助识别实体,组织机构名往往比较长;时间、数字、百分号、人名、地名往往组块长度较短。因此,本文选取当前组块标记、前后两个词的组块标记和组块长度作为本文的有效特征。本文所选取的局部特征,主要考虑到实体类型不一样,所选取的实体特征不一样,本文根据越南语语言特点和实体特点进行选取各种实体类型特征:(1)词素个数信息特征:本文选取词素个数信息作为本文的有效特征,本特征主要针对越南语人名选取的特征,如表1所示。表1越南人名词素个数比例据整理与收集的数据统计分析,越南语的人名主要以2,3,4个词素组成。主要受垫字影响,垫字可以省略也可以不省略,比如“Tình”,等等。对于其它越南语的构词,主要是1个词素和2个词素为主,其它词素的个数比例很小,而人名的词素个数主要集中在3,2,4为主,因此,越南语词素的个数对于越南语的识别是有效的,本文选取当前词词素个数作为本文的有效特征,其他词素个数不再考虑。(2)指示词信息特征:本文选取指示词作为本文的有效的特征。指示词能为实体识别提供一定的启发信息,此特征已广泛应用于英文和中文的命名实体当中,指示词往往与实体紧挨。比如指示词“公司”“学校”“大学”“先生”“夫人”(bà),“叔叔”(bác),省县到去在等等;在识别百分比时可以用“%”作为指示词特征,识别时间时可以用“年”,“月”,“日”等做为指示词。因此,本文选取指示词作为有效特征。(3)首词素是否存在姓氏库信息特征:本文选取首音节是否在姓氏库中存在来判断该越南语词是否是人名实体,越南语人名和中文人名一样,首音节是姓氏,很有可能构成的是人名。本文统计了越南语的人名姓氏库,判断第一个词素是否存在在姓氏库中,这样可以减小判断范围,有利于越南语人名的识别。(4)首字母是否为大写信息特征:本文选取越南语词中第一个词素的首字母是否大写,在越南语正式的书写中人名和地名的首字母是大写。因此本文选取首字母是否为大写来区别实体词语非实体词。例如:“北京市”翻译成“福建省”翻译成人名中等等,因此,该特征可以作为本文的特征。(5)其它词素的首字母是否为大写信息特征:本文选取除了首字母以外,其他音节第一个字母是否大写,因为对于人名和地名来说,每个音节的首字母都是大写,而对于组织机构名和时间来说并非全部大写。例如:组织机构名中的词素的首字母为小写;地名中所有的词素为大写;人名中所有的词素的首字母均为大写。(6)外来词信息特征:本文针对于非汉越地名选取“-”作为本文特征。对越南语地名的统计分析发现,除了汉越地名外,其他地名在拼写时会出现“-”,例如。因此本文根据当前词中是否含有“-”,进行判断是否是非汉越词。(7)命名实体字典信息特征:其目的在于有效利用越南语命名实体的相关字典信息,从而弥补训练语料资源受限的不足。其中人名字典分为“越南语姓氏表”、“越南语人名用字表”、“越南语垫字用字表”;地名词典涉及到“常用地名表”和“缩写地名表”;组织机构名字典涉及到“常用机构名表”和“缩写机构名表”;时间字典表涉及到“常用时间表达方式表”。此优选方案设计是本专利的核心内容之一,主要根据越南语言和实体特点进行选取有效的识别特征(局部特征和全局特征),有效地挖掘了各实体的特点,为本专利的下一步制定模型训练所需格式提供前提基础。Step1.8、根据Step1.7中已选取的越南语命名实体有效特征,结合从Step1.6中取出的越南语句子级命名实体语料,制定最大熵模型训练所需要的训练格式;其中,制定最大熵模型训练所需要的训练格式时,采用人工把取出的越南语句子级命名实体语料标注标注成列的格式形成训练格式;本发明中使用最大熵的统计分析方法,对于不同的机器学习方法,训练语料格式不一样,因此,本文将选取的最大熵训练语料结合所选取的越南语命名实体特征,生成最大熵模型训练时所需要的语料格式。Step1.9、从Step1.8中获取已标注好的训练格式语料,使用最大熵统计方法进行分析,生成越南语最大熵命名实体识别模型。此优选方案设计是本专利的重要组成部分,主要结合越南语实体特性,生成基于最大熵的越南语命名实体识别模型。主要包括语料的预处理过程;越南语语料进行分词、词性标注、组块标注和人工标记越南语命名实体语料,根据越南语言和实体特点,选取有效的识别特征(局部特征和全局特征);根据已标记的语料和选取的有效特征,生成模型训练时所需要的样式;使用最大熵统计分析方法进行建模。实施例3:如图1-2所示,融合实体特性的越南语命名实体识别方法,本实施例与实施例2相同,其中:作为本发明的优选技术方案,所述步骤Step2的具体步骤为:Step2.1、随机选取越南语句子级命名实体语料,得到越南语句子级命名实体测试语料;本发明中要对已构建的融合实体特性的越南语最大熵命名实体模型进行测试,考查该模型的性能。测试需要测试语料,且来源于数据库中已人工标记好的越南语句子级命名实体语料,为了尽可能保证数据的准确性,尽量测试语料不包括在训练语料中。Step2.2、根据获得的越南语句子级的命名实体测试语料,经过已建好的越南语最大熵命名实体识别模型进行标注,得到越南语句子级命名实体标注序列化标记结果。本发明中使用最大熵统计分析方法对已获取的测试语料进行测试,生成测试语料标记结果,将识别的结果与正确结果进行比较。此优选方案设计是对生成的模型的进行测试其性能的好坏以及通过测试比较每个特征对模型的贡献,为以后的研究提供一定的依据。本实施例构建了规模为140392词的越南语句子级命名实体语料库,为本专利模型的构建与测试提供了语料的支撑;从构建好的越南语句子级命名实体语料中取出部分做为测试语料;这些待测试的命名实体识别最好是没有包含在最大熵模型中所需要的基本特征模板训练样式的训练语料当中,这样为了测试该模型的准确性;为了验证本发明识别出来的命名实体的效果,将采用统一的评价标准:正确率(Precision)、召回率(Recall)、F值做为本发明的评价标准,衡量本发明的性能。F=2*P*RP+R]]>本发明为了验证该发明的的有效性、可行性设计以下几组实验进行验证:实验一:为了证明本文发明方法的效果与现有的条件随机场方法(CRFs)进行比较,实验结果如表所示。表2方法对比方法正确率召回率F值CRFs(条件随机场)84.84%83.73%84.27%ME(最大熵)88.35%86.69%87.51%表2中可以看出,本发明的方法的效果明显高于现有的条件随机场方法效果,主要由于现有的条件随机场方法所选的有效特征有限,未能挖掘更多有效的识别特征。实验二:为了验证全局变量和局部变量对于最大熵模型的贡献度,用准确率进行评价,实验结果如下表所示。表3特征贡献度对比特征准确率局部特征85.32%全局特征84.45%表3中可以看出,全局特征针对所有类型的实体识别,没有针对性,而其中现有的条件随机场方法就是采用全局特征进行实体识别的,而本发明的最大熵方法中采用了全局特征、局部特征,且局部特征准确率比全局高,主要因为局部特征更能具体表征各实体的特点,因此,本发明的实体识别效果更佳,能够更好识别越南语复杂实体。上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1