一种基于条件随机场和转换学习越南语组块方法与流程

文档序号:13730983阅读:124来源:国知局
技术领域本发明涉及一种基于条件随机场和转换学习越南语组块方法,属于自然语言处理技术领域。

背景技术:
中国—东盟自由贸易区是世界上人口最多的自由贸易区,“桥头堡战略”是推进我国向西南开发、实现与东盟国家睦邻友好的战略需要,云南是中国向西南开放的重要桥头堡,语言上的沟通是实现中国与东盟国家之间政治、文化、经济交流的前提。东盟成员国越南与云南山水相连,两国人民之间的交往历史悠久,语言沟通在双方边境人民友好相处,相互学习方面起到了十分重要的作用。所以,针对越南语语言方面的研究工作就显得尤为重要。机器翻译过程中,句法分析是十分重要的工作,但是对于完全句法分析,目前效果离预期的效果相差很远,于是,提出分而治之的思想,对越南语句子逐步分解去分析显得尤为重要。越南语的结构相对比较简单,词语之间的从属关系清晰明确,所以相对于部分的句法分析,越南语更适合采用从部分句法分析再到完全句法分析,唯有这一个过度的转换,才能更好为完全句法分析提供平台;越南语组块语料库构建,已经成为整个越南语部分句法分析和完全句法分析的核心工作,如果能对该问题加以有效合理的解决,那么对对越南语的短语树构建、完全句法分析、机器翻译、信息获取等上层应用可以提供有力支撑。

技术实现要素:
本发明提供了一种基于条件随机场和转换学习越南语组块方法,以用于解决越南语组块识别正确率不高的问题,能对对越南语的短语树构建、完全句法分析、机器翻译、信息获取等上层应用可以提供有力支撑。本发明的技术方案是:一种基于条件随机场和转换学习越南语组块方法,所述基于条件随机场和转换学习越南语组块方法的具体步骤如下:Step1、首先对越南语语料进行预处理,得到句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中;Step2、从数据库中提取出句子级的越南语组块训练语料并对其进行组块建模,得到越南语组块条件随机场模型;Step3、用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合;Step4、把待组块的越南语句子级测试语料通过已建好的越南语组块条件随机场模型和已获取的转换方式集合进行组块标记,得到越南语的组块标记结果。所述步骤Step1中预处理的具体步骤如下:Step1.1、利用爬虫程序,从互联网上爬取出越南语网页信息;Step1.2、把爬取的网页信息进行过滤处理,构建出越南语文本语料库,通过分词工具进行语料的分词处理,形成了已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中;Step1.3、从数据库中取出已分词的句子级越南语文本语料,使用越南语的词性标注工具进行标注,得到句子级的越南语词性标注语料,并进行人工校对,最后并把句子级的越南语词性标注语料存放到数据库中;Step1.4、从数据库中取出已标注好词性的越南语句子,经过人工标注越南语组块最终形成了句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中。所述步骤Step2中,构建越南语组块条件随机场模型的具体步骤如下:Step2.1、从数据库中获取已处理好的句子级越南语组块训练语料;Step2.2、根据越南语的语言和语句特点,从步骤Step2.1中的句子级越南语组块训练语料中提取越南语的特征,提取的越南语的特征包括:词特征、词性特征以及上下文信息特征;Step2.3、根据提取的越南语的特征,构建越南语组块条件随机场模型中所需要的越南语的基本特征模板;Step2.4、把步骤Step2.1中从数据库中取到的句子级越南语组块训练语料,根据制定了越南语组块条件随机场模型中所需要的越南语的基本特征模板,用条件随机场统计工具进行训练分析,得到越南语组块条件随机场模型。所述步骤Step3中,获取转换方式集合的具体步骤如下:Step3.1、从数据库中获取步骤Step1中预处理时得到的句子级的越南语词性标注语料用于转换学习句子级越南语的组块训练语料;Step3.2、把Step3.1中从数据库中获取到的用于转换学习的句子级越南语组块训练语料,经过已建好的越南语组块条件随机场模型的训练,得到初步的句子级越南语组块语料标记序列,并把得到的句子级初步标记的越南语组块语料结果存放到数据库中;Step3.3、根据越南语的语言和语句特点,从Step3.2中初步标记的越南语组块语料中,提取越南语的特征,提取的特征包括:词特征、词性特征、组块标记特征;Step3.4、根据提取的越南语特征,制定了转换学习过程中所需要的越南语的转换基本特征模板;Step3.5、把Step3.2中获取的句子级初步标记的越南语组块语料结果与步骤Step1中得到的标准的句子级的越南语组块训练语料作为训练语料,根据转换基本特征模板,用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合。所述步骤Step4中,待组块的越南语句子级测试语料进行组块标记的具体步骤如下:Step4.1、从数据库中取出步骤Step1中预处理时得到的句子级的越南语词性标注语料作为待组块的越南语句子级测试语料;Step4.2、首先,把待组块的越南语句子级测试语料放入到越南语组块条件随机场模型中,训练得到初步越南语组块标记结果序列;Step4.3、再把步骤Step4.2中得到的初步越南语组块标记结果序列,经过转换方式集合的转换,最终得到越南语的组块标记结果。所述步骤Step1.1中,根据网页特点,制定网页爬取模板,通过爬取程序爬取越南语网页的相关语料。所述步骤Step1.2的具体步骤为:Step1.2.1、对爬取到的越南语语料,进行去噪音、去重等操作,形成句子级的越南语文本语料库;Step1.2.2、对得到的句子级的越南语文本语料库,使用分词工具包进行句子级的越南语文本语料库分词,得到已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中。所述步骤Step1.3的具体步骤为:Step1.3.1、对得到的已分词的句子级越南语文本语料,使用越南语的词性标记工具包进行标记,得到句子级的越南语词性标注语料;Step1.3.2、通过人工校对的方式对句子级的越南语词性标注语料进行校对,最后并把句子级的越南语词性标注语料存放到数据库中。本发明的有益效果是:1、本文提出的基于条件随机场和转换学习的越南语组块方法,对越南语句子实现了有效的组块划分和标记,为短语树的构建、句法分析、机器翻译、信息获取等上层应用提供有力支撑。2、通过与现有的越南VLSP提供组块识别工具比较,本文的越南语组块方法在准确率、召回率、F值上均有提高。3、通过转换方式集合,更好的优化了越南语组块标记的结果。附图说明图1为本发明中获取句子级的越南语组块训练语料的流程图;图2为本发明中构建越南语组块条件随机场模型的流程图;图3为本文明中获取转换方式集合的流程图;图4为本发明中总流程图。具体实施方式实施例1:如图1-4所示,一种基于条件随机场和转换学习越南语组块方法,所述方法的具体步骤如下:Step1、首先对越南语语料进行预处理,得到句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中;Step2、从数据库中提取出句子级的越南语组块训练语料并对其进行组块建模,得到越南语组块条件随机场模型;Step3、用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合;Step4、把待组块的越南语句子级测试语料通过已建好的越南语组块条件随机场模型和已获取的转换方式集合进行组块标记,得到越南语的组块标记结果。实施例2:如图1-4所示,一种基于条件随机场和转换学习越南语组块方法,本实施例与实施例1相同,其中:所述步骤Step1中预处理的具体步骤如下:Step1.1、利用爬虫程序,从互联网上爬取出越南语网页信息;Step1.2、把爬取的网页信息进行过滤处理,构建出越南语文本语料库,通过分词工具进行语料的分词处理,形成了已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中;Step1.3、从数据库中取出已分词的句子级越南语文本语料,使用越南语的词性标注工具进行标注,得到句子级的越南语词性标注语料,并进行人工校对,最后并把句子级的越南语词性标注语料存放到数据库中;Step1.4、从数据库中取出已标注好词性的越南语句子,经过人工标注越南语组块最终形成了句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中。实施例3:如图1-4所示,一种基于条件随机场和转换学习越南语组块方法,本实施例与实施例2相同,其中:所述步骤Step2中,构建越南语组块条件随机场模型的具体步骤如下:Step2.1、从数据库中获取已处理好的句子级越南语组块训练语料;Step2.2、根据越南语的语言和语句特点,从步骤Step2.1中的句子级越南语组块训练语料中提取越南语的特征,提取的越南语的特征包括:词特征、词性特征以及上下文信息特征;Step2.3、根据提取的越南语的特征,构建越南语组块条件随机场模型中所需要的越南语的基本特征模板;Step2.4、把步骤Step2.1中从数据库中取到的句子级越南语组块训练语料,根据制定了越南语组块条件随机场模型中所需要的越南语的基本特征模板,用条件随机场统计工具进行训练分析,得到越南语组块条件随机场模型。实施例4:如图1-4所示,一种基于条件随机场和转换学习越南语组块方法,本实施例与实施例3相同,其中:所述步骤Step3中,获取转换方式集合的具体步骤如下:Step3.1、从数据库中获取步骤Step1中预处理时得到的句子级的越南语词性标注语料用于转换学习句子级越南语的组块训练语料;Step3.2、把Step3.1中从数据库中获取到的用于转换学习的句子级越南语组块训练语料,经过已建好的越南语组块条件随机场模型的训练,得到初步的句子级越南语组块语料标记序列,并把得到的句子级初步标记的越南语组块语料结果存放到数据库中;Step3.3、根据越南语的语言和语句特点,从Step3.2中初步标记的越南语组块语料中,提取越南语的特征,提取的特征包括:词特征、词性特征、组块标记特征;Step3.4、根据提取的越南语特征,制定了转换学习过程中所需要的越南语的转换基本特征模板;Step3.5、把Step3.2中获取的句子级初步标记的越南语组块语料结果与步骤Step1中得到的标准的句子级的越南语组块训练语料作为训练语料,根据转换基本特征模板,用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合。实施例5:如图1-4所示,一种基于条件随机场和转换学习越南语组块方法,本实施例与实施例4相同,其中:所述步骤Step4中,待组块的越南语句子级测试语料进行组块标记的具体步骤如下:Step4.1、从数据库中取出步骤Step1中预处理时得到的句子级的越南语词性标注语料作为待组块的越南语句子级测试语料;Step4.2、首先,把待组块的越南语句子级测试语料放入到越南语组块条件随机场模型中,训练得到初步越南语组块标记结果序列;Step4.3、再把步骤Step4.2中得到的初步越南语组块标记结果序列,经过转换方式集合的转换,最终得到越南语的组块标记结果。实施例6:如图1-4所示,一种基于条件随机场和转换学习越南语组块方法,本实施例与实施例5相同,其中:所述步骤Step1.1中,根据网页特点,制定网页爬取模板,通过爬取程序爬取越南语网页的相关语料。实施例7:如图1-4所示,一种基于条件随机场和转换学习越南语组块方法,本实施例与实施例6相同,其中:所述步骤Step1.2的具体步骤为:Step1.2.1、对爬取到的越南语语料,进行去噪音、去重等操作,形成句子级的越南语文本语料库;Step1.2.2、对得到的句子级的越南语文本语料库,使用分词工具包进行句子级的越南语文本语料库分词,得到已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中。实施例8:如图1-4所示,一种基于条件随机场和转换学习越南语组块方法,所述方法的具体步骤如下:Step1、首先对越南语语料进行预处理,得到句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中;Step2、从数据库中提取出句子级的越南语组块训练语料并对其进行组块建模,得到越南语组块条件随机场模型;Step3、用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合;Step4、把待组块的越南语句子级测试语料通过已建好的越南语组块条件随机场模型和已获取的转换方式集合进行组块标记,得到越南语的组块标记结果。所述步骤Step1中预处理的具体步骤如下:Step1.1、利用爬虫程序,从互联网上爬取出越南语网页信息;Step1.2、把爬取的网页信息进行过滤处理,构建出越南语文本语料库,通过分词工具进行语料的分词处理,形成了已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中;Step1.3、从数据库中取出已分词的句子级越南语文本语料,使用越南语的词性标注工具进行标注,得到句子级的越南语词性标注语料,并进行人工校对,最后并把句子级的越南语词性标注语料存放到数据库中;Step1.4、从数据库中取出已标注好词性的越南语句子,经过人工标注越南语组块最终形成了句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中。所述步骤Step2中,构建越南语组块条件随机场模型的具体步骤如下:Step2.1、从数据库中获取已处理好的句子级越南语组块训练语料;Step2.2、根据越南语的语言和语句特点,从步骤Step2.1中的句子级越南语组块训练语料中提取越南语的特征,提取的越南语的特征包括:词特征、词性特征以及上下文信息特征;Step2.3、根据提取的越南语的特征,构建越南语组块条件随机场模型中所需要的越南语的基本特征模板;Step2.4、把步骤Step2.1中从数据库中取到的句子级越南语组块训练语料,根据制定了越南语组块条件随机场模型中所需要的越南语的基本特征模板,用条件随机场统计工具进行训练分析,得到越南语组块条件随机场模型。所述步骤Step3中,获取转换方式集合的具体步骤如下:Step3.1、从数据库中获取步骤Step1中预处理时得到的句子级的越南语词性标注语料用于转换学习句子级越南语的组块训练语料;Step3.2、把Step3.1中从数据库中获取到的用于转换学习的句子级越南语组块训练语料,经过已建好的越南语组块条件随机场模型的训练,得到初步的句子级越南语组块语料标记序列,并把得到的句子级初步标记的越南语组块语料结果存放到数据库中;Step3.3、根据越南语的语言和语句特点,从Step3.2中初步标记的越南语组块语料中,提取越南语的特征,提取的特征包括:词特征、词性特征、组块标记特征;Step3.4、根据提取的越南语特征,制定了转换学习过程中所需要的越南语的转换基本特征模板;Step3.5、把Step3.2中获取的句子级初步标记的越南语组块语料结果与步骤Step1中得到的标准的句子级的越南语组块训练语料作为训练语料,根据转换基本特征模板,用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合。所述步骤Step4中,待组块的越南语句子级测试语料进行组块标记的具体步骤如下:Step4.1、从数据库中取出步骤Step1中预处理时得到的句子级的越南语词性标注语料作为待组块的越南语句子级测试语料;Step4.2、首先,把待组块的越南语句子级测试语料放入到越南语组块条件随机场模型中,训练得到初步越南语组块标记结果序列;Step4.3、再把步骤Step4.2中得到的初步越南语组块标记结果序列,经过转换方式集合的转换,最终得到越南语的组块标记结果。所述步骤Step1.1中,根据网页特点,制定网页爬取模板,通过爬取程序爬取越南语网页的相关语料。所述步骤Step1.2的具体步骤为:Step1.2.1、对爬取到的越南语语料,进行去噪音、去重等操作,形成句子级的越南语文本语料库;Step1.2.2、对得到的句子级的越南语文本语料库,使用分词工具包进行句子级的越南语文本语料库分词,得到已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中。所述步骤Step1.3的具体步骤为:Step1.3.1、对得到的已分词的句子级越南语文本语料,使用越南语的词性标记工具包进行标记,得到句子级的越南语词性标注语料;Step1.3.2、通过人工校对的方式对句子级的越南语词性标注语料进行校对,最后并把句子级的越南语词性标注语料存放到数据库中。实施例9:如图1-4所示,一种基于条件随机场和转换学习越南语组块方法,所述基于条件随机场和转换学习越南语组块方法的具体步骤如下:Step1、首先对越南语语料进行预处理,得到句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中;所述步骤Step1中预处理的具体步骤如下:Step1.1、利用爬虫程序,从互联网上爬取出越南语网页信息;所述步骤Step1.1中,根据网页特点,制定网页爬取模板,通过爬取程序爬取越南语网页的相关语料。Step1.2、把爬取的网页信息进行过滤处理,构建出越南语文本语料库,通过分词工具进行语料的分词处理,形成了已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中;所述步骤Step1.2的具体步骤为:Step1.2.1、对爬取到的越南语语料,进行去噪音、去重等操作,形成句子级的越南语文本语料库;Step1.2.2、对得到的句子级的越南语文本语料库,使用分词工具包进行句子级的越南语文本语料库分词,得到已分词的句子级越南语文本语料,并进行人工校对,最后把越南语的文本语料库和已分词的句子级越南语文本语料存放到数据库中。Step1.3、从数据库中取出已分词的句子级越南语文本语料,使用越南语的词性标注工具进行标注,得到句子级的越南语词性标注语料,并进行人工校对,最后并把句子级的越南语词性标注语料存放到数据库中;所述步骤Step1.3的具体步骤为:Step1.3.1、对得到的已分词的句子级越南语文本语料,使用越南语的词性标记工具包进行标记,得到句子级的越南语词性标注语料;Step1.3.2、通过人工校对的方式对句子级的越南语词性标注语料进行校对,最后并把句子级的越南语词性标注语料存放到数据库中。Step1.4、从数据库中取出已标注好词性的越南语句子,经过人工标注越南语组块最终形成了句子级的越南语组块训练语料,作为标准的句子级的越南语组块训练语料,并把句子级的越南语组块语料保存到数据库中。Step2、从数据库中提取出句子级的越南语组块训练语料并对其进行组块建模,得到越南语组块条件随机场模型;所述步骤Step2中,构建越南语组块条件随机场模型的具体步骤如下:Step2.1、从数据库中获取已处理好的句子级越南语组块训练语料;具体的,从数据库中取出数据格式如表1所示:表1为从数据库中获取已处理好的句子级越南语组块训练语料Step2.2、根据越南语的语言和语句特点,从步骤Step2.1中的句子级越南语组块训练语料中提取越南语的特征,提取的越南语的特征包括:词特征、词性特征以及上下文信息特征;所述步骤Step2.2的具体步骤为:Step2.2.1、从数据库中获取已处理好的句子级越南语组块训练语料;Step2.2.2、结合越南语语言和语句特点,分析组块语料,词和词性对组块的影响大;制定基本的词、词性模板;Step2.2.3、结合句子级中的信息,选取词的上下文信息和词性的上下文信息;提取的特征如下表2所示:表2为提取的越南语的特征Step2.3、根据提取的越南语的特征,构建越南语组块条件随机场模型中所需要的越南语的基本特征模板;根据Step2.2选取的特征,构建越南语组块条件随机场模型中所需要的越南语的基本特征模板如表3所示:表3为构建越南语组块条件随机场模型中所需要的越南语的基本特征模板序号特征模板序号特征模板1U00:%x[‐2,0]13U12:%x[‐2,1]2U01:%x[‐1,0]14U13:%x[‐1,1]3U02:%x[0,0]15U14:%x[0,1]4U03:%x[1,0]16U15:%x[1,1]5U04:%x[2,0]17U16:%x[2,1]6U05:%x[‐2,0]/%x[‐1,0]18U17:%x[‐2,1]/%x[‐1,1]7U06:%x[‐1,0]/%x[0,0]19U18:%x[‐1,1]/%x[0,1]8U07:%x[0,0]/%x[1,0]20U19:%x[0,1]/%x[1,1]9U08:%x[1,0]/%x[2,0]21U20:%x[1,1]/%x[2,1]10U09:%x[‐2,0]/%x[‐1,0]/%x[0,0]22U21:%x[‐2,1]/%x[‐1,1]/%x[0,1]11U10:%x[‐1,0]/%x[0,0]/%x[1,0]23U22:%x[‐1,1]/%x[0,1]/%x[1,1]12U11:%x[0,0]/%x[1,0]/%x[2,0]24U23:%x[0,1]/%x[1,1]/%x[2,1]Step2.4、把步骤Step2.1中从数据库中取到的句子级越南语组块训练语料,根据制定了越南语组块条件随机场模型中所需要的越南语的基本特征模板,用条件随机场统计工具进行训练分析,得到越南语组块条件随机场模型。具体的,根据步骤Step2.1中越南语句子级标准组块做为训练模型语料。在window操作系统下,通过执行命令:crf_learn.exe-ftempaltetrain.datachunkmodel通过学习,得到一个组块模型chunkmodel,所有训练得到的信息都在这个模型中;Step3、用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合;所述步骤Step3中,获取转换方式集合的具体步骤如下:Step3.1、从数据库中获取步骤Step1中预处理时得到的句子级的越南语词性标注语料用于转换学习句子级越南语的组块训练语料;Step3.2、把Step3.1中从数据库中获取到的用于转换学习的句子级越南语组块训练语料,经过已建好的越南语组块条件随机场模型的训练,得到初步的句子级越南语组块语料标记序列,并把得到的句子级初步标记的越南语组块语料结果存放到数据库中;所述步骤Step3.2的具体步骤为:Step3.2.1、从数据库中获取到用于转换学习的句子级越南语组块训练语料;Step3.2.2、对Step3.2.1取出的句子级越南语组块训练语料,经过已建好的越南语组块条件随机场模型进行训练,得到初步的句子级越南语组块语料标记序列;具体的,根据步骤Step3.2.1获取的越南语训练语料。在window操作系统下,通过执行命令:crf_test.exe-mchunkmodeltest.data>rs.data通过训练,得到test.data文件中越南语训练语料的初步标记结果,存放在rs.data;Step3.2.3、把得到的句子级初步标记的越南语组块语料结果存放到数据库中;Step3.3、根据越南语的语言和语句特点,从Step3.2中初步标记的越南语组块语料中,提取越南语的特征,提取的特征包括:词特征、词性特征、组块标记特征;Step3.4、根据提取的越南语特征,制定了转换学习过程中所需要的越南语的转换基本特征模板;具体的,根据Step3.3所提取的特征,制定转换基本特征模板;如下表4所示:表4为转换基本特征模板Step3.5、把Step3.2中获取的句子级初步标记的越南语组块语料结果与步骤Step1中得到的标准的句子级的越南语组块训练语料作为训练语料,根据转换基本特征模板,用转换错误驱动学习方法对训练语料进行学习,获取转换方式集合。所述步骤Step3.5的具体步骤:Step3.5.1、从数据库中获取得到标准的句子级的越南语组块训练语料和Step3.2获取到的句子级初步标记的组块语料做为训练语料;Step3.5.2、把Step3.4中获取的转换基本特征模板做为训练转换模板;Step3.5.3、根据Step3.5.1中获取到的训练语料,结合Step3.5.2中获取到的训练转换模板,用转换错误驱动学习的方法进行训练语料学习,获取转换方式集合。具体的,根据步骤Step3.4中的越南语规则转换模板。在window操作系统下,通过执行命令:fnTBL.exe-trainmyfile.initchunker.rls-Fparam_file生成候选规则转换集合文件myfile.init;Step4、把待组块的越南语句子级测试语料通过已建好的越南语组块条件随机场模型和已获取的转换方式集合进行组块标记,得到越南语的组块标记结果。所述步骤Step4中,待组块的越南语句子级测试语料进行组块标记的具体步骤如下:Step4.1、从数据库中取出步骤Step1中预处理时得到的句子级的越南语词性标注语料作为待组块的越南语句子级测试语料;Step4.2、首先,把待组块的越南语句子级测试语料放入到越南语组块条件随机场模型中,训练得到初步越南语组块标记结果序列;所述步骤Step4.2的具体步骤:Step4.2.1、把Step4.1获取的越南语句子级词性语料做为测试语料;Step4.2.2、把Step4.2.1中语料使用已建好的条件随机场模型,进行初始化的组块标记;具体的,根据Step4.2.1中的语料,使用Step2中所获得的条件随机场模型进行组块分析标记,具体步骤如下:在window操作系统下,通过执行命令:crf_test.exe-mchunkmodeltest.data>rs.data得到组块的初步标记结果文件rs.data,文件包括词、词性、初步标记组块序列结果;Step4.3、再把步骤Step4.2中得到的初步越南语组块标记结果序列,经过转换方式集合的转换,最终得到越南语的组块标记结果。具体的,越南语转换方法如下。在window操作系统下,通过执行命令:fnTBL.exetestfile.init-Fmyfile.init得到最终的越南语组块识别语料。从构建出的越南语文本语料库中取出待组块的句子级测试语料;这些待组块的句子最好是没有包含在训练语料中的,这样方便测试模型的准确率、召回率和F值。本实验准备10000词条越南语组块测试语料;准确率、召回率和F值是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。类似地,我们可以把这3个评价方法(评价准确率、召回率和F值)用到越南语组块任务中,在越南语老师和越南留学生的帮助下,标注和校对20万词条越南语句子级组块语料,并进行训练,训练得到的组块模型在10000词条语料中进行测试。分词后的结果使用准确率(P)、召回率(R)和F值评价该分词系统。准确率(Precision)=组块结果中标记正确的块数/组块结果中中总块数召回率(Fscore)=组块结果中标记正确的块数/人工标级文本中总块数F值=Precision*Fscore*2/Precision+Fscore其中准确率和召回率这两者在0和1之间,数值越接近1,查准率或查全率就越高。F值即为准确率和召回率的调和平均值。表5组块实验结果对比系统PRFVLSP80.77%79.85%80.31%本发明89.7%82.498%86.25%与VLSP系统对比实验发现本文的组块系统在准确率、召回率和F值均有所提高。通过CRFs+TBL训练得到的组块识别模型的平均准确率比CRFs高8.93%,F值高5.94%。可见CRFs+TBL模型在组块识别的问题上比CRFs的效果好。利用条件随机场对越南语组块特征具有较强的融合能力,随着特征集的增加,组块识别的效果会越好。上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1