一种基于条件随机场的越南语分词方法

文档序号:9261345阅读:561来源:国知局
一种基于条件随机场的越南语分词方法
【技术领域】
[0001] 本发明设及一种基于条件随机场的越南语分词方法,属于自然语言处理技术领 域。
【背景技术】
[0002] 越南语分词作为越南语自然语言处理的第一个步骤,是其他高层应用的基础,起 着极其重要的作用。在各类越南语信息处理软件或者系统中,越南语分词是不可或缺的环 节。伴随着计算机的日益普及,互联网的迅猛发展,越南语文本的数量(电子邮件、新闻、网 页、科技论文等)在不停的增长,因而对越南语文本作智能化处理W获取所需信息的需求 日益迫切。在该样的社会需求下,越南语分词技术的地位和作用日益重要。

【发明内容】

[0003] 本发明提供了一种基于条件随机场的越南语分词方法,用于解决文本语料的快速 及正确处理、越南语分词准确率不高、分词的速度慢等问题。
[0004] 本发明基于条件随机场的越南语分词方法是该样实现的:
[0005] Stepl、首先对提取出的越南语语料进行分词建模;建模的方法的具体步骤如下:
[0006] step1. 1、利用爬虫程序,从互联网上爬取出网页信息;
[0007]Stepl. 2、把爬取出的网页信息,经过过滤处理,构建出越南语文本语料库,再经过 人工标注分词最终形成句子级分词训练语料,并把越南语文本语料库、句子级分词训练语 料保存到数据库中;
[000引 stepl. 3、根据越南语的构词特点,从步骤stepl. 2中的句子级分词训练语料中提 取越南语的特征,提取的越南语的特征包括字符n-gram特征、字符重复信息特征、字符类 型特征、词位置概率特征;
[0009] stepl. 4、根据提取的越南语的特征,制定了条件随机场分词模型中所需要的越南 语的基本特征模板;
[0010] stepl. 5、把stepl. 2中人工标注的越南语句子级训练语料,根据制定了条件随机 场分词模型中所需要的越南语的基本特征模板,用条件随机场模型进行训练,得到越南语 分词模型;
[0011] St巧2、把待分词的句子级测试语料通过建好的模型进行分词;
[0012] Step2. 1、从构建出的越南语文本语料库中取出待分词的句子级测试语料;
[0013] Step2. 2、把句子级测试语料放入越南语分词模型中,训练得到分词结果参数序 列;
[0014] step2. 3、根据分词结果参数序列来对句子级测试语料进行分词得到最终的分词 结果。
[0015] 所述步骤Stepl. 2的具体步骤为:
[0016] Stepl. 2. 1、对爬取的网页进行无关信息的过滤、去掉重复的句子等预处理,形成 越南语篇章级文本语料库;
[0017]St巧1. 2. 2、对得到的越南语篇章级文本语料库,通过句号、问号、感叹号为标识进 行自动切分,得到越南语句子级文本语料库;
[0018]St巧1. 2. 3、再把越南语句子级文本语料库经过人工标注分词最终形成越南语句 子级分词训练语料,并把越南语句子级文本语料库、句子级分词训练语料保存到数据库中。
[0019] 所述步骤St巧1. 2中,构建了的越南语语料库包含20万条句子越南语语料库,经 过人工标注分词最终形成25981条句子级训练语料。具体的,在收集整理越南语语料时,可 W结合人工或半自动方式从互联网上提取越南语句子,借助国际学院越南语老师和学生资 源,并对提取的越南语句子进行人工校对,校对主要工作是去重,校正翻译错误的句子;
[0020] 所述步骤Stepl. 1中,爬取越南语文本语料时,利用自行编制的程序,从互联网上 爬取了越南语文本,W及人工翻译越南语书籍等方式得到了越南语单语种语料,并保存到 数据库中,其中爬取的越南语文本语料包括政治、经济、文化、娱乐等方面的文本语料。
[0021] 所述步骤St巧1. 3中,越南语的构词特点如下:
[0022] 1)、越南语是一种有声调孤立语,与汉语拼音很相似,每一个音节也是由声母、韵 母、和声调组成。越南语的声母有6个,比如a, 6, &,6,a,9,分别为平声、锐声、玄声、问声、 跌声、重声6个声调,又分为平、厌两类,其中前两个属于平,后四个属于厌。每一个音节几 乎都有意义,越南语和汉语一样,缺乏形态变化。除此之外,它的构成就是拉了字母、表音文 字和标点符号;
[0023]2)、越南语的构词单位和汉语拼音是一样的,也是语素。越南语的构词可W分为5 种,越南语的构词法见表1 ;
[0024] 表1越南语构词规则
[0025]
[0026] 3)、在结构形式上,英文的分词就是按照句子中空格来分的,一个英语单词就是一 个词,而中文的分词是W字为单位,一个字可能是一个词,两个或两个W上的字也可能构成 一个词,句子中所有的字连起来才能描述一个意思,而越南语可W说兼容了该两种语言的 特点。例如,英文句子Iamastudent,用中文表示为;"我是一个学生",而越南语则是: "T6i16m弓tsinhvign"。人为的去分词,英文的分词结果为;I/am/a/student,中文的结 果为;我/是/ 一个/学生,而越南语的分词为;T6i八6/n巧1/sinhvign。在上面的例子 中:"学生"一词,在汉越中是两个字构成,在英语中由一个单词"student"就表示了学生, 而在越南语中是由"sinhvign"两个越南语单词构成,虽然句子的形式上来看越南语与英 语的很相似,但是从分词的角度,越南语有着中文的特点。
[0027] 根据提取的越南语的特征,制定了条件随机场分词模型中所需要的越南语的基本 特征模板;
[002引提取的越南语的特征包括字符n-gram特征、字符重复信息特征、字符类型特征、 词位置概率特征
[0029] 对于条件随机场(CRFs)统计模型来说,特征的选取对CRF的分词结果具有很大的 影响,因此是关键的环节,本文结合W上越南语的特点,在使用CRF模型对越南语进行分词 时,我们定义了一些越南语基本特征模板,提取的越南语的特征包括字符n-gram特征、字 符重复信息特征、字符类型特征、词位置概率特征:
[0030] 1)、其中字符n-gram特征和字符重复信息特征,如表2所示:
[0031] 表2CRF越南语分词模型中的字符n-gram特征和字符重复信息特征
[0032]
[0033] 其中,M代表着越南语单词;M。代表着当前单词,k是相对于当前单词所处的位置。 比如;"T6ikh&ign6idxrgctidngV哟.",如果M。代表当前越南语单词"d琴C则M_康示 "nd)i";M_2表示"kh6ngMl表巧。舶ng",Mg表示"Vi引"。Repeat(M〇Mi)表示当前词和下一 个词是完全一样的越南语单词。
[0034]2)、其中对于字符类型特征:
[0035] 针对越南语中的数字、字母和标点等容易出错的未登录词,我们针对越南语的语 言特性将越南语单词定义为^::大类别;Pun、Dig、Let、Spe、Tim、Dat、0th。W上^;:l种类别基 本涵盖了除越南词W后的所有其它词。用本文中所使用的单词类别的定义W及相关例子, 字符类型特征,如表3所示。
[0036] 表3CRF越南语分词模型中使用的字符类型特征
[0037]
[00測3)、对于词位置概率特征
[0039] 越南语词素位置的概率特征模板是利用当前越南语词的位置的特征信息,有些越 南语词素单独成词,有些越南语词素经常出现在词首或词尾。越南语词素标注分词,是为文 本中每一个越南语词素标注,即确定每一个越南语词素所处的位置,所W词素位置概率模 板最能体现该一思想,如表4所示。
[0040] 位置概率特征所设及的每一个词素都是从训练的语料库中提取的,根据公式可W 计算各自的位置概率:
[0041] P(单独成词)=该词素单独成词
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1