一种基于词位标注的藏文分词方法

文档序号:6423667阅读:235来源:国知局
专利名称:一种基于词位标注的藏文分词方法
技术领域
本发明涉及计算机及藏文信息处理领域,更具体地说,涉及藏文分词领域,提供了 一种基于词位标注的藏文分词方法。
背景技术
随着计算机对藏文支持能力的增强,以及我国少数民族地区信息化进程的逐步推 进,越来越多的藏文信息开始通过计算机进行存储和传播,藏文信息处理的研究也从操作 系统支持、排版印刷、输入法和字库等基础的文字层面逐步转向文字识别、文语转换、文本 校正、信息检索、机器翻译等文本层面。然而,藏文是一种拼音文字,其各音节之间由音节点 分隔,但是词与词之间却没有分隔标记,同汉语类似,分词是藏文信息处理的基础。藏文音 节(藏字)的结构如图1所示,藏文句子由多个藏文音节构成,如图2所示。经过多年的发展,研究人员已经提出了多种藏文分词方法,包括基于字符串匹配 的方法、基于格助词和接续特征的方法。基于字符串匹配的分词方法又称为机械分词方法。这种方法依照特定的策略将待 分析的文字序列与词典中的词条进行匹配,若在词典中找到某个词,则匹配成功(识别出 一个词)。按照扫描方向的不同,字符串匹配方法可以分为正向匹配和逆向匹配,也可以同 时从两个方向进行切分,发现切分歧义,并进行切分歧义消解。基于格助词和接续特征的方法充分利用藏文的语言特性进行分词。利用字切分 特征和字性库先‘认字’,利用标点符号和关联词将藏文的段落分成句子,在单个句子中利 用格助词将句子‘分块’,再用词典进行块内分词。该方法的技术特点是,综合运用藏文字、 词、句等各类形态特征,在藏文格助词、接续特征、字性知识库以及词典的支持下,采用逐级 定位的确定性算法实现藏文的自动分词。现有的藏文分词方法虽然在小规模实验中取得了较好的效果,但由于藏文语言文 字的特点,存在将两个藏字紧缩为一个藏字等等同汉语不同的情况,在方法实现中需要考 虑很多细节问题;同时,上述方法在切分的各个阶段,包括断句、分块、块内分词等都存在切 分歧义的情况,导致切分精度不高;另外,上述方法都依赖于藏文词典,对新词术语、命名实 体等未登录词的处理效果不尽如人意。

发明内容
针对现有藏文分词方法中对切分歧义及未登录词等两个重要问题处理效果较差 的问题,本发明的目的在于提供一种藏文分词的方法,以期在整体上取得更好的分词结果。所述方法包括以下步骤A.对输入的藏文文本,以标点符号为标志切分为一系列藏文句子;B.对每个藏文句子,以藏文音节点为标志切分为一系列藏文音节;C.对每个藏文音节,根据其所处上下文环境采用优选方法从知识库中查找并选择 一个词位标签赋予该音节,词位标签为如下五种之一词首,词中,词尾,独立,紧缩;
D.将所有被标记为“紧缩”的音节还原为两个音节,并依前后顺序分别标记为“词 尾”和“独立”;E.将被标记为词首的音节至其后面第一个被标记为词尾的音节合并为一个词; 如果被标记为词首的音节与其后面第一个被标记为词尾的音节之间有一个或者多个被标 记为词中的音节,则将被标记为词首的音节与其后面第一个被标记为词尾的音节以及二者 之间一个或者多个被标记为词中的音节合并为一个词;F.将所有被标记为“独立”的音节以及所有未被合并的音节作为单音节词;G.将经过以上处理的藏文词序列作为分词结果输出。所述标点符号包括藏文单垂符、双垂符、四垂符、句间空格等。所述上下文环境包括该音节之前的一个或者多个音节,该音节之后的一个或者 多个音节。所述词位标签共五种词首、词中、词尾、独立、紧缩。各词位标签的具体含义为 在由多个音节构成的藏文词中,第一个音节为“词首”,最后一个音节为“词尾”,它们之间的 所有音节都为“词中”;若一个词由单个音节构成,则此音节将被标记为“独立”;藏文中存 在部分音节是由两个音节按照语法规则合并形成的紧缩音节,此时该音节将被标记为“紧 缩”。所述知识库包含了所有的藏文音节在不同的上下文环境中被标记为五种词位标 签之一的概率值,该概率值通过预先对语料进行统计获得。语料由一批藏文文本组成,每个 藏文文本包含若干藏文句子,每个藏文句子包含若干藏文音节,每个音节对应一个词位标 签。在语料中,每个音节的词位标签由人工标注而成。对语料的统计,首先计算一个音节在 一个上下文环境中被标记为五种词位标签之一的次数,并计算该音节与该上下文环境在语 料中同现的总次数,前者除以后者即为该音节在该上下文环境中被标记为该词位标签的概 率值。所述优选方法是指当前音节在当前上下文环境中有多个词位标签可选时,根据预 先统计的概率值,取概率值最大的词位标签作为当前音节的词位标签。所述紧缩音节是指,藏文中部分词如属格助词“S”、作格助词“ ^f ”、位格助词“ s ”、 饰集词“%.”、离合词“ ^‘”、终结词“ ”等,可以省略音节点直接黏附于其前面的音节后,与 其前面的音节一起合并形成一个新的音节,这个新的音节即被称为紧缩音节。与现有技术相比,本发明的积极效果为本发明能够平衡地看待词表词和未登录词的识别问题。将藏文文本中所有的词都 采用统一的音节标注过程来实现。在构建所需的知识库时,既不必专门强调词表词信息,也 不用专门设计特定的未登录词识别模块,又避免了采用藏文格助词和接续特征所引起的各 种歧义,使得系统的设计大大简化。在音节标注过程中,所有的音节根据预定义的特征进行 词位特征的学习,获得一个知识库,然后在待切分的藏文文本上,根据音节所处的上下文环 境,得到一个词位的分类结果。最后根据词位标签的定义,获得最终的分词结果。整个过程 中,没有显式地区分词表词和未登录词,所有的处理都是在音节一级的单元上完成,使得分 词称为音节重组的简单过程。知识库的构建过程中考虑了音节所处的上下文环境,实质上 体现了相邻音节之间的结合紧密程度。


图1是一个典型的藏文音节的结构图;藏文的音节可以有一个或多个基本字符组 成,最多可以有七个;这七个基本字符里有一个基字和一个元音符号,其它的字符分别加在 基字的上、下、前、后、再后。在一个音节里面,除了基字之外,其它部分都可能不出现。最简 单的藏文音节只包含一个基字,而不包含其他组成部分;图2是一个典型的藏文句子的结构图;藏文句子中以音节点分隔相邻音节,句子 以空格或者藏文的单垂符、双垂符、四垂符等结束;图3是本发明方法的流程图。
具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。如图3所示,本发明所述的分词方法300的具体流程是对于输入的藏文文本 302,步骤304根据标点符号和空格将藏文文本切分为一系列的藏文句子;对于切分出来的 每个藏文句子,步骤306以藏文音节点为标志将句子切分为一系列藏文音节;对每个音节, 步骤308从知识库310中查找当前音节在当前的上下文中可能的词位标签及相应的概率 值,若标签不唯一,则选择概率值最大的词位标签作为当前音节的标签;步骤312将被标记 为“紧缩”标签的藏文音节拆分成两个音节并分别标记为“词尾”和“独立”;步骤314将所 有被标记为“词首”的音节与其后面第一个被标记为“词尾”的音节以及二者之间一个或者 多个被标记为“词中”的音节合并为一个词;步骤316将所有被标记为“独立”的音节以及 所有未被合并的音节作为单音节词;步骤318将经过以上处理的藏文词序列作为分词结果 输出。在具体的实施过程中,将五种词位标签分别以一个大写英文字母表示B表示词 首,M表示词中,E表示词尾,S表示独立,J表示紧缩。单音节词对应的词位标签序列是S, 双音节词对应的词位标签序列是BE ;三音节词对应的词位标签序列是BME ;四音节词对应 的词位标签序列是BMME ;五音节词对应的此为标签序列是BMMME ;由更多音节构成的词,其 对应的词位标签序列可以类推,首标签为B,尾标签为E,中间是多个M标签。下面结合附图和具体实施例来对本发明提供的技术方案进行详细描述。实施例一一个典型的藏文句子的分词过程对于输入的藏文文本302。,·^^^‘响布‘巧‘勺^^专^从苟^^气考 ’‘^^啻和叫卻"^步骤304根据藏文的单垂符“1”将其切分为一个藏文句子;步骤306将藏文句子切分成一系列藏文音节(这里以斜线隔开),切分之后的结果 为:^7^7 〒/ 命7 命I 有7 多7 -gy f/够7 知丨 W/ 气丨 ■’/ %丨 _7 1;步骤308对每个音节贴词位标签,这里将词位标签放在斜线后面表示,贴标签之 后的结果为
VB f/ ^'/S ^'/B 响7J 節/B % f'/B f/E f/B ^'/J ^'/S aiVS ^'/B ^VE ^'/B n/E ^'/B
^'/E I'/S ψ/Β _7E ^'/S 1;
步骤312将标记为J的音节拆分并还原为两个音节,处 理之后的结果为(以下划线标出该步骤所影响的部分,下同) ,'/B 考 VE f/S ^'/B ^/E 令/S ^/B % f'/B f/E f/B %/ 令/S ^VS
aiVS ^'/B ^VE ^'/B f^'/E ^'/B ^wVE I'/S ^'/B 嘱./E ^'/S 1;步骤314将所有被标记为B的音节与其后面 被标记为E的音节合并为一个词,处理之后的结果为 ^y ^vs 如/ ^vs w ^ / ^vs ^vs aiVs 从.『/t/s —w/s ι;步骤316将所有被标记为S的音节以及所有未被合并的音节作为单音节词,处理 之后的结果为 Wl s^l联/ w ^ /^y ^y ^y ^ψη ^fv ’戰丨 Iy 和"W/ ^y ];步骤318将以上结果作为最终分词结果输出。实施例二 另一个典型的藏文句子的分词过程对于输 入的藏 文文本 302:步骤304根据藏文的单垂符“1”将其切分为一个藏文句子;步骤306将藏文句子切分成一系列藏文音节(这里以斜线隔开),切分之后的结果 为
茂’/ ^y ^y ^ '/ η,·/ q,·/ Φη 茂’/ ajgqy ajy 面气/ ^^iy ga^y ^y ^y ^y 而,叹./ajy ψ·/ 气/ y .步骤308对每个音节贴词位标签,这里将词位标签放在斜线后面表示,贴标签之 后的结果为
VB ^'/E ^'/S 節/B 泸VM ^/M 喷/E 畸./B 诚./J ^'/S 31^ZB 53VE —./B 霄/J %/B
ψ/Ε ^Τ'/Β 识7J l^'/S 53TB Ψ Ε 气/S 1;步骤312将标记为J的音节拆分并还原为两个音节,处理之后的结果为 VB ^/E ^S ^/B
^VM ^'/M ,'/E ,'/B ^/E ^VS ^VS 3i^ZB 即/E ^/B ^/E 汉./S %/Β,'/B ψ/Ε 吶卻甩 ^/E
;7S iVS 51VB 妒VE,/S 1;步骤314将所有被标记为B的音节与其后面被标记为E的音节以及 二者之间一个或者多个被标记为M的音节合并为一个词,处理之后的结果为 ,布y ^ys 有举”队喷/ q和/ ^ys 有'/S观啊■/严/S 两矛7 l^Trq/厂/S i,7S 5r^VVSl;步骤316将所有被标记为S的音节以及所有 未被合并的音节作为单音节词,处理之后的结果为步骤318将以上结果作为最终分词结果输出。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种基于词位标注的藏文分词方法,其步骤为1)以标点符号为标志,将输入的藏文文本切分为一系列藏文句子;2)对每个藏文句子,以藏文音节点为标志,将其切分为一系列藏文音节;3)对每个藏文音节,根据藏文音节所处上下文环境从知识库中查找并选择一个词位标 签赋予该音节;所述词位标签包括词首、词中、词尾、独立、紧缩;所述知识库包含藏文音 节在不同的上下文环境中被标记为五种所述词位标签之一的概率值;4)将所有被标记为紧缩的音节还原为两个音节,并依前后顺序分别标记为词尾和独立;5)将被标记为词首的音节至其后面第一个被标记为词尾的音节合并为一个词;6)将所有被标记为独立的音节以及所有未被合并的音节作为单音节词。
2.如权利要求1所述的方法,其特征在于所述知识库的建立方法为1)选取一批藏文文本,作为训练语料;2)对训练语料中的每个音节进行词位标签标注;3)对对标注的训练语料进行统计,首先计算一个音节在某一上下文环境中被标记为五 种所述词位标签之一的次数n,并计算该音节与该上下文环境在训练语料中同现的总次数 N,然后利用η除以N得到该音节在该上下文环境中被标记为所标注词位标签的概率值。
3.如权利要求1或2所述的方法,其特征在于所述从知识库中查找并选择一个词位标 签赋予该音节时,如果该音节在当前上下文环境中有多个词位标签可选,则取概率值最大 的词位标签作为该音节的词位标签。
4.如权利要求3所述的方法,其特征在于所述上下文环境包括当前音节之前的一个 或者多个音节,当前音节之后的一个或者多个音节。
5.如权利要求3所述的方法,其特征在于所述标点符号包括藏文单垂符、双垂符、四 垂符、句间空格。
6.如权利要求1所述的方法,其特征在于将所有被标记为紧缩的音节还原为两个音 节,依前后顺序,将所还原后的两音节中前面音节标记为词尾,将后面音节标记为独立。
7.如权利要求1所述的方法,其特征在于如果被标记为词首的音节与其后面第一个被 标记为词尾的音节之间有一个或者多个被标记为词中的音节,则将被标记为词首的音节与 其后面第一个被标记为词尾的音节以及二者之间一个或者多个被标记为词中的音节合并 为一个词。
全文摘要
本发明公开了一种基于词位标注的藏文分词方法,属于藏文信息处理领域。本方法为1)对输入的藏文文本,以标点符号为标志切分为一系列藏文句子;2)对每个藏文句子,以藏文音节点为标志切分为一系列藏文音节;3)对每个藏文音节,根据其所处上下文环境从知识库中查找并选择一个词位标签赋予该音节;4)将所有被标记为紧缩的音节还原为两个音节,并依前后顺序分别标记为词尾和独立;5)将被标记为词首的音节至其后面第一个被标记为词尾的音节合并为一个词;6)将所有被标记为独立的音节以及所有未被合并的音节作为单音节词。本发明没有显式地区分词表词和未登录词,所有的处理都是在音节一级的单元上完成,使得分词称为音节重组的简单过程。
文档编号G06F17/27GK102135956SQ201110116500
公开日2011年7月27日 申请日期2011年5月6日 优先权日2011年5月6日
发明者刘汇丹, 吴健, 诺明花, 马龙龙 申请人:中国科学院软件研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1