一种盲文输入方法和系统的制作方法

文档序号:2583243阅读:284来源:国知局
专利名称:一种盲文输入方法和系统的制作方法
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种盲文输入方法和系统。
背景技术
人机交互是盲人使用计算机的主要困难之一。人机交互包含输入与输出两个方面。前者是指通过键盘、鼠标等输入设备将文字或指令输入计算机,后者则是指将文字或其它信息以视觉和语音方式输出给用户。由于语音合成技术日益成熟,将文字转化为语音输出已经成为现实,因此对盲人而言,文字输入困难是制约其使用计算机的重要因素。盲人输入文字困难一方面是由于视力障碍,另一方面是因为盲人使用的汉语盲文字与汉字不同。汉语盲文是基于布莱尔盲文体系,每个盲文字符均以两列共6个点作为一个基本结构(Ii ),这6个点有的凸起,有的不凸起,形成64种变化,即能表示64种不同的字符。在汉语盲文中,每种字符表示汉语拼音中的一个声母、韵母或声调,不同的字符按照汉语拼音规则组成合法音节以表示汉字,也就是说汉语盲文是一种拼音性的文字。盲人日常书写盲文是通过在纸上扎出不同的盲文字符,其书写习惯与采用汉语拼音和标准键盘的普通拼音输入法有很大差别。因此,盲人通过键盘使用现有的汉字输入法输入汉字是很困难的。为了解决盲人在计算机上输入文字困难的问题,已经出现一些帮助盲人实现汉字输入的系统,其实现方法主要有两种一种是利用普通计算机的标准键盘和现有汉字输入法并配合语音合成技术提示用户,另一种是采用与盲文对应的键盘设置和相应的输入法。 目前,多数盲人计算机系统支持上述第一种方法,但它存在两个问题首先,标准键盘键数过多,不适合视力障碍者快速摸读;其次,由于盲人对字形的观念弱,而盲文使用的字音拼读方法又与通过标准键盘输入英文字符构成的汉字拼音不同,导致盲人使用现有汉字输入法很不方便。为解决这一问题,出现了上述第二种方法,即采用与盲文对应的键盘设置和相应输入法,其主要思路是在标准键盘上定义6个,或是采用专用的6键键盘,使得6个键分别对应盲文的6个凸点,当6个键中的某一个或几个同时按下时,可对应盲文中的一个盲符。这种方法与盲符相对应,相对来说更符合盲文的输入习惯,但由于操作时候要同时按下多个键,不符合通常的按键习惯,因此往往需要一段时间的训练才能熟练使用。而且,采用这种方法的用户输入的是盲文,当用户需要与普通人交流时,还需要将其转换为汉字。现有的汉语盲文到汉字的转换通常是先将盲文转换为拼音,再使用语言模型并结合规则将拼音转换为汉字,但是这种方法在盲文到拼音和拼音到汉字两次转换中都有可能产生错误,而且忽视了汉语盲文自身的特点,导致汉语盲文到汉字转换正确率并不高。

发明内容
本发明的目的在于提供一种盲文输入方法和系统。其能够有效利用汉语盲文自身特征,提高盲文转换为汉字的正确率。为实现本发明的目的而提供的一种盲文输入方法,包括下列步骤
步骤100.根据N-gram语言模型,结合汉语盲文分词连写规则,构造盲汉转换模型;步骤200.根据输入的盲文句子B,列出其对应的所有候选汉语句子S;步骤300.利用所述盲汉转换模型,求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P (S I B),取P (S I B)值最大的对应的汉语词串的序列3 = 4, ... 作为最终汉语句子输出。所述步骤100,包括下列步骤步骤110.利用已有真实盲文语料的训练方法,获取汉语词串为S时对应的盲文B 的分词连写概率P (B ι S)I S) = V{bxb2...bm I Sxs2...sm) = ΠΡ(办,I 丨)其中,PO^i | Si)表示汉语词串
/=1
Si在分词连写规则下对应一个盲文词bi的概率;步骤120.根据N-gram语言模型,获取汉语词概率P (S) P(S) =P (W1W2. . . WT) =P (W1) P (W2 I W1)…P (Wi I Wi-^1WiW . . Wi^1) · · · P (WT I WT_n+1WT_n+2
...W1^1) (i = 1···Τ),其中的 N-gram 概率 P(Wi |Wi_n+lWi_n+2. . . Wi^1)通过大量的文本训练得到;步骤130.根据所述分词连写概率P (B I S)和所述汉语词概率P (S),利用贝叶斯公
式P口 I B) =,构造盲汉转换模型。所述P(bi|Si)值的估算采用如下三种方法a. 0-1 规则法假设共有K条规则r2,. . .,ι·κ,若汉语词串Si满足规则r」,记作R(s,r」)=True, 否则记作R(s,rj) = False ;采用0,1两个值定义分词连写概率,即当满足任一条规则时, 定义其概率值为1,否则为0。b. α规则法
fa, ]r,,i (s,,r,) = 7>Me引入一个参数α,令P(Ak) = ^ J ’,采用α,1-α两个值定义分
11 -a vr{, R(sl ’ r) = False
词连写概率;c.逐条规则统计法对不同的规则采用不同的α值,对于规则j = 1,2,..., K,分别估计α」;1 在训练集中,统计解码时所有规则认为可连写的串,将串的个数记为;2:统计这C,个串中实际被连写的串的个数,记为(山_);3 计算 α j 的估计值式=c,U)/cr(j)。b中,所述参数α的值的选取有两种方法方法一采用一个开发集调试,变换参数值,寻找使盲-汉转换性能最好的参数值;方法二 采用一个训练集,在训练集上直接估计α的值,估计方法如下1 在训练集中,统计解码时所有规则认为可连写的串,将串的个数记为q ;
1, BrjiR(S^rj) = True 0 VrjiR(S^rj) = Fahe
2 统计这q个串中实际被连写的串的个数,记为Ct ;3 计算 α 的估计值 =在步骤200中,利用盲文中的声调信息,筛除声调不相符的候选汉语句子。在步骤200中,采用基于盲文声调信息的词语选取方法记录文中所有已出现的标调词和其转换结果,当后文中有未标调词出现时,先和已经记录的标调词比较盲文字符是否相同,若相同,则这个盲文字符对应的候选汉字即使已记录的标调词的转换结果。所述步骤300之后,包括下列步骤步骤400.根据自然语言规则对所述最终汉字句子进行修改,并将修改的结果存入缓冲区作为自适应语料,建立基于cache的自适应模型,对盲汉转换模型进行调整,得到优化的盲汉转换模型。为实现本发明的目的还提供一种盲文输入系统,所述系统,包括模型构造模块,用于根据N-gram语言模型,结合汉语盲文分词连写规则构造盲汉转换模型;候选搜索模块,用于根据输入的盲文句子B,列出其对应的所有候选汉语句子S ;盲汉转换模块,用于利用所述盲汉转换模型,求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P (S I B),取P (S I B)值最大的对应的汉语词串的序列S = S1,
作为最终汉语句子输出。所述模型构造模块,包括分词连写概率获取模块,用于利用已有真实盲文语料的训练方法,获取汉语词串为S时对应的盲文B的分词连写概率P (B I S)P(万 I S) = P(ZJ1Z)2...^ 15,52-^) = 17^/1其中,P(bi|Si)表示汉语词串
/=1
f
Si在分词连写规则下对应一个盲文词bi的概率;汉语词概率获取模块,用于根据N-gram语言模型,获取汉语词概率P (S);P(S) =P (W1W2. . . WT) =P (W1) P (W2 I W1)…P (Wi I Wi-^1WiW . . Wi^1) · · · P (WT I WT_n+1WT_n+2 ...W1^1) (i = 1···Τ),其中的 N-gram 概率 P(Wi |Wi_n+lWi_n+2. . . Wi^1)通过大量的文本训练得到;模型计算模块,用于根据所述分词连写概率P (B I S)和所述汉语词概率P (S),利用
贝叶斯公式PC I B) = P(BlS(^(S),构造盲汉转换模型。所述P(biSi)值的估算采用如下三种方法a. 0-1 规则法假设共有K条规则r2,. . .,ι·κ,若汉语词串Si满足规则r」,记作R(s,r」)=True, 否则记作R(s,rj) = False ;采用0,1两个值定义分词连写概率,即当满足任一条规则时, 定义其概率值为1,否则为0。
1, BrjiR(^rj) = True 0 VrjtRisl,^) = False b. α规则法 引入一个参数α,令Ρ( , μ,)
BrrRi^r) = True ^rj,R(S^rl)- False
,采用α,1-α两个值定义分
7词连写概率; c.逐条规则统计法对不同的规则采用不同的α值,对于规则j = 1,2,..., K,分别估计α」;1 在训练集中,统计解码时所有规则r」认为可连写的串,将串的个数记为Cr(j);2:统计这C,个串中实际被连写的串的个数,记为(3山_);3 计算 α j 的估计值式 7 =c,{j)lcr{j)。b中,所述参数α的值的选取有两种方法方法一采用一个开发集调试,变换参数值,寻找使盲_汉转换性能最好的参数值;方法二 采用一个训练集,在训练集上直接估计α的值,估计方法如下1 在训练集中,统计解码时所有规则认为可连写的串,将串的个数记为Ct ;2 统计这q个串中实际被连写的串的个数,记为Ct ;3 计算α的估计值 .A = Wr。所述系统,还包括声调信息筛除模块,用于利用盲文中的声调信息,筛除声调不相符的候选汉语句子。基于盲文声调信息的词语选取方法记录文中所有已出现的标调词和其转换结果, 当后文中有未标调词出现时,先和已经记录的标调词比较盲文字符是否相同,若相同,则这个盲文字符对应的候选汉字即使已记录的标调词的转换结果。所述系统,还包括语言模型自适应模块,用于根据自然语言规则对所述最终汉字句子进行修改,并将修改的结果存入缓冲区作为自适应语料,建立基于cache的自适应模型,对盲汉转换模型进行调整,得到优化的盲汉转换模型。本发明的有益效果是融合现行盲文的多种特点,使用语言模型并结合各种规则,能够以很高的转换正确率将用户输入的整句整篇盲文直接转换为汉字,并且在此基础上,利用已有的转换结果进行语言模型自适应,当再有同样输入时,产生语言模型自适应调整后的结果,进一步提高转换的正确率。


图1是本发明的盲文输入方法的步骤流程图;图2是本发明中使用盲汉转换模型得到最终转换结果并输出的步骤流程图;图3是本发明中构造盲汉转换模型的步骤流程图;图4是本发明的盲文输入系统的工作方法的示意图;图5是本发明的盲文输入系统的结构图;图6是构建词网格的示意图。
具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明的一种盲文输入方法和系统进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明结合当前最常用的现行盲文的特点,提出了一种新的汉语盲文输入方法。 在输入的过程中,融合现行盲文的多种特点,使用语言模型并结合各种规则,能够以很高的转换正确率将用户输入的整句整篇盲文直接转换为汉字,并且在此基础上,利用已有的转换结果进行语言模型自适应,当再有同样输入时,产生语言模型自适应调整后的结果,进一步提高转换的正确率,从根本上解决了盲人使用计算机时输入文字困难的问题。本发明的一种盲文输入方法和系统,基于N-gram语言模型,根据当前字或词之前的N-I个字或词估计当前盲文对应某个具体字或词的概率的统计语言模型。在此基础上, 本发明主要包括三个创新点融合汉语盲文分词连写规则和N-gram语言模型的盲汉转换模型、基于盲文声调信息的词语选取方法、语言模型自适应。下面结合上述目标详细介绍本发明的一种盲文输入方法,图1是本发明的盲文输入方法的步骤流程图,如图1所示,所述方法,包括下列步骤步骤100.对输入的盲文词串,列出其对应的所有候选汉语句子S,使用融合汉语盲文分词连写规则和N-gram语言模型的盲汉转换模型,得到最终转换结果并输出;汉语盲文是一种表音性文字,与汉语拼音类似,每个盲文字符对应多个汉字候选。 通常采用N-gram语言模型处理汉语拼音到汉字的转换问题。但是如果简单的像拼音到汉字转换那样使用N-gram语言模型处理汉语盲文到汉字的转换问题,会丢掉汉语盲文自身的信息,即汉语盲文最大的特征——分词连写规则,因此本发明提出了一种融合汉语盲文分词连写规则和N-gram语言模型的盲汉转换模型。分词连写,是汉语盲文独有的重要规则。所谓分词,即是把一个个词分开来写;所谓连写,即是按照盲文的特殊性,避免音节结构过于松散,便于盲人摸读,将一些词连起来写。在盲文中使用分词连写规则是为了更准确清晰的表达语意,例如,几个多音节词组成的固定词组表示国名、社会单位等专名概念,按词分写,如中华I人民I共和国;动词跟事态助词“着”“了”“过”连写,如看见了。由于汉语盲文其独特的分词连写规则与汉语中词语的概念不同,有的盲文词不能在我们已有的普通汉语词典中找到与之直接对应的中文词, 如“看见了”在盲文规则是一个词,而根据汉语习惯不把“看见了”当作一个词,而是“看见” 这个词和“了”合成的一个词组。根据盲文分词连写规则,这样的词很多,不能一一列举,因此在转换时,对于每个这样的盲文词,将这个盲文词中的字或者这个词中包含的普通汉语词拆开作为一个字或词,如“看见了”可以拆为“看见”和“了”,“一小段”拆为“一”,“小”和 “段”。这样,针对这个词,对其拆分的单元使用融合汉语盲文分词连写规则和N-gram语言模型的盲汉转换模型N-gram语言模型进行转换。而对于只表示一个字或者一个普通汉语词的盲文字符,直接用N-gram语言模型进行转换即可。图2是本发明中使用盲汉转换模型得到最终转换结果并输出的步骤流程图,如图 2所示,所述步骤100,包括下列步骤步骤110.根据N-gram语言模型,结合汉语盲文分词连写规则,构造盲汉转换模型;融合汉语盲文分词连写规则和N-gram语言模型的盲汉转换模型构造如下假设输入为一个盲文词串B = bib2. . . bm,其中bji = 1,. . .,m)是盲文词。也就是说,这个盲文句子由η个盲文词组成。其中每一个盲文词可对应Hii (i = 1,…,η)个汉语词。也就是说,盲文词h对应Hi1个汉语词,盲文词ID2对应m2个汉语词…盲文词bn对应 mn个汉语词,这样,这个盲文句子就会对应mi*m2*…*mn个汉语句子。然后通过计算,从这些汉语句子中选出一句作为最终转换结果。其中X (j = 1,2, . . . m,)是一个长度为的汉语词,即《,最终转换结果为B对应的汉语词串S = S1S2-知。图3是本发明中构造盲汉转换模型的步骤流程图,如图3所示,所述步骤110,包括下列步骤步骤111.利用已有真实盲文语料的训练方法,获取汉语词串为S时对应的盲文B 的概率,称为分词连写概率P (B ι S);在书写盲文时,根据盲文分词连写规则,同一个词(词组),可能会因为在不同句子中的成分不同,导致这个盲文词(词组)的写法不同(即可能连写,也可能分开写)。下面举一个例子,“种菜”这个词,在句子“小王种菜”中,动词“种”充当谓语动词,在这种情况下,根据盲文分词连写规则,动词“种”和宾语“菜”应当分写,故这句的盲文应该书写为 "xiaowang zhong cai";而在句子“小王是种菜能手”中,动词“种”和宾语“菜”组成的动宾短语作定语,在这种情况下,根据盲文分词连写规则,动词“种”和宾语“菜”不应当分写, 故这句的盲文应该书写为“xiaowang shi zhongcai nengshou”。从上面的例子,可以看出,相同的一个词(词组)由于在不同句子中代表的句子成分不同,在盲文分词连写规则的规定下可能连写也可能分写。而现有的方法很难精准的判断出一句话(中文)中的每一个词的词性以及句子成分,也就是说,对于给定一个汉语句子S,利用现有方法不能确定其对应的盲文句子B是否完全符合盲文分词连写规则,即P(B|Q是不确定的。为此,我们提出了一种利用我们已有的真实盲文语料的训练方法若语料中有词组既有连写又有分写的情况,那么我们使用一种基于统计的方法,得到每一个这种词组的P (B I S)。有了这些基于经验的P(B|Q概率值,在盲文到汉语的转换时,根据输入的盲文B和转换得到的结果S,利用事先训练得到的相应P (B I S),进行计算。由于各个盲文词连写与否是相互独立的,因此P (B I S)可分解为
m?(B 丨幻=?(b、b2“.bm 丨 V2... )二 Πp^/ 丨
(=1其中,P(bi|Si)表示汉语词串Si在分词连写规则下对应一个盲文词bi (即该词串既不会被拆分为多个盲文词,也不会作为一部分而包含于其它盲文词,而恰好对应独立的盲文词h)的概率。其中,P(bi I Si)值的估计可采用如下三种方法步骤Illa. 0-1规则法事实上,某一个汉语词串是否应连写为一个盲文词,是由中国盲文规范中的分词连写规则决定的。这些规则大约有几百条,一般根据词串中的词的词性、在句中的成分、词串的长短等决定某一词是否连写。因此,可以根据这些规则决定分词连写的概率。假设共有K条规则r2, . . . rK, 若汉语词串Si满足规则r」,记作R(s,rj) = True,否则记作R(s,r」)=False.因此,基于这些规则,可采用0,1两个值定义分词连写概率,即当满足任一条规则时,定义其概率值为1,否则为0。
10
权利要求
1.一种盲文输入方法,其特征在于,所述方法,包括下列步骤步骤100.根据N-gram语言模型,结合汉语盲文分词连写规则,构造盲汉转换模型; 步骤200.根据输入的盲文句子B,列出其对应的所有候选汉语句子S ; 步骤300.利用所述盲汉转换模型,求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P (S I B),取P (S I B)值最大的对应的汉语词串的序列S = S1S2. . . Sffl作为最终汉语句子输出。
2.根据权利要求1所述的盲文输入方法,其特征在于,所述步骤100,包括下列步骤 步骤110.利用已有真实盲文语料的训练方法,获取汉语词串为S时对应的盲文B的分词连写概率P (B I S)
3.根据权利要求2所述的盲文输入方法,其特征在于,所述P(bi I Si)值的估算采用如下三种方法
4.根据权利要求3所述的盲文输入方法,其特征在于,b中,所述参数α的值的选取有两种方法方法一采用一个开发集调试,变换参数值,寻找使盲-汉转换性能最好的参数值;方法二 采用一个训练集,在训练集上直接估计α的值,估计方法如下1在训练集中,统计解码时所有规则认为可连写的串,将串的个数记为q ;2统计这q个串中实际被连写的串的个数,记为Ct ; 3:计算α的估计值0一^,、。
5.根据权利要求1所述的盲文输入方法,其特征在于,在步骤200中,利用盲文中的声调信息,筛除声调不相符的候选汉语句子。
6.根据权利要求1所述的盲文输入方法,其特征在于,在步骤200中,采用基于盲文声调信息的词语选取方法记录文中所有已出现的标调词和其转换结果,当后文中有未标调词出现时,先和已经记录的标调词比较盲文字符是否相同,若相同,则这个盲文字符对应的候选汉字即使已记录的标调词的转换结果。
7.根据权利要求1所述的盲文输入方法,其特征在于,所述步骤300之后,包括下列步骤步骤400.根据自然语言规则对所述最终汉字句子进行修改,并将修改的结果存入缓冲区作为自适应语料,建立基于cache的自适应模型,对盲汉转换模型进行调整,得到优化的盲汉转换模型。
8.一种盲文输入系统,其特征在于,所述系统,包括模型构造模块,用于根据N-gram语言模型,结合汉语盲文分词连写规则构造盲汉转换模型;候选搜索模块,用于根据输入的盲文句子B,列出其对应的所有候选汉语句子S ;盲汉转换模块,用于利用所述盲汉转换模型,求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P (S I B),取P (S I B)值最大的对应的汉语词串的序列S = S1W2. . . Sffl作为最终汉语句子输出。
9.根据权利要求8所述的盲文输入系统,其特征在于,所述模型构造模块,包括 分词连写概率获取模块,用于利用已有真实盲文语料的训练方法,获取汉语词串为S时对应的盲文B的分词连写概率P (B I S)mP(^I4S1) = P(V)2,.九 Iv2…=I )其中,P(bi|Si)表示汉语词串&在‘=1 ,分词连写规则下对应一个盲文词bi的概率;汉语词概率获取模块,用于根据N-gram语言模型,获取汉语词概率P (S);P(S) =P (W1W2. . . WT) =P (W1) P (W2 I W1)…P (Wi I Wi-JrtWiW · · WH) · · · P (WT I WT_n+1WT_n+2...W1^1) (i = 1···Τ),其中的N-gram概率P (Wi | Wi_n+lWi_n+2. . . Wi^1)通过大量的文本训练得到; 模型计算模块,用于根据所述分词连写概率P (B I S)和所述汉语词概率P (S),利用贝叶斯公式=,构造盲汉转换模型。
10.根据权利要求9所述的盲文输入系统,其特征在于,所述P(bi I Si)值的估算采用如下三种方法a. 0-1规则法假设共有K条规则巧,r2,. . .,rK,若汉语词串Si满足规则记作R(s,r」)=True,否则记作R(s,rj) = False ;采用0,1两个值定义分词连写概率,即当满足任一条规则时,定义其概率值为1,否则为O。
11.根据权利要求10所述的盲文输入系统,其特征在于,b中,所述参数α的值的选取有两种方法方法一采用一个开发集调试,变换参数值,寻找使盲-汉转换性能最好的参数值; 方法二 采用一个训练集,在训练集上直接估计α的值,估计方法如下1在训练集中,统计解码时所有规则认为可连写的串,将串的个数记为q ;2统计这q个串中实际被连写的串的个数,记为Ct ;3计算α的估计值0卢=^,乂。
12.根据权利要求8所述的盲文输入系统,其特征在于,所述系统,还包括声调信息筛除模块,用于利用盲文中的声调信息,筛除声调不相符的候选汉语句子。
13.根据权利要求8所述的盲文输入系统,其特征在于,基于盲文声调信息的词语选取方法记录文中所有已出现的标调词和其转换结果,当后文中有未标调词出现时,先和已经记录的标调词比较盲文字符是否相同,若相同,则这个盲文字符对应的候选汉字即使已记录的标调词的转换结果。
14.根据权利要求8所述的盲文输入系统,其特征在于,所述系统,还包括语言模型自适应模块,用于根据自然语言规则对所述最终汉字句子进行修改,并将修改的结果存入缓冲区作为自适应语料,建立基于cache的自适应模型,对盲汉转换模型进行调整,得到优化的盲汉转换模型。
全文摘要
本发明公开了一种盲文输入方法和系统。所述方法包括下列步骤步骤根据N-gram语言模型,结合汉语盲文分词连写规则,构造盲汉转换模型;根据输入的盲文句子B,列出其对应的所有候选汉语句子S;利用所述盲汉转换模型,求得输入的盲文句子为B时对应的所有候选汉语句子S的概率值P(S|B),取P(S|B)值最大的对应的汉语词串的序列S=s1s2...sm作为最终汉语句子输出。其能够有效利用汉语盲文自身特征,提高盲文转换为汉字的正确率。
文档编号G09B21/02GK102156693SQ201110070320
公开日2011年8月17日 申请日期2011年3月23日 优先权日2011年3月23日
发明者林守勋, 王向东, 王超, 钱跃良 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1