一种五笔的长句连打输入方法及其系统的制作方法

文档序号:9810054阅读:2002来源:国知局
一种五笔的长句连打输入方法及其系统的制作方法
【技术领域】
[0001 ]本发明涉及输入法领域,特别涉及五笔输入。
【背景技术】
[0002] 五笔键码短、输入快、多简码,适用于简化字,但是长句用五笔无法输入,需要分解 成词组,再逐个词组输入;或者单字输入;因为五笔一个字或一个词组最多只有四个码,每 一次选词(或字)不会超过4码,所以不支持长句连打,输入句子时,必须一次一个字或一个 词组地输入,输入非常不方便,特别是当输入长句的时候,由于选字或选词组,输入效率非 常低,非常影响打字速度。
[0003] 另外五笔虽然单字的重码率低,但词组的重码率高,因此五笔以避免过多重码,普 遍不适用大词库,但词库太小时,打字反而不方便;由于开始设计五笔输入时是针对简体 字,虽然日后不断改善,86、98五笔版都可以直接用繁体字编码,但使用效果上还有待进一 步优化。为了减少重码,五笔中有大量的无理码,这不符合还在的结构和书写规范;不适合 输入只知道发音而忘记怎么写的字;另外,五笔字型使用的是字根和码元作为输入时的助 记符,86版使用130个字根,98版需要使用245个字根,记忆量要比拼音大。

【发明内容】

[0004] 本发明的目的在于提供一种五笔的长句连打输入方法及其系统,通过建立双向隐 马尔可夫BHMM模型,实现了五笔长句的准确连打,提高了输入效率和打字速度,解决了大词 库重码率高、打字员五笔字根记忆负担量大的问题。
[0005] 为解决上述技术问题,本发明的实施方式提供了一种五笔的长句连打输入方法, 包含以下步骤:
[0006] 预先建立双向隐马尔可夫BHMM模型;在所述BHMM模型中,长句中的每个汉字的出 现概率由该汉字及该汉字的前T个汉字在数据库中同时出现的次数、该汉字出现的次数、输 入的字根转换为该汉字的次数、该字根出现的总次数、该汉字的前T个汉字同时出现的次 数、该汉字及该汉字的后T个汉字同时出现的次数决定;所述T为大于1的自然数;
[0007] 持续接收用户输入的五笔码;
[0008] 根据所述BHMM模型和所述持续接收到的五笔码,获取在该BHMM模型中出现概率最 大的各汉字所组成的长句;
[0009] 输出所述获取的在该BHMM模型中出现概率最大的各汉字所组成的长句。
[0010] 与此相应,本发明的另一个目的是提供五笔的长句连打输入系统,包含:客户端与 云端服务器;
[0011] 云端服务器包含:
[0012] 模型建立模块,用于预先建立双向隐马尔可夫BHMM模型;在所述BHMM模型中,长句 中的每个汉字的出现概率由该汉字及该汉字的前T个汉字在数据库中同时出现的次数、该 汉字出现的次数、输入的字根转换为该汉字的次数、该字根出现的总次数、该汉字的前T个 汉字同时出现的次数、该汉字及该汉字的后T个汉字同时出现的次数决定;所述T为大于1的 自然数;
[0013] 匹配模块,用于根据所述ΒΗΜΜ模型和来自所述客户端的持续接收到的五笔码,获 取在该ΒΗΜΜ模型中出现概率最大的各汉字所组成的长句;
[0014] 返回模块,用于将所述匹配模块获取的长句返回至所述客户端;
[0015] 所述客户端包含:
[0016] 接收模块,用于持续接收用户输入的五笔码;
[0017] 发送模块,用于将所述持续接收到的五笔码发送至所述云端服务器;
[0018] 输出模块,用于输出所述云端服务器返回的所述长句。
[0019] 本发明实施方式相对于现有技术而言,提供了一种五笔的长句输入方法和长句输 入系统,通过建立双向隐马尔可夫ΒΗΜΜ模型,使得用户通过五笔可以支持连打长句,不需要 严格按照五笔输入法规则去键入,一方面输出高准确度高,另一方面解决了上述五笔输入 法缺点中大词库重码率过多的问题。整体输入效率和打字速度得到了提高,同时两码输入 也降低了打字员对五笔字根记忆量的要求。
[0020] 另外,在所述持续接收用户输入的五笔码的步骤中,持续接收到的是每个汉字的 前2个五笔码,仅可通过两码完成对一个汉字的输入,减少了键入的码元,更加提高了打字 的整体速度。
[0021 ]另外,所述ΒΗΜΜ模型建立在云端服务器内;所述根据ΒΗΜΜ模型和所述持续接收到 的五笔码,获取在该ΒΗΜΜ模型中出现概率最大的各汉字所组成的长句的步骤中,包含以下 子步骤:客户端将所述持续接收到的五笔码实时发送至所述云端服务器,由所述云端服务 器根据ΒΗΜΜ模型和所述持续接收到的五笔码,实时获取所述长句,优化了五笔转化汉字的 效率。
[0022] 另外,定义该双向隐马尔可夫ΒΗΜΜ模型中所述Τ为3,即四元双向隐马尔科夫模型。 具体而言,就是在传播过程中,当前状态分别受其前和后三个状态的影响,输出的结果正确 率较高,且速度也较快。采用四元双向隐马尔科夫模型,其效率高于三元及三元以下的模型 精度,而采用比四元更高阶的模型时,精度提升并非很明显,消耗资源的速度非常迅速,且 算法复杂度不断提升,因此,通过采用四元双向隐马尔科夫模型,可以在控制算法复杂度的 同时,保证算法的精度。
[0023] 另外,所述根据ΒΗΜΜ模型和所述持续接收到的五笔码,获取在该ΒΗΜΜ模型中出现 概率最大的各汉字所组成的长句的步骤中,根据以下公式获取所述长句:
[0025] 其中,W1,W2,W3, . . .,WN表示获取的所述长句中的各汉字,P(Zi |wi)表示在汉字Wi出 现的情况下字根Zi出现的概率,Wi+l,Wi+2,Wi+3表示汉字Wi的后3个汉字,Wi-l,Wi-2,Wi-3表示汉 字Wi的前3个汉字,1 < i <N,N为所述长句包含的汉字个数。
[0026] 另外,在所述持续接收用户输入的五笔码后,根据所述ΒΗΜΜ模型和所述持续接收 到的五笔码,获取在该ΒΗΜΜ模型中出现概率次大的各汉字所组成的长句;输出所述出现概 率次大的各汉字所组成的长句,方便用户选择。
【附图说明】
[0027] 图1是根据本发明第一实施方式的五笔的长句连打输入方法的流程图;
[0028] 图2是根据本发明第二实施方式的五笔的长句连打输入系统的结构示意图。
【具体实施方式】
[0029]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实 施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中, 为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基 于以下各实施方式的种种变化和修改,也可以实现本申请各权利要求所要求保护的技术方 案。
[0030] 本发明第一实施方式涉及一种五笔的长句输入方法,具体实现流程如图1所示,详 述如下:
[0031] 在步骤S101中预先建立双向隐马尔可夫BHMM模型;在该BHMM模型中规定,长句中 的每个汉字的出现概率由该汉字及该汉字的前3个汉字同时在数据库中出现的次数、该汉 字出现的次数、输入的字根转换为该汉字的次数、该字根出现的总次数、该汉字的前3个汉 字同时出现的次数、该汉字及该汉字的后3个汉字同时出现的次数决定。其中,需要说明的 是,本实施方式涉及的数据库中存储有各训练语料及五笔码元。
[0032]在步骤S102中,持续接收用户输入的五笔码,在键盘上a至y的25个按键上按照五 笔输入法既定的规则分布有字根,持续接收的五笔码是每个单字的前2个五笔码,即在输入 长句或词组时,每个字从五笔码到汉字的转化只用该字的其字的前2个五笔码。
[0033]在步骤S103中,将持续接收到的五笔码发送至云端服务器。
[0034]在步骤S104中,云端服务器根据BHMM模型和所述持续接收到的五笔码,实时在该 BHMM模型中出现概率最大及次优的各汉字所组成的长句。
[0035] 具体BHMM模型算法步骤如下所述:
[0036] 模型中,长句中的每个汉字的出现概率由该汉字及该汉字的前T个汉字在数据库 中同时出现的次数、该汉字出现的次数、输入的字根转换为该汉字的次数、该字根出现的总 次数、该汉字的前T个汉字同时出现的次数、该汉字及该汉字的后T个汉字同时出现的次数 决定。在本实施方式中,以T为3为例进行说明;
[0037]假设…,心为汉字的字根,W1,W2,W3,…,w为输出的汉字,在该模型的正 向传播过程中,即该字的五笔转化成汉字是由该汉字的前T个汉字时决定时,输出的句子 为:
[0039]在本实施方式中采用四元双向隐马尔科夫模型(即T = 3),也即,在传播过程中,当 前状态受其前三个状态的影响。所以最终,式(1)简化为:
[0040]
[0041 ]其中,# ( Wi,Wi-1,Wi-2,Wi-3 )表示汉字Wi,Wi-1,Wi-2,Wi-3 同时出现的次数,# ( Wi )表示汉 字^出现的总次数;#(Z1,W1)表示字根21转换为汉字^的次数,#( Z1)表示字根21出现的总次 数。
[0042] 其实,正向传播过程包括字根转为汉字的过程和准确候选汉字,即通过式(1)计算 得到值最大的输出的过程。在反向传播过程中,即该字的2个五笔转化成汉字是由该汉字的 后T个(
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1