一种五笔的长句连打输入方法及其系统的制作方法

文档序号：9810054阅读：2002来源：国知局

一种五笔的长句连打输入方法及其系统的制作方法
【技术领域】
[0001 ]本发明涉及输入法领域，特别涉及五笔输入。
【背景技术】
[0002] 五笔键码短、输入快、多简码，适用于简化字，但是长句用五笔无法输入，需要分解成词组，再逐个词组输入;或者单字输入；因为五笔一个字或一个词组最多只有四个码，每一次选词（或字)不会超过4码，所以不支持长句连打，输入句子时，必须一次一个字或一个词组地输入，输入非常不方便，特别是当输入长句的时候，由于选字或选词组，输入效率非常低，非常影响打字速度。
[0003] 另外五笔虽然单字的重码率低，但词组的重码率高，因此五笔以避免过多重码，普遍不适用大词库，但词库太小时，打字反而不方便；由于开始设计五笔输入时是针对简体字，虽然日后不断改善，86、98五笔版都可以直接用繁体字编码，但使用效果上还有待进一步优化。为了减少重码，五笔中有大量的无理码，这不符合还在的结构和书写规范；不适合输入只知道发音而忘记怎么写的字；另外，五笔字型使用的是字根和码元作为输入时的助记符，86版使用130个字根，98版需要使用245个字根，记忆量要比拼音大。

【发明内容】

[0004] 本发明的目的在于提供一种五笔的长句连打输入方法及其系统，通过建立双向隐马尔可夫BHMM模型，实现了五笔长句的准确连打，提高了输入效率和打字速度，解决了大词库重码率高、打字员五笔字根记忆负担量大的问题。
[0005] 为解决上述技术问题，本发明的实施方式提供了一种五笔的长句连打输入方法，包含以下步骤：
[0006] 预先建立双向隐马尔可夫BHMM模型；在所述BHMM模型中，长句中的每个汉字的出现概率由该汉字及该汉字的前T个汉字在数据库中同时出现的次数、该汉字出现的次数、输入的字根转换为该汉字的次数、该字根出现的总次数、该汉字的前T个汉字同时出现的次数、该汉字及该汉字的后T个汉字同时出现的次数决定;所述T为大于1的自然数；
[0007] 持续接收用户输入的五笔码；
[0008] 根据所述BHMM模型和所述持续接收到的五笔码，获取在该BHMM模型中出现概率最大的各汉字所组成的长句；
[0009] 输出所述获取的在该BHMM模型中出现概率最大的各汉字所组成的长句。
[0010] 与此相应，本发明的另一个目的是提供五笔的长句连打输入系统，包含:客户端与云端服务器；
[0011] 云端服务器包含：
[0012] 模型建立模块，用于预先建立双向隐马尔可夫BHMM模型;在所述BHMM模型中，长句中的每个汉字的出现概率由该汉字及该汉字的前T个汉字在数据库中同时出现的次数、该汉字出现的次数、输入的字根转换为该汉字的次数、该字根出现的总次数、该汉字的前T个汉字同时出现的次数、该汉字及该汉字的后T个汉字同时出现的次数决定;所述T为大于1的自然数；
[0013] 匹配模块，用于根据所述ΒΗΜΜ模型和来自所述客户端的持续接收到的五笔码，获取在该ΒΗΜΜ模型中出现概率最大的各汉字所组成的长句；
[0014] 返回模块，用于将所述匹配模块获取的长句返回至所述客户端；
[0015] 所述客户端包含：
[0016] 接收模块，用于持续接收用户输入的五笔码；
[0017] 发送模块，用于将所述持续接收到的五笔码发送至所述云端服务器；
[0018] 输出模块，用于输出所述云端服务器返回的所述长句。
[0019] 本发明实施方式相对于现有技术而言，提供了一种五笔的长句输入方法和长句输入系统，通过建立双向隐马尔可夫ΒΗΜΜ模型，使得用户通过五笔可以支持连打长句，不需要严格按照五笔输入法规则去键入，一方面输出高准确度高，另一方面解决了上述五笔输入法缺点中大词库重码率过多的问题。整体输入效率和打字速度得到了提高，同时两码输入也降低了打字员对五笔字根记忆量的要求。
[0020] 另外，在所述持续接收用户输入的五笔码的步骤中，持续接收到的是每个汉字的前2个五笔码，仅可通过两码完成对一个汉字的输入，减少了键入的码元，更加提高了打字的整体速度。
[0021 ]另外，所述ΒΗΜΜ模型建立在云端服务器内；所述根据ΒΗΜΜ模型和所述持续接收到的五笔码，获取在该ΒΗΜΜ模型中出现概率最大的各汉字所组成的长句的步骤中，包含以下子步骤:客户端将所述持续接收到的五笔码实时发送至所述云端服务器，由所述云端服务器根据ΒΗΜΜ模型和所述持续接收到的五笔码，实时获取所述长句，优化了五笔转化汉字的效率。
[0022] 另外，定义该双向隐马尔可夫ΒΗΜΜ模型中所述Τ为3,即四元双向隐马尔科夫模型。具体而言，就是在传播过程中，当前状态分别受其前和后三个状态的影响，输出的结果正确率较高，且速度也较快。采用四元双向隐马尔科夫模型，其效率高于三元及三元以下的模型精度，而采用比四元更高阶的模型时，精度提升并非很明显，消耗资源的速度非常迅速，且算法复杂度不断提升，因此，通过采用四元双向隐马尔科夫模型，可以在控制算法复杂度的同时，保证算法的精度。
[0023] 另外，所述根据ΒΗΜΜ模型和所述持续接收到的五笔码，获取在该ΒΗΜΜ模型中出现概率最大的各汉字所组成的长句的步骤中，根据以下公式获取所述长句：
[0025] 其中，W1，W2，W3, . . .，WN表示获取的所述长句中的各汉字，P(Zi |wi)表示在汉字Wi出现的情况下字根Zi出现的概率，Wi+l，Wi+2，Wi+3表示汉字Wi的后3个汉字，Wi-l，Wi-2，Wi-3表示汉字Wi的前3个汉字，1 < i <N，N为所述长句包含的汉字个数。
[0026] 另外，在所述持续接收用户输入的五笔码后，根据所述ΒΗΜΜ模型和所述持续接收到的五笔码，获取在该ΒΗΜΜ模型中出现概率次大的各汉字所组成的长句;输出所述出现概率次大的各汉字所组成的长句，方便用户选择。
【附图说明】
[0027] 图1是根据本发明第一实施方式的五笔的长句连打输入方法的流程图；
[0028] 图2是根据本发明第二实施方式的五笔的长句连打输入系统的结构示意图。
【具体实施方式】
[0029]为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请各权利要求所要求保护的技术方案。
[0030] 本发明第一实施方式涉及一种五笔的长句输入方法，具体实现流程如图1所示，详述如下：
[0031] 在步骤S101中预先建立双向隐马尔可夫BHMM模型;在该BHMM模型中规定，长句中的每个汉字的出现概率由该汉字及该汉字的前3个汉字同时在数据库中出现的次数、该汉字出现的次数、输入的字根转换为该汉字的次数、该字根出现的总次数、该汉字的前3个汉字同时出现的次数、该汉字及该汉字的后3个汉字同时出现的次数决定。其中，需要说明的是，本实施方式涉及的数据库中存储有各训练语料及五笔码元。
[0032]在步骤S102中，持续接收用户输入的五笔码，在键盘上a至y的25个按键上按照五笔输入法既定的规则分布有字根，持续接收的五笔码是每个单字的前2个五笔码，即在输入长句或词组时，每个字从五笔码到汉字的转化只用该字的其字的前2个五笔码。
[0033]在步骤S103中，将持续接收到的五笔码发送至云端服务器。
[0034]在步骤S104中，云端服务器根据BHMM模型和所述持续接收到的五笔码，实时在该 BHMM模型中出现概率最大及次优的各汉字所组成的长句。
[0035] 具体BHMM模型算法步骤如下所述：
[0036] 模型中，长句中的每个汉字的出现概率由该汉字及该汉字的前T个汉字在数据库中同时出现的次数、该汉字出现的次数、输入的字根转换为该汉字的次数、该字根出现的总次数、该汉字的前T个汉字同时出现的次数、该汉字及该汉字的后T个汉字同时出现的次数决定。在本实施方式中，以T为3为例进行说明；
[0037]假设…，心为汉字的字根，W1，W2，W3,…，w为输出的汉字，在该模型的正向传播过程中，即该字的五笔转化成汉字是由该汉字的前T个汉字时决定时，输出的句子为：
[0039]在本实施方式中采用四元双向隐马尔科夫模型（即T = 3)，也即，在传播过程中，当前状态受其前三个状态的影响。所以最终，式(1)简化为：
[0040]
[0041 ]其中，# ( Wi，Wi-1，Wi-2，Wi-3 )表示汉字Wi，Wi-1，Wi-2，Wi-3 同时出现的次数，# ( Wi )表示汉字^出现的总次数;#(Z1，W1)表示字根21转换为汉字^的次数，#( Z1)表示字根21出现的总次数。
[0042] 其实，正向传播过程包括字根转为汉字的过程和准确候选汉字，即通过式（1)计算得到值最大的输出的过程。在反向传播过程中，即该字的2个五笔转化成汉字是由该汉字的后T个(

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周诚;赵世亭;
技术所有人：上海嵩恒网络科技有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。