基于音节切分的维哈柯文智能输入法的制作方法

文档序号:6442076阅读:170来源:国知局
专利名称:基于音节切分的维哈柯文智能输入法的制作方法
技术领域
本发明涉及字母输入法领域,属于拼音语言如维(维吾尔)语、哈(哈萨克)语,柯(柯尔克孜)语智能输入法的改进,特别是基于音节切分的维哈柯文智能输入法。
背景技术
近年来,随着少数民族信息化技术的不断进步,有关新疆少数民族语言的电子软件编程技术也有了比较大的发展,但是在维吾尔语、哈萨克语和柯尔克孜语输入法领域上,仍然缺少一种可提高少数民族语言文字(维语、哈语,柯语)输入效率和改善其输入质量的智能输入法,虽然出现了一些遵循Unicode标准的、以规则排序展现候选词的简单智能输入法,但是其使用起来仍然很不方便,未能满足用户快速查找单词的需求。

发明内容
本发明的目的在于提供一种基于音节切分的维哈柯文智能输入法,可以降低用户键入维哈柯文字母的数量并大大提高录入单词的速度,减少输入维哈柯文拼写错误,进一步提高用户的查询维哈柯文的需求,从而达到快速准确输入所需维哈柯文字的目的。本发明的目的是这样实现的:一种基于音节切分的维哈柯文智能输入法,其步骤如下:
(I )构建索引:以每个维语、哈语或柯语单词所有音节的首字母按序形成字母串组合,将按序排列的字母串组合归纳集合成总音节首字母索引,以总音节首字母索引中的字母串组合对应形成具有总音节首字母索引中按序排列的字母串组合的单词索引,单词索引中的所有单词与总音节首字母索引的所有字母串组合分别相对应,其中某些单词其字母串组合包含有总音节首字母索引的某一字母串组合相同的字母,且单词索引中的单词其字母的排序也与总音节首字母索引的某一字母串组合的字母排序完全相同;
(II )使用上述索引检索用户所输入目标单词的步骤:
①判断用户所输入目标单词所有音节,依次录入用户所输入目标单词中每个音节的首字母,获取由用户所输入目标单词中按序排列的音节首字母组成的字符串,或者直接获取用户所输入的以音节首字母组合成的字符串,再将字符串的第一音节首字母与总音节首字母索引所集合的所有字母串组合排位第一的字母相比对,若从字符串中所获取的第一音节首字母不同于总音节首字母索引所集合的所有字母串组合排位第一的字母,则定位失败,停止查询用户所输入目标单词或字符串,执行下述步骤②;
若从字符串中所获取的第一音节首字母与总音节首字母索引所集合的某一字母串组合排位第一的字母相同,则定位成功,判断字符串中是否有位于其第一音节首字母之后的第二音节首字母,若上述音节首字母串中没有位于其第一音节首字母之后的第二音节首字母,则确认该第一音节首字母为最后一个字母,直接执行下述步骤③;
若字符串具有位于其第一音节字母之后的第二音节字母,则构建以上述相同的第一音节首字母开头的音节首字母串组合为集合的二次音节首字母索引,从二次音节字母索引中定位该第二音节首字母,将字符串的第二音节字母与二次音节字母索引所集合的所有字母串组合排位第二的字母相比对,若从字符串中所获取的第二音节首字母不同于二次音节首字母索引所集合的所有字母串组合排位第二的字母,则定位失败,停止查询用户所输入目标单词或字符串,执行下述步骤②;
若从字符串中所获取的第二音节首字母与二次音节首字母索引所集合的某一字母串组合排位第二的字母相同,则定位成功,判断字符串中是否有位于其第二音节首字母之后的第三音节首字母,若字符串中没有位于其第二音节首字母之后的第三音节首字母,则确认该第二音节首字母为最后一个字母,直接执行下述步骤③;
若字符串具有位于第二音节首字母之后的第三音节首字母,则构建以上述按序排列的第一音节首字母与第二音节首字母组合而开头的音节首字母串组合为集合的三次音节首字母索引,从三次音节首字母索引中定位该第三音节首字母,将字符串的第三音节首字母与三次音节首字母索引所集合的所有字母串组合排位第三的字母相比对,并比照上述按序对第一、第二音节首字母检索的步骤,若对第三音节首字母定位失败,停止查询用户所输入目标单词或字符串,执行下述步骤②,若对第三音节首字母定位成功,判断字符串中是否有位于其第三音节首字母之后的第四音节首字母,若字符串中没有位于其第三音节首字母之后的第四音节首字母,则确认该第二音节首字母为最后一个字母,直接执行下述步骤③,根据对字符串进行检索的步骤依次类推,对字符串完成检索,最终对字符串中排在某一位的字母定位失败,则作出停止查询字符串的判断,继而执行下述步骤②,或者最终对字符串中排在其最后一位的字母定位成功,并在确认该最后一位的字母后,直接执行下述步骤③;
②、直接从单词数据库中尝试检索未能被上述步骤①检索出的字符串,若从单词数据库中未能调出与字符串相同的单词,则将用户所输入目标单词录入单词数据库和/或单词索引,并判断用户所输入目标单词中按序排列的音节,获取用户所输入目标单词所有音节首字母,以使用户所输入目标单词各个音节首字母组成的新音节首字母串组合录入总音节首字母索引,计算、记录用户所输入目标单词的以往输入使用频率,至此结束,完成对用户此次所输入目标单词的登记、补录工作;
③、根据总音节首字母索引,从单词索引中获得与字符串相关的临时索引,该临时索引中所罗列的每一候选单词其按序排列的音节的首字母组合与字符串相同,从单词数据库中定位出该临时索引中的第一候选单词,获取该第一候选单词的信息,并判断在该临时索引中是否还有位于其第一候选单词之后的第二候选单词,若在该临时索引中还有位于其第一候选单词之后的第二候选单词,则确定第一候选单词不是最后单词,从单词数据库中定位出临时索引中的第二候选单词,获取该第二候选单词的信息,若在该临时索引中没有位于其第一候选单词之后的第二候选单词,则确定第一候选单词是最后单词,按照本步骤③上述所说的从单词数据库中将临时索引中所有单词逐一检索出并逐一获取每个单词信息的判断步骤依次类推,直至确认将临时索引所列最后一单词检索出并获取该最后一单词信息为止;根据检索出的各个候选单词的使用频率高低,将临时索引中的所有候选单词按顺序排列,再展现、显示所有候选单词,当临时索引中的某一单词被用户选中输入一次后,重新计算、记录被用户从临时索引中选中的候选单词、用户所输入目标单词或字符串的以往输入使用频率,至此结束,完成对用户此次所输入单词或字符串的检索工作。
本发明利用维吾尔文,哈萨克文和克尔克孜文音节来分割其各单词,并以每个音节的首字母序列来形成一级索引(总音节首字母索引),以一级索引对应的单词序列的索引形成(二级)单词索引,当用户所输入的音节首字母序列时,根据一级索引检索(二级)单词序列索引,根据(二级)单词索引获取单词序列,根据索引单词的使用频率生成候选词目列表(索引)供用户选择,并根据用户输入单词的使用频率以动态更新单词频率。本发明的特点是:1)根据维哈柯文都用音节组成单词的语言共性特点(维吾尔(语)文,哈萨克(语)文和克尔克孜(语)文共同简称为维哈柯文),应用单词的音节首字母组合序列来查找候选单词,并将候选单词以索引的形式提供给用户选择,因此,本发明可以大幅地减少用户输入(字符)量,并提高用户输入单词的速度,同时也可以减少用户录入错误拼写的单词;2)在查询环节,采用(一级)总音节首字母索引和(二级)单词索引,通过这两级索引极大地提高了查询速度,也缩短了用户等待时间;3)采用了记忆功能,根据用户使用的单词的键入频率高低,展现使用频率较高的单词,进一步提高智能化归纳程度;4)采用用户词库功能,并将单词使用频率统计运用到用户词库中,本发明可以有效地提高维吾尔文,哈萨克文和柯尔克孜文的输入速度、质量,避免错误拼写,本发明对于输入设备受限制的智能终端设备特别适用。本发明可以降低用户键入维哈柯文字母的数量并大大提高录入单词的速度,减少输入维哈柯文拼写错误,进一步提高用户的查询维哈柯文的需求,从而达到快速准确输入所需维哈柯文字的目的。


图1是本发明的候选词生成原理流程 图2是本发明的索引及词库关系结构示意 图3是本发明对用户输入新增单词搜索、补录的流程图。
具体实施例方式一种基于音节切分的维哈柯文智能输入法,其步骤如下:
(I )构建索引:以每个维语、哈语或柯语单词所有音节的首字母按序形成字母串组合,将按序排列的字母串组合归纳集合成总音节首字母索引,以总音节首字母索引中的字母串组合对应形成具有与从总音节首字母索引中按序排列的字母串组合的单词索引,单词索引中的所有单词与总音节首字母索引的所有字母串组合分别相对应,其中某些单词其字母串组合包含有总音节首字母索引的某一字母串组合相同的字母,且单词索引中的单词其字母的排序也与总音节首字母索引的某一字母串组合的字母排序完全相同,总音节首字母索引作为一级索引与单词索引相关联,单词索引为从属于总音节首字母索引的二级索引;
(II )使用上述索引检索用户所输入目标单词的步骤:
①、判断用户所输入目标单词所有音节,依次录入用户所输入目标单词中每个音节的首字母,获取由用户所输入目标单词中按序排列的音节首字母组成的字符串,或者直接获取用户所输入的以音节首字母组合成的字符串,再将字符串的第一音节首字母与总音节首字母索引所集合的所有字母串组合排位第一的字母相比对,若从字符串中所获取的第一音节首字母不同于总音节首字母索引所集合的所有字母串组合排位第一的字母,则定位失败,停止查询用户所输入目标单词或字符串,执行下述步骤②; 若从字符串中所获取的第一音节首字母与总音节首字母索引所集合的某一字母串组合排位第一的字母相同,则定位成功,判断字符串中是否有位于其第一音节首字母之后的第二音节首字母,若上述音节首字母串中没有位于其第一音节首字母之后的第二音节首字母,则确认该第一音节首字母为最后一个字母,直接执行下述步骤③;
若字符串具有位于其第一音节字母之后的第二音节字母,则构建以上述相同的第一音节首字母开头的音节首字母串组合为集合的二次音节首字母索引,从二次音节字母索引中定位该第二音节首字母,将字符串的第二音节字母与二次音节字母索引所集合的所有字母串组合排位第二的字母相比对,若从字符串中所获取的第二音节首字母不同于二次音节首字母索引所集合的所有字母串组合排位第二的字母,则定位失败,停止查询用户所输入目标单词或字符串,执行下述步骤②;
若从字符串中所获取的第二音节首字母与二次音节首字母索引所集合的某一字母串组合排位第二的字母相同,则定位成功,判断字符串中是否有位于其第二音节首字母之后的第三音节首字母,若字符串中没有位于其第二音节首字母之后的第三音节首字母,则确认该第二音节首字母为最后一个字母,直接执行下述步骤③;
若字符串具有位于第二音节首字母之后的第三音节首字母,则构建以上述按序排列的第一音节首字母与第二音节首字母组合而开头的音节首字母串组合为集合的三次音节首字母索引,从三次音节首字母索引中定位该第三音节首字母,将字符串的第三音节首字母与三次音节首字母索引所集合的所有字母串组合排位第三的字母相比对,并比照上述按序对第一、第二音节首字母检索的步骤,若对第三音节首字母定位失败,停止查询用户所输入目标单词或字符串,执行下述步骤②,若对第三音节首字母定位成功,判断字符串中是否有位于其第三音节首字母之后的第四音节首字母,若字符串中没有位于其第三音节首字母之后的第四音节首字母,则确认该第二音节首字母为最后一个字母,直接执行下述步骤③,根据对字符串进行检索的步骤依次类推,对字符串完成检索,最终对字符串中排在某一位的字母定位失败,则作出停止查询字符串的判断,继而执行下述步骤②,或者最终对字符串中排在其最后一位的字母定位成功,并在确认该最后一位的字母后,直接执行下述步骤③;
②、直接从单词数据库中尝试检索未能被上述步骤①检索出的字符串,若从单词数据库中未能调出与字符串相同的单词,则将用户所输入目标单词录入单词数据库和/或单词索引,并判断用户所输入目标单词中按序排列的音节,获取用户所输入目标单词所有音节首字母,以使用户所输入目标单词各个音节首字母组成的新音节首字母串组合录入总音节首字母索引,计算、记录用户所输入目标单词的以往输入使用频率,至此结束,完成对用户此次所输入目标单词的登记、补录工作;
③、根据总音节首字母索引,从单词索引中获得与字符串相关的临时索引(列表),该临时索引中所罗列的每一候选单词其按序排列的音节的首字母组合与字符串相同,从单词数据库中定位出该临时索引中的第一候选单词,获取该第一候选单词的信息,并判断在该临时索引中是否还有位于其第一候选单词之后的第二候选单词,若在该临时索引中还有位于其第一候选单词之后的第二候选单词,则确定第一候选单词不是最后单词,从单词数据库中定位出临时索引中的第二候选单词,获取该第二候选单词的信息,若在该临时索引中没有位于其第一候选单词之后的第二候选单词,则确定第一候选单词是最后单词,按照本步骤③上述所说的从单词数据库中将临时索引中所有单词逐一检索出并逐一获取每个单词信息的判断步骤依次类推,直至确认将临时索引所列最后一单词检索出并获取该最后一单词信息为止;根据检索出的各个候选单词的使用频率高低,将临时索引中的所有候选单词按顺序排列,再展现、显示所有候选单词,当临时索引中的某一单词被用户选中输入一次后,重新计算、记录被用户从临时索引中选中的候选单词、用户所输入目标单词或字符串的以往输入使用频率(即对被用户从临时索引中选中的候选单词、用户所输入目标单词或字符串的以往输入使用频次重新计算、记录),用户所输入目标单词与被用户从临时索引中选中的候选单词、字符串均具有关联性,至此结束,完成对用户此次所输入单词或字符串的检索工作。在总音节首字母索引中,将字母串组合按其从头至尾的相同或相似程度分类成子索引,将每一子索引中的所有字母串组合依照其总字母数多少按序排列。用户输入字母序列,计算机首先根据用户所输入的字母序列生成总音节首字母索引(一级索引),再从总音节首字母索引生成二级单词索引,以便给用户提供该单词索引(二级索引),方便用户对单词索引中的单词进行选择,当用户从单词索引中选择候选单词时,计算机自动更新用户所输入单词的使用频率记录,并在下次输入相同序列时,根据更新后的所有单词各自使用频率显示与用户输入单词序列相关或相应的候选单词,当计算机未能在单词索引中检索出与用户所输入单词相同的候选词时,仍将用户所输入单词视为单词,继而在单词数据(库)中检索用户所输入单词,在单词数据(库)中记录该新单词的使用频率,并更新用户所输入单词的使用频率,当计算机甚至未能在单词数据(库)中检索出与用户所输入单词相同的候选词时,则将用户所输入单词视为新增单词,并添加该新增单词到用户词典(单词数据库、单词索引)中。如图1所示,用户输入某一单词的音节首字母序列,根据用户所输入的首字母序列,从词库一级索引(首字母索引)中检索出(二级)单词索引,从(二级)单词索引中取出单词数据,该单词数据包含其单词本身(词义)和使用频率,最后根据与用户所输入单词相关候选单词的使用频率按序排列、展现候选单词。如图2所示,词库包含三块内容:即一级索引(首字母索引)部分一包含维吾尔文,哈萨克文和克尔克孜文单词音节首字母的序列;二级索引部分(单词索引)一包含一级索引所指的单词序列的索引;数据部分一词库(单词数据)保存已有或最终新增单词及其概率信息。如图3所示,当用户成功输入一个单词时,首先判断所输入单词是否是通过智能候选词方式(根据用户所输入单词提供与所输入单词相关的一级、二级索引的方式)输入的,如果是使用智能候选词方式来输入的,则更新该所输入单词的使用频率,如果不是,则继续查询所输入单词,若所输入单词存在于单词数据(库),则同样更新该所输入单词的使用频率,若所输入单词未存于单词数据(库)中,则在单词数据(库)中添加该单词,并记录该所输入单词的使用频率(一次)。
权利要求
1.一种基于音节切分的维哈柯文智能输入法,其特征是: (I )构建索引:以每个维语、哈语或柯语单词所有音节的首字母按序形成字母串组合,将按序排列的字母串组合归纳集合成总音节首字母索引,以总音节首字母索引中的字母串组合对应形成具有在总音节首字母索引中按序排列的字母串组合的单词索引,单词索引中的所有单词与总音节首字母索引的所有字母串组合分别相对应,其中某些单词其字母串组合包含有总音节首字母索引的某一字母串组合相同的字母,且单词索引中的单词其字母的排序也与总音节首字母索引的某一字母串组合的字母排序完全相同; (II )使用上述索引检索用户所输入目标单词的步骤: ①判断用户所输入目标单词所有音节,依次录入用户所输入目标单词中每个音节的首字母,获取由用户所输入目标单词中按序排列的音节首字母组成的字符串,或者直接获取用户所输入的以音节首字母组合成的字符串,再将字符串的第一音节首字母与总音节首字母索引所集合的所有字母串组合排位第一的字母相比对,若从字符串中所获取的第一音节首字母不同于总音节首字母索引所集合的所有字母串组合排位第一的字母,则定位失败,停止查询用户所输入目标单词或字符串,执行下述步骤②; 若从字符串中所获取的第一音节首字母与总音节首字母索引所集合的某一字母串组合排位第一的字母相同,则定位成功,判断字符串中是否有位于其第一音节首字母之后的第二音节首字母,若上述音节首字母串中没有位于其第一音节首字母之后的第二音节首字母,则确认该第一音节首字母为最后一个字母,直接执行下述步骤③; 若字符串具有位于其第一音节字母之后的第二音节字母,则构建以上述相同的第一音节首字母开头的音节首字母串组合为集合的二次音节首字母索引,从二次音节字母索引中定位该第二音节首字母,将字符串的第二音节字母与二次音节字母索引所集合的所有字母串组合排位第二的字母相比对,若从字符串中所获取的第二音节首字母不同于二次音节首字母索引所集合的所有字母串组合排位第二的字母,则定位失败,停止查询用户所输入目标单词或字符串,执行下述步骤②; 若从字符串中所获取的第二音节首字母与二次音节首字母索引所集合的某一字母串组合排位第二的字母相同,则定位成功,判断字符串中是否有位于其第二音节首字母之后的第三音节首字母,若字符串中没有位于其第二音节首字母之后的第三音节首字母,则确认该第二音节首字母为最后一个字母,直接执行下述步骤③; 若字符串具有位于第二音节首字母之后的第三音节首字母,则构建以上述按序排列的第一音节首字母与第二音节首字母组合而开头的音节首字母串组合为集合的三次音节首字母索引,从三次音节首字母索引中定位该第三音节首字母,将字符串的第三音节首字母与三次音节首字母索引所集合的所有字母串组合排位第三的字母相比对,并比照上述按序对第一、第二音节首字母检索的步骤,若对第三音节首字母定位失败,停止查询用户所输入目标单词或字符串,执行下述步骤②,若对第三音节首字母定位成功,判断字符串中是否有位于其第三音节首字母之后的第四音节首字母,若字符串中没有位于其第三音节首字母之后的第四音节首字母,则确认该第二音节首字母为最后一个字母,直接执行下述步骤③,根据对字符串进行检索的步骤依次类推,对字符串完成检索,最终对字符串中排在某一位的字母定位失败,则作出停止查询字符串的判断,继而执行下述步骤②,或者最终对字符串中排在其最后一位的字母定位成功,并在确认该最后一位的字母后,直接执行下述步骤③; ②、直接从单词数据库中尝试检索未能被上述步骤①检索出的字符串,若从单词数据库中未能调出与字符串相同的单词,则将用户所输入目标单词录入单词数据库和/或单词索引,并判断用户所输入目标单词中按序排列的音节,获取用户所输入目标单词所有音节首字母,以使用户所输入目标单词各个音节首字母组成的新音节首字母串组合录入总音节首字母索引,计算、记录用户所输入目标单词的以往输入使用频率,至此结束,完成对用户此次所输入目标单词的登记、补录工作; ③、根据总音节首字母索引,从单词索引中获得与字符串相关的临时索引,该临时索引中所罗列的每一候选单词其按序排列的音节的首字母组合与字符串相同,从单词数据库中定位出该临时索引中的第一候选单词,获取该第一候选单词的信息,并判断在该临时索引中是否还有位于其第一候选单词之后的第二候选单词,若在该临时索引中还有位于其第一候选单词之后的第二候选单词,则确定第一候选单词不是最后单词,从单词数据库中定位出临时索引中的第二候选单词,获取该第二候选单词的信息,若在该临时索引中没有位于其第一候选单词之后的第二候选单词,则确定第一候选单词是最后单词,按照本步骤③上述所说的从单词数据库 中将临时索引中所有单词逐一检索出并逐一获取每个单词信息的判断步骤依次类推,直至确认将临时索引所列最后一单词检索出并获取该最后一单词信息为止;根据检索出的各个候选单词的使用频率高低,将临时索引中的所有候选单词按顺序排列,再展现、显示所有候选单词,当临时索引中的某一单词被用户选中输入一次后,重新计算、记录被用户从临时索引中选中的候选单词、用户所输入目标单词或字符串的以往输入使用频率,至此结束,完成对用户此次所输入单词或字符串的检索工作。
2.根据权利要求1所述的基于音节切分的维哈柯文智能输入法,其特征是:在总音节首字母索引中,将字母串组合按其从头至尾的相同或相似程度分类成子索引,将每一子索引中的所有字母串组合依照其总字母数多少按序排列。
全文摘要
本发明公开了一种基于音节切分的维哈柯文智能输入法,以维哈柯文音节来分割其各单词,并以每个音节的首字母序列来形成一级索引,以一级索引对应的单词序列的索引形成(二级)单词索引,当用户所输入的音节首字母序列时,根据一级索引检索(二级)单词序列索引,根据(二级)单词序列索引获取单词序列,根据索引单词的使用频率生成候选词目列表(索引)供用户选择,并根据用户输入单词的使用频率动态以更新单词频率。本发明可以降低用户键入维哈柯文字母的数量并大大提高录入单词的速度,减少输入维哈柯文拼写错误,进一步提高用户的查询维哈柯文的需求,从而达到快速准确输入所需维哈柯文字的目的。
文档编号G06F17/30GK103207682SQ20111042674
公开日2013年7月17日 申请日期2011年12月19日 优先权日2011年12月19日
发明者尼加提·纳吉米, 买合木提·买买提, 帕肉克·司地克, 马斌 申请人:国家电网公司, 新疆电力信息通信有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1