拼音文字词库构建方法和装置及输入方法和系统的制作方法

文档序号:8402770阅读:308来源:国知局
拼音文字词库构建方法和装置及输入方法和系统的制作方法
【技术领域】
[0001]本发明涉及电子设备领域,尤其是拼音文字词库构建方法和装置,以及拼音文字输入方法及系统。
【背景技术】
[0002]目前,随着计算机、平板电脑、智能手机的广泛使用,除了键盘输入之外,也出现了其他输入法,比如语音输入。但是,键盘输入法仍然是最常用的输入方式。应当指出,本申请文件中提及的键盘输入法不仅包含利用物理键盘的输入法,还包括利用虚拟键盘的输入法。
[0003]目前,通行的计算机拼音文字键盘均为逐字母输入法,是由打字机键盘直接照搬过来,在拼音文字输入时存在击键次数过多,输入速度慢,出错率高。并且由于输入完全依赖单词的拼写形式,因此盲输时困难很大。拼音文字是一种表音文字,逐字母输入发使拼音语言的这一特征优势无法发挥出来,使计算机拼音文字输入始终处于低效状态,与计算机技术与高速信息处理技术的飞速发展形成鲜明的对比和矛盾。应当指出,在本申请文件中,拼音文字指的是基于字母的各种语言文字,单词由包含于一定数量字母集合中的若干字母排列组合而构成,不同词之间用比如空格等分词符分隔开,比如英文、德文、法文等,但并不限于这几种语言。
[0004]为了提高输入速度,现在已经出现了很多拼音文字输入法,在用户输入一个单词的前若干个字母后,可以依据词库进行智能提示,用户可以据此选择目标单词,从而用户可以减少输入字母,一定程度上提高输入速度。以英文输入为例,比如用户输入ea两个首字母,贝1J输入法可自动提示each、earth、ear、early等以ea开头的英文词汇,用户继续输入ear,贝U更新为提示earth、ear、early等以ear开头的英文词汇。在此期间,用户可以通过鼠标点击选择或用每个提示词汇前对应的数字代码来选择相应词汇。
[0005]但是,仍然期望能进一步提高输入速度。对于输入速度的提高而言,词库构建是非常关键的因素,但目前各种词库均限于单个单词的词库。

【发明内容】

[0006]本发明针对上述问题,提出了一种拼音文字词库构建方法和装置以及拼音文字输入方法和系统,其能进一步提高输入速度。
[0007]在一个方面,本发明提供了一种拼音文字词库构建方法,包括以下步骤:动态地获取用户输入的字符串;分析所述字符串,确定其中由分词符分隔的字符串片段,将其视为拼音文字单词并记录下来;记录其中词库中不存在的拼音文字单词出现的次数;以及如果所述拼音文字单词出现的次数已达到阈值,则将所述拼音文字单词存储于词库中;分析所述拼音文字单词之间的关联关系,即单词出现的前后关系,并将其前后关系记录下来;记录所述拼音文字单词之间的关联关系出现的次数;以及如果所述关联关系出现的次数已达到阈值,则将所述单词之间的关联关系存储于词库中。
[0008]在另一个方面,本发明提供了一种拼音文字词库构建装置,包括:字符串获取模块,用于动态地获取用户输入的字符串;分析记录模块,用于分析所述字符串,确定其中由分词符分隔的字符串片段,将其视为拼音文字单词并记录下来;其还用于分析所述拼音文字单词之间的关联关系,即单词出现的前后关系,并将其前后关系记录下来;词库,用于存储单词以及单词之间的关联关系;以及存储模块,用于记录其中词库中不存在的拼音文字单词出现的次数,并且如果所述拼音文字单词出现的次数已达到阈值,则将所述拼音文字单词存储于词库中;以及用于记录所述拼音文字单词之间的关联关系出现的次数,并且如果所述关联关系出现的次数已达到阈值时,将所述单词之间的关联关系存储于词库中。
[0009]在又一个方面,本发明提供了一种拼音文字输入方法,其包括以下步骤:接收用户输入;显示词库中与用户输入相匹配的字符串,供用户从中选择最终输入字符串;其中,所述字符串包括单词以及具有关联关系的单词组合。
[0010]在再一个方面,本发明提供了一种拼音文字输入系统,其包括:用户接口控制模块,用于接收用户输入;词库,用于存储单词和单词之间的关联关系;显示模块,用于显示输入界面;以及输入法引擎,用于根据用户输入的拼音文字字符到词库中搜索匹配的字符串,并将匹配的字符串显示于显示模块上,其中所述字符串包括单词以及具有关联关系的单词组合。
[0011]相比现有的拼音文字词库构建方法和装置以及拼音文字输入法和系统,采用本发明能够大幅提闻输入速度。
【附图说明】
[0012]下面将参照附图描述本发明的具体实施例,其中:
[0013]图1示出了根据本发明实施例的拼音文字词库构建方法的流程图;
[0014]图2示出了根据本发明实施例的拼音文字词库构建装置的结构示意图;
[0015]图3示出了根据本发明实施例的拼音文字输入方法的流程图;并且
[0016]图4示出了根据本发明实施例的拼音文字输入系统的结构示意图。
【具体实施方式】
[0017]为了使本发明的技术方案及优点更加清楚明白,以下结合附图对本发明的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本发明的一部分实施例,而不是所有实施例的穷举。
[0018]如图1所示,其中示出了本发明实施例的拼音文字词库构建方法的流程图。
[0019]首先,在步骤S101,动态地获取用户输入的字符串。
[0020]用户输入的字符串可动态地从输入法的输出或从编辑器的输入获取。具体地说,可以动态地记录从输入法输出的字符或字符串以获取用户输入的字符串,比如在用户利用全字母输入法或智能输入法直接输出一串字符时。另外,在用户还利用光标等辅助手段编辑输入时,如果程序允许,也可以动态地从编辑器获取用户的最终输入字符串。
[0021]接着,在步骤S102,分析字符串,确定其中由分词符分隔的字符串片段,将其视为拼音文字单词并记录下来;
[0022]具体地说,用户的输入不仅包括字母、空格、标点符号等,还会包括用数字选择输入法提示的单词,利用删除键或Backspace后退键删除已输入内容。因此,不能仅是简单地原封不动地记录输入,还需要对用户的输入进行分析处理,区别出删除等功能性输入,并转化为处理命令以对输入内容进行相应处理,最终确定出与用户所需对应的输入内容,然后对输入内容进行分析,拆分为语句,并确定每个语句包含的单词。
[0023]在对用户输入内容的分析处理中,将作为确定开始或终止记录单词关联关系的标志,通常两个分句符之间的非空字符串视为是一个语句。由于在拼音文字中,逗号、句号、问号等是将语句分隔开的符号,因此在本专利申请文件中将这些符号统称为分句符。进一步地,在拼音文字中一个语句中的不同单词总是由空格或音节分隔符分隔开,于是,可以将一个语句中两个空格或音节分隔符之间的非空字符串视为是一个单词。在本专利申请文件中,分词符指的是空格或音节分隔符。在大多拼音文字中,分词符是空格。但在某些拼音文字中,分词符并不是空格,而是用音节分隔符(tsheg)来分隔。
[0024]随后,在步骤S103,记录其中词库中不存在的拼音文字单词出现的次数;以及如果拼音文字单词出现的次数已达到阈值,则将拼音文字单词存储于词库中。
[0025]通常,如果判断用户确定输入的单词与词库中的已有单词匹配,则视为是常用单词。但是,如果某一单词不能与词库中的已有单词匹配,但用户又确认其输入正确,则记录为自造词。同时还记录该单词出现的次数。可以设定,在经过若干次(比如3次,当然不限于3次,系统或用户可灵活设置这个次数)用户确认这个单词输入正确后,则可录入用户的词库,在后续用户输入该单词时,不再要求用户确认输入正确。并且该单词可作为常规单词,智能地给用户提示。
[0026]接着,在步骤S104,分析拼音文字单词之间的关联关系,即单词出现的前后关系,并将其前后关系记录下来。
[0027]具体地说,对字符串中的语句进行分析,将用户输入
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1