数字键盘的词根加词缀生成拼音文字词汇的技术和输入方法

文档序号:6551542阅读:402来源:国知局

专利名称::数字键盘的词根加词缀生成拼音文字词汇的技术和输入方法
技术领域
:本发明涉及一种数字键盘的词根加词缀构建和生成拼音文字词汇的技术和输入方法,尤其是快速输入和编辑手机短信的技术方案和系统,其要点是以数字键盘及其软硬件特点为应用环境,借助外文字母同数字0-9键位之间的对应关系,依照外文词根和词缀(尤其是后缀和词尾)之间的构词规律,通过系统自动构建和生成以拼音文字为主的西方语言中的单词和词组,并借助新增功能键把一种语言文字或符号直接转换成另一种语言文字或符号。
背景技术
:西方语言主要是拼音文字,如英语、法语、西班牙语、德语、葡萄牙语等。这些语言中的词汇量非常大,以英文为例,其WebsterEnglishDictionary中就包含数十万英语词汇。同时,这些语言中的词汇往往具有时、体、数、人称、格、性等形态变化;这些变化涉及的词类有动词、名词、代词、形容词等。例如,英文中有时态、人称、数的变化。英语动词work(工作)的时态变体形式就有working,works,worked;俄语中的名词有六种格的变化,形容词还有比较级的区分;西班牙语中名词、形容词、冠词、代词、数词等有性、数的变化,Ele(他)、ela(她)、eles(他们)、elas(她们);estudo(我学习)、estudas(你学习)、estudamos(我们学习);法语中的名词、冠词、形容词有阴性和阳性之分,grand(大,阳性)、grande(大,阴性),等等。举不胜举。由于受手机键盘键位少,内存空间有限等软硬件条件的限制,拼音文字手机中往往需要预装一个包含单词、词组或短语的词汇数据库,以便满足智能预测和快速输入的需要。但要把这些单词及其变体形式全部放入手机词汇库中,一方面会占有巨大的空间,同时还会造成重码率高、查找和锁定候选单字慢的困难,进而影响输入速度。另外,对于系统词汇库中没有的词汇,现行的智能输入技术就无法处理,而必须转换输入模式,采用多次按键、逐个字母挑选输入方式,操作繁琐,影响输入速度。因此,在现有的数字键盘外文(以英文为例)输入技术中,或者是采用逐个字母多次按键挑选的方法(普通输入模式),以牺牲输入速度为代价;或者是以牺牲词汇含盖量为代价,将单词的不同变体形式(如work,working,works,worked)作为独立的词全部放入系统词汇库中(智能输入模式)。显然,这些变体形式需要占用系统词汇库的大量空间,导致系统词汇库的单词含盖量降低。如果一个系统词汇库中包含2万个英语词汇,其中必然有相当部分是动词、形容词、副词、名词等词类的变体,大大限制了实际的词汇量,造成很多英文词汇(词根)被排斥在手机英文数据库之外。而要满足含盖较丰富词汇内容的需要,又必然需要扩大词汇库的占用空间,导致增加重码率,影响输入速度。其实,虽然这些语言的构词规则和方法变化较多,但却有其内在的规律可寻。许多单词是由词根+词缀构成的。比如,英语词汇的数量虽然浩瀚,但是词根和词缀的数量却很有限,尤其是词缀只有几十个,常用的词缀就更少,而这些词缀的构词能力却非常强大。如果能充分利用词根同词缀的构词规律和关系,在输入的操作过程中通过系统的帮助将有限的词根和词缀进行有效、合理的组合,生成大量的词汇,必然会减少系统词汇库的占有空间,扩大系统词汇(词根)的含盖范围,降低重码率,提高输入速度。
发明内容本发明的目的是为了克服和弥补现有手机拼音文字输入技术中词汇含盖量低、键选率高、输入速度慢的缺点,提出一种数字键盘词根加词缀构建和生成拼音文字诃汇的技术和输入、显示、转换的方法。本发明依照拼音文字的构词内在规律,尤其是词根和词缀构词的普遍规律和强大的组合能力,在系统词汇库中主要收录词根和词缀,并利用系统引擎设计和数据优化过程,通过机器将词库中有限的词根和后缀组合生成大量的词汇。该技术节省系统词汇库的占用空间,降低重码率,提高输入速度,同时增加系统数据库的词汇含盖量。本发明提出了一套规范、高效、实用、界面友好、更符合数字键盘特点的拼音文字输入方法和编辑拼音文字短信的技术方案。本发明利用功能键的方式,启动系统中词根与词缀组合和生成词汇的程序,使词根同词缀依照有效、合理的原则,组合生成新的词汇,并以高频优先的原则进行排序,直接通过长按这些词汇所对应的数字键确认并使之上屏。本发明定义出“数字上屏选择、不同语言文字转换”等功能键,借用这些功能键把以数字为代码的当前编码提示信息,直接以数字形式上屏,或转换成另一种语言文字,使输入在任何模式下都能完全依照所需数字、字母、文字等自身编码同数字键的对应关系,直接通过按键进行连贯的、无切换的一体化输入。本发明系统的工作原理是每按一键,系统核心引擎就对所输入的编码信息进行处理,搜索和查找符合条件的内容,同时排除那些不符合条件的内容。随着按键的不断输入,符合条件的候选词汇的范围就会随之越来越小,候选数量也会不断减少,使每一按键的输入成为一个通过语言数据模式进行解码的过程,一个利用系统引擎帮助进行搜索、预测、排除、确定和快速找出所需内容的过程,并在系统词汇库中搜索和查找与输入信息相匹配的候选内容。当候选的词根出现后,如果光标在其上面,就按本发明的“词根加词缀组合键”启动生成程序。随着该程序的启动,系统中词根加词缀的模块程序就开始根据该候选词的词性和构词特征在词汇库中搜索和寻找与之组合有效、合理的词缀(包括词根)并进行组合,同时排除那些不合理的组合可能,生成带有词缀的新的形态形式或新词汇等。通过选定并长按候选词所对应的数字键,该词就直接上屏。当光标不在候选词根上时,就需先移动光标选定,然后再启动本发明中定义的“词根加词缀组合键”,完成词汇生成程序。对于形态变化不规则的词根,本发明采用两种解决方式a.在系统词汇库中收录不规则词汇的词根,在输入过程中由系统组合和生成其不规则的变化形式。具体方法为在系统中单独设定一个数据模块来处理词根不规则的变化形式,同时在系统词汇库中为不规则词的词根添加一个标记,并在模块与不规则词汇之间建立相应的联系,每当选定不规则的词汇并启动“词根加词缀组合”程序后,系统将会启动这一不规则词汇数据模块进行搜索和查找,并按照该词的特殊变化方式生成该词根的不规则形式;b.本方案同时在系统词汇库中收录词汇的不规则形态变化形式,直接依照不规则形式的编码进行输入,确保那些形态变化形式较大的词汇,尤其是词根与词缀开始字母完全不一样(go-went)词汇的快速锁定和输入,既体现灵活机动的输入方式,同时做到系统中词根加词缀生成新词的一致性。本发明提出的数字键盘词根加词缀生成拼音文字词汇的技术和输入方法包括以0~9十个数字键作为表征输入码元,该0~9十个数字键的全部或部分对应多种拼音文字的码元集,分别通过数字键输入相应的文字和显示与该文字相应的数码;通过数字键的操作,可显示出上述输入数码对应的其中任何一种文字词根的高频词汇系列;通过功能键的操作,可显示出词根和词缀自动组合生成的高频词汇系列。通过功能键的操作,可将上述输入的数码直接以数字形式上屏,进入编辑文本。通过功能键的操作,可将上述输入数码对应的编码转换成另一种输入模式或另一种文字的编码,并将上述对应该数码的已经显示的一种文字的高频词汇系列转换并显示成另外一种文字的高频词汇系列;上述显示的任何一种高频词汇系列对应显示有依据汇词频度顺序的阿拉伯数字序号,通过对应的数字键可提取与该数码对应的词汇上屏,进入编辑文本。上述功能键可以设定在不同的键位上进行选择,也可以设定在同一键位上,采用按键进行滚动式的切换选择。这些功能键对输入模式的动态转换功能是临时性的,所需内容被确认后,系统会自动恢复到原来的输入模式下。上述功能键可以被重新定义或相互更换。图1本发明拼音文字输入技术装置界面及其键位设定示意图;图2本发明词根输入示意图;图3本发明词根加词缀组合生成新词汇示意图;图4本发明不规则单词的形态形式输入示意图;图5本发明不规则单词的形态形式输入示意图;图6本发明直接输入不规则单词的形态形式示意图;图7本发明直接输入所需词语的数字编码示意图;图8本发明利用功能键将当前编码提示转换成所需语言文字示意图;图9本发明拼音文字词根加词缀输入程序流程简图。具体实施例方式以下结合附图详细介绍本发明。参见图1所示拼音文字输入技术装置界面及其键位设定。在拼音文字中词根是一个词的核心部分,表示该词的最基本意义,也是构成单词的最小、可以独立使用的单位。例如,work(工作),worked(过去时)、working(进行时)、works(第三人称现在时)等。所有这些词都有一个共同的组成部分work,表示这些词的最基本的意义工作,这个work就是词根。词缀是构形语素的一种,不能独立使用,也没有完整的意义,只表示一种附加意义或语法意义,黏附在词根上构成新词。黏附在词根前面的被称为前缀,黏附词根后面的被称为后缀。后缀又有构词后缀、构形后缀(表示语法意义)之分。为了便于说明理解,本发明中的示例主要以英文为主,但其规律和创新同样适用于其它拼音文字语言a.本发明中的后缀泛指位于词根后的词缀(构词、构形)或表示语法意义的词尾(表示单数、复数、阴性、阳性、中性、时态、体、格等)。如英语中的-ing,-ed,-s,-es,-er,-or,-ment,-est,-ness,-ful,等。b.由两个词根组合在一起构成复合词是拼音文字重要的构词特点之一,本发明中的词缀同时包括依附在词根后面的另一个词根。如英语中的“词根+词根”构成复合名词deadline,driveway,notebook,复合动词outline,sightsee,spotlight,复合形容词lightblue,worldfamous,dogtired等等。词根通常具有较强的构词能力,与词缀相结合构成词汇。不同语言中的词的形态变化形式和种类数量不同,词根+词缀可以构成几个、几十个、甚至上百个不同形式的有“亲缘”关系的词汇。充分利用词根同词缀之间的关系,组合生成大量的词汇。由于拼音文字构词有其内在规律,尤其是词根和词缀构词的强大组词能力,在本发明的系统词汇库中只需收录词根和词缀a.词根动词work,study,use,do,go,look,move,input等;名词box,book,desk,sister,girl,student等;形容词difficult,different,high,low等;b.构形词缀-ing,-ed,-s,es,-d,-ves,等c.构词词缀-er,-or,-ment,-est,-ness,-ful,-able,-tion,-less,-ly,-teen,-ty,等在输入过程中利用系统引擎设计和数据优化过程,将有限的词根和和为数不多的词缀,自动生成大量的词汇。可见,本发明的明显优点在于,它既可以大大节省系统词汇库的占有空间,同时可以扩大系统词汇(词根)的含盖量,加快输入速度。虽然拼音文字的形态变化很有规律性,但是很多语言中也包含有一定数量的不规则现象。据统计,现代英语中现存的不规则动词总数有二百多个,其中有些动词的变化形式包含一定规律,如动词原形、过去式、过去分词形式完全相同(cut、hit、let、cut、put)等,有些不规则的形式是在基本词根上做一些微小的调整,但也有些的变化形式较大,如a.规则动词的进行时是在动词词根后加ing,但重读闭音节结尾的动词则需要先双写最后一个辅音字母再加形态形式-ingput--putting,get---getting,bet---betting;有的辅音+e结尾的动词需要先去掉e,然后再加形态后缀-ingbecome---becoming,use---using,time---timing;b.规则动词的过去时和完成时是在动词词根后加-ed或-d,但有些动词的形态变化则比较特殊,变化非常大,同时无规律可寻go---went---gone,be---are---is---were---was---been,等等。对于不规则的单词,本发明采用两种解决方式a.在系统词汇库中收录不规则单词的词根,同样让系统帮助组合和生成其不规则的变化形式。如收录go、do、have,在输入过程中由系统分别生成went、gone,did、done,had;b.将形态变化较大的不规则形式作为“独立”的单词对待和处理,收录在系统词汇库中。如go---went---gone,do---did---done,have---had,think---thought,car---could,leave---left,little---less---lest,good---better---best等。也就是说,系统词汇库中既有go和do等词根,也有wentgonedid和done等不规则的形态变体形式;有些变化形式的开始字母组合与词根有较大的差别,如go在数字键46上,而其过去时went则是由数字键93开头;do的数字编码是36,而did的数码为34。采用a和b两种方式来处理和输入不规则单词的方法,既保证了单词快速输入和锁定,又体现了灵活机动的输入方式,同时做到了系统处理和生成的一致性。本发明利用智能预测的功能,依据高频先见的原则,自动将常用的、使用频率高的词根优先、快速调出来;同时优先组合那些能够与所需词根相匹配、组合概率高、组合能力强的词缀,以加快锁定和生成词汇的速度a.词根频率的调整当输入数字组合232时,符合条件的最常用词汇become、because、beat、beautiful、before等就会根据高频先见的原则出现在候选行中,这些词汇又会依照被选用的次数和频率,自动调整它们之间的排列顺序和位置。b.词缀频率的调整与数字组合232相匹配的最常用词汇become、because、beat、beautiful、before等的词性和与词缀的组合构词能力也不一样,如because和before没有形态变化形式,不能同词缀组合构成新词。而become、beat、beautiful则具备同词缀组合构成新词的能力beat---beating,beats,beaterbecome---becoming,became,becomes,beautiful---beautifully随着组合次数的变化,这些构词和构形后缀-s、-ing、-er、-ly等同本组词根become、beat、beautiful组合构词的顺序也将发生变化。也就是说,词缀的构词排序也会依据高频优先自动发生调整变化。c.词组频率的调整本发明支持词组多级联想,当候选单词50被上屏后,与其有组合关系的词词组就会被联想出来,如working被确认上屏后,就联想出at、in、into、hard、with、for、well等。这些被联想的词也会依据选用频率而在排序上发生变化。在本发明中设置了若干新增功能键a.本发明定义设立一个特殊的功能键“词根+词缀组合键”70(可定为#键,也可以用其它键),其功能是作为启动系统“词根+词缀”生成词汇的功能键。当词根被选定后,按此键使词根同词缀依照有效、合理的原则,组合成新的词汇。这些新词汇以高频先见的原则排列在候选行中,等待选择和确认;b.本发明使用数字码来显示“当前编码提示”20的编码信息,为已输编码信息多重性的选择和转换提供了必要的条件,创造出一种使多种语言文字、数字等之间弹性切换的机制。为此,本发明定义出“数字上屏、不同语言文字转换”等功能键。“数字上屏”功能键30(可定为“上选键)可使当前编码提示信息直接以数字的形式上屏,“不同语言文字传换”功能键40(可定为“右选键”可使当前编码提示信息所对应的一种语言文字转换成另一种语言文字,如英文转换成法文,英文转换成中文等。使手机短信无论任何一种文字的输入模式下,完全能够依照所需语言文字的自身编码原理,直接通过按相关的数字键,进行连贯的、无切换的一体化输入。下面结合图2~6,以输入英语单词working为例,具体说明本发明参见图2,首先键入词根work的首字母w所对应的数字键9,此时系统引擎就对所输入的信息进行处理,使每一按键的输入成为一个人机对话的过程,一个通过语言模式进行解码的过程,一个利用系统引擎帮助进行搜索、预测、排除、确定和快速找出所需内容的过程,并在系统词汇库中搜索和查找与输入信息9(WXYZ)相匹配的候选内容。随着字母组合ORK(数字键675)的逐步输入,符合条件的候选单词的范围就会越来越小,数量也会不断减少,候选词work、world、york等就会出现。参见图3,如果光标在work上面,就按本发明新增的“词根+词缀组合键”70启动生成程序,此时系统就根据work的词性和构词特征,同词汇库中的与之组合有效、合理的词缀(包括词根)进行组合,自动生成带有词缀的新的形态形式或新词汇working、worked、works、worker、workshop、workload、worktable等。长按working所对应的数字键1,该词就直接上屏。当光标不在候选词根work上时,就移动光标选定work,并按下本发明中定义的“词根+词缀组合键”70,系统便自动生成带有后缀的完整词。完成词汇生成程序,长按working所依附的数字键,该词就直接上屏。由于本发明同时支持多级的联想,在单词working上屏后,与其有联想关系的词或词组at、in、into、hard、well、with、for等就会被联想出来。再参见图4~6,以输入英语动词go的不规则变化形式went为例,说明本发明中对不规则单词的处理方法。本发明采用两种解决方式1)在系统词汇库中收录词根,让系统帮助组合和生成其不规则的变化形式,即收录go,在输入过程中由系统生成went、gone等;首先输入词根go所在的数字键46,此时由4(GHI)和6(MNO)相匹配的、组合概率最强的单词(词根)就以高频先见的原则同步显示在候选行中go,in,good,house,image等(见图4);因为光标在单词go上,就直接按#键启动“词组+词缀组合”功能,系统便会自动生成带有后缀的词going,goes,gone,went等。长按went所对应的数字键3,该词就直接上屏(见图5)。2)在系统词汇库中同时收录go的不规则形态变化形式went、gone等,这样可以通过另一种操作方式输入英文单词went(动词go的过去时),直接依照输入词根单词的方法,按键输入went所对应的数字键9368,went就出现在候选行中,长按went所对应的数字键1,该词就直接上屏(见图6)。采用两种方式输入不规则单词的技术处理方法,既保证了单词的快速锁定和输入,又体现了灵活的输入方式,同时做到了系统词根+词缀生成新词的一致性。下面结合图7和图8,进一步说明本发明其它新增的功能和具体实施方式,以输入英中文混合的句子“UniDinput好”为例首先按照在英文输入方法输入“UniDinput”,接着输入汉字“好”。利用本发明输入不同语言混合内容时不需要考虑输入模式的状态,而是直接按照“好”的拼音数字码组合426进行连贯的输入。由于当前是在英文输入模式下,候选行中显示的仍然是与426相匹配的英文单词game、gang、gamble等。但是可以借助并按下本发明中的“不同语言文字转换”功能键40,将当前编码提示信息426转换成另一种语言文字中相匹配的候选字词50,中文“好、感、高、告、号、干”就会出现,并等待选择(见图8)。长按“好”所对应的数字键1,即可使“好”上屏。综合以上实施例,附图9中所示的流程简图描述了本发明拼音文字词根加词缀的完整输入程序。本发明使手机短信无论在任何一种文字的输入模式下,完全能够依照所需语言文字的自身编码原理,直接通过按相关的数字键,进行连贯的、无切换的一体化输入。这一功能键对输入模式的动态转换功能是临时性的,当“好”被确认上屏后,系统会自动恢复到原来的(英文)输入模式下。另外,新增功能键的设定方式比较灵活,既可以借助不同的功能键,如将上选键定义为“数字上屏键”,将右选键”定义为“不同语言转换键”等,长按这些键,可使“当前编码提示”中的数字组合直接转换成不同的内容并确认上屏。也可以将这些功能键分别设定在同一键位上,通过按键对相关文字或符号的转换功能进行滚动式的切换。如定义在“#键”,在“当前编码提示”中已经有“内容”的情况下,利用“#键”滚动切换,将这些“编码内容”首先转换到数字或语言文字的输入模式下,再找出并选择所需的候选内容,再寻找和选择所需的候选内容,并确认上屏。权利要求1.一种数字键盘的词根加词缀生成拼音文字词汇的技术和输入方法,该方法包括以0~9十个数字键作为表征输入码元,该0~9十个数字键的全部或部分对应多种拼音文字的码元集,分别通过数字键输入相应的文字和显示与该文字相应的数码,其特征在于通过数字键的操作,可显示出上述输入数码对应的其中任何一种文字词根的高频词汇系列;通过功能键的操作,可显示出词根和词缀自动组合生成的高频词汇系列。2.根据权利要求1的方法,其特征在于通过功能键的操作,可将上述输入的数码直接以数字形式上屏,进入编辑文本。3.根据权利要求1或2的方法,其特征在于通过功能键的操作,可将上述输入数码对应的编码转换成另一种输入模式或另一种文字的编码,并将上述对应该数码的已经显示的一种文字的高频词汇系列转换并显示成另外一种文字的高频词汇系列;上述显示的任何一种高频词汇系列对应显示有依据汇词频度顺序的阿拉伯数字序号,通过对应的数字键可提取与该数码对应的词汇上屏,进入编辑文本。4.根据权利要求3的方法,其特征在于上述功能键可以设定在不同的键位上进行选择,也可以设定在同一键位上,采用按键进行滚动式的切换选择,这些功能键对输入模式的动态转换功能是临时性的,所需内容被确认后,系统会自动恢复到原来的输入模式下;上述功能键可以被重新定义或相互更换。全文摘要本发明涉及一种数字键盘词根加缀构生成拼音文字词汇的技术和输入、显示、转换的方法和系统,尤其是快速输入和编辑手机外文短信的技术方法和系统,其创新要点是以数字键盘及其软、硬件特点为应用环境,借助外文字母同数字0-9键位之间的对应关系,依照拼音文字的词根和词缀(尤其是后缀和词尾)之间的构词规律,通过系统自动构建和生成以拼音文字为主的西方语言中的单词和词组;并借助新增功能键把一种语言文字或符号直接转换成另一种语言文字或符号;本发明同时适用于PDA、IP信息电话、数字电视遥控器、税控收款机、学习机、游戏机等数字键盘产品中的中英文的输入。文档编号G06F3/023GK1687884SQ20051007067公开日2005年10月26日申请日期2005年5月18日优先权日2005年5月18日发明者王孝军申请人:王秀荣
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1