中文短语笔画以及语音化文字输入的使用者界面和数据库结构的制作方法

文档序号:6467798阅读:156来源:国知局

专利名称::中文短语笔画以及语音化文字输入的使用者界面和数据库结构的制作方法
技术领域
:本发明关于数据输入。本发明尤其是关于一种中文短语笔画以及语音化文字输入的使用者界面及数据库结构。
背景技术
:用于目前在市场上可获得的手持装置的中文笔画文字输入办法主要是以字符为基础。在此办法中,用于字符输入的使用者笔画顺序通常是借由终端机的使用者输入所限定的。单字输入系统是众所周知。请参见(例如)由AOL/Tegic通信公司提供的T9产品(T9)(参见http:〃www.tegic.com/)。短语笔画输入系统是由北京d-Ear技术公司所供应(参见http:〃www.d-ear.com/Frameset,htm)。在d-Ear产品提供短语输入时,其大幅度改变使用者输入单字的方式。因此,若该字符是多于四笔画,使用者将被迫正好输入四笔画。此方法显现至少下列问题其不允许捷径,例如若该短语经常被用到,则针对该短语中各字符输入一笔画;及使用者可能希望针对某些字符输入较多笔画,而针对其他字符输入较少笔画,但d-Ear输入系统不支援此特点。有利的是提供一种克服已知装置限制的中文短语笔画以及语音化文字输入的使用者界面及数据库结构。
发明内容本发明提供一种笔画及语音化文字输入输入系统,其实质上具有与T9中使用的笔画匹配的相同定义,其中该输入是短语输入而非字符输入。与字符笔画输入相比,短语笔画输入能让使用者的文字输入更快速且更准确。本发明借由允许使用者针对短语中的各字符输入任意数目的笔画而解决中文短语笔画的问题,其中各字符是由一定界符所分隔。本发明也允许笔画及语音化短语输入方法共享相同的短语数据。依此方式,本发明提供易于学习及有效应用的系统。因此,本发明让使用者能输入多个字符,同时保持其单字输入的习惯。各中文字符在大陆的国标码(GuoBiao;GB)中均具有标准笔画顺序,其是用于中国大陆的标准(尽管一些使用者可能使用非标准笔画顺序),或用于传统(繁体)字符的BIG5中文字符编码的多种顺序,其在台湾是实质的标准,但未用在中国大陆中。以本发明,使用者无须针对单字输入完整顺序,而是可在任何点停止且输入一表示先前字符结束及下一字符开始的定界符。由使用者输入全部笔画顺序可接着被分成由零或多个定界符分隔的复数组。短语接着能借由成组字符的使用者输入而辨识出。目前较佳的短语匹配准则如下第一笔画组与该短语的第一字符的前导笔画顺序匹配;第二笔画组与该短语的第二字符等的前导笔画顺序匹配;与已输入笔画顺序匹配的短语会呈现给使用者供选择。本发明也提供中文短语笔画的使用者界面设计。图1显示根据本发明用于输入中文短语的装置,其显示一文字区域、一笔画区域及一选择区域;及图2显示根据本发明用于短语笔画及语音化文字输入的系统的方块图。具体实施例方式定义、字首语及縮写以下表l所列的项目在此说明书中具有以下属于其等的意义。表l.定义、字首语及缩写<table>tableseeoriginaldocumentpage11</column></row><table>本发明提供一种笔画及语音化文字输入项目系统,其实质上具有与T9中使用的笔画匹配的相同定义,其中该输入是短语输入而非字符输入。本发明借由允许使用者针对短语中的各字符输入笔画万用字符或一部件的任意数目的笔画而解决中文短语笔画的问题,其中各字符是由一定界符所分隔。依此方式,本发明提供易于学习及有效应用的系统。因此,本发明让使用者能输入多个字符,同时保持其单字输入的习惯。各中文字符在大陆的国家标准(GB)中均具有标准笔画顺序,其是用于中国大陆的标准,或用于传统(繁体)字符的BIG5中文字符编码的多种顺序,其在台湾是实质的标准,但未用在中国大陆。以本发明,使用者无须针对单字输入完整顺序,而是可在任何点停止且输入一表示先前字符结束及下一字符开始的定界符。由使用者输入全部笔画顺序接着可被分成由零或多个定界符分隔的一些组。短语接着能借由使用者输入成组的字符而辨识出。目前较佳的短语匹配准则是如下第一笔画组与该短语的第一字符的前导笔画顺序匹配;第二笔画组与该短语的第二字符等的前导笔画顺序匹配;与已输入笔画顺序匹配的短语会呈现给使用者供选择。中文短语笔画以及语音化文字输入的使用者界面设计显示于图1中,图1例示根据本发明用于输入中文短语的装置,其显示一文字区域IO、一笔画区域14及一选择区域12。该装置至少包含一数据输入键盘18,其中1-5按键载有压下该按键时输入的笔画的指示。按键8载有定界符符号;按键8在短语输入及选择期间被压下以指示一字符的结束及下一字符的开始。在图1中,字词11已被输入该文字区域。笔画区域14显示已由使用者输入的笔画顺序,其中该钻石符号指示使用者己输入一定界符。在选择区域(l-4)中有四字词。下一字词13是选择区域中的第三选择(3)。在本发明一T9具体实施例中,使用者压下保持一按键(图l所示实例中的1至4)以选择对应的短语。定界符将使用者输入分成一些笔画顺序。选择区域(l至4)中的所有字词应分别具有与笔画顺序匹配的字符。在此实例中,使用者输入了按键l、按键5、按键8(作为定界符)、按键3及按键4。选择区域(1至4)中的所有短语的第一字符均具有以「15」开始的笔画顺序,且第二字符具有「34…」的笔画顺序。熟悉本技术人士应了解图1中所示的装置仅供示范及范例目的,且可使用许多不同输入装置以实施在此揭露的本发明。数据结构图2显示根据本发明用于短语笔画及语音化文字输入的设备的方块图。本发明的数据结构20至少包含二类用于中文字符集的内部ID:笔画ID21及语音ID22。笔画ID被定义为以笔画分类的中文字符的索引。语音ID被定义为以语音化分类的中文字符,或以按键分类接着语音化分类的中文字符的索引。语音化分类可进一步借由字符的音调分类,以支援短语中的音调选项。数据结构也包括一字词列表结构25及二用于中文字符集的ID范围查找结构其一用于笔画23而一用于语音24。数据结构也包括查找表,其可在在语音ID及笔画ID28之间翻译,且从语音ID或笔画ID翻译成中文字符29,例如依统一码(Unicode)编码。一种中文输入系统可针对单字输入具有一语音或笔画ID范围或二者的查找结构。由于字词列表的供应,该输入系统支援短语文字输入。若系统只支援笔画或语音输入,则在PID及SID间翻译的査找表将不需要。该核心根据ID范围结构针对给定的笔画寻找笔画或者语音ID范围。字词列表被扫描以找出字符ID落入该等范围中的字词。该等字词接着被送到由频率或其他准则分类的字词缓冲器26,例如借由一按键输入是否确实或部分匹配该字词。查找表由于一中文字符可能具有不同语音化发音及多种笔画顺序,査找表必须支援一对多映射。该数据库可包含有关不同发音及不同笔画顺序的频率信息。在本发明较佳具体实施例中的查找表至少包含笔画ID对语音ID31、语音ID对笔画ID28、及语音ID(或笔画ID)对对统一码29、30。笔画ID对语音ID及语音ID对笔画ID表具有相同格式。共有二表主表及多值表。主表是Oxxxxxxxxxxxxxxx:若无多查找值。X是查找值。lnnnxxxxxxxxxxxx:若有多值。X指向多值表中的地址,且N+2是多值数。多值(n+2字词)可从该地址读出。假如全部多值的数目超过4k时,各多值表均具有一调整表。统一码表32可自语音ID或笔画ID表存取。语音化结构就使用者的观点而言,语音化系统是设计以先将按键顺序转换成拼字,然后成为中文字符。在内部,第二步骤含有二部分先从拼字转成语音ID,然后成为中文字符。从按键至拼字的直译一语音树是针对使用T9alpha技术的字词的所有可能语音拼字建立,其是由美国专利第5,818,437号、美国专利第5,953,541号、美国专利第6,011,554号、美国专利第6,307,548号、美国专利第6,286,064号、美国专利第6,307,549号、美国专利第5,945,928号、美国专利第5,187,480号、美国专利第6,646,573号及美国专利第6,636,162号及其他审理中的美国及外国专利所涵盖。该输入按键顺序被馈入T9alpha核心,以产生有效拼字。该等拼字被呈现给使用者作为拼字选择。从拼字至语音ID的直译所有可能字节(syllable)的列表是按字母顺序储存、分类。一拼字会与所有可能拼字比较,且若匹配,该等拼字的索引是用以查找语音ID范围。语音ID范围表是用于各拼字的开始语音ID的列表。字节的拼字是为查找目的而储存。各字节至多可具有六个字母。对于一给定字节,本发明首先搜寻字节表以尝试与该等拼字匹配。如果发现匹配,本发明则用该索引以找到PID范围表中的开始PID。PID范围表中的下一输入是结束PID。所有在该范围内的PID均具有相同拼字。在短语输入情况中,可把拼字分成一些字节。各字节都可具有对应的PID范围。字词数据被搜寻以匹配一短语中的PID与PID范围且寻找该匹配短语。音调若语音ID未含音调信息或PID未依音调分类,需要音调信息表33以支援音调输入。各PID均应具有依以下格式的本身的音调信息pppxxxxx其中P指用于该拼字的字符的主音调,且x是指用于该拼字的字符的可用音调的位遮罩。模糊(Mohu)语音化拼字考虑有关模糊语音化拼字的现象中,一些语音使用者无法分辨一对或多对的语音开始或结束。例如,「hu」及「w」、「z」及「zh」、或「an」及「ang」。这些使用者无法分辨「zan」、「zhan」、「zang」及「zhang」中的差别。模糊语音化拼字是基于字节树而执行。该核心(在此也称为引擎;参见图2)扫描输入按键顺序。对于各具有作用模糊对的各可能按键结合,核心应用该模糊对且针对语音树检查新按键顺序是否有效。若是,会进一步检査该等指令以确定显现模糊对。若显现该模糊对,则找到拼字匹配。可递回地重复该过程,以得到所有可能的模糊语音化拼字。字词数据与输入方法独立的字词信息是分开储存。其应含有依语音ID编码的经常使用字词集的信息。该数据结构是借由前导字符的语音ID分类。笔画设计该数据库包括一单字笔画树。在该树中的各节点是一按键,且到该节点的路径可形成按键顺序。如果按键顺序与一字符的笔画顺序匹配,该字符是与该按键顺序或节点是确实匹配。确实匹配及部分匹配的数目被储存在节点中。笔画ID是定义为由笔画分类的字符集内的索引。一些中文字符(尤其在繁体中文中)可用一种以上的笔画顺序写出。不是最常使用或不标准的笔画顺序称为字符的替代笔画顺序。具替代笔画顺序的字符被视为一不同SID输入。从此结构中,可跟随该树中使用者输入的按键顺序以找到对应的节点。接着可能计算确实匹配笔画ID范围及部分匹配笔画ID范围。在单字输入中,在SID对PID查找表及PID对统一码查找表或SID对统一码査找表的协助下,笔画ID范围可转换成中文字符的列表。在短语输入系统中,若使用者输入一可分成多个子顺序的按键顺序,则可针对各子顺序寻找笔画ID范围。笔画ID范围可用作匹配准则,以在字词数据结构中搜寻匹配短语。虽然本文此是参考较佳具体实施例说明本发明,但熟悉此项技术人士将易于了解其他应用可取代在此提及者,只要不脱离本发明的精神及范畴。因此,本发明只受以下包括的本申请权利要求范围所限制。权利要求1.一种中文短语笔画及语音化文字输入的设备,至少包含用于接收使用者笔画输入信息的组件,该组件允许使用者对于一多字符短语中的各字符输入任意数目的笔画,其中该多字符短语的相邻字符是由使用者输入的定界符分隔;其中该组件被配置成将一使用者输入的一全部笔画顺序区分成复数组笔画顺序,该等组是借由该分界符分隔,其中所述全部笔画顺序构成一短语且每一组构成所述短语的字符;至少二用于一中文字符集的内部ID,该等内部ID至少包含一笔画ID及一语音ID,其中一笔画ID至少包含一以笔画分类的中文字符的索引;及其中一语音ID至少包含一以语音化分类的中文字符的索引,或一以按键分类接着以语音化分类的中文字符的索引;一字词列表,其用于支援短语文字输入;及至少二用于该中文字符集的ID范围查找结构,其中一ID范围查找提供用于笔画输入且一ID范围查找提供用于语音化输入。2.如权利要求l所述的设备,其特征在于还包含以下任一一查找表,其用于在语音ID及笔画ID之间翻译;一查找表,其用于在笔画ID及语音ID之间翻译;及一用于从语音ID翻译成该中文字符集中的中文字符的查找表,及一用于从笔画ID翻译成该中文字符集中的中文字符的查找表,上述二查找表中任一查找表。3.如权利要求l所述的设备,其特征在于还包含一音调信息表,其中该语音化分类是借由一字符的音调进一步分类,以支援短语中的音调选项。4.如权利要求l所述的设备,其特征在于还包含一以频率分类的字词缓冲器,其用于从该字词列表接收候选字词及/或短语。5.如权利要求l所述的设备,其特征在于该查找表支援一对多映射。6.如权利要求l所述的设备,其特征在于还包含一语音化数据库,其至少包含按键顺序信息、拼字及该语音ID。7.如权利要求l所述的设备,其特征在于该字词列表还包含一所有可能拼字的列表,其是按字母顺序分类;其中一拼字是与所有可能拼字比较,且若匹配,则该拼字的一索引用于查找一语音ID范围;其中该语音ID范围表至少包含一用于各拼字的结束语音ID的列表。8.如权利要求7所述的设备,其特征在于还包含一拼字表,其中该表内的该等拼字是由语音的开始及最后组成。9.一种中文短语笔画及语音化文字输入的方法,至少包含以下步骤允许使用者对于一多字符短语中的各字符输入任意数目的笔画,其中该多字符短语的每一字符是由使用者输入的定界符分隔;将一使用者输入的一全部笔画顺序区分成复数组笔画顺序,该等组是借由该分界符分隔,其中所述全部笔画顺序构成一短语且每一组构成所述短语的字符;提供至少二用于中文字符集的内部ID,该等内部ID至少包含一笔画ID及一语音ID,其中一笔画ID至少包含一以笔画分类的中文字符的索引;及其中一语音ID至少包含一以语音化分类的中文字符的索引,或一以按键分类接着以语音化分类的中文字符的索引;提供一字词列表,其用于支援短语文字输入;及提供至少二用于该中文字符集的ID范围査找结构,其中一ID范围査找提供用于笔画输入,且一ID范围查找提供用于语音化输入。10.如权利要求9所述的方法,其特征在于还包含提供以下任一者的步骤:一查找表,其用于在语音ID及笔画ID之间翻译;一查找表,其用于在笔画ID及语音ID之间翻译;及一用于从语音ID翻译成该中文字符集中的中文字符的查找表,及一用于从笔画ID翻译成该中文字符集中的中文字符的査找表,上述二查找表中任一查找表。11.如权利要求9所述的方法,其特征在于还包含以下步骤提供一音调信息表,其中该语音化分类是借由一字符的音调进一步分类,以支援短语中的音调选项。12.如权利要求9所述的方法,其特征在于还包含以下步骤提供一以频率分类的字词缓冲器,其是用于从该字词列表接收候选字词及/或短语。13.如权利要求9所述的方法,其特征在于若一字符可具有多种发音及多种笔画顺序,则该等査找表支援一对多映射。14.如权利要求9所述的方法,其特征在于还包含以下步骤提供一语音化数据库,其至少包含按键顺序信息、拼字及该语音ID。15.如权利要求9所述的方法,其特征在于该字词列表还包含以下步骤提供一所有可能拼字的列表,其是按字母顺序分类;其中一拼字是与所有可能拼字比较,且若匹配,则该拼字的一索引用于查找一语音ID范围;其中该语音ID范围表至少包含一用于各拼字的结束语音ID的列表。16.如权利要求15所述的方法,其特征在于还包含以下步骤提供一拼字表,其中该表内的该等拼字是由语音开始及最后组成。17.—种中文语音化短语文字输入的设备,至少包含用于接收使用者笔画输入信息的组件,该组件允许使用者对于一多字符短语中的各字符输入任意数目的笔画,其中该多字符短语的相邻字符是由使用者输入的定界符分隔;其中该组件被配置成将一使用者输入的一全部笔画顺序区分成复数组笔画顺序,该等组是借由该分界符分隔,其中所述全部笔画顺序构成一短语且每一组构成所述短语的字符;一语音树,其用于从一按键顺序翻译成拼字;一语音ID(PID)范围查找表;语音ID字词数据;及一査找表,其用于从一PID翻译成中文字符。18.—种中文短语笔画文字输入的设备,至少包含用于接收使用者笔画输入信息的组件,该组件允许使用者对于一多字符短语中的各字符输入任意数目的笔画,其中该多字符短语的相邻字符是由使用者输入的定界符分隔;其中该组件被配置成将一使用者输入的一全部笔画顺序区分成复数组笔画顺序,该等组是借由该分界符分隔,其中所述全部笔画顺序构成一短语且每一组构成所述短语的字符;一单字笔画树,其用于笔画ID(SID)范围査找;笔画ID字词数据;及一查找表,其用于从一SID翻译成中文字符。19.一种中文语音化短语文字输入的设备,其至少包含用于接收使用者笔画输入信息的组件,该组件允许使用者对于一多字符短语中的各字符输入任意数目的笔画,其中该多字符短语的相邻字符是由使用者输入的定界符分隔;其中该组件被配置成将一使用者输入的一全部笔画顺序区分成复数组笔画顺序,该等组是借由该分界符分隔,其中所述全部笔画顺序构成一短语且每一组构成所述短语的字符;一用于中文字符集的内部ID,该内部ID至少包含一语音ID,该语音ID包含下列之一者一以语音化分类的中文字符的索引或一以按键分类接着以语音化分类的中文字符的索引;一字词列表,其用于支援语音化文字输入;及一用于该中文字符集的ID范围査找结构,其中一ID范围查找提供用于语音化输入。20.如权利要求19所述的设备,其特征在于还包含-一查找表,其用于自语音ID翻译成在该中文字符集内的中文字符。21.如权利要求19所述的设备,其特征在于还包含一音调信息表,其中一语音化分类是借由一字符的音调进一步分类,以支援短语中的音调选项。22.如权利要求19所述的设备,其特征在于还包含一以频率分类的字词缓冲器,其用于从该字词列表接收候选字词及/或短语。23.如权利要求19所述的设备,其特征在于该查找表支援一对多映射。24.如权利要求19所述的设备,其特征在于还包含一语音化数据库,其至少包含按键顺序信息、拼字及该语音ID。25.如权利要求19所述的设备,其特征在于该字词列表还包含一所有可能拼字的列表,其是按字母顺序分类;其中一拼字是与所有可能拼字比较,且若匹配,则该拼字的一索引用于查找一语音ID范围;其中该语音ID范围表至少包含一用于各拼字的结束语音ID的列表。26.如权利要求25所述的设备,其特征在于还包含一拼字表,其中该表内的该等拼字是由语音开始及最后组成。27.—种中文语音化短语文字输入的方法,至少包含以下步骤允许使用者对于一多字符短语中的各字符输入任意数目的笔画,其中该多字符短语的相邻字符是由使用者输入的定界符分隔;将一使用者输入的一全部笔画顺序区分成复数组笔画顺序,该等组是借由该分界符分隔,其中所述全部笔画顺序构成一短语且每一组构成所述短语的字符;提供一用于中文字符集的内部ID,该内部ID至少包含一语音ID,其中该语音ID至少包含一以语音化分类的中文字符的索引,或一以按键分类接着以语音化分类的中文字符的索引;提供一字词列表,其用于支援语音化文字输入;及提供一用于该中文字符集的ID范围查找结构,其中一ID范围査找提供用于语音化输入。28.如权利要求27所述的方法,其特征在于还包含以下步骤提供一查找表,其用于自语音ID翻译成该中文字符集内的中文字符。29.如权利要求27所述的方法,其特征在于还包含以下步骤提供一音调信息表,其中该语音化分类是借由一字符的音调进一步分类,以支援短语中的音调选项。30.如权利要求27所述的方法,其特征在于还包含以下步骤提供一以频率分类的字词缓冲器,其用于从该字词列表接收候选字词及/或短语。31.如权利要求27所述的方法,其特征在于当一字符可具有多种发音时,该查找表支援一对多映射。32.如权利要求27所述的方法,其特征在于还包含以下步骤提供一语音化数据库,其至少包含按键顺序信息、拼字及该语音ID。33.如权利要求27所述的方法,其特征在于该字词列表还包含以下步骤提供一所有可能拼字的列表,其是按字母顺序分类;其中一拼字是与所有可能拼字比较,且若匹配,则该拼字的一索引用于查找一语音ID范围;其中该语音ID范围表至少包含一用于各拼字的结束语音ID的列表。34.如权利要求33所述的方法,其特征在于还包含以下步骤提供一拼字表,其中该表内的该等拼字是由语音的开始及最后组成。35.如权利要求17所述的设备,其特征在于还包含一字母按键映射,其支援复数按键映射,包括非标准拼音及BPMF按键映射。36.如权利要求1所述的设备,其特征在于用于该中文字符集的该至少二ID范围查找结构,在含有复数位的各ID栏中使用固定长度,其中一位被保留为一指标,用于指示该至少二ID查找结构中的一查找值是一单值或多值,而该栏的该复数位的其余位指示何处可发现多值。全文摘要一种笔画及语音化文字输入系统及使用者界面,其具有与T9中的笔画匹配的相同定义,该输入是短语输入;借由对于短语中各字符输入任意数目的笔画而解决中文短语笔画的问题,各字符由一定界符分隔。本发明让使用者能输入多个字符同时保持其单字输入的习惯。使用者无须针对单字输入完整顺序,而是可在任何点停止且输入表示先前字符结束及下一字符开始的定界符。由使用者输入的全部笔画顺序可接着分成由零或多个定界符分隔的复数组。短语接着能借由使用者输入成组的字符而辨识出。较佳的短语匹配准则如下第一、第二笔画组分别与该短语的第一、第二字符的前导笔画顺序匹配;与已输入笔画顺序匹配的短语将呈现给使用者供选择。文档编号G06F17/30GK101408804SQ20081017431公开日2009年4月15日申请日期2005年7月22日优先权日2004年7月23日发明者炼何,吴剑超,布拉德·福特·伊桑,路张,梁兆明,范·梅尤尔斯·皮姆,赖皇瑜,黄劲钟申请人:美国联机股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1