一种小键盘上西语输入中的歧义处理与人机交互方法

文档序号:7615629阅读:145来源:国知局
专利名称:一种小键盘上西语输入中的歧义处理与人机交互方法
所属技术领域本发明涉及一种小键盘上西语输入歧义处理与人机交互方法,特别应用在移动电话机、小灵通PHS、机顶盒遥控器、个人数字助手、POS机、条码机、税控机、交通导航仪、固定电话机、传真机以及其他小键盘设备上输入西方语言。
背景技术
移动电话机、小灵通PHS、机顶盒遥控器、个人数字助手、POS机、条码机、税控机、交通导航仪、固定电话机、传真机以及其他小键盘设备,由于受其体积所限,不能采用普通的PC大键盘,而通常采用的是数字式小键盘,在这种小键盘设备上,特定语言字母表中的字母被按照多对一关系映射到小键盘的数据键上。
按照语言学界公认的“语系—语族—语支—语种”分类方法,西方语言各语种属于印欧语系下的日尔曼语族、罗马语族、斯拉夫语族、凯尔特语族、波罗的语族等语族,书写体系属于拉丁字母表或斯拉夫字母表。将拉丁字母或斯拉夫字母映射到小键盘数据键上,因为一个数据键代表多个字母、一个数据串可能代表多个单词,所以存在如何消除歧义的问题。人们提出了几种消除数据串歧义方法的建议。
一种方法是称为MultiTap的连续击键方法,连续击键的次数代表第几个字母。即在一定的时间内只按压一次数据键,则显示该数据键所对应的第一个字母;如果在一定的时间内连续二次、三欠、四次按压该数据键的键码,则分别显示该数据键所对应的第二个、第三个、第四个字母,比如,数据键“9”对应了四个字母“wxyz”,要输入字母“x”则需要连续两次按压“9”,要输入字母“z”则需要连续四次按压“z”。这种方法效率低,难于使用。后来,Arnott在他的论文《Probabilistic Character Disambiguation for Reduced Keyboards UsingSmal l Text Samples》(Journal of the International Society for Augmentative and AlternativeCommunication,作者John L.Arnott和Muhammad Y.Javad,以下简称“Arnott文章”)中重点讨论了通过统计特定语言单词中字母组合顺序的手段来消除歧义的方法,即通过数据键所代表的歧义字母组合出现频率的高低来决定最可能的解释,这是一种字母级的歧义处理方法。另外一种在单词级别消除歧义的方法由Witten在他的著述《Principles of Computer Speech》(Academic Press,1982,以下简称“Witten方法”)中公开出来。Witten讨论了用电话小键盘直接代表英文单词中字母的输入方法(比如用2-3-8-8-3-7代表better),他指出,在24500个英文词典单词中,92%是没有歧义的。Witten进一步指出,如果出现了歧义(比如good、home、gone、hood的对应数据串都是4663),就需要给每个歧义单词一个编号,由用户通过选择编号来交互式确认。Witten没有提到歧义单词的排序方法。
在美国专利《Text entry mechanism for small keypads》(专利编号20040153975)中,提出了一种用MultiTap方法确定首字母和/或第二个字母的方法,因为在首字母或前两个字母被确定以后,潜在的歧义范围被缩小,比如用户想输入单词“forest”,其按键序列应该是“3-3-3-6-7-3-7-8”,前面的三个“3”用于指定首字母为“f”,这种方法相对于MultiTap的方法减少了击键次数,但是仍然有冗余击键。
在美国专利《Disambiguating system for disambiguating ambiguous input sequences bydisplaying objects associated with the generated input sequences in the order of decreasingfrequency of use》(专利编号5,953,541)中,提出了一种按照歧义单词的使用频率降序排列的方法。即如果用户输入4663,则候选单词的顺序为good、home、gone、hood,因为这四个单词在英语中出现的总次数是good最高、home其次、hood最少。这种方法比公开的Witten方法更进了一步。但这种方法在处理用户想输入“I like to work at home”时候,给出的第一个候选项分别是“I like to work at good”,因为这是一种基于单词、而不是基于语句上下文环境的方法。
在美国专利《Ambiguity resolution for predictive text entry》(专利编号20040163032)中,提出了一种根据两个单词搭配频率的统计、在第一个单词确定的情况下,根据搭配频率来决定第二个歧义单词的排列顺序的方法。即将前面的单词和后面可能的全部单词组合在一起形成多个多组单词搭配,然后从统计数据中查找哪种搭配的可能性最大,比如统计出前单词“very”与后单词“good”、“home”、“gone”、“hood”的搭配频率降序排列为“very good”、“very home”、“very gone”、“very hood”,则第二个单词的排列顺序为good-home-gone-hood。相对于专利5953541的固定排序方法,这种方法的改进之处是考虑了上文环境。但是,这种方法必须要先确定第一个单词、只能处理歧义单词在后的情况,即只考虑了上文环境、而不是上下文环境,后面的单词无法影响前面的单词。比如,“pay”和“say”对应同一个数据串,“pay attention”是一个固定搭配,“should say”是一种常见搭配,“should pay”是一种次常见搭配,而“say attention”是一个罕见搭配,如果用户想输入“You should pay attention”,在没有用户交互选择的情况下,按这种方法的默认解释可能是“You should say attention”。用户需要一种更好的能够预测和理解用户输入的歧义处理方法。
另外,现有的小键盘设备上的输入方法多是将数字输入和字母输入作为两种不同的输入方法,有的还将字母输入分为大写输入法和小写输入法,如果用户需要输入“ABC 888@yahoo.com”这种混合有大写、小写、数字、标点、特殊符号的字符串,就不得不频繁切换输入法,非常麻烦。用户需要一种不用频繁按键切换输入法、更加友好的人机交互方式。

发明内容共知的MultiTap方法的击键次数太多;确定首字母的方法虽然减少了击键次数,但是仍然有冗余击键;通过统计单词使用频度的方法能较好地提高预测的准确性,很好地减少击键次数,但这种方法总是用一种固定的排序方法,没有考虑歧义单词作在的上下文环境;通过统计两个单词的组合搭配、以前面一个单词来决定后面一个单词的方法体现出了一定的智能性,但这种方法只考虑了上文环境、而不是上下文环境,后面的单词无法影响前面的单词,智能性仍显不足。另外,现有的小键盘设备上的输入方法多是将数字输入和字母输入作为两种不同的输入方法,有的还将字母输入分为大写输入法和小写输入法,如果用户需要输入混合有大写、小写、数字、标点、特殊符号的字符串,就不得不频繁切换输入法,非常麻烦。为了克服现有方法的诸多不足,本发明公开了一种小键盘上西语输入中的歧义处理与人机交互方法,该方法使得歧义单词的选择具有上下文智能相关性,且通过将四个方向键被设定为对应状态的状态进入键,方便地处理多单词连续输入、词典以外单词的自定义、大小写与数字符号的混合输入等问题,并通过定义一组复合扩展键组来实现拷贝粘贴功能、表情符号与特定短语操作等功能。本发明解决其技术问题所采用的技术方案是在歧义单词的上下文相关智能选取上,包含以下步骤第一步,根据小键盘上字母到数据键的多对一映射关系,将特定语言字典中的每一个单词按照转化为一个数据串,如果该数据串还对应着其他的单词,则定义这样的单词被称为歧义单词,一个数据串对应的多个歧义单词构成“歧义单词组”;第二步,准备一批特定语言的大量语料,将语料分为一个一个的句子,保留句子中单词的大小写特性,如果一个句子中的单词超出了特定语言字典,则删除这样的句子。语料语言学(Corpus Linguistic-CL)和统计自然语言处理(Statistical Natural LanguageProcessing-SNLP)的公知观点,语料越大,则统计数据越准确,语料与实际应用环境的相关性越大,则效果越好。
第三步,针对特定语言字典中的一个歧义单词,从语料中统计出包含该单词的连续三个单词的组合搭配频率,将其组合搭配频率高的定义为“三单词组合(Tri-WordCombination)”,将该组合和其频率保存在存储器中;这种高频搭配体现了语言在实际应用中的规律,且这种结构更加稳定。这种“三单词组合”并不一定对应语言学意义上的短语。
第四步,针对第三步中的歧义单词,从语料中统计出该单词与前面一个单词的组合搭配频率,将其组合搭配频率高的定义为“二单词组合(Bi-Word Combination)”,将该组合和其频率保存在存储器中,该组合后面一个单词一定是歧义单词;这种“二单词组合”并不一定对应语言学意义上的短语。
第五步,针对第三步中的歧义单词,从语料中统计出该单词与后面一个单词的组合搭配频率,将其组合搭配频率高的定义为“二单词组合(Bi-Word Combination)”,将该组合和其频率保存在存储器中,该组合前面一个单词一定是歧义单词;这种“二单词组合”并不一定对应语言学意义上的短语。
第六步,针对第三步中的歧义单词,从语料中统计出该单词与前面一个单词中的两个特定字母的耦合搭配频率,将该组合搭配定义为“前单词字母耦合”,将该耦合和其频率保存在存储器中;根据特定语言的实际情况,可将一个单词的首字母加尾字母、或首字母加第二个字母、或首字母加首字母后的第一个辅音字母作为该单词的两个特定字母;如果该单词为单字母单词,则定义一个特例符为第二个字母;则定义空格为第二个字母;针对语料中歧义单词在句首的情况,设定一个句首标识符为该歧义单词的前一个单词的两个特定字母。用前面一个单词中的两个特定字母可以对歧义单词出现的情况作进一步划分,而又不会引起统计结果的数据量大幅增加。
第七步,针对特定语言字典中的每一个歧义单词,重复第三步到第六步的统计过程;第八步,处理器接受一个或多个数据串序列输入,数据串依次表示为U1、U2、U3、U4、U5、U6...Un,一个数据串可能对应着一个或多个特定语言字典中的单词,处理器依据存储器中的单词组合信息,按照从前到后、最长匹配、高频优先的原则查找出该输入数据串序列中的“三单词组合”和“二单词组合”,并用长度最长、频率最高的“单词组合”中的单词来替换相应的数据串,其具体方法是(a)从i为1开始,如果UiUi+1Ui+2在存储器中对应着至少一个“三单词组合”,找出最高频的“三单词组合”,且i变成i+3,再次从(a)开始下一个循环;否则(b)如果UiUi+1Ui+2中只有UiUi+1在存储器中对应着至少一个“二单词组合”,找出最高频的“二单词组合”,且i变成i+2,再次从(a)开始下一个循环;否则(c)如果UiUi+1Ui+2中UiUi+1在存储器中不对应任何一个“二单词组合”,则将Ui定义为“非组合数据串”,且i变成i+1,再次从(a)开始下一个循环;
第九步,针对第八步中的数据串序列U1、U2、U3、U4、U5、U6...Un,,经过第八步中单词组合查找,去除其中对应“三单词组合”和/或“二单词组合”的数据串,剩余的数据串全部为单个的“非组合数据串”,如果该数据串只对应着特定语言字典中的一个单词,则将该数据串替换为对应的单词;第十步,针对第八步中的数据串序列U1、U2、U3、U4、U5、U6...Un,经过第八步、第九步两步处理,则剩余的”非组合数据串”全部对应着歧义单词,则按照从前到后原则、依据该数据串前面一个单词的两个特定字母以及存储器中的“前单词字母耦合”频率数据,从歧义单词组中挑选出频率最高的单词来替换该数据串;第十一步,处理器根据第八步、第九步和第十步的替换结果,将其作为首选候选的单词序列,通过显示输出设备呈现给用户,待用户确认后完成输入;第十二步,在输入编辑确认完毕后,处理器自动学习确认的单词序列中的组合特性,其方法是处理器按照从前到后的顺序,查找确认的单词序列中的每一个歧义单词及其前后的单词,分别组成一个或多个“三单词组合”和“二单词组合”,如果以上生成的任何一个单词组合没有出现在已有的“三单词组合”或“二单词组合”组合中,则将其作为一个新的自定义“单词组合”添加到存储器中。
为改善人机交互操作中的友好性,本发明采取的技术方案是将小键盘上西语输入中的人机交互设定为多种状态,初始状态为输入编辑状态,该状态也是主状态,在该状态下,用户可以连续输入一个或多个单词对应的数据串序列,单词之间用空格键来分割。系统自动按照前述的方法将该数据串序列替换为一个首选候选的单词序列。如果想输入的是一个歧义单词,用户可以输入一个单词就挑选一个歧义,也可连续输入多个单词再集中、逐个挑选歧义。后一种集中挑选的方法效率更高。
本发明另外设定有数字输入状态、字典以外单词自定义状态、歧义单词挑选状态、歧义单词跳转状态等四个状态,并将小键盘上的四个方向键分别设定对应的状态进入键,在输入编辑状态下按压某个方向键,可以直接进入对应的状态,并在对应的状态结束后自动返回输入编辑状态。
在输入编辑状态下按压相应的方向键进入数字输入状态,在进入以后,处理器将紧靠在插入符之前的一个数据串显示成对应的数字,在用户按压空格键或其他特定键结束数字输入状态以后,处理器自动将状态返回到输入编辑状态;在输入编辑状态下按压相应的方向键进入字典以外单词自定义状态,在进入以后,处理器将紧靠在插入符之前的一个数据串的第一数据键所对应的小写字母、大写字母、阿拉伯数字、标点以及其他符号分页显示到候选框,用户在挑选该数据键所对应的一个字符后,处理器自动将该数据串的下一个数据键所对应的全部字符分页显示到候选框,供用户挑选,在用户按压空格键或其他特定键结束字典以外单词自定义状态以后,处理器自动将状态返回到输入编辑状态;在输入编辑状态下,如果紧靠在插入符之前的一个数据串对应着多个歧义单词,按压相应的方向键进入歧义单词挑选状态,在进入以后,处理器在候选框中罗列出该单词对应的歧义单词,在用户挑选出某个特定的歧义单词后,歧义单词挑选状态结束,处理器自动将状态返回到输入编辑状态,并按照从前到后、最长匹配、字母耦合、高频优先的原则,处理器重新对数据串序列中未确认的单词进行替换,即一次挑选可能引起数据串序列中其他未确认歧义单词的联动;在输入编辑状态下,如果数据串序列中有一个或者一个以上数据串对应着歧义单词,按压相应的方向键进入歧义单词跳转状态,跳转方式是从前到后、循环跳转,每跳转一次,则插入符移动到下一个歧义单词的后面,处理器自动将状态返回到输入编辑状态,用户可以按压相应的方向键进入歧义单词挑选状态来挑选一个歧义单词;本发明还设定有一组扩展状态,这些扩展状态包括拷贝粘贴状态、表情符号与特定短语操作状态,其方案是将小键盘上没有对应字母的数据键与方向键一起构成复合扩展键组,在输入编辑状态下,通过先按压一次特定的数据键、再按压一次特定的方向键的复合操作方式来进入设定的状态,进行相应的操作,并在对应的状态结束后自动返回输入编辑状态。
本发明的有益效果是,实现了小键盘上西语输入中的歧义单词选取时的上下文智能相关,可以以前定后、以后定前、前后联动;在人机交互的友好性方面,实现了多单词连续输入,词典以外单词的自定义,大小写、数字、符号的混合输入问题,并能够完成拷贝粘贴、表情符号与特定短语操作等扩展功能。从整体上提升小键盘上西语输入中的流畅性和智能性。

图1是与本发明对应的一种小键盘设备的内部各组成部分的图示图2是与图1所述设备的透视3是计算数据串序列对应的首选候选的流程4是输入编辑状态的示意5是字典以外单词自定义过程的示意图
图6是歧义单词挑选过程的示意7是数字输入过程的示意8是歧义单词跳转过程的示意9是输入编辑状态下首选候选的动态变动示意10是处理器计算出多数据串序列对应的首选候选结果的示意11是一种拷贝粘贴功能的复合扩展键组操作过程的示意12是一种关于表情符号与特定短语的复合扩展键组操作过程的示意图具体实施方案I.硬件结构(I.a)本发明涉及一种小键盘上西语输入中的歧义处理与人机交互方法。图1是一种小键盘设备的内部结构(100)图示,其优选实现方式是包括天线(102)、发射接受装置(104)、外部接口(120)、电源(122)、处理器(106)、输出设备(108)(110)、输入设备(112)(114)、存储器(116),存储器中各种相关数据,有的数据以数据库(118)形式存在。
(1.b)图2是内部结构(100)所指的小键盘设备(200)的透视图,该设备包括一个上部(210)和下部(220),上部和下部之间通过一个连接部(230)相连;上部(210)包括一个听筒(211)和一个显示输出设备(212);下部包括一个麦克风(221)和一个输入键组(222)。输入键组(222)的优选实现方式是包括上方向键(224)、右方向键(225)、下方向键(226)、左方向键(227)、OK键(228)、C键(229)、数据键组(223),在数据键组中,O键(230)或#键(231)上还表示是空格键。
II.语料统计(II.a)定义小键盘上字母到数据键的多对一映射关系。比如,根据国际电信电报咨询委员会的CCITT标准小键盘定义,英语字母到数据键的映射关系是“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”分别英文字母“abc”、“def”、“ghi”、“jkl”、“mno”、“pqrs”、“tuv”、“wxyz”。
(II.b)依照上述映射关系,将特定语言字典中的每一个单词按照转化为一个数据串,如果该数据串还对应着其他的单词,则定义这样的单词被称为歧义单词,一个数据串对应的多个歧义单词构成“歧义单词组”。比如,字典中共有以下7个英文单词“good”、“home”、“gone”、“hood”、“goof”、“hone”、“hoof”均对应同一个数据串“4-6-6-3”,则定义这7个单词都是歧义单词,而这7个单词构成了一个“歧义单词组”。
(II.c)准备一批特定语言的大量语料,将语料分为一个一个的句子,保留句子中单词的大小写特性,如果一个句子中的单词超出了特定语言字典,则删除这样的句子。语料语言学(Corpus Linguistic-CL)和统计自然语言处理(Statistical Natural LanguageProcessing-SNLP)的公知观点,语料越大,则统计数据越准确,语料与实际应用环境的相关性越大,则效果越好。
(II.d)针对特定语言字典中的一个歧义单词,从语料中统计出包含该单词的连续三个单词的组合搭配频率,将其组合搭配频率高的定义为“三单词组合(Tri-WordCombination)”,将该组合和其频率保存在存储器(116)中。比如,语料中多次出现了“as good as”和“very good at”这种高频搭配,则将其定义“三单词组合”,这种“三单词组合”体现了语言在实际应用中的规律,但其本身并不一定对应语言学意义上的短语,如“very good at”就不是语言学意义上的短语。
(IIe)针对第(II.d)中的歧义单词,从语料中统计出该单词与前面一个单词的组合搭配频率,将其组合搭配频率高的定义为“二单词组合(Bi-Word Combination)”,将该组合和其频率保存在存储器(116)中,该组合后面一个单词一定是歧义单词。比如“verygood”就是这样的“二单词组合(Bi-Word Combination)”。
(II.f)针针对第(II.d)中的歧义单词,从语料中统计出该单词与后面一个单词的组合搭配频率,将其组合搭配频率高的定义为“二单词组合(Bi-Word Combination)”,将该组合和其频率保存在存储器(116)中,该组合前面一个单词一定是歧义单词。比如“goodstudent”就是这样的“二单词组合(Bi-Word Combination)”。
(II.g)针对(II.d)中的歧义单词,从语料中统计出该单词与前面一个单词中的两个特定字母的耦合搭配频率,将该组合搭配定义为“前单词字母耦合”,将该耦合和其频率保存在存储器(116)中;根据特定语言的实际情况,可将一个单词的首字母加尾字母、或首字母加第二个字母、或首字母加首字母后的第一个辅音字母作为该单词的两个特定字母;如果该单词为单字母单词,则定义一个特例符为第二个字母;则定义空格为第二个字母;针对语料中歧义单词在句首的情况,设定一个句首标识符为该歧义单词的前一个单词的两个特定字母。用前面一个单词中的两个特定字母可以对歧义单词出现的情况作进一步划分,而又不会引起统计结果的数据量大幅增加。作为一种优选的实现方式,可将一个单词的首字母加尾字母定义为两个特定字母。针对特定语言的歧义单词的最大数量,可以将耦合频率简化成8个或16个等级,以减小数据大小。
III.计算数据串序列的首选候选的流程(III.a)图3是首选候选的流程图(300),开始(301)后,处理器接受多个数据串序列U1、U2、U3、U4、U5、U6...Un,将数据串的个数计为n(303),设定一个计数器i的初始值为1(305),i代表了下一步需要处理的数据串的位置,接下来判断计数器i是否大于n(307),如果大于n,则代表已经处理完毕,进入(341);否则(III.b)开始判断“是否UiUi+1Ui+2在存储器(116)中对应着至少一个三单词组合”(309),如果为是,则用频率最高的三单词组合来替换UiUi+1Ui+2(315),并将计数器i的值加3(317),回到(307);否则(III.c)开始判断“是否UiUi+1在存储器(116)中对应着至少一个二单词组合”(311),如果为是,则用频率最高的二单词组合来替换UiUi+1(319),并将计数器i的值加2(321),回到(307);否则(III.d)开始判断“是否Ui在存储器(116)中对应着一个无歧义单词”(313),如果为是,则用对应的一个单词来替换Ui(323),并将计数器i的值加1(325),回到(307);否则(III.e)表示Ui对应着歧义单词,首先找出Ui的前一个单词Ui-1的两个特定字母(327),并找出Ui对应的所有歧义单词(329),然后从Ui对应的所有歧义单词中取一个单词(331),并从存储器(116)中查找该单词与前单词两个特定字母的耦合频率,并判断“歧义单词组”中是否还有其他的单词(335),如果有,则回到(331)取下一个单词;否则(III.f)比较各个单词与前单词特定字母耦合频率的大小,并用频率最高的单词来替换Ui(337),并并将计数器i的值加1(339),回到(307);(III.g)如果判断计数器i的值大于n(307),则代表已经处理完毕,则处理器(106)将所有替换结果显示到显示输出设备(212),供用户确认。至此,计算数据串序列的首选候选的流程结束(343)。
(III.h)在输入编辑确认完毕后,处理器(106)自动学习确认的单词序列中的组合特性,其方法是处理器(106)按照从前到后的顺序,查找确认的单词序列中的每一个歧义单词及其前后的单词,①将歧义单词与其前一个单词、后一个单词组成“三单词组合”,②其次将歧义单词与其前一个单词组成“二单词组合”,③还将歧义单词与其后一个单词组成“二单词组合”,如果以上①②③中生成的任何一个单词组合没有出现在已有的“三单词组合”或“二单词组合”组合中,则将其作为一个新的自定义“单词组合”添加到存储器中。
(III.i)以图10中的语句(1000)“Any boy passed the contest will receive a very good MP3player before go home”为例,其中各单词对应的歧义单词如下Any-Any Box Boy Bow Cow Cox Amyboy any box boy bow cow cox amycontest-convert contestgood-good home gone hood homego-in gohome-good home gone hood home该语句对应的数据串序列为“269 269 727733 843 2668378 9455 7323483 2 83794663 673 752937 233673 46 4663”,假设存储器(116)中有如下三单词组合和两单词组合“Any boy”、“the contest will”、“very good”、“before go home”,则处理器(106)依据首选候选的流程图(300)中的计算方法,将上述句子分为“269 269”、“727733”、“843 2668378 9455”、“7323483”、“2”、“8379 4663”、“673”、“752937”、“23367346 4663”,分别对应“Any boy”、“passed”、“the contest will”、“receive”、“a”、“verygood”、“MP3”、“player”、“before go home”。
IV.人机交互方法(IV.a)将小键盘上西语输入中的人机交互设定为多种状态,初始状态为输入编辑状态,该状态也是主状态,在该状态下,用户可以连续输入一个或多个单词对应的数据串序列,单词之间用空格键来分割。系统自动按照前述的方法将该数据串序列替换为一个首选候选的单词序列。如果想输入的是一个歧义单词,用户可以输入一个单词就挑选一个歧义,也可连续输入多个单词再集中、逐个挑选歧义。后一种集中挑选的方法效率更高。如图4所示的输入编辑状态(400),用户从前到后输入了4个数据串序列,处理器(106)将该数据串替换为首选候选“Work in very good”,其中“in”(404)和“good”(403)是歧义单词,而其他单词为非歧义单词,其优选显示方式是将歧义单词用特别的字体、颜色等标注出来,有一个插入符(402)显示下一个插入操作的位置,在插入符附近有一个十字提示图标(401),该图标可以显示最多四个方向,四个方向分别表示当前可以进入的状态。
(IV.b)十字提示图标(401)表示在输入编辑状态下按压某个方向键,可以直接进入对应的状态,这四个状态是数字输入状态、字典以外单词自定义状态、歧义单词挑选状态和歧义单词跳转状态等四个状态。其优选对应关系是用左方向键进入数字输入状态、上方向键进入字典以外单词自定义状态、下方向键进入歧义单词挑选状态、右方向键进入歧义单词跳转状态。
(IV.c)如图5所示的字典以外单词自定义过程(500),在输入编辑状态(501)按压上方向键进入字典以外单词自定义状态,处理器(106)将紧靠在插入符之前的一个数据串的第一数据键所对应的小写字母、大写字母、阿拉伯数字等分页显示到候选框(502),用户在挑选该数据键所对应的一个字符(503)后,处理器自动将该数据串的下一个数据键所对应的全部字符分页显示到候选框(504)(505)(506),供用户挑选,在用户按压空格键或其他特定键结束字典以外单词自定义状态(507)以后,处理器自动将状态返回到输入编辑状态。自定义词会被自动记忆,如果下次再输入就会出现(508)(509)。
(IV.d)如图6所示的歧义单词挑选过程(600),在输入编辑状态(601)下,紧靠在插入符之前的一个数据串对应着多个歧义单词,按压向下方向键进入歧义单词挑选状态(602),处理器(106)在候选框中罗列出该单词对应的歧义单词,在用户挑选出某个特定的歧义单词(603)后,歧义单词挑选状态结束(604),处理器(106)自动将状态返回到输入编辑状态,并按照从前到后、最长匹配、字母耦合、高频优先的原则,处理器重新对数据串序列中未确认的单词进行替换,即一次挑选可能引起数据串序列中其他未确认歧义单词的联动;(IV.e)如图7所示的数字输入过程(700),在输入编辑状态(701)下,按压向左方向键进入数字输入状态,处理器(106)将紧靠在插入符之前的一个数据串显示为对应的数字(702),在用户按压空格键或其他特定键结束数字输入状态以后,处理器自动将状态返回到输入编辑状态(703)。
(IV.f)如图8所示的歧义单词跳转过程(800),在输入编辑状态(801)下,数据串序列中有两个数据串对应着歧义单词,按压向右方向键进入歧义单词跳转状态,跳转规则是从前到后、循环跳转,每跳转一次,则插入符移动到下一个歧义单词的后面,在用户按压一次右方向键以后跳转到下一个歧义单词(802)(805),处理器自动将状态返回到输入编辑状态,用户按压向下方向键(803)进入歧义单词挑选状态来挑选一个歧义单词(804)(806)。
(IV.g)如图9所示的为输入编辑状态下首选候选的动态变动(900),在只输入了三个数据串序列的情况下,第三个数据串被替换为“say”(901),在接下来输入第四个数据串以后,第四个数据串被替换为“pay”(902)。
(IV.h)如图11所示为拷贝粘贴功能的复合扩展键组的操作过程(1100)。将0键和下方向键定义为拷贝粘贴状态的拷贝功能,将0键和上方向键定义为拷贝粘贴状态的粘贴功能,把应用程序中的插入符移动到某个位置,并在该位置先按压0键(1101),再按压下方向键进入拷贝功能,移动左或右方向键选择要拷贝的内容,被选择的内容以一种可以区分的方式显示(1102),按压OK键表示完成拷贝;移动插入符到目标位置,并按压0键(1103),再按压上方向键实现粘贴功能,粘贴完毕,粘贴内容显示到应用程序中(1104)。
(IV.i)如图12所示为表情符号与特定短语操作的复合扩展键组的操作过程(1200)。将1键和下方向键定义为表情符号与特定短语操作功能,先用工具定义一组用户个人喜好的表情符号与特定短语,把应用程序中的插入符移动到某个位置,并在该位置先按压1键(1201),再按压下方向键进入表情符号与特定短语操作功能,处理器(106)在候选框中列出表情符号与特定短语(1202),供用户挑选,用户挑选以后,选中的表情符号或特定短语进入应用程序(1203)。
权利要求
1.一种小键盘上西语输入中的歧义处理与人机交互方法,将特定语言字母表中的字母按多对一的关系映射到数据键上,将特定语言字典中的单词按映射关系转化为数据串,如果多个单词对应同一个数据串,则这样的单词被称为歧义单词,从语料中统计出每一个歧义单词与前面和/或后面单词的高频搭配的单词组合,并统计出歧义单词与前一个单词中两个特定字母的耦合搭配频率,处理器接受到一个或多个数据串序列输入后,按从前到后、最长匹配、字母耦合、高频优先的原则将其转化为对应的单词序列,并作为首选候选输出到显示设备上供用户确认,四个方向键被分别设定成数字输入状态、字典以外单词自定义状态、歧义单词挑选状态、歧义单词跳转状态的状态进入键,小键盘上没有对应字母的数据键与方向键一起构成复合扩展键组,通过这些复合扩展键组进入拷贝粘贴状态、表情符号与特定短语操作状态,其特征是(a)针对特定语言字典中的每一个歧义单词,从语料中统计出包含该单词的连续三个单词的组合搭配频率,将其组合搭配频率高的定义为“三单词组合(Tri-WordCombination)”,将该组合和其频率保存在存储器中;(b)针对(a)中的歧义单词,从语料中统计出该单词与前面一个单词的组合搭配频率,将其组合搭配频率高的定义为“二单词组合(Bi-Word Combination)”,将该组合和其频率保存在存储器中;(c)针对(a)中的歧义单词,从语料中统计出该单词与后面一个单词的组合搭配频率,将其组合搭配频率高的定义为“二单词组合(Bi-Word Combination)”,将该组合和其频率保存在存储器中;(d)针对(a)中的歧义单词,从语料中统计出该单词与前面一个单词中的两个特定字母的耦合搭配频率,将该耦合搭配定义为“前单词字母耦合”,将该耦合和其频率保存在存储器中;(e)处理器接受一个或多个数据串序列输入,数据串依次表示为U1、U2、U3、U4、U5、U6...Un,一个数据串可能对应着一个或多个特定语言字典中的单词,处理器依据存储器中的“单词组合”信息,按照从前到后、最长匹配、高频优先的原则查找出该输入数据串序列中的“三单词组合”和“二单词组合”,并用长度最长、频率最高的“单词组合”中的单词来替换相应的数据串;(f)针对(e)中的数据串序列U1、U2、U3、U4、U5、U6...Un,经过(e)中单词组合查找,去除其中对应“三单词组合”和/或“二单词组合”的数据串,则剩余的数据串全部为单个的“非组合数据串”,如果该数据串只对应着特定语言字典中的一个单词,则将该数据串替换为对应的单词;(g)针对(e)中的数据串序列U1、U2、U3、U4、U5、U6...Un,经过(e)(f)两步处理,则剩余的“非组合数据串”全部对应着歧义单词,则按照从前到后原则、依据该数据串前面一个单词的两个特定字母以及存储器中的”前单词字母耦合”频率数据,从多个歧义单词中挑选出频率最高的一个单词来替换该数据串;(h)处理器根据(e)(f)(g)三步的替换,将替换结果作为首选候选输出到显示设备上,待用户确认后完成输入;(i)四个方向键被分别设定成数字输入状态、字典以外单词自定义状态、歧义单词挑选状态、歧义单词跳转状态的状态进入键,在输入编辑状态下按压某个方向键,可以直接进入对应的状态,并在对应的状态结束后自动返回输入编辑状态;(j)小键盘上没有对应字母的数据键与方向键一起构成复合扩展键组,在输入编辑状态下,通过先按压一次特定的数据键、再按压一次特定的方向键的复合操作方式来进入设定的拷贝粘贴状态、表情符号与特定短语操作状态,并在对应的状态结束后自动返回输入编辑状态;(k)在输入编辑确认完毕后,处理器自动学习确认的单词序列中的组合特性,其方法是处理器按照从前到后的顺序,查找确认的单词序列中的每一个歧义单词及其前后的单词,①将歧义单词与其前一个单词、后一个单词组成“三单词组合”,②其次将歧义单词与其前一个单词组成“二单词组合”,③还将歧义单词与其后一个单词组成“二单词组合”,如果以上①②③中生成的任何一个单词组合没有出现在已有的“三单词组合”或“二单词组合”组合中,则将其作为一个新的自定义“单词组合”添加到存储器中。
2.根据权利要求1所述的方法,将一个单词的首字母加尾字母、或首字母加第二个字母、或首字母加首字母后的第一个辅音字母设定为该单词的两个特定字母,如果该单词为单字母单词,则定义一个特例符为第二个字母;
3.根据权利要求2所述的方法,针对语料中歧义单词在句首的情况,设定一个句首标识符为该歧义单词的前一个单词的两个特定字母;
4.根据权利要求1所述的方法,从多个数据串序列U1、U2、U3、U4、U5、U6...Un,中查找“三单词组合”和“二单词组合”的方式是(a)从i为1开始,如果UiUi+1Ui+2在存储器中对应着至少一个“三单词组合”,找出最高频的“三单词组合”,且i变成i+3,再次从(a)开始下一个循环;否则(b)如果UiUi+1Ui+2中只有Ui Ui+1在存储器中对应着至少一个“二单词组合”,找出最高频的“二单词组合”,且i变成i+2,再次从(a)开始下一个循环;否则(c)如果UiUi+1Ui+2中UiUi+1在存储器中不对应任何一个“二单词组合”,则将Ui定义为“非组合数据串”,且i变成i+1,再次从(a)开始下一个循环;
5.根据权利要求1所述的方法,在输入编辑状态下按压相应的方向键进入数字输入状态,其特征是处理器将紧靠在插入符之前的一个数据串显示成对应的数字,在用户按压空格键或其他特定键结束数字输入状态以后,处理器自动将状态返回到输入编辑状态;(700)
6.根据权利要求1所述的方法,在输入编辑状态下按压相应的方向键进入字典以外单词自定义状态,其特征是处理器将紧靠在插入符之前的一个数据串的第一数据键所对应的小写字母、大写字母、阿拉伯数字、标点以及其他符号分页显示到候选框,用户在挑选该数据键所对应的一个字符后,处理器自动将该数据串的下一个数据键所对应的全部字符分页显示到候选框,供用户挑选,在用户按压空格键或其他特定键结束字典以外单词自定义状态以后,处理器自动将状态返回到输入编辑状态;(500)
7.根据权利要求1所述的方法,在输入编辑状态下,如果紧靠在插入符之前的一个数据串对应着多个歧义单词,按压相应的方向键进入歧义单词挑选状态,处理器在候选框中罗列出该单词对应的歧义单词,其特征是在用户挑选出某个特定的歧义单词后,歧义单词挑选状态结束,处理器自动将状态返回到输入编辑状态,并按照从前到后、最长匹配、字母耦合、高频优先的原则,处理器重新对数据串序列中未确认的单词进行替换,即一次挑选可能引起数据串序列中其他未确认歧义单词的联动;(600)
8.根据权利要求1所述的方法,在输入编辑状态下,如果数据串序列中有一个或者一个以上数据串对应着歧义单词,按压相应的方向键进入歧义单词跳转状态,其特征是跳转方式是从前到后、循环跳转,每跳转一次,则插入符移动到下一个歧义单词的后面,处理器自动将状态返回到输入编辑状态,用户可以按压相应的方向键进入歧义单词挑选状态来挑选一个歧义单词;(800)
全文摘要
本发明涉及一种小键盘上西语输入中的歧义处理与人机交互方法,将字母按多对一的关系映射到数据键上,将单词按映射关系转化为数据串,从语料中统计出歧义单词与前面和/或后面单词的高频搭配的单词组合,并统计出歧义单词与前一个单词中两个特定字母的耦合搭配频率;处理器接受到数据串序列输入后,按从前到后、最长匹配、字母耦合、高频优先的原则将其转化为对应的单词序列作为首选候选;四个方向键被分别设定成数字输入状态、字典以外单词自定义状态、歧义单词挑选状态、歧义单词跳转状态的状态进入键;小键盘上没有对应字母的数据键与方向键一起构成复合扩展键组,通过这些复合扩展键组进入拷贝粘贴状态、表情符号、符号与特定短语操作状态。
文档编号H04M1/23GK1831730SQ200510051349
公开日2006年9月13日 申请日期2005年3月8日 优先权日2005年3月8日
发明者张一昉, 马贤亮, 陈波, 柯文 申请人:张一昉, 马贤亮, 陈波
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1