一种基于混输字符串进行字符转换的方法和装置的制作方法

文档序号:6603661阅读:171来源:国知局
专利名称:一种基于混输字符串进行字符转换的方法和装置的制作方法
技术领域
本发明涉及输入法技术领域,特别是一种基于混输字符串进行字符转换的方法和装置,以及一种文字输入方法和输入法系统。
背景技术
中国人在记忆英文单词时普遍存在难以拼写、不会发音的问题,例如,会发音但不记得确切的完整拼写,或者,知道拼写但发音不准确或不会发音;针对上述问题,现有的输入法系统可以提供一些翻译功能,例如,提供以词条为粒度的,类似词典查词的服务。例如,公开号为200910039910. X的中国专利公开文件,就公开了一种文字输入方法的技术方案,该技术方案的翻译步骤主要分两步完成第一步,通常的音字转换;第二步,对用户选中的候选项进行翻译。该专利能够根据用户输入完成翻译功能,但是,在翻译过程需要用户参与,影响用户体验;而且,所述翻译主要以词条为粒度,而对于用户输入整句的翻译过程细节,则没有详细描述。并且,现有的各种技术方案没有考虑到用户进行混输的情况,例如,在用户输入中英混输字符串“bri特尼”时,现有技术既无法将其转换翻译为中文,也无法将其转换翻译为英文。总之,需要本领域技术人员迫切解决的一个技术问题就是如何能够创新性的提供针对混输字符串的翻译转换功能。

发明内容
本发明所要解决的技术问题是提供一种基于混输字符串进行字符转换的方法和装置,能够基于用户输入的混输字符串进行字符转换,得到用户所需的转换结果(例如,翻译)。相应的,本发明还提供了一种文字输入方法和输入法系统,用以基于混输字符串进行字符转换,并可以实现所述字符转换结果的展现、用户选择和输出,可以实现用户在混输字符串的情况下而直接得到所需转换结果上屏输出。为了解决上述问题,本发明公开了一种基于混输字符串进行字符转换的方法,包括获取混输字符串;区分混输字符串中不同类型的混输片段;基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果。优选的,所述不同类型的混输片段包括发音片段和目标语言片段,所述获得转换结果的步骤包括获取所述混输字符串中的发音片段在目标语言下的发音单元序列;基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。优选的,所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段,所述获得转换结果的步骤包括获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列;获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列;基于在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。优选的,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括获取目标语言片段在目标语言下的发音单元序列;基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。优选的,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列;将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果。优选的,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括基于所述目标语言片段,在词库中匹配查询得到相应的字词集合;利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。优选的,将所述混输字符串中的第一片段作为发音片段,第二片段作为目标语言片段,得到第一目标语言下的转换结果;以及,将所述混输字符串中的第二片段作为发音片段,第一片段作为目标片段,得到第二目标语言下的转换结果。优选的,将所述混输字符串中的第一片段作为目标语言的发音片段,第二片段作为非目标语言的发音片段,得到第一目标语言下的转换结果;以及,将所述混输字符串中的第二片段作为目标语言的发音片段,第一片段作为非目标语言的发音片段,得到第二目标语言下的转换结果。优选的,可以通过字符类型、大小写字母、分隔符或者状态切换点等信息,区分混输字符串中不同类型的混输片段。优选的,所述的方法还可以包括将所述混输字符串在目标语言下的转换结果翻译为另一语言字词进行展示。优选的,当用户输入长句或词组时,所述的方法还可以包括通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串。基于本发明的另一实施例,还公开了一种基于混输字符串进行字符转换的装置, 包括接口单元,用于获取混输字符串;区分单元,用于区分混输字符串中不同类型的混输片段;转换单元,用于基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果。优选的,所述不同类型的混输片段包括发音片段和目标语言片段,所述转换单元包括第一音节获取模块,用于获取所述混输字符串中的发音片段在目标语言下的发音单元序列;第一转换结果获取模块,用于基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。优选的,所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段,所述转换单元包括
8
第二音节获取模块,用于获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列;第三音节获取模块,用于获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列;第二转换结果获取模块,用于基于在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。优选的,所述转换结果获取模块具体用于基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。优选的,所述转换结果获取模块包括发音片段字符获取子模块,用于基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列;拼接子模块,用于将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果。优选的,所述转换结果获取模块包括词库查询子模块,用于基于所述目标语言片段,在词库中匹配查询得到相应的字词集合;音节搜索子模块,用于利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。优选的,所述装置还可以包括语言翻译单元,用于将所述混输字符串在目标语言下的转换结果翻译为另一语言字词。优选的,所述装置还可以包括切分单元,用于当用户输入长句或词组时,通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串。基于本发明的另一实施例,还公开了一种文字输入方法,包括接收用户输入的混输字符串;区分混输字符串中不同类型的混输片段;基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果,并加以展示;依据用户指示, 输出指定的转换结果。优选的,所述不同类型的混输片段包括发音片段和目标语言片段,所述获得转换结果的步骤包括获取所述混输字符串中的发音片段在目标语言下的发音单元序列;基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。优选的,所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段,所述获得转换结果的步骤包括获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列;获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列;基于在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。优选的,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括获取目标语言片段在目标语言下的发音单元序列;基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。优选的,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列;将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果。优选的,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括基于所述目标语言片段,在词库中匹配查询得到相应的字词集合;利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。优选的,将所述混输字符串中的第一片段作为发音片段;第二片段作为目标片段, 得到第一目标语言下的转换结果;以及,将所述混输字符串中的第二片段作为发音片段,第一片段作为目标片段,得到第二目标语言下的转换结果;展示上述得到的两种目标语言下的转换结果。优选的,将所述混输字符串中的第一片段作为目标语言的发音片段,第二片段作为非目标语言的发音片段,得到第一目标语言下的转换结果;以及,将所述混输字符串中的第二片段作为目标语言的发音片段,第一片段作为非目标语言的发音片段,得到第二目标语言下的转换结果;展示上述得到的两种目标语言下的转换结果。优选的,所述的方法还包括将所述混输字符串在目标语言下的转换结果翻译为
另一语言字词进行展示。优选的,当用户输入长句或词组时,所述的方法还包括通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串。依据本发明的另一实施例,还公开了一种输入法系统,包括接口单元,用于接收用户输入的混输字符串;区分单元,用于区分混输字符串中不同类型的混输片段;转换单元,用于基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果;展示单元,用于展示转换结果;输出单元,用于依据用户指示,输出指定的转换结果。优选的,所述不同类型的混输片段包括发音片段和目标语言片段,所述转换单元包括第一音节获取模块,用于获取所述混输字符串中的发音片段在目标语言下的发音单元序列;第一转换结果获取模块,用于基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。优选的,所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段,所述转换单元包括第二音节获取模块,用于获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列;第三音节获取模块,用于获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列;第二转换结果获取模块,用于基于发音片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。优选的,所述转换结果获取模块具体用于基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。优选的,所述转换结果获取模块包括发音片段字符获取子模块,用于基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列;拼接子模块,用于将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果。优选的,所述转换结果获取模块包括词库查询子模块,用于基于所述目标语言片段,在词库中匹配查询得到相应的字词集合;音节搜索子模块,用于利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。优选的,所述输入法系统还可以包括语言翻译单元,用于将所述混输字符串在目标语言下的转换结果翻译为另一语言字词,由所述展示单元进行展示。优选的,所述输入法系统还可以包括切分单元,用于当用户输入长句或词组时, 通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串。与现有技术相比,本发明具有以下优点在用户忘记单词某个部分的拼写但记得该部分发音,或者,用户在忘记单词某个部分的翻译结果单记得该部分拼写时,就可能使用混输字符串来表示自己所需的输入字词。在用户的混输字符串中,通常会采用发音片段表示所忘记的那部分,目标语言片段表示其它部分。针对这样的特性,本发明可以同时依据所述发音片段在目标语言下的发音单元序列,以及目标语言片段,来获取该混输字符串在目标语言下单词全拼、完整翻译结果等转换结果。例如,中文用户在不记得外文拼写的情况下,就可能采用混输字符串(一部分外文拼写,一部分外文发音)来表示,则应用本发明就可以将该混输字符串转换成用户所需的外文结果。或者,在用户忘记整个单词的拼写时,还会采用两种语言的发音片段来表示该单词,也即,所述混输字符串包括两种语言的发音片段;针对此特性,本发明可以首先获取所述两种语言的发音片段在目标语言下的发音单元序列,然后,基于该发音单元序列,来获取该混输字符串在目标语言下单词全拼、完整翻译结果等转换结果。


图1是本发明一种基于混输字符串进行字符转换的方法实施例的流程图;图2是本发明一种对长句中混输字符串进行字符转换的示例;
图3是本发明一种基于混输字符串进行字符转换的装置实施例的结构图;图4是本发明一种文字输入方法实施例的流程图;图5是本发明第一种输入过程中候选项的展现界面示意图;图6是本发明第二种输入过程中候选项的展现界面示意图;图7是本发明第三种输入过程中候选项的展现界面示意图;图8是本发明第四种输入过程中候选项的展现界面示意图;图9是本发明一种输入法系统实施例的结构图。
具体实施例方式为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。本发明的混输字符串可以为任何两种语言的混输字符串;例如,中文和英文、汉字和德文、日文和英文、日文和阿拉伯文等等,下面主要以中英混输字符串为例进行说明,其他混输字符串请参照即可。需要说明的是,本发明所基于的混输字符串包括发音片段,或者,发音片段和目标语言片段,其中,在该混输字符串中,发音片段是用来表示发音的(目标语言和/或非目标语言),另一部分为目标语言的片段,基于该混输字符串,本发明可以得到目标语言下的转换结果(目标语言字词)。下面先对本发明可能的各种应用场景作简单的举例说明,并不以此为限,仅仅为了更好的描述本发明。应用场景1用户希望得到外文全拼,却不知道其中一部分的拼写,仅仅记得外文发音,则应用本发明,可以使用音译的本国文字或者本国发音表示该部分,从而获得所需的外文全拼。例如,用户欲输入美国影星施瓦辛格的全名,当输入到“schwar”时,却发现后面的部分记不清了,故选择用该中文汉字“辛格”或中文拼音“xin’ ge”表示该部分,由本发明依据所述混输字符串“sctiwar’辛格”或“sctiwar’ xin’ ge”,得到转换结果“ktiwarzenegger”。又如,本发明可以将依据混输字符串“斯库ool”得到“school”,依据“由你玩 city” 得到"university “,依据"misc 雷涅斯”得到 “miscellaneous”,等等。应用场景2用户希望得到外文的中文译名,却不知道其中一部分的翻译,仅仅记得英文拼写, 则应用本发明,可以使用外文字符表示该部分,从而获得所需的中文译名。例如,用户欲知道美国影星Brittany (布里特妮)的中文译名,却不知道前一部分“bri”的翻译,故将“bri 特尼”作为混输字符串,由本发明得到转换结果“布里特尼”或者“布里特妮”。应用场景3用户欲知道中外合成词的外文全拼,则应用本发明,可以得到“卡拉0K”、“多啦A 梦”等中外合成词的转换结果“Karaoke”、"Doraemon”。参照图1,示出了本发明一种基于混输字符串进行字符转换的方法实施例的流程图,具体可以包括步骤101、获取混输字符串;本实施例可以应用于各种翻译场合,例如,可以是具有翻译功能的各种软件,或者,提供翻译服务的各种网站等,用于基于混输字符串进行字符转换,得到所述混输字符串在目标语言下的转换结果。在实际中,可以依据用户输入获取所述混输字符串,例如,直接将用户在某翻译网站的输入“bri特尼”作为混输字符串;或者,可以通过右键选定来获取所述混输字符串,例如,可以将某软件的翻译功能集成在右键菜单中,这样,在用户选中“bri特尼”字符串、且触发该右键菜单的翻译功能时,即可将“bri特尼”作为本实施例的混输字符串。步骤102、区分混输字符串中不同类型的混输片段;以中英混输字符串为例,其组成主要有如下情形情形1、发音片段和目标语言片段;一般而言,中英混输字符串是中文汉字和英文的混输,此时,只需确定该中英混输字符串的目标语言,即可容易地从该中英混输字符串中获取发音片段和目标语言片段;其中,所述目标语言可由用户指定,或者,从混输字符串所包含的两个不同语言的片段中任意确定一个语言片段作为目标语言即可。以“bri特尼”为例,“bri特尼”字符串中包括了英文片段和中文片段,假设用户指定的目标语言为英文,那么,其中的目标语言片段即是“bri”,而中文发音片段则是“特尼”。 或者,在用户没有指定的情况下,可以确定英文为目标语言,也可以确定中文为目标语言; 在将汉字作为目标语言时,其中的目标语言片段即是“特尼”,而英文发音片段则是“bri”; 在将英文作为目标语言时,其中的目标语言片段即是“bri”,而中文发音片段则是“特尼”。但在某些情形下,中英混输字符串还可以是中文拼音和英文的混输,例如,用户欲输入美国影星施瓦辛格的全名,当输入到“schwar”时,却发现后面的部分记不清了,故选择用该部分“辛格”的中文拼音“xinge”。此时,所述混输字符串可以采用分隔符“’ ”来连接所述中文拼音和英文,例如,。此时,可通过如下方式来区分所述中文发音片段“xinge”和英文片段“schwar”的内容例如,将大写字母作为英文片段,非大写字母作为中文发音片段,此时,所述混输串可以是“SCHWARxinge” ;或者,按shift切换英文输入的文字作为英文片段,中文输入模式下输入的文字作为中文发音片段;或者,首先利用特殊符号将所述英文片段和中文发音片段分割开来,然后,确定所述两个片段所属的语言;例如,对于“schwar’ xinge”混输串, 可首先利用分隔符“ ’ ”将所述两个片段区分开来。由于中文拼音和英文均为字母拼写,在实际中,可根据拼写习惯,确定某一片段所属的语言。例如,汉字共有415个基本音节(不含声调的音节),可据此得知“xinge”属于中文发音片段;又如,英文单词具有固定的拼写习惯,比如字母片段“qw”、“qd”、“bd”、“000” 非法,而“ps”、“tr”可以出现在单词开头,据此可以得到“sctwar”属于英文。这样,对于一个混输字符串的片段,可根据所述英文单词的拼写习惯和中文音节的情况,对该混输字符串所包含的片段计算其属于英文单词的概率和其属于中文音节的概率,以确定其中的某个字母片段是中文拼音还是英文。可以理解,所述发音片段可以是中文发音片段、英文发音片段中的任一种,或者二者组合,甚至也可以为其他类型的发音表示,本发明对此不加以限制。例如,ν 5之师==威武之师,其中发音片段就是由英文字母“V”的发音和数字符号“5”的中文发音组成的。再例如,8错==不错,其中,发音片段就是数字符号“8”,但是其正式中文发音为 “ba”,而不是“bu”,而在本发明中可以将其识别为“bu”。即在本发明的具体实现中,可以依据用户使用习惯,形成数字符号“8”到“ba”和“bu”的映射;并不局限与其正式的发音标准,可以进行变形。情形2、目标语言的发音片段和非目标语言的发音片段。例如,对于中英混输串“卡拉0K”,可以将其中的“卡拉”区分为中文发音片段,“0K” 区分为英文发音片段。步骤103、基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果。例如,在所述不同类型的混输片段包括发音片段和目标语言片段时,所述步骤103 可以包括子步骤P1、获取所述混输字符串中的发音片段在目标语言下的发音单元序列;子步骤P2、基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。又如,在所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段时,所述步骤103可以包括子步骤Ql、获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列;子步骤Q2、获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列;子步骤Q3、基于在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。其中,所述发音单元序列可以理解为某种语言下的发音单元的组合。例如,对于中文而言,所述发音单元就是拼音音节(如,/chen/, /ya/、/da/等), 这样,英文发音片段在中文下的发音单元序列即是中文拼音。对于英文而言,所述发音单元就是英文音标(如,元音/i/、/ai/,辅音/b/、/ts/ 等),这样,中文发音片段在英文下的发音单元序列即是英文音标。在具体实现中,可以通过两种语言间发音上的映射关系,采用各种方式获取各种发音片段在目标语言下的发音单元序列。例如,对于中文汉字和英文的混输字符串,如果目标语言是英文,那么,获取该中文汉字在英文下的发音单元序列的过程可以包括中文汉字一中文拼音一英文音标,其中, “一”表示转化或映射关系。对于中文拼音和英文的混输字符串,如果目标语言是英文,那么,获取该中文拼音在英文下的发音单元序列的过程可以包括中文拼音一英文音标。如果目标语言是中文,则获取英文片段在中文下的发音单元序列的过程可以包括英文一英文音标一中文拼音。再例如,对于英文和德文或者法文等语言的混合字符串;英文片段一英文音标一德文或者法文音标。
以下对子步骤P1-P2的执行过程进行详细说明,其针对混输字符串,可以同时依据其中的发音片段和目标语言片段,来获取该混输字符串在目标语言下的转换结果。具体而言,首先将其中的发音片段映射为在目标语言下的发音单元序列,然后,利用所述发音单元序列和目标语言片段的联系,得到该混输字符串在目标语言下的转换结果。例如,对于中英混输字符串,子步骤P2可以是依据英文发音片段在中文下的中文拼音,以及中文片段(中文汉字或者中文拼音),得到中文汉字;或者,依据中文发音片段在英文下的英文音标,以及英文片段,得到英文单词。本发明可以提供如下子步骤P2获取转换结果的方案方案一、本方案的思想在于,利用发音片段和目标语言片段在发音上的联系,对所述两个片段的发音单元序列进行整合;此时,所述子步骤P2可以包括子步骤Al、获取目标语言片段在目标语言下的发音单元序列;子步骤A2、基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。以“bri特尼”为例,假设其中的目标语言片段是“bri”,发音片段“特尼”。则通过子步骤P2,得到发音片段“特尼”在目标语言(英文)下的发音单元序列,也即英文音标是 /tni/,那么,再通过子步骤Al可以获取“bri ”的英文音标/bri八而子步骤A2可以首先对所述两个英文音标进行可能的整合,例如其中的一个整合结果为[britni],然后,根据该整合结果[britni],通过检索词库等方式映射得到转换结果“Britney”。另外,上述示例中的发音片段“特尼”还可以对应其它英文音标,如t/t9ni/,这样,子步骤A2得到的整合结果中可以包栝[’ briteni],通过检索词库等方式进而得到的转换结果为 “Brittany”。总之,本方案通过整合得到该混输字符串在目标语言下的发音单元序列,然后映射得到相应的转换结果。方案二、本方案的思想在于,利用发音片段和目标语言片段在字符上的联系,对所述两个片段的字符序列进行连接;此时,所述子步骤P2可以包括子步骤Bi、基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列;子步骤B2、将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果。以“bri特尼”为例,假设其中的目标语言片段是“bri”,则通过子步骤P1,得到发音片段“特尼”对应的英文音标是/tni/或/tsni/,那么,再通过子步骤Bl可以得到/tni/的英文字符序列teny,或者,/tani/的英文字符序列taney。这样,子步骤B2将目标语言片段是“bri”与子步骤Bl得到的英文字符序列进行连接,得到的转换结果可以为“Briteny”,或者,“Brittany”。对于目标语言为中文的情形,“bri特尼”中的中文片段为“特尼”,假设其通过步骤102,发音片段“bri”对应的中文拼音为/buli/,那么,子步骤Bl可以得到/buli/的中文字符序列,也即汉字,假设为“布里”,那么,子步骤B2可以将所述“布里”和“特尼”连接,
15得到转换结果可以为“布里特尼”。无论目标语言是英文还是中文,字符都可以作为该混输字符串在目标语言下的转换结果的基本组成单位,进一步,目标语言片段又可以作为该转换结果中的一种字符序列, 这样,只需获取发音字段的目标语言字符序列,然后连接所述两种字符序列,即可得到所述转换结果。方案三、上述两个方案利用部分一整合的思想,通过建立发音片段和目标语言片段在发音或字符上的联系,来获取所述转换结果。下面给出本发明的另一个实现方案所述子步骤P2可以通过以下子步骤来实现本方案子步骤Cl、基于所述目标语言片段,在词库中匹配查询得到相应的字词集合;子步骤C2、利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。以“chau弗”为例,假设其中的目标语言片段是“chau”,则通过子步骤Pl得到发音片段“弗”对应的英文音标是./&/,那么,通过子步骤Cl可以在词库中匹配查询得到以“chau”开头的单词集合(例如,此时可以将发音片段以通配符的方式进行替代),例如 {chauffeur, chauvinism,. . .,chauvinist};子步骤C2则可以利用音标/fs/,在所述单词集合中为搜索匹配项chauffeur,也即本发明的转换结果。对于混输字符串“chau弗”,要求其在目标语言下的转换结果以目标语言片段 “chau”开头,同时后面的字符序列与发音片段“弗”的发音相近;由于目标语言片段作为转换结果的组成字符序列,而发音片段能够限定转换结果中除目标语言片段外其它部分的发音,因此,本方案能够实现一种限定范围的字词匹配,缩小匹配范围,提升混输字符串到转换结果的效率。可以理解,本方案的词库可以用其它具有字词存储功能的数据结构来代替,本发明并不需要对此加以限制;例如,所述数据结构可以位于本地或远程服务器上。以上对获取转换结果的几种方案进行了详细介绍,所述几种方案能够针对多种场景下的混输字符串,得到该混输字符串在目标语言下的转换结果,能够满足用户需求;可以理解,本领域技术人员可以根据需要联合使用所述几种方案,或者,使用其中任一种方案, 本发明对此不加以限制。为使本领域技术人员更好地理解本发明,下面给出一个中英混输字符串的转换过程的具体实施例,可以包括步骤Si、获取中英混输字符串;所述中英混输字符串可以包括发音片段和目标语言片段;步骤S2、获取所述发音片段在目标语言下的发音单元序列,具体可以包括子步骤S21、针对所述发音片段,切分得到对应的源语言音节单元;本步骤是将发音片段,切分成细粒度的源语言音节单元slsk3. . . sn。对于英文发音片段,切分依据可以是辅音驱动,基本上当前辅音(组合)到下一个辅音之前为一个音节(如果元音开头,则自成一个音节),但需要考虑辅音连读(双写η、双写1等)、或者特殊发音组合(比如“-er”、“-er-”、“wh-”)的情况。例如,可以针对“sctiwar”切分得到3个英文音节单元sch,wa和r ;针对bri切分得到2个英文音节单元b和ri。对于中文发音片段,如果是中文汉字,则首先将汉字转化为中文拼音,如“特尼”一“teni”,然后,将该中文拼音切分为拼音音节单元,例如,“teni”的切分结果可以为 te 禾口 ni0当然,对于本发明而言,如果所述发音片段包括多个音节单元,则可以对其切分, 如果所述发音片段仅仅包括一个音节单元,则本发明也可以不进行切分步骤,直接识别该音节单元即可。例如,“chau”只用到一个辅音,故仅仅包括一个音节单元。子步骤S22、将所述源语言音节单元转化为源语言发音单元;所述转化可以是一个多对多的映射。表1给出了英文音节单元到英文音标单元的映射表示例,其中“_”表示音节在单词中的前后位置;这样,通过查阅表1,可以为发音片段中的源语言音节单元找到对应的源语言发音单元,例如,对于“ schwar 所述查阅过程可以为:sch — / / /, war — /va/。表权利要求
1.一种基于混输字符串进行字符转换的方法,其特征在于,包括 获取混输字符串;区分混输字符串中不同类型的混输片段;基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果。
2.如权利要求1所述的方法,其特征在于,所述不同类型的混输片段包括发音片段和目标语言片段,所述获得转换结果的步骤包括获取所述混输字符串中的发音片段在目标语言下的发音单元序列; 基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。
3.如权利要求1所述的方法,其特征在于,所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段,所述获得转换结果的步骤包括获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列; 获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列; 基于在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
4.如权利要求2所述的方法,其特征在于,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括获取目标语言片段在目标语言下的发音单元序列;基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
5.如权利要求2所述的方法,其特征在于,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列; 将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果。
6.如权利要求2所述的方法,其特征在于,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括基于所述目标语言片段,在词库中匹配查询得到相应的字词集合; 利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。
7.如权利要求2所述的方法,其特征在于,将所述混输字符串中的第一片段作为发音片段,第二片段作为目标语言片段,得到第一目标语言下的转换结果;以及,将所述混输字符串中的第二片段作为发音片段,第一片段作为目标片段,得到第二目标语言下的转换结果。
8.如权利要求3所述的方法,其特征在于,将所述混输字符串中的第一片段作为目标语言的发音片段,第二片段作为非目标语言的发音片段,得到第一目标语言下的转换结果;以及,将所述混输字符串中的第二片段作为目标语言的发音片段,第一片段作为非目标语言的发音片段,得到第二目标语言下的转换结果。
9.如权利要求1所述的方法,其特征在于,通过字符类型、大小写字母、分隔符或者状态切换点等信息,区分混输字符串中不同类型的混输片段。
10.如权利要求1所述的方法,其特征在于,还包括将所述混输字符串在目标语言下的转换结果翻译为另一语言字词进行展示。
11.如权利要求1所述的方法,其特征在于,当用户输入长句或词组时,还包括通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串。
12.一种基于混输字符串进行字符转换的装置,其特征在于,包括接口单元,用于获取混输字符串;区分单元,用于区分混输字符串中不同类型的混输片段;转换单元,用于基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果。
13.如权利要求12所述的装置,其特征在于,所述不同类型的混输片段包括发音片段和目标语言片段,所述转换单元包括第一音节获取模块,用于获取所述混输字符串中的发音片段在目标语言下的发音单元序列;第一转换结果获取模块,用于基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。
14.如权利要求12所述的装置,其特征在于,所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段,所述转换单元包括第二音节获取模块,用于获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列;第三音节获取模块,用于获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列;第二转换结果获取模块,用于基于在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
15.如权利要求13所述的装置,其特征在于,所述转换结果获取模块具体用于基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
16.如权利要求13所述的装置,其特征在于,所述转换结果获取模块包括发音片段字符获取子模块,用于基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列;拼接子模块,用于将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果。
17.如权利要求13所述的装置,其特征在于,所述转换结果获取模块包括词库查询子模块,用于基于所述目标语言片段,在词库中匹配查询得到相应的字词集合;音节搜索子模块,用于利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。
18.如权利要求12所述的装置,其特征在于,还包括语言翻译单元,用于将所述混输字符串在目标语言下的转换结果翻译为另一语言字词。
19.如权利要求12所述的装置,其特征在于,还包括切分单元,用于当用户输入长句或词组时,通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串。
20.一种文字输入方法,其特征在于,包括 接收用户输入的混输字符串;区分混输字符串中不同类型的混输片段;基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果,并加以展示;依据用户指示,输出指定的转换结果。
21.如权利要求20所述的方法,其特征在于,所述不同类型的混输片段包括发音片段和目标语言片段,所述获得转换结果的步骤包括获取所述混输字符串中的发音片段在目标语言下的发音单元序列; 基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。
22.如权利要求20所述的方法,其特征在于,所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段,所述获得转换结果的步骤包括获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列; 获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列; 基于在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
23.如权利要求21所述的方法,其特征在于,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括获取目标语言片段在目标语言下的发音单元序列;基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
24.如权利要求21所述的方法,其特征在于,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列; 将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果。
25.如权利要求21所述的方法,其特征在于,所述基于发音片段在目标语言下的发音单元序列和目标语言片段得到转换结果的步骤,包括基于所述目标语言片段,在词库中匹配查询得到相应的字词集合; 利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。
26.如权利要求21所述的方法,其特征在于,将所述混输字符串中的第一片段作为发音片段,第二片段作为目标片段,得到第一目标语言下的转换结果;以及,将所述混输字符串中的第二片段作为发音片段,第一片段作为目标片段,得到第二目标语言下的转换结果;展示上述得到的两种目标语言下的转换结果。
27.如权利要求22所述的方法,其特征在于,将所述混输字符串中的第一片段作为目标语言的发音片段,第二片段作为非目标语言的发音片段,得到第一目标语言下的转换结果;以及,将所述混输字符串中的第二片段作为目标语言的发音片段,第一片段作为非目标语言的发音片段,得到第二目标语言下的转换结果; 展示上述得到的两种目标语言下的转换结果。
28.如权利要求20所述的方法,其特征在于,还包括将所述混输字符串在目标语言下的转换结果翻译为另一语言字词进行展示。
29.如权利要求20所述的方法,其特征在于,当用户输入长句或词组时,还包括通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串。
30.一种输入法系统,其特征在于,包括接口单元,用于接收用户输入的混输字符串; 区分单元,用于区分混输字符串中不同类型的混输片段;转换单元,用于基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果;展示单元,用于展示转换结果;输出单元,用于依据用户指示,输出指定的转换结果。
31.如权利要求30所述的输入法系统,其特征在于,所述不同类型的混输片段包括发音片段和目标语言片段,所述转换单元包括第一音节获取模块,用于获取所述混输字符串中的发音片段在目标语言下的发音单元序列;第一转换结果获取模块,用于基于发音片段在目标语言下的发音单元序列和目标语言片段,得到该混输字符串在目标语言下的转换结果。
32.如权利要求30所述的输入法系统,其特征在于,所述不同类型的混输片段包括目标语言的发音片段和非目标语言的发音片段;所述转换单元包括第二音节获取模块,用于获取所述混输字符串中的目标语言的发音片段在目标语言下的发音单元序列;第三音节获取模块,用于获取所述混输字符串中的非目标语言的发音片段在目标语言下的发音单元序列;第二转换结果获取模块,用于基于发音片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
33.如权利要求31所述的输入法系统,其特征在于,所述转换结果获取模块具体用于 基于发音片段在目标语言下的发音单元序列和目标语言片段在目标语言下的发音单元序列,得到该混输字符串在目标语言下的转换结果。
34.如权利要求31所述的输入法系统,其特征在于,所述转换结果获取模块包括发音片段字符获取子模块,用于基于发音片段在目标语言下的发音单元序列,得到相应的目标语言字符序列;拼接子模块,用于将所得到的目标语言字符序列和所述目标语言片段连接,得到该混输字符串在目标语言下的转换结果。
35.如权利要求31所述的输入法系统,其特征在于,所述转换结果获取模块包括词库查询子模块,用于基于所述目标语言片段,在词库中匹配查询得到相应的字词集合;音节搜索子模块,用于利用发音片段在目标语言下的发音单元序列,在所述字词集合中搜索得到匹配项,作为该混输字符串在目标语言下的转换结果。
36.如权利要求30所述的输入法系统,其特征在于,还包括语言翻译单元,用于将所述混输字符串在目标语言下的转换结果翻译为另一语言字词,由所述展示单元进行展示。
37.如权利要求30所述的输入法系统,其特征在于,还包括切分单元,用于当用户输入长句或词组时,通过分隔符或者分词的方式,从用户所输入的长句或词组中得到所需的混输字符串。
全文摘要
本发明提供了一种基于混输字符串进行字符转换的方法和装置,以及一种文字输入方法和输入法系统,其中,所述基于混输字符串进行字符转换的方法包括获取混输字符串;区分混输字符串中不同类型的混输片段;基于所有不同类型的混输片段,并按照预置处理规则得到该混输字符串在目标语言下的转换结果。本发明可以在用户采用混输字符串进行输入时,也能够得到用户所需的输入结果。
文档编号G06F3/023GK102262450SQ20101019316
公开日2011年11月30日 申请日期2010年5月27日 优先权日2010年5月27日
发明者张扬, 曹镇 申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1