容错输入法编辑器的制造方法_3

文档序号:9916513阅读:来源:国知局
图示的潜在正式表示仅是示例,并且对每一分段(包括与"gong-tung-w"相对应的分段410-1)能获得更多或更少潜在正式表示。
[0045] 模糊模型320能是令牌集和正式表示标准的对应音节集之间的映射的列表。仅作 为示例,令牌集能表示在正式表示标准中识别的所有可能字符或字符组。在一些表示标准 中,令牌集包括正式表示标准的书写系统中的所有音素(例如,元音和辅音)。此外,每一音 节能包括一个或多个令牌(音素)。例如,在粵语的耶鲁表示标准中,音节能包含(i)元音 (aa、ong,、ou、on、ung等)、或(ii)与元音组合的辅音(d、g、gw、t、w等)。
[0046] 在一些实施例中,不同于将音节的所有可能表示映射到正式音节的集合,模糊模 型320能替代地将每一可能的令牌映射到音素。仅作为示例,在粵语中,通过结合以下的映 射:(i)令牌"g"及其对应的辅音"g"和"gw"以及(i i)令牌"ong"及其对应的元音"ong"和 "ung",能将用户输入"gong"通过模糊模型320映射到其对应的正式音节的集合。
[0047] 能以各种方式生成模糊模型320及其相关联的映射。在一些实施例中,能基于以下 中的一个或多个来训练模糊模型320: (i)应用于训练数据的机器学习技术(ii)现有的表示 标准(Jyutping,Pinyin,耶鲁等)以及(iii)第二书写系统及其相应的语言和母语人士的语 目知识。
[0048] 关于利用语言知识来训练模糊模型320,对某些语言和/或书写系统,可以存在字 符候选的"常见"或不是非典型的拼写错误或非正式表示,所述字符候选不存在于任何正式 表示标准中。这些"模糊"令牌在训练数据或训练数据的一部分(例如,与特定类别的用户、 或特定地理区域中的用户相关联的训练数据)中很普遍。仅作为示例,口语的某些方言或口 音会导致说那一方言或具有那一口音的用户重复地利用非正式"模糊"令牌来表示特定音 节。另外,熟悉与第一书写系统(拉丁字母表书写系统)相关联的特定语言(法语、英语等等) 的用户也可以重复地利用非正式"模糊"令牌。能将模糊模型320训练成识别这些"模糊"令 牌并且将其映射到它们相关联的符号。
[0049] 对于粵语的耶鲁表示标准中的示例音节"gong",由于上文所讨论的将"g"映射到 "g"和"gw"以及将"ong"映射到"ong"和"ung",模糊模型可以将令牌"gong"、"gwong"、 "gung"和"gwung"与音节"gong"相关联。基于语言知识,可以将令牌"kong"附加地映射到 "gong"来说明该非典型映射。
[0050] 在另一示例中,耶鲁表示标准将用户输入"geui"映射到潜在的其他字符候选中的 粵语中的字符"句"。一定程度熟悉英语语言的用户108可以提供与"geui"基本类似或相同 的输入。然而,更熟悉法语语言的用户108可能替代地提供"gueille"的输入,因为该用户 108理解拉丁字母表书写系统中的字符的发音。模糊模型320对这些类型的变形是稳健的, 使得这些"模糊"令牌能映射到它们相关联的符号。
[0051]在一些实施例中,可以选择模糊模型320用于特定用户108的使用。仅作为示例,如 果用户108对特定表示标准有些熟悉,则例如在启动頂E引擎300时该表示标准能被用户108 选择。附加或可替选地,特定模糊模型320可以由计算设备100自动地选择,例如基于与用户 108相关联的地理区域、和/或对特定语言(英语、法语等等)的熟悉度的指示。
[0052]此外,一旦选定或生成,可以使模糊模型320适用于增加其用于用户(一般的用户 或特定用户180)的效用和精确度。仅作为示例,能获得另外的语言知识,并且能将另外的映 射添加到模糊模型320。此外,能通过用户(一般的用户或特定用户180)的使用,使模糊模型 320适用于例如识别特定"模糊"令牌的重复使用来表示特定音节。应意识到对上述其他适 应补充地或替选地,调整模糊模型320可以包括调节与下述的输入/潜在正式表示/字符候 选相关联的概率。
[0053]模糊模型320还可以基于用户输入400,关联和提供用于每一特定潜在正式表示 420的概率。概率能表示特定潜在正式表示420与用户输入400相对应的可能性。能以许多方 式确定基于用户输入400的用于每一特定潜在正式表示420的概率。在一些实施例中,概率 能基于从训练数据导出的发生概率,和/或由用户108整体或部分基于頂E引擎300导出的概 率。
[0054]字符候选模块330能基于潜在正式表示420确定多个字符候选430-1.. .430-p(在 此分别单独或统称为"字符候选430")。字符候选430中的每一个以第二书写系统书写并且 能是以第二书写系统的用户输入400的可能适当表示。在所图示的示例中,字符候选"講通 話" 430-1和"港童話" 430-p表示用户输入"gongtungw" 400的可能适当表示。
[0055]每一潜在正式表示420能与一个或多个字符候选430相对应。此外,每一特定字符 候选430能和特定字符候选430与关联的潜在正式表示420相对应的概率相关联。例如,特定 字符候选"講通話"430-1能具有表示其与潜在正式表示"gong-tung-waa"420-l相对应的可 能性的关联概率。
[0056]计算设备100能输出多个字符候选430。仅作为示例,多个字符候选430能显示在计 算设备的显示器(用户接口 104)上。应意识到在一些实施例中,取决于用户接口 104的大小 和/或其他因素,可以仅显示所有潜在字符候选430的一些子集。此外,在一些实施例中,可 以与其关联的潜在正式表示420-起显示字符候选430中的每一个。以这种方式,能为用户 108呈现与用户输入400相对应的潜在正式表示420,及其关联的字符候选430。
[0057]在各种实施例中,能按排名顺序显示字符候选430。排名顺序能与按降序呈现字符 候选430相对应,其中在第一位置处呈现具有表示用户输入400的最大可能性的字符候选 430、在第二位置呈现具有表示用户输入400的第二最大可能性的字符候选430等等。在替选 实施例中,排名顺序可以与按可能性的降序呈现字符候选430相对应,同时还将多样性的字 符候选430提供给用户108(在下文中,参考图5所示的示例更全面地描述)。
[0058]能以多种不同方式,确定每一字符候选430表示用户输入400的可能性。在各种实 施例中,用于每一特定字符候选430的可能性能基于(i)与其关联的特定潜在正式表示420 与用户输入400相对应的第一概率,以及(ii)特定潜在正式表示420与特定字符候选430相 对应的第二概率。仅作为示例,并且参考图4,字符候选"講通話"430-1与用户输入 "gongtungw" 400相对应的可能性能基于(i)特定潜在正式表示"gong-tung-waa"420-l与用 户输入"gongtungw" 400相对应的第一概率,以及(i i)特定潜在正式表示"gong-tung-waa" 420-1与特定字符候选"講通話"430-1相对应的第二概率。
[0059]能由用户108从训练数据和/或通过使用頂E引擎300取得上述可能性和概率。仅作 为示例,计算设备100能基于用户108的行为,适应ME引擎300。此外,能基于附加的数据或 通过使用頂E引擎300,不时更新或适应頂E引擎300,如在此更全面所述。
[0060]现在参考图5,图示根据本公开的一些实施例的在计算设备100的用户接口 104上 的示例显示500。已经由用户108输入用户输入510( "ngodye jomutye")并且显示在显示器 500的文本录入区515中。示例用户输入"1^〇(^6」〇1]11^76"510与用户108对以拉丁字母表书 写系统输入第二书写系统(汉语字符)的粵语文本的正式表示的尝试相关联。
[0061 ] 多个潜在正式表示520-1、520-2. . .520-5(统称"潜在正式表示520")及相关联的 字符候选530-1、530-2. . .530-5(统称"字符候选530")可以分别显示在候选显示区525中。 如上所述,字符候选530能按排名顺序来呈现,其中在第一位置("1")呈现最可能的字符候 选530-1,剩余字符候选530以概率的降序显示。
[0062]示例显示器500进一步图示与粵语语言及其关联的正式罗马标准相关联的两个特 殊情形。讲粵语的人可能熟悉以"〇X"版本向计算设备表示"声部(mouth radicals)"。仅作 为示例,在计算设备的显示器上声部"哂"可以替代地由"〇西"来表示,例如,取决于用户108 的偏好。这种类型的"〇X"表示的另一示例如图5所示,其中,字符
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1