用于格式化电子字符序列的格式化模块、系统和方法

文档序号:8323934阅读:428来源:国知局
用于格式化电子字符序列的格式化模块、系统和方法
【技术领域】
[0001] 本发明涉及对于电子字符序列中的空格的格式化,尤其涉及用于格式化电子字符 序列中的空格的格式化模块、系统和方法。
【背景技术】
[0002] 标点符号是指出书面语的结构、组织以及语调的符号,并作为大声朗读时需要留 意的停顿。标点符号的外观及用法在语言及书写之间是有差异的,但在大多数情况下,其对 于消除句子歧义而言是必不可少的。标点符号的使用及解释可严重依赖于语境。举例来说, 句号"可被用作表示句子结束的标点符号、缩写的表示符以及小数点等符号。标点符号 还可出现在数学及科学公式中。
[0003] 一些标点符号成对出现,且缺一不可。例如,左括弧和右括弧然而,在某 些情况下,单个字符被用来表示两个加标点符号者,产生歧义,例如单引号:'。
[0004] 空格是空白处,通常用来隔开单词、字母、数字及标点符号。空格的格式在多种语 言之间存在多种约定。举例来说,在英语中,问号"?"周围的空格的格式为"word ? ",在单 词与问号之间没有空格,而空格是跟随在问号之后。但在法语中的约定则为"word ? "即空 格被插入到问号的任意一侧。
[0005] 当前市面上的一些文本输入系统提出了某种空格格式化的方式。举例来说,当使 用者在输入下列字符[?!:;,.]中的一个之后输入空格时,无论当前输入文本是哪种语 言,安卓系统默认键盘通过删除前导空格并添加拖尾空格,将空格规定在标点符号的任意 一侧。
[0006] 本发明的目的在于提供一种自动格式化电子字符文本中的空格的机构,以使使用 者能够将精力集中于消息内容而不必担心电子字符序列中的空格格式是否正确。本发明的 目的还在于提供一种根据电子字符序列的书写语言的习惯来正确格式化电子字符序列中 的空格的机构。

【发明内容】

[0007] 在本发明的第一方面中,提供了一种格式化模块,其支持至少一种语言,并用于格 式化以被支持语言书写的电子字符序列中的空格,所述格式化模块包括:
[0008] 语言识别器,其用于识别所述电子字符序列是否由被支持的语言所书写;
[0009] 字符识别器,其用于识别所述电子字符序列中的特定字符或特定字符序列;
[0010] 其中,当被支持的语言被识别出时,所述格式化模块根据被识别出的语言和被识 别出的所述特定字符或特定字符序列来格式化所述电子字符序列中的空格。
[0011] 优选地,所述电子字符序列中的空格的格式化处理包括:在所述电子字符序列中 插入和/或删除空格。
[0012] 在一优选实施例中,所述字符识别器包括:
[0013] 至少一个规则集合,其中的各规则与所述电子字符序列中的待识别的特定字符或 特定字符序列相关;以及
[0014] 比较机构,其用于将所述至少一个规则集合中的每条规则与所述电子字符序列进 行比较,以识别是否存在适用的规则;
[0015] 其中,每条规则与一个以上的动作相关,所述动作描述了空格的格式,所述空格的 格式由所述格式化模块应用于被支持的语言的所述电子字符序列以及所述特定字符或特 定字符序列;而且
[0016] 其中,所述格式化模块通过将所述一个以上的与适用规则相关的动作应用于所述 电子字符序列,格式化所述电子字符序列中的空格。
[0017] 仅当被支持的语言被识别出时,所述比较机构优选将所述至少一个规则集合中的 每条规则与所述电子字符序列进行比较。
[0018] 优选地,所述格式化模块支持多种语言,而所述语言识别器还用于识别书写所述 电子字符序列的所述被支持语言中的最可能语言。
[0019] 所述字符识别器用于识别标点符号,而所述格式化模块用于根据所述标点符号将 所述空格格式化在所述标点符号的任意一侧。
[0020] 所述字符识别器用于识别所述电子字符序列中的特定语境,而所述格式化模块用 于根据所述语境格式化所述电子字符序列中的空格。
[0021] 所述字符识别器用于识别所述电子字符序列中的标点符号,而所述格式化模块用 于根据标点符号的分类将所述空格格式化在所述标点符号的任意一侧。
[0022] 所述一个以上的动作包括动作序列,其中当找出适用的规则时,所述比较机构用 于将所述动作序列应用于所述电子字符序列。
[0023] 当所述字符识别器包括多个规则集合,每种被支持的语言对应其中的一个规则集 合,而所述比较机构用于将对应于最可能的语言的规则集合中的每条规则与所述电子字符 序列进行比较。
[0024] 所述格式化模块包括分别与每种语言、每种语系以及世界上所有语言相对应的多 个规则集合,其中所述规则被应用在层次结构中,从而使所述比较机构在被支持的语言被 识别出时首先比较特定于那种语言的规则集合中的每条规则,随后比较适用于那种语言所 属语系的规则集合中的每条规则,随后比较适用于所有语言的规则集合中的每条规则,直 至识别出适用的规则,或识别出不存在适用的规则且所有规则已穷竭。
[0025] 所述比较机构用于以具体的预设顺序比较所述规则。所述规则集合优选包括语境 规则、字符规则和分类规则,而所述比较机构用于以下列顺序比较这些规则:语境规则、字 符规则然后是分类规则,直至识别出适用的规则,或识别出不存在适用的规则且所有规则 已穷竭。
[0026] 在本发明的第二方面中,提供了一种格式化模块,其支持至少一种语言,并用于格 式化电子字符序列中的空格,所述格式化模块包括:
[0027] 标点符号识别器,其用于识别所述电子字符序列中的标点符号;
[0028] 其中,所述格式化模块用于在识别出被支持的语言时,根据所述电子字符序列的 书写语言、被识别出的标点符号以及所述标点符号的语境,格式化所述电子字符序列中的 空格。
[0029] 在本发明的第三方面中,提供了一种用于向电子设备输入文本的系统,其包括:
[0030] 文本预测引擎,其用于接收作为输入的电子字符序列,并用于生成并输出修正过 的电子字符序列;以及
[0031] 如前述中任意一项所述的格式化模块,其中所述格式化模块用于接收作为输入的 经过修正的电子字符序列,并在被支持的语言被识别出时,通过格式化经过修正的电子字 符序列中的空格,生成经过格式化的字符序列。
[0032] 在本发明的第四面中,提供了一种用于向电子设备输入文本的系统,其包括:
[0033] 文本预测引擎,其用于接收作为输入的电子字符序列,所述文本预测引擎包括:
[0034] 语言识别器,其用于识别所述电子字符序列的最有可能的书写语言,以及根据被 识别出的语言修正所述电子字符序列;
[0035] 其中,所述文本预测引擎用于生成并输出经过修正的电子字符序列,并输出被识 别出的语言;
[0036] 所述系统还包括:格式化模块,其支持至少一种语言,用于接收被识别出的语言以 及经过修正的电子字符序列,并用于在被识别出的语言被支持时格式化所述电子字符序列 中的空格,所述格式化模块包括:
[0037] 字符识别器,其用于识别所述电子字符序列中的特定字符或特定字符序列;
[0038] 其中,所述格式化模块用于根据被识别出的语言以及被识别出的特定字符或特定 字符序列,格式化所述电子字符序列中的空格。
[0039] 在本发明的第五方面中,提供了一种使用格式化模块来格式化电子字符序列中 的空格的方法,其中所述格式化模块支持至少一种语言且具有一字符识别器,所述方法包 括:
[0040] 识别所述电子字符序列是否由被所述格式化模块支持的语言书写;
[0041] 使用所述字符识别器识别所述电子字符序列中的特定字符或特定字符序列;
[0042] 当被支持的语言被识别出时,使用所述格式化模块,根据被识别出的语言和被识 别出的特定字符或特定字符序列,格式化所述电子字符序列中的空格。
[0043] 所述格式化模块包括语言识别器,以便识别所述电子字符序列是否由被所述格式 化模块支持的语言书写。优选地,所述格式户模块支持多种语言,而所述方法还包括:使用 所述语言识别器识别所述电子字符序列的最可能的语言。
[0044] 通过文本预测引擎识别所述电子字符序列的最可能的语言,而所述方法还包括: 将所述最可能的语言传递至所述格式化模块,其中所述格式化模块识别所述最可能语言是 否由所述格式化模块支持。
[0045] 所述语言识别器优选包括至少一个规则集合以及比较机构,每条规则限定了所述 电子字符序列中的空格的格式,其
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1