用于多用户多语言通信的系统和方法_2

文档序号:9383087阅读:来源:国知局
转换和翻译(CTT)系统114,配置为根据本文 描述的各种系统和方法执行转换和/或翻译操作。对于一些实施方式,聊天客户端系统104 可通过聊天主机系统112建立彼此之间的聊天会话,以及聊天主机系统104可利用CTT系 统114的特征以便于清楚地翻译聊天客户端系统104之间的聊天对话。本领域技术人员应 理解,对于一些实施方式,聊天主机系统112和CTT系统114可以是单独的服务器的一部 分,以及运行聊天主机系统112的实体可不同于运行CTT系统114的实体。例如,聊天主机 系统112可以是利用CTT系统114的服务的第三方聊天主机系统。
[0039] 同样被示出的是,翻译服务器110可包括配置为接收并执行机器文本翻译请求的 翻译模块116。根据一些实施方式,CTT系统114可利用翻译模块116的操作/服务执行文 本的机器翻译。CTT系统114可使用一个或多个翻译应用编程接口(APIs)来获得对由翻译 模块116提供的服务的访问。根据该实施方式,翻译模块116(及其所在的服务器110)可 通过第三方(如谷歌)运行,该第三方可提供免费或收费的机器翻译服务。虽然翻译模块 116示出为运行在与CTT系统114分开的服务器上的部件,然而本领域技术人员应理解,对 于一些实施方式,翻译模块116可与CTT系统114运行在相同的服务器上和/或可以是CTT 系统114的集成部件。
[0040] 图2是示出了根据各种实施方式的示例性通信转换和翻译系统114的框图。如图 所示,CTT系统114可包括通信转换和翻译(CTT)控制模块202、通信转换和翻译(CTT)通信 模块204、语言模块206、转换模块208、翻译数据存储器210、以及翻译应用编程接口(API) 模块212。CTT控制模块202可配置为在CTT系统114根据本文描述的一些系统和方法执 行转换或翻译操作时控制和/或管理CTT系统114内的各种操作的执行。对于一些实施方 式,CTT控制模块202可控制CTT系统114的其它部件的操作,如CTT通信模块204、语言模 块206、转换模块208、翻译数据存储器210、以及翻译API模块212。
[0041] CTT通信模块204可配置为便于CTT系统114与CTT系统114外部的系统和部件 (如聊天服务器108和/或翻译服务器110)之间的通信。因此,通过CTT通信模块204, CTT 系统114可接收待由CTT系统114转换或翻译的聊天对话(包括一个或多个聊天消息),以 及可输出由CTT系统114生成的翻译后的聊天对话。
[0042] 语言模块206可配置为识别由CTT系统114接收的聊天对话中所使用的一种或多 种语言。对于一些实施方式,语言模块206可通过分析接收的聊天对话的内容、和/或通过 从与接收的聊天对话相关的各自的聊天客户端系统(例如,聊天客户端系统104)获得语言 喜好/设置信息来识别语言。
[0043] 转换模块208可配置为根据本文描述的一些系统和方法对CTT系统114接收的聊 天对话(包括一个或多个聊天消息)执行转换操作。根据一些实施方式,通过转换模块208 执行的转换操作可包括但不限于,涉及聊天用语、缩写、简称、专有名词、通用名词、口语、以 及粗语的转换。图3中讨论了转换模块208的其它细节。
[0044] 翻译数据存储器210可配置为在CTT系统114根据本文描述的一些系统和方法 执行转换的翻译和未转换的翻译时存储先前翻译的文本并随后将其提供至CTT系统114。 如本文中描述的,翻译数据存储器210可用作由CTT系统114先前执行的翻译的缓存,和/ 或可存储由操作员手动输入和存储的翻译(例如,通过翻译训练系统)。对于一些实施方 式,翻译数据存储器210可填充有会根据特定的聊天上下文加速CTT系统114的性能的翻 译。例如,当CTT系统114与涉及MMO游戏的聊天系统一起使用时,可将涉及MMO游戏的专 用(转换的和未转换的)翻译填充至翻译数据存储器210 (例如,通过CTT系统114的操作 员)。对于某些实施方式,转换模块208使用的转换文本的多层/多模块方法尤其适合处理 其本身通常复杂的MMO游戏中的聊天文本。
[0045] 根据该实施方式,数据存储器210可存储未转换的翻译(例如,〈正式英语〉的 "you"至〈正式法语〉的"vous")、转换的翻译(例如,〈英语聊天用语〉的"u"至〈正式 法语〉的"vous")、或者将两者都存储。对于一些实施方式,翻译数据存储器210可存储翻 译,从而可使用散列值/标签识别对应的聊天消息。例如,为了存储原始消息为英语的西班 牙语翻译,可基于英语消息的散列值存储该西班牙语翻译,从而能够随后使用该英语消息 的散列值定位和获得该西班牙语的翻译。本领域技术人员应理解,对于一些实施方式,翻译 数据存储器210可包括用于两种特定语言之间的翻译的单独的数据存储器。因此,当聊天 消息正在英语和法语之间转换/翻译时,对应的英语-法语数据存储器可用于与翻译数据 存储器210相关的操作。
[0046] 翻译API模块212可配置为向CTT系统114提供对设置于CTT系统114外部的机 器翻译服务(例如,通过翻译服务器110的翻译模块116)的访问。如在此所述,当翻译不 在翻译数据存储器210中时,CTT系统114可使用翻译API模块212。
[0047] 图3是示出了根据各种实施方式的示例性转换模块208的框图。如所示,转换模 块208可包括聊天用语模块302、缩写模块304、专有名词模块306、通用名词模块308、口语 模块310、拼写检查模块312、简写模块314、和/或粗语模块316。根据一些实施方式,在运 行期间转换模块208可整体地或部分地处理聊天消息(例如,将消息分为讯标或逻辑部分 并随后处理这些讯标/部分)。在一些实施方式中,可并行地调用转换模块208的各种模 块。
[0048] 聊天用语模块302可配置为识别与聊天术语(即,聊天用语)相关的聊天消息中 的一个或多个词语或短语,以及还可配置为建议用于该识别的词语或短语的替代的(例 如,对应的正式的/即,非-聊天用语的)词语或短语。在一些实施方式中,聊天用语模块 302可标记识别出的聊天用语词语或短语,以在随后的(例如,通过翻译模块116)机器翻 译期间将其跳过或以其它方式将其忽略。另外,在一些实施方式中,可将识别的聊天用语词 语或短语标记以用于操作员(例如,CTT系统114的管理员)后期的回顾和处置。为了识 别聊天用语词语或短语和/或其对应的(正式的)词语或短语,一些实施方式可利用数据 集(例如,存储在数据存储器上),该数据集包括聊天用语词语或短语和/或在聊天用语词 语或短语与其对应的词语和短语之间的映射。该数据集可以通过训练系统或学习系统的方 式来构造;可以是享有所有权的(例如,由CTT系统114的管理员在内部(in-house)手动 收集的);可以商业地获取;或者可以来源于公开可用的互联网知识库。例如,聊天用语模 块302可在其功能中采用统计的机器翻译。对于一些实施方式,可使用从转换中提取出的 并行的文本和/或使用短语级对(phrase-level pairs)训练所采用的统计的机器翻译,该 转换保存上下文的信息和/或将语法添加至以其它方式的不合语法的句子。来自聊天用语 模块302的结果可包括由聊天用语模块302标记的待忽略的聊天用语词语或短语、建议的 替代、或由聊天用语模块302插入消息中的非聊天用语词语或短语(例如,替代该识别的聊 天用语词语或短语)。根据该实施方式,由聊天用语模块302生成的消息可提供至另一个转 换模块(在转换模块208中)以用于进一步的处理,或者该建议的替代可提供至CTT控制 模块202以确定由聊天用语模块302转换后的消息是否在数据存储器210中。
[0049] 缩写模块304可配置为识别聊天消息中的一个或多个缩写,以及还可配置为建议 对应于(例如,代表)该缩写的替代词或者短语。在一些实施方式中,缩写模块304可标记 识别出的、在随后的机器翻译(例如,通过翻译模块116)期间跳过或以其它方式忽略的缩 写。另外,在一些实施方式中,可将识别的缩写标记以用于操作员(例如,CTT系统114的 管理员)后期的回顾和处置。为了识别缩写和/或其对应的词语或短语,一些实施方式可 利用数据集(例如存储在数据存储器上),该数据集包括缩写和/或缩写与其对应的词语 和短语之间的映射。该数据集可以通过训练系统或学习系统来构造;可以是享有所有权的 (例如,由CTT系统114的管理员在内部(in-house)手动收集的);可以商业地获取、或者 可以来源于公开可用的互联网知识库。缩写模块304生成的结果可包括由缩写模块304标 记的待忽略的简称、建议的替代、或由缩写模块304插入消息中的词语或短语(例如,替代 该识别的缩写)。根据该实施方式,由缩写模块304生成的消息可提供至另一个转换模块 (在转换模块208中)以用于进一步的处理,或者该建议的替代可提供至CTT控制模块202 以确定由缩写模块304转换后的消息是否在数据存储器210中。
[0050] 专有名词模块306可配置为识别聊天消息中的一个或多个专有名词,且还可以配 置为建议对应于该专用名词的(例如由该专有名词所代表的)替代词或短语。在一些实施 方式中,专有名词模块306标记识别出的、在随后的机器翻译(例如,通过翻译模块116)期 间跳过或以其它方式忽略的专用名词。另外,在一些实施方式中,可将识别的专有名词标记 以用于操作员(例如,CTT系统114的管理员)后期的回顾和处置。为了识别专有名词和/ 或其对应的词语或短语,一些实施方式可利用数据集(例如存储在数据存储器上),该数据 集包括专有名词(例如,众所周知的诸如迪斯尼乐园?的专有名词或用于个体的通用名 字)和/或专有名词与其对应的词语和短语之间的映射。该数据集可以通过训练系统或学 习系统来构造;可以是享有所有权的(例如,由CTT系统114的管理员在内部(in-house) 手动收集的);可以商业地获取、或者可以来源于公开可用的互联网知识库。专有名词模块 306生成的结果可包括由专有名词模块306标记的待忽略的简称、建议的替代、或由专有名 词模块306插入消息中的词语或短语(例如,替代该识别的专有名词)。根据该实施方式, 由专有名词模块306生成的消息可提供至另一个转换模块(在转换模块208中)以用于进 一步的处理,或者该建议的替代可提供至CTT控制模块202以确定由专有名词模块306转 换后的消息是否在数据存储器210中。
[0051] 通用名词模块308可配置为识别聊天消息中的一个或多个通用名词,以及还可配 置为建议对应于该通用名词的替代(例如,由该通用名词代表的)词语或者短语。在一些 实施方式中,通用名词模块308可标记识别出的、在随后的机器翻译(例如,通过翻译模块 116)期间跳过或以其它方式忽略的通用名词。另外,在一些实施方式中,可将识别的通用名 词标记以用于操作员(例如,CTT系统114的管理员)后期的回顾和处置。为了识别通用名 词和/或其对应的词语或短语,一些实施方式可利用数据集(例如存储在数据存储器上), 该数据集包括共有名词和/或在共有名词与其对应的词语和短语之间的映射。该数据集可 以通过训练系统或学习系统来构造、可以是享有所有权的(例如,由CTT系统114的管理员 在内部(in-house)手动收集的)、可以商业地获取、或者可以来源于公开可用的互联网知 识库。来自通用名词模块308的结果可包括由共有名词模块308标记待忽略的通用名词、 建议的替代、或由共有名词模块308插入消息中的词语或短语(例如,替代该识别的通用名 词)。根据该实施方式,由通用名词模块308生成的消息可提供至另一个转换模块(在转换 模块208中)以用于进一步的处理,或者该建议的替代可提供至CTT控制模块202以确定 由通用名词模块308转换后的消息是否在数据存储器210中。
[0052] 口语模块310可配置为识别聊天消息中的一个或多个口语化词语或短语,以及还 可配置为建议用于替代该识别的词语或短语的(例如,对应的正式的/即,非口语化的)词 语或短语。在一些实施方式中,口语模块310可标记识别出的、在随后的机器翻译(例如,通 过翻译模块116)期间跳过或以其它方式忽略的口语化词语或短语。另外,在一些实施方式 中,可标记识别的口语化或短语以用于操作员(例如,CTT系统114的管理员)后期的回顾 和处置。为了识别口语化词语或短语和/或其对应的(正式的)词语或短语,一些实施方式 可利用数据集(例如,存储在数据存储器上),该数据集包括口语化词语或短语和/或在口 语化词语或短语与其对应的口语化词语和短语之间的映射。该数据集可以通过训练系统或 学习系统来构造;可以是享有所有权的(例如,由CTT系统114的管理员在内部(in-house) 手动收集的);可以商业地获取;或者可以来源于公开可用的互联网知识库。来自口语模块 310的结果可包括由口语模块310标记的待忽略的口语化词语或短语、建议的替代、或由口 语模块310插入消息中的口语或短语(例如,替代该识别的口语化词语或短语)。根据该实 施方式,由口语模块310生成的消息可提供至另一个转换模块(在转换模块208中)以用 于进一步的处理,或者该建议的替代可提供至CTT控制模块202以确定由口语模块310转 换后的消息是否在数据存储器210中。
[0053] 拼写检查模块312可配置为识别聊天消息中的一个或多个拼错的词语或短语,以 及还可配置为建议用于该识别的词语或短语的替代(例如修正的)词语或短语。例如,拼写 检查模块312可配置为自动地用建议的替代词语或短语修正词语或短语。在一些实施方式 中,拼写检查模块312可标记识别出的在随后的机器翻译(例如,通过翻译模块116)期间 跳过或以其它方式忽略的拼错的词语或短语。另外,在一些实施方式中,可将拼错的词语或 短语标记以用于操作员(例如,CTT系统114的管理员)后期的回顾和处置。为了识别拼错 的词语或短语和/或其对应的(修正的)词语或短语,一些实施方式可利用数据集(例如, 存储在数据存储器上),该数据集包括拼错的词语或短语和/或在拼错的词语或短语与其 对应的词语和短语之间的映射。该数据集可以通过训练系统或学习系统来构造;可以是享 有所有权的(例如,由CTT系统114的管理员在内部(in-house)手动收集的);可以商业地 获取;或者可以来源于公开可用的互联网知识库。来自拼写检查模块312的结果可包括由 拼写检查模块312标记的待忽略的拼错的词语或短语、建议的替代、或由拼写检查模块312 插入到消息中的修改的词语或短语(例如,替代该拼错的词语或短语)。根据该实施方式, 由拼写检查模块312生成的消息可提供至另一个转换模块(在转换模块208中)以用于进 一步的处理,或者该建议的替代可提供至CTT控制模块202以确定由拼写检查模块312转 换后的消息是否在数据存储器210中。
[0054] 简写模块314可配置为识别聊天消息中的一个或多个简写,以及还可配置为建议 对应于该简写的替代的(例如,由该简写所代表的)词语或者短语。在一些实施方式中,简 写模块314可标记识别出的在随后的机器翻译(例如,通过翻译模块116)期间跳过或以其 它方式忽略的简写。另外,在一些实施方式中,可标记识别的简写以用于操作员(例如,CTT 系统114的管理员)后期的回顾和处置。为了识别简写和/或其对应的词语或短语,一些 实施方式可利用数据集(例如存储在数据存储器上),该数据集包括简写和/或在简写与其 对应的词语和短语之间的映射。该数据集可以通过训练系统或学习系统构造、可以是享有 所有权的(例如,由CTT系统114的管理员在内部(in-house)手动收集的)、可以商业地获 取、或者可以来源于公开可用的互联网知识库。来自简写模块314的结果可包括由简写模 块314标记的待忽略的简写、建议的替代、或由简写模块314插入消息中的词语或短语(例 如,替代该识别的简写)。根据该实施方式,由简写模块314生成的消息可提供至另一个转 换模块(在转换模块208中)以用于进一步的处理,或者该建议的替代可提供至CTT控制 模块202以确定由简写模块314转换后的消息是否在数据存储器210中。
[0055] 粗语模块316可配置为识别聊天消息中的一个或多个粗俗的词语或短语(下文中 称作"粗语"),以及还可配置为建议对应于该粗语的替代的(例如,合适的替代词)词语或 短语(例如,缓和的委婉语)。
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1