一种实时同步互译语音终端的制作方法

文档序号:6482080阅读:263来源:国知局
专利名称:一种实时同步互译语音终端的制作方法
技术领域
本发明涉及一种任意自然语言间的语音及文字信息的实时互译系统及电子装置, 特别涉及一种用于无线移动语音终端的工具及在线真人翻译服务。
背景技术
在世界的不同地域内,不同的社群及民族应用着不同的语言及文字。各地域的人 群基于不同的活动目的包括旅行、贸易及文化学习等而流动,需要相互学习彼此间不同的 语言及文字。目前世界上被普遍应用的语言约有4至5千种之多。掌握着不同的语言或文 字的人群在需要相互沟通的时候,客观上要求其中一方必须要认识对方的语言或文字,并 以对方能认知的语言或文字进行意思表达。计算机具备一定的计算能力,以计算机发展机器翻译是世界各地专家一直在开发 及钻研的课题,因为计算机可以存储及转换大量的词汇数据,使不同语言或文字间的互译 以自动方式实现。其运作形式是输入源文字词汇,转换为语义与之匹配的另一种文字的词 汇。无论哪一种语言或文字都有其自身语法固有的特性,任何两种语言或文字之间都不存 在句子的语法结构完全相同、词义一一对应的直接转换情况。而且无论哪一种语言或文字 系统内都存在同音词及一词多义等情况,其区分更为微妙。过往翻译质量的低劣,究其原因 关键在于不能正确地认知源语言文字的语义。世界上的文字,大概有两种大类型,一种是象形文字,如汉字,另一种是源自印欧 语系的各种拼音文字。拼音文字语种比较接近,所以在互译时容易得到较好的翻译质量;象 形文字的汉语,文字结构的分歧比较大,拼音文字与汉语互译时在语法上出现的分歧更大, 难以按顺序进行词汇的一一对应,因此很难得到较好的翻译质量。过往的机器翻译,大多都使用诺姆乔姆斯基(Noam Chomsky)的深层结构方式,任 何语言及/或文字需先与深层结构语言建立映射对应关系,此结构语言是以非固定长度的 英语文字为基础,各种语言通过该映射对应关系实现互译功能。目前以计算机实现翻译系 统的技术,主要是语音通过语音接收器进行认知,转换为文字信息并以现时的文字编码方 式储存及传输。现时的文字编码方式是指以8位元组成1字节的ASCII、Big-5、GB18030或 Unicode等。本发明的3位元集编码形式语义数字数据,其本质仍然是文字编码。最早期的机器翻译主要是文字翻译文字,目前通过电子翻译系统得到的质量并不 理想,准确率大概只能达到约65-75%。以机器实现两种自然语言的语音对译就更难,因为 语音需要通过将语音转换为文字(Speech-to-Text)、文字信息再转译为另一种语言的文字 信息、然后再将后一种语言的文字信息转换为语音(Text-to-Speech),该文字信息转换成 语音的过程要求必须具备所属语言的语法逻辑,才能成功转换合成为自然语言语音;完成 上述过程才能达到两种语言的沟通对译过程。目前语音转换文字技术准确率不高,最大原因是由于对同音及近音词汇的错误判 断。机器无法对同音及近音词汇进行正确判断。现时市场上应用的IBM ViaVoice语音转 换文字产品,准确率亦只能达到约65-75%,以此准确率将得到的文字信息再翻译为另一种文字,出错率更高,所得到的语义往往无法理解,没法达到沟通的目的。过往自然语言的语 音认知技术,都需要多种层次的语音档进行匹配,包括以词组、片语、短句等混合层次的配 合才能得到认知结果,但大量多层次的语音档极耗硬件及运算资源;多语言互译所占用的 资源更是以倍数增加。随身的翻译通信电子终端有翻译手帐及翻译笔等,翻译手帐是以键盘输入源文字 信息进行翻译,但常遭遇到输入者不懂得如何输入个别的字或词,导致无法通过翻译手帐 来得到译文。翻译笔是以笔尖的扫描器输入文字图象,图象被识别後转换为文字信息,文字 再进行互译,但只局限于词组间的互译;而且输入、识别及转换的过程耗时,只适合小量短 句的翻译。可以推想,最方便快捷的互译方式是以任一种自然语言的语音输入,然後转译为 另一种自然语言的语音及/或文字输出。不同语种间的互译需求是巨大的。在生活上不同语种的人会面对面相遇,或以电 话进行语音沟通;若双方互不懂对方的语言,那就不可能以任何语言进行沟通。移动电话的 应用在现代生活中占着重要的一席之位,移动电话目前的应用数量已达到30多亿,是世界 人口的一半数量。以30多亿的移动电话渗透率考量,移动电话能够充当最理想的随身语音 翻译系统。人类长时间沟通的目的是信息交换,信息交换的本质其实是语义交换,任何自然 语言或文字信息间的互译的本质是通过语义的匹配建立起对应映射过程,这样才能得到准 确的翻译质量。最理想是每种自然语言以最小容量及活动性的模组化方式安装于电子系统 内,多个语言翻译程式模组亦不致产生太大负担。语音通信系统从早期的连线模拟到现在的无线数字方式,从模拟信号到数字数 据,从无线的低速到高速数据传输,语音及信息通信确实达到一个飞跃的发展。最早期的电 话是以模拟方式通信,语音的输入通过话筒获取电子信号;信号传输至另一方的听筒,电子 信号响应听筒产生语音输出。现时的数字语音传输方式是语音通过话筒输入信号,信号以 频率取样方式进行数字编码,相互通信传输的是数字数据,数字转换为电子信号响应听筒 产生语音输出。电子信号转换数字数据,是模拟转数字(A/D)输入,数字数据亦需要还原为 电子信号;即是数字转模拟(D/A)输出,数字数据能通过连线及或无线方式大量同步交换 传输。无线移动通信从第一代发展到第二代的2G、2. 5G到目前的3G,不同的数字转变, 是代表移动终端能以多少频宽传输数据,2G的频宽能满足语音信号由模拟转为数字的通 信;2. 5G频宽是语音终端已经支持无线通信网络进行连线游戏、查找及传输信息;3G频宽 及语音终端配备视像摄录镜头,频宽能支持实时同步连续视像数据相互传输,并可以实现 语音及连续视像实时同步相互通信。3G语音终端亦已具备足够的运算能力、记忆体及网页 浏览功能,能够浏览网站,发出访问请求及下载网页浏览,上传信息及下载数据等。本发明还解决了语音转换为文字(Speech-to-Text)获取正确语义的方法,人类 发出语音表达语义,不同语音组成不同的特定语义,任何的一种自然语言一般都是以百多 个至数千个不同语音组成整个语言系统,语言及文字是人类重要的沟通方式,任一种语言 及文字都会因应社会的发展变化而不断出现新的语义及词汇,因此语言文字的互译系统内 的语义属性对应定义,必需要经常更新才能适应各方语言及/或文字在社会沟通的发展需 要。目前互联网在世界范围内是一个最宽广的信息传播平台,接上全球语音及/或数据网 络的语音终端,是最理想的自然语言及文字信息实时同步翻译系统装置。
过往人类对任何电子系统都是通过肢体的触控来输入指令达到操控的目的,例如 简单的电视遥控器,人类以手指按键输入简单指令,电子信号通过无线的红外线装置发送 到电视机的接收器,信号对应电视机内芯片组的指令,并能够响应机内电子元件,完成一些 简单的开/关、频道选择或调控画面及音量等功能。现代计算机的发展最早期是通过输入 不同限定的指令完成简单操控,但需以键盘输入与中央处理器(CPU)完全匹配的指令才能 完成简单操作,指令并非人类惯常用的语言文字信息,对用户造成极大的记忆负担。及后发展至视觉用户介面(⑶I,Graphical User Interface),是种坐标式的输入 装置与显示屏内所见的图像符号(Icon)进行对应,鼠标点选指定图像符号并与中央处理 器(CPU)不同的指令集映射对应并完成操作功能,但每增加计算机的系统功能或应用程序 工具,都会大量扩大图像符号在显示屏占据的位置,对人类的视觉造成颇大负担。人类与 机器互动的最直接方法是通过语音表示语义,语义数据与电子系统内的芯片或中央处理器 (CPU)映射对应,语音替代点市图像符号或按键输入应用程序;以语音信号执行指令集或 程序。

发明内容
因此,本发明的目的在于提供一种可进行实时互译的语音终端。为了实现上述发明目的,本发明采用以下技术方案一语言选择模组,根据用户的 选择设定接收方或发送方语音和/或文字信息所使用的自然语言类别,所述的接收方或发 送方使用的自然语言可以是为同一类别,也可以为不同类别;一处理模组,接收及处理用户所选择的自然语言的语音及/或文字信息,并完成 所选定的自然语言的语音及/或文字信息与3位元集编码形式的语义数字数据的相互转 换,其内包括有语义认知模组,能够对识别过程中自然语言的语音及/或文字信息中出现 的同音及近音词组,进行排歧处理,判断正确语义,从而转换得到正确的3位元集编码形式 的语义数字数据;及语法控制模组,在语义数字数据翻译合成为自然语言的语音及/或文 字信息过程中对自然语言的语法进行修正过程;发送器,发送所述3位元集编码形式的语义数字数据,通过无线网络以无线电信 号方式发出;接收器,接收发送自于其它语音终端的无线电信号并将3位元集编码形式的语义 数字数据的数字信号传送至所述处理模组;所述语音终端包含有3位元集编码语义数据库,包括一自然语言语音库,是以语义为匹配基础,将各种自然语言的语音与汉语词组 一一映射对应而建立的映射数据库;一文字辞库,是以语义为匹配基础,将其它自然语言文字词组与汉语词组一一映 射对应而建立的映射数据库。本发明是以语音终端实现自然语言的语音及/或文字信息的翻译过程。所述语音 终端是指以语音及/或文字信息沟通的电话、移动电话、具备通信信息交换功能的电子终 端及任何电子系统等。最简单的语音终端已具有语音发送及接收功能,语音信号以话筒接 收及传送,以听筒播放;进一步发展起来的数字语音终端更具备了对文字信息的发送及接 收进行简单处理的功能。
6
本发明还解决了语音转换为文字(Speech-to-Text)获取正确语义的方法,接收 到的语音信号通过语音编码器,编码器是采用与自然语言语音库内相同的语音编码方式编 码,匹配语音库内的语音档,能转换为3位元集编码形式的语义数字数据,经过语义认知模 组,获取正确语义数据,与语音终端或任何电子系统的芯片或中央处理器(CPU)内的指令 集或程序一一映射对应,语音执行指令集响应电子元件操作。任何文字信息对应为汉语语义数据,通过不同的语法控制模组,映射至自然语言 语音库内的语音档,经过语音合成器,可转换为连续语音信号输出。语义数据的传送是在语音终端接上有线及/或无线通信网络,除了具备语音相互 传送功能,更具备文字信息相互交换功能,通过电信运营商的短信交换客服中心,相互发送 及接收文字信息及或多媒体信息。现有的通信系统已能提供一种局域无线数据网络,例如 已普遍应用的蓝牙(Bluetooth)通信技术,是一种短距离的无线连接技术,在Piconet网络 的10米直径范围内,在最多可以承载8台带有监牙设备的通信终端Piconet网内进行无线 语音及数据相互交换,因此通信终端能通过发送及接收3位元集编码形式的语义数据,实 现任意自然语言及/或文字信息同步互译的目的。本发明在任意不同自然语言之间实行语音及/或文字信息的相互翻译装置能应 用于任何语音终端及/或任何电子系统,能相互传送及接收以3位元集编码形式的数字数 据所表达的唯一确切语义,进行在线的同步互译。本发明更能利用大量在线的计算机及自 然语言语义数据库,通过在线伺服器获取任何自然语言翻译程序模组,并下载至语音终端 或其它电子系统。所述翻译程序模组包括任一种自然语言语音库、文字辞库及其语法控制 模组等,对应3位元集编码语义数据,当通过具视像镜头的语音终端时,交换正确的语义数 据,可实现任一语种的真人视像式自然语言语音及/或文字信息的实时互译;并可提供真 人翻译员的在线翻译服务。本发明还实现了任何语音信号操控任何电子元件及/或机器的方法,语音终端及 /或任何电子系统接收已选择的任何自然语言语音信号后,转换为3位元集编码形式的语 义数字数据,通过语义认知模组得到确切操控语义,映射至任何电子系统内的指令集或程 序,执行其操控的过程。同时,亦可以实现任何文字信息转换为任何自然语言语音信号的方 法,接入网络的语音终端,能够在无限的文字信息内获取有用的知识,转换为3位元集编码 形式的语义数字数据,通过不同语法控制模组,合成或翻译为任何自然语言语音信号。本发明所述的3位元集编码形式的语义数据与一般文字信息的本质是一样,可以 被理解为文字信息(Text Information),是以数字数据形式表达语义,当解释语音转换文 字(Speech-to-Text)及文字转换语音(Text-to-Speech)内容,亦能被理解为是相同含义。 对于文字信息转换为语音(Text-to-Speech)的技术,本发明能以最小位元量的语义数据, 以网络上无限的各种语言文字信息转换为任何自然语言语音信号输出。


图1、本发明总体流程示意图;图2、语音终端完成翻译过程的流程示意图;图3、语音信号转换、传送及翻译流程图;图4、文字信息转换、传送及翻译流程图5、语音信号及/或文字信息转换、传送及翻译流程图;图6a、语音或文字与3位元集编码的语义数据的直接映射示意图;图6b、自然语言的语音及/或文字信息翻译系统结构图;图7、英语语音内容翻译为日语语音示例;图8、局域无线数据网络传送及接收语义数据示意图;图9、全球语音及数据网络的在线翻译服务及翻译程式模组下载示意图;图10、语音操控任何电子系统元件及/或机器运作流程图。
具体实施例方式以下结合附图对本发明的优选实施例进行说明。应当理解,此处所描述的优选实 施例仅用于说明利解释本发明,并不是对本发明的限定。参阅图1,图1是以任一种自然语言作为源语言的语音及/或文字信息通过3位元 集编码的语义数据翻译为另一种同为自然语言的目标语言的语音及/或文字信息的说明 图。语音终端100A是指第一个语音终端,语音终端100B是指第二个语音终端。当第一个 用户使用语音终端100A时,其选用第一种自然语言进行语音通话及/或发送文字信息,该 自然语言语音或文字信息102A在第一个语音终端内通过处理模组103A被转换成以3位元 集编码形式编码的语义数据104,然后在无线网络中以无线电信号方式传输并由第二个语 音终端100B所接收。第二个语音终端100B接收语义数据104后通过处理模组103B翻译 成被第二个用户所选择的自然语言语音及/或文字信息102B。对于与自然语言语音及/或文字信息一一对应的3位元集编码数字数据104的编 码方法,本发明采用一种用于电子、信息及通信系统的交换内码及其应用的发明专利,申请 号为200810218455. 5,该交换内码应用于电子、信息及通信系统内,是种对文字的字元、字 母或符号的统一编码。进一步解释,是以3位元作为一个位元集、每个位元集只有8个编码 组合,以最少2个或2个以上的位元集对汉字编码,例如,以2个位元集为例的编码组合是 23x23共64种方式,以3个位元集的编码组合是23X23X23共512种方式,以4个位元集为例 的编码组合是23x23X23X23共4096种方式等,依此类推。该发明的特征是利用汉字部首系统 具有分类及归纳特性,以语义匹配为原则建立起任一种自然语言与汉语的映射对应关系, 间接地使其他的自然语言具备了语义属性的自动分类。文字辞库是根据相同语义,将英语 等其他文字辞库与汉语词汇建立语义的映射对应关系,从而实现以最少位元量映射/表达 其他文字,传送一种单一的语义编码数据进行互译,同时以固定长度的位元数据形式实现 更高速的排序算法。同理,自然语言语音库是根据相同语义,将其他自然语言语音系统与汉 语词汇建立语义的映射对应关系,从而实现以最少位元量映射/表达其他自然语言语音, 传送一种单一的语义编码数据进行互译。参阅图2,图2是移动语音终端通过视像、语音及文字等,以无线方式传送及接收 以3位元集编码方式表达的语义数据,组成实时翻译系统结构图。语音终端100内的摄像 器201具备摄录功能,能够在翻译过程中同步拍摄用户的表情及动作。用户首先选择所使用的语言,通过麦克风202获取用户源语音信号,经语音编码 器1025编为语音档格式,与自然语言语音库1022进行匹配,转换为以3位元集编码形式 的语义数字数据104,该语义数字数据是与自然语言语音所表达的语义匹配对应的,能正确
8的、唯一的表达语义,其匹配关系可通过自然语言语音库1022得以限定。语义数据更可与 电子系统内的芯片或中央处理器(CPU)的指令集或程序一一映射对应,语音信号匹配语义 数据,替代点击图像或应用程序按键;以语音信号执行对应的指令集或程序,响应电子元件 操作。然后,发送组件105通过无线网络以无线信号方式传输出去。另一方面,该用户的 接收组件106亦从无线网络以无线信号方式接收到信号,并将3位元集编码的语义数据由 处理器103,根据所选定的语言,及其语法控制模组1021的处理,对翻译过程的语法进行纠 正,语法控制后的语义数据经过语音合成器1026,3位元集编码形式的语义数字数据以其 本已对应的自然语言语音库1022内的语音档,翻译合成并转换为具有正确语法的自然语 言语音档,通过扬声器203以完整自然语音信号方式输出。与自然语言语音库1022的翻译及合成为具有正确语法的自然语言语音档,通过 扬声器203以自然语音信号方式输出。完整语音信号输出。语音终端100设有文字信息输入介面205,任何文字词汇均可以语义为基础,一一 对应及转换3位元集编码的语义数据104,通过发送器105以无线方式传输至另一语音终端 100。在此过程中,语义数据104可经选择后转换翻译为任何自然语言的语音及/或文字信 息,通过语法控制模组1021纠正语法後,可通过扬声器203及显示器204显示用户表情、动 作、及具有正确语法的自然语言语音及/或文字信息。参阅图3,图3是语音信号输入选择、转换为3位元集编码的语义数据、传送、翻译 及合成为语音信号输出流程图。首先在第一语音终端根据该用户需求选择其使用的自然语 音的类别,此为步骤301 ;然后输入语音信号,此为步骤302 ;接着把语音信号与自然语言语 音库1022的语音档进行匹配并转换为3位元集编码语义数据,此为步骤119,在此过程中通 过语义认知模组1024,能够对语音信号出现的同音或近音词组,进行排歧处理判断正确语 义;经排歧处理的正确语义数据,通过任何数据网络可传送至其他语音终端进行翻译,此为 步骤120。语音终端首先要选择输出语言类别311,在接收到正确的3位元集编码语义数据 104转换为自然语音,此为过程121,在此转换过程中,进行所选语言的语法控制处理过程。 通过语法控制模组1021能够对不同自然语音进行语法纠正,通过自然语言语音库1022对 应的语音档合成并翻译为所选定的自然语言的语音信号输出,此为步骤312。第二用户终端 选择的语言与第一用户终端选择的语言可以相同,也可以不同。甚至,用户可同时选择一种 或多种的语言作为输入语言或输出语言。对于所述的语义认知处理过程119,本发明亦会使用一种全范围语义信息综合认 知系统,见申请号为200710030770.0的中国发明专利申请,配合上述提及的一种用于电 子、信息及通信系统的交换内码及其应用的发明专利,该发明公开了对输入的自然语言及 文字信息进行正确语义判断的技术方案,本发明的语义认知模组1024就是基于该发明所 公开的技术方案所设置,认知模组能够对任何自然语言的语音及文字信息存在的同音及近 音词组,以及一词多音、一词多义等情况进行综合认知、排歧处理,根据自然语言语音库及 文字辞库,与上下文匹配选出最正确语义。参阅图4,图4是文字信息输入选择、转换为3位元集编码的语义数据、传送、翻译 及转换为文字信息输出流程图。首先在第一语音终端根据该用户的需求选择输入文字类别,此为步骤401 ;然后输入所选定的文字信息,此为步骤402,并根据文字词汇1023对应到 汉语语义数据库,并一一对应及转换为3位元集编码的语义数据104。同理,转换过程中通 过语义认知模细1024,对源文字信息出现的一词多义词组,进行排歧处理判断正确语义,此 为语义认知处理过程119。经排歧处理的正确语义数据,通过数据网络传送至选定的第二语 音终端100。接收到正确语义数据储存后,第二语音终端按用户的文字输出选择,步骤411, 在第二语音终端以3位元集编码的语义数据104翻译为已选的自然语言文字信息。在此过 程中,完成翻译及语法控制处理过程121,通过语法控制模组1021能够对不同文字信息进 行语法纠正,对应用户所选的语言类别文字词汇1023翻译并输出表达的文字信息,此为步 骤 412。参阅图5,图5是语音信号及或文字信息输入选择、转换为3位元集编码语义数据、 传送、翻译及转换为文字信息输出流程图。首先选择输入自然语言语音及/或文字类别,如 步骤301或401 ;输入自然语音信号及/或文字信息,如步骤302或402。语音信号匹配自 然语言语音库1022,或文字信息匹配文字词汇1023,从而转换为3位元集编码的语义数据 104。同理,在此过程,经过语义认知模组1024对在转换、认知过程出现的一词多义、一音多 义等歧义情况根据上下文语境进行自动排歧处理,并将得到的正确的3位元集编码语义数 据传输到任一个第二语音终端。第二语音终端接收到的是表达着正确语义的3位元集编码 语义数据,根据第二语音终端的用户所选择的语言及语法控制模组1021进行处理,并根据 第二语音终端用户的需求以自然语音信号及/或以文字信息输出,步骤312或412。实施例下面根据附图,对本发明的实施方式和系统结构特征进行进一步详细的说明。现代普遍应用的自然语言都有标准的语音系统及文字词汇表示特定语义,例如汉 语的语音系统,是由不同的声母、韵母及四种声调组成四百多个音节;日语的语音系统,是 由五十音、浊音、半浊音及拗音等组成百多个音节。每种自然语言都可建立以音节为单位的 语音库,对输入/输出的语音信号进行匹配及合成;每种现代文字系统都具备文字词汇进 行匹配,从而以任何自然语言的语音库及文字辞库分别与汉语词汇按照相同语义方式建立 一一映射关系语义数据库。参阅图6a,图6a是语音或文字与3位元集编码的语义数据的直接映射示意图。 以"苹果"为例,在英语中的发音为"‘apsl",汉语中的发音为"pingud",日语中的发音 为"ringo"……,语音以拼音形式表示,分别处于自然语言语音库1022内不同的语音档, 但却表达着唯一相同的语义,因此这些不同的语音档对应着同一个数字编码一一以3位元 集形式编码的数字数据104。所述编码104,是指以η (η ^ 3)组二进制位元集进行编码,每 个位元集有23 = 8种编码组合,因此,一共可提供(23)η种编码空间进行编码。同理地,对 于文字而言,在英语中为"apple",在汉语中为"苹果",在日语中为"” W……在 文字辞库1023内均可找到其各自的编码,但这些不同的编码却代表着相同的唯一的语义, 因此也对应着唯一的以3位元集形式编码的语义数字数据104。参阅图6b,图6是任何自然语言语音及/或文字信息于语音终端100内的相互翻 译系统结构图。首先,输入任一种自然语言的语音信号及/或文字信息,见步骤601或602, 该自然语言可以是汉语、英语、德语、法语、意大利语或西班牙语等任一种自然语言的一种。 系统内部设置有自然语言语音库1022及文字辞库1023,输入的自然语言语音及/或文字信息分别已在上述数据库中匹配并转换为3位元集编码的语义数据104。在认知过程中,通过 语义认知模组1024,对输入的自然语音信号,及/或文字信息出现的一词多义词组等,进行 排歧处理、判断正确语义,从而获得正确的3位元集编码语义数据而传输出去。另一方面,语音终端100在接收到3位元集编码的数据后可以翻译为任何自然语 言语音信号601及或文字信息602。由于每种自然语言都有特定的语法规则,因此通过输出 语言类别的选择,经过语法控制模组1021的处理能输出合符语法规则的自然语音信号601 及/或文字信息602。语言翻译程式模组1027是指与3位元集编码语义数据库建立其映 射关系,包括任何自然语言映射的自然语言语音库1022及文字信息系统映射的文字辞库 1023及其各种语法控制模组1021,根据该自然语言特定的语法规则,就能翻译为用户所需 用的任一自然语言语音及/或文字信息。参阅图7,图7是英语语音内容翻译为日语语音内容的示例。英语自然语言语音 的整句输入信号内容730为〃 I have pencil and paper"翻译日语语音整句内容731输 出为〃私( 鉛筆i紙力5 A >9 t t〃该英语语音档732分别为〃 "、“ hav"、“penS3l"、 “and"、“papar",以标音符号表示,该英语语音档对应的汉语语义映射词组733分别为" 我〃、〃有“、“铅笔〃、〃及“、“纸〃;汉语语义词汇以3位元集方式编码104,是指 以n(n > 3)组二进制位元集进行编码,每个位元集有23 = 8种编码组合,因此,一共可提 供(23)n种编码空间进行编码;语义数据直接翻译至日语语义映射词汇734,所述词汇730、 733及734是相同语义词组,分别为〃私〃、“A >9 t t〃、〃鉛簟〃、“”、“紙", 通过日语语法控制模组1021处理後,日语自然语言内容731为〃私( 〃、“鉛筆〃、“ ”、“紙力 1、“ A >9 t t";与日语的自然语言语音库对应,合成为完整整句语音,并 输出整句日语语音信号735,以罗马拼音表示分别为"watashiwa"、“ enpitsu"、“ to"、 “kamiga“ 、 “ arimasu"。参阅图8,图8是局域无线数据网络内相互传送及接收3位元集编码语义数据104 进行翻译示意图。局部无线数据网络801是指一种短距离相互发送及接收数字数据的无线 网络,目前应用的标准是蓝牙,使用蓝牙进行通信的终端,分为主叫方和它的通信对手受取 方,主叫方可同时与7台受取方通信,因此可以把主叫方连同7台受取方共8台终端连接成 为Piconet的子网。语音终端100于局部无线数据网络801可以无线方式实时相互传送及 接收正确语义的3位元集编码语义数据。语音终端100输入英语语音信号,只交换单一的 3位元集编码语义数据,网内的多个语音终端都能选择不同的语言类别,以接收到的3位元 集编码语义数据,通过语法控制模组,翻译为已选的自然语言及/或文字信息,例如汉语、 德语、法语、意大利语、西班牙语、日语、葡萄牙语;多方用户能以实时同步方式实现多种不 同的自然语言及/或文字信息无线互译系统。参阅图9,图9是全球语音及/或数据网络的在线同步自然语音及/或文字信息翻 译服务,及下载任何自然语言翻译程式模组示意图。语音终端100通过全球语音及/或数 据网络901相互传送及接收具正确语义的3位元集编码语义数据,可以有线及/或无线与 任何电子终端905交换相同的3位元集编码语义数据,进行自然语音信号及/或文字信息 翻译过程,本发明进一步利用大量在线计算机伺服器的自然语言语音库及文字辞库904,提 供最大范围、最多语种及更准确的翻译服务902,通过在线伺服器获取任何自然语言翻译程 式模组1027,所述翻译程式模组是指任一种自然语言语音库及/或文字辞库,及其语法控
11制模组,翻译程式模组下载至用户任何电子终端905实现翻译过程;及以真人翻译员903通 过在线交换相同的3位元集编码语义数据,以实时同步方式提供任何自然语言语音及/或 文字信息翻译传意服务902,传递至用户任何语音终端100及/或任何电子终端905。另一方面,本发明还可以实现任何语音信号操控任何电子元件及/或机器,语音 终端及/或任何电子系统要具备任一种电子系统控制模组,当接收已选择的任何自然语言 语音信号后,转换为3位元集编码形式的语义数字数据,简单语音信号可直接映射至任何 电子系统内的指令集或程序,复杂语音信号可通过语义认知模组进行排歧,得到确切操控 语义;执行其操控的过程。电子系统控制模组是指,电子系统内可以操控电子元件或机器的指令集,映射对 应于3位元集编码形式的语义数字数据104。任何电子系统内的指令都是为特定功能而设, 都会有其特定语义;例如关于音量的“调高”、“调低”,关于速度的“快点”、“慢点”等。输入 语音信号匹配自然语言语音库1022转换为相关语义数据,对应及执行其指令集或程序,实 现操控其相应电子元件或机器过程,任何电子系统的指令集都可以组成完整的简单或复杂 的电子系统控制模组。参阅图10,图10是语音操控任何电子系统元件及/或机器运作流程图。语音终 端100通过全球语音及/或数据网络901下载或已安装任一种电子系统控制模组,输入语 音信号1002通过无线话筒1001传送语音至语音终端100,语音终端把信号转换为3位元集 编码形式的语义数字数据,对应其映射的指令集或程序,语音终端通过不同的无线传输协 定,例如红外线或蓝牙,以电子信号或数据方式传送相应的指令集至不同的电子系统,例如 通过红外线传送简单指令至家居电器1003,或通过蓝牙传送复杂指令至计算机系统1004。以上所述仅为本发明的优选实施例而已,并不用于限制本发明。对于本领域的技 术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修 改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
一种实时互译语音终端或电子系统,包括麦克风、扬声器、及文字信息输入输出模块,其特征在于包括一语言选择模组,根据用户的选择设定接收方或发送方语音和/或文字信息所使用的自然语言类别,所述的接收方或发送方使用的自然语言可以是为同一类别,也可以为不同类别;一处理模组,接收及处理用户所选择的自然语言的语音及/或文字信息,并完成所选定的自然语言的语音及/或文字信息与3位元集编码形式的语义数字数据的相互转换,其内包括有语义认知模组,能够对识别过程中自然语言的语音及/或文字信息中出现的同音及近音词组,进行排歧处理,判断正确语义,从而转换得到正确的3位元集编码形式的语义数字数据;及语法控制模组,在语义数字数据翻译合成为自然语言的语音及/或文字信息过程中对自然语言的语法进行修正过程;发送器,发送所述3位元集编码形式的语义数字数据,通过无线网络以无线电信号方式发出;接收器,接收发送自于其它语音终端的无线电信号并将3位元集编码形式的语义数字数据的数字信号传送至所述处理模组;所述语音终端包含有3位元集编码语义数据库,包括一自然语言语音库,是以语义为匹配基础,将各种自然语言的语音与汉语词组一一映射对应而建立的映射数据库;一文字辞库,是以语义为匹配基础,将汉语词组与其它自然语言文字词组一一映射对应而建立的映射数据库。
2.根据权利要求1所述的实时互译语音终端,其特征在于所述自然语言语音库及文 字辞库存储于语音终端或电子系统的CPU、ROM及/或永久记忆体中。
3.根据权利要求1所述的实时互译语音终端,其特征在于所述的语义认知模组及语 法控制模组存储于语音终端或电子系统的CPU、ROM及/或永久记忆体中。
4.一种应用权利要求1所述的语音终端进行语音指令操作的方法,其特征在于包括以 下步骤(1)选择要输入的自然语言类别;(2)输入以步骤(1)所选定的自然语言表达的语音;(3)通过处理模组将所述语音转换为3位元集编码形式的语义数字数据,并由语义认 知模组对所述语音进行认知、排歧,获取及存储正确语义数据;(4)语义数据一一映射对应语音操作终端或电子系统内的指令集;(5)语音信号执行指令集或程序响应电子元件操作。
5.一种应用权利要求1所述的语音终端进行实时同步相互翻译的方法,其特征在于包 括以下步骤(1)选择要输入的自然语言类别;(2)输入以步骤(1)所选定的自然语言表达的语音及/或文字信息;(3)通过处理模组将所述语音及/或文字信息转换为一种3位元集编码形式的语义数 字数据,并由语义认知模组对所述语音及/或文字信息进行认知、排歧,获取正确语义;(4)通过无线网络以无线信号发送所述3位元集编码形式的语义数字数据;(5)接收发送自另一语音终端或电子终端的3位元集编码的语义数据;(6)选择要输出显示的自然语言类别;(7)通过处理模块将3位元集编码的语义数据翻译合成为要显示的自然语言的语音及 /或文字信息,并通过语法控制模组实现翻译过程中自然语言的语法修正处理;(8)输出所述选定显示的自然语言的语音及/或文字信息。
6.一种应用权利要求1所述的语音终端进行任何自然语言的语音及/或文字信息互译 的方法,其特征在于包括以下步骤(1)所述语音终端加入任一种及/或多种语言翻译程式模组,包括自然语言语音库及/ 或文字辞库,以及其语法控制模组;(2)加入方法包括已予设所述任一种及/或多种语言翻译程式模组于语音终端内;(3)通过有线或无线方式下载所述任一种及/或多种语言翻译程式模组至语音终端内;(4)接收发送自另一语音终端的3位元集编码形式的语义数据;(5)翻译为所述任一种及/或多种自然语言的语音及/或文字信息。
7.一种应用权利要求1所述的语音终端进行实时同步真人视像在线翻译服务的方法 及系统,其特征在于包括通过有线或无线方式交换3位元集编码的语义数据,以提供真人 翻译员的在线翻译服务。
全文摘要
一种以语音终端为任何自然语音信号及或文字信息实现的相互翻译系统,语音终端能接收语音信号及或文字信息转换为3位元集编码语义数据,语义数据以有线及或无线方式传送至任何语音终端,具备任何语言翻译程式模细,包括自然语言语音库、文字辞库及其语法控制模细,可对应翻译为任何自然语言及/或文字信息;语音终端通过局域无线数据网络(Private Wireless Data Network)进行实时的语音及/或文字信息翻译;及或于全球语音及/或数据网络(Public Wireless Data Network)交换3位元集编码语义数据,实现远端真人翻译员视像在线同步语音及/或文字信息翻译服务。
文档编号G06F17/28GK101923858SQ20091004029
公开日2010年12月22日 申请日期2009年6月17日 优先权日2009年6月17日
发明者劳英杰 申请人:劳英杰
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1