采用声频数据比较的自动翻译处理方法及自动翻译器的制作方法

文档序号:6532830阅读:129来源:国知局
专利名称:采用声频数据比较的自动翻译处理方法及自动翻译器的制作方法
技术领域
本发明涉及一种自动翻译方法及装置,特别涉及一种实用的、采用声频数据比较的电脑自动翻译处理方法及翻译装置。
背景技术
目前,使用不同语种的人进行语言交流,完全靠人工翻译,有二种方式一是交流者中至少有一人能熟练掌握对方的语种(自译),二是在双方都不懂对方语种的情况下,请一个能掌握交流双方语种的人作中间人(他译),为双方翻译交谈内容。
人工翻译的好处是,从理论上讲,交谈双方交谈内容可随机无限制(这当然也取决于自译、他译者掌握另一语种的水准),缺点是一、在多数情况下是交谈者都不懂对方语种,也不拥有中间翻译人员。
二、聘请翻译人员的费用很高。
三、双方谈话的内容对中间翻译人员无法保密。
四、多数情况下,某个翻译人员只懂一门外语,不能针对多语种翻译。
五、交流的速度很慢。
世界经济的快速发展,使不同语种的人群交流越来越多,对翻译的需要越来越大,近年来,随着电脑技术的飞速发展,人们积极探索用电脑来解决翻译问题,即试图实现“机器智能”翻译。在本发明之前,各国有许多这方面的试验,但截止目前,仍无法找到可实用的方法。
人类语言是一种社会现象,其历史几乎与人类自身的历史一样长,在千万年人类生活中形成的语言是非常复杂的,各语种的词、词素、合成词、词组的结构方式及意义,由词类构成的句的构成方式及意义,乃至语法结构、修辞方式等等,都是各民族历史生活中不断演变的约定俗成,包融并体现着该民族千百年政治、经济、宗教文化、科技、生活方式等等几乎全部社会范畴的“印记”,再加上各语种内部的方言,俚语、各地区表述习惯等因素,真是极为个性、极为复杂,并不象自然科学的研究对象那样有严格规律可循,各语种间没有统一的法则可依。因此,不能用自然科学的方法(数学的、物理的、化学的等)来分析、归纳,因此机器智能翻译(下称电脑翻译)的根本困难或根本矛盾,在于企图用自然科学的方法(数学方法),象人工翻译那样实现基本无规律、无联系的各语种语义间的同义互换。至少在目前若干年内,这应被看作是一条难以走通的路。

发明内容
本发明的目的在于以一种新思路,绕开语义障碍,以处理语音声频数据的方法,实现电脑翻译。
本发明的技术方案是采用声频数据比较的自动翻译处理方法,包括事先将汉语句子、外语句子通过声频数据输入到电脑存储器中,将许多句汉语句子一一编上序号,形成汉语句库,将许多句外语句子也一一编上序号,形成外语句库,汉语句库的汉语句子序号与外语句库的外语句子序号一对应,且这种序号的一一对应建立在相同语义上,二者构成预译句库,麦克风拾取的汉语语音声频信号经音频放大模/数转换至微处理器CPU处理识别,微处理器CPU将输入的汉语声频数据信号与存储在预译句库中的汉语句库的每一句汉语句子的声频数据信号进行对比,调取相同或相似声频数据信号的一句汉语句子,根据该汉语句子序号,微处理器CPU发出指令,调出外语句库中对应的相同序号的外语句子,经音频放大数/模转换后通过扬声器播出,反之也如此。
本发明的又一技术方案是采用声频数据比较的自动翻译器,其特征在于由语音拾取电路、微处理器CPU、句库存储器、语音播放电路构成,语音拾取电路的麦克风接音频模/数转换电路,音频模/数转换电路接预译句库存储器,微处理器CPU接预译句库存储器,预译句库存储器存储汉语句库、外语句库,汉语句库、外语句库输出接音频放大数/模转换电路,音频放大数/模转换电路接扬声器。
本发明的优点本发明的优点确实很多,难以详尽,现举其主要者1、回避了无限复杂,几乎无法克服的语义障碍,为机器智能翻译提供了一条可行并具持续发展空间的道路。
2、它可以多语种兼容并蓄,一机在手,可与多语种交流者实现交流,只要它预建了多语种“预译句数据库”。它甚至可根据需要,灵活地从网上下载所需语种的“预译句数据库”。
3、所需技术均为现代成熟技术,如模数、数模转换及声频数据化技术,数据处理则是利用了电脑最基本最突出的功能存储及检索。在电脑软硬件技术日新月异的今天,它能不断得到新的技术支持,从而不断完善及提升其功能。
4、单方配持时,它允许配持一方使用方言,双方配持时,它允许双方都使用方言,而不要求一定要会说、听懂普通话。
5、自动翻译器体积小巧,成本较低,而且不要求使用者一定要会说听懂普通话,使它易于为广大需求者接受,因此极具商业价值。
本发明有二个基本特点一、语音声频数据化本发明舍弃难以实现的语义电脑翻译方法,采用语音电脑翻译方法。
尽管各语种语法、语义上千差万别,但有一点是共同的,即它们都是有声语言,都有可以作为电脑处理对象的语音,即声音或声频。利用现有技术(数模转换电路)可将任一语句的语音声波频率表述为(或记录为)可被电脑储存、检索并识别的数据(组、列),即可用电脑数据记录并存储语句。
二、建立“语音数据化预译句库”1、分类别编拟“预译句库”。
现实中,不同语种间的交流大多是有某类主题范围的,如旅游类、商务类、一般生活类等等,而某一定类主题的交流所涉及的语句也是有限的。比如《英语900句》,熟练掌握后,在英语国家生活应无大问题。
据此,我们可以根据不同语种间(为表述方便,以下均以汉语对英语间的旅游类交流为例)交流内容的不同主题范围建立适用的句库。方法是先请中英旅游类专家根据一个到英国的中国旅游者与英国人交流可能涉及到的内容,拟定中英文旅游句库,该句库包容了旅游者与英国人交流必要涉及的和可能涉及到的足够数量的语句,假设为1000句语句,预先翻译好,并将中英文句一一对应并编号。对应的中英文句称为互译句。这样就有了一个实用的旅游类中英文“预译句库”。
2、“预译句库”的语音数据化及输入与存储首先将“预译句库”中的英文句以标准英语语音读出,经麦克风拾音录音,再经模数转换电路将其录音的模拟信号转换成数字信号(数据),按序号存入电脑存储器,构成“英文句声频数据库”。
而后再将“预译句库”中的中文句由自动翻译器的汉语使用者用自己惯常的方言语音读(说)出,经上述同样电路,也将其语音数据化并根据“互译句”关系,与已存入存储器的英文句数据同序号一一对应并存入电脑存储器,构成“中文句声频数据库”。
这样,就建成了一个拥有1000对中英文互译句的语音声频数据库,这里最关键的是①英文句声频数据库与中文句声频数据库中的互译句要同序一一对应,以便对比、检索及调出。
②自动翻译器的汉语使用者的语音声频一定要由其本人用惯常的方言语音读(说)出,输入存储器,这使得众多不会说本语种“普通话”的人能够使用自动翻译器,同时也使自动翻译器成为纯个性化的翻译工具。
③由于英语语句是以英语标准语音声频输入的,考虑到便捷可行,可以预先录音,其声频数据化后,以多种数据载体输入自动翻译器的“英文句声频数据库”。


图1——本发明原理结构及使用流程示意图。
具体实施例方式
CPU工作程序“中英文语音声频数据库”建立后1、汉译英使用中,汉语使用者说出的语句(该语句必须是预译句库1000句中的一句)的语音经微型麦克风拾音,并经模数转换电路转换成语音声频数据,输入电脑,CPU以此数据为标准在“中文句语音声频数据库”中进行对比、检索,将与之相同或最相近的一组声频数据的存储位置(序号)找到,而后将“英文句语音声频数据库”中同位置(序号)的一组声频数据调出,经数模转换电路将其录音通过微型扬声器播出给英语对话者,同时,还可将其通过自动翻译器上的液晶显示屏文字显示。
在上述过程中,汉语使用者的汉语语音声频数据是作为CPU在“中文句语音声频数据库”中进行对比、检索的标准的,由于数据库中的语音声频的提供者与现在的使用者(语音声频输入者)为同一人,所说的句子又是已存入的1000句中的一句,所以可以准确判别,即使或有漏字,错字等现象,CPU也可根据“最相近(相似)”原则判别出。我们可以把这种“相近似”判断称为“CPU”的“模糊识别”,这是衡量自动翻译器水准的重要指标。
2、英译汉这是指英语对话者的回答,其语音通过汉语使用者所持的自动翻译器上的微型指向性麦克风拾音,经模数转换电路后,CPU以此数据为标准在“英文句语音声频数据库”中对比、检索,将与之相同或最相近似的一组声频数据的存储位置(序号)找到,而后将“中文句语音声频数据库”中同位置(序号)的一组声频数据调出,经数模转换电路,将其录音通过耳塞式听筒播出给汉语使用者,这样汉语使用者听到的是自己说出的方言译句。
这里有二种情况①英语对话者没有配持自动翻译器,其语句的“翻译”是通过汉语使用者配持的自动翻译器来实现的,而该翻译器中“英文句语音声频数据库”内的声频数据提供者与英语对话者不是同一人,二者声频数据会有程度不同的差异,可能会使CPU对比检索时增大难度,所以应要求英语对话者尽可能说标准语音。
②英语对话者也配持了自动翻译器,且建有相同类别句库,则交流将很顺畅。
技术方案采用声频数据处理的自动翻译方法包括将预先拟定并翻译好的,一定量的中英文互译句的语音频率数据化,分别存入电脑存储器中的英文句语音声频数据库和汉语句语音声频数据库,二库中的互译句按相同序号一一对应,形成中英文“预译句数据库”。麦克风拾取的汉语语音声频信号经模数转换电路转换成数据信号后,送至微处理器CPU处理,CPU将其与存储器中的汉语句声频数据库内的汉语句声频数据进行对比、检索,调取相同或最相似者,再根据该句序号,调出英语句声频数据库内与其序号对应的英语句声频数据,经数模转换后,通过扬声器播出。反之亦如此。
采用声频数据处理方法的自动翻译器,其主要技术特征在于声频处理电路由语音拾取电路、模数及数模转换电路、微处理器(CPU)、存储器(预译句数据库)、语音播放电路构成语言拾取电路的麦克风接音频模数转换电路,音频模数转换电路接存储器(预译句数据库),微处理器(CPU)接存储器(预译句数据库)、存储器(预译句数据库)接数模转换电路,数模转换电路按语音播放电路及液晶显示电路。
自动翻译器的配置现代大规模集成电路及微电脑技术,使得自动翻译器可以做的很小巧,它基本呈胸卡形,可随身佩带。它的配置有1、主机外表面有一块液晶显示屏,作译句文字显示用,有一微型扩音器,作译句播音用,一微型指向性话筒,作对未配置翻译器的对话者拾音用,数字及模拟信号输入及输出接口,电池(内置或外置)。
2、耳塞式听筒。
3、微型领夹式话筒。
本发明前景在多语种间交流的社会需求如此巨大并还在不断扩大的时代,作为一项实用的个人化的机器智能翻译设备的发明,必将具有极为广阔的发展前景,它必将迅速进入人类多领域生活中。
还从旅游类举例,它首先可在各国机场、车站、商店、饭店、景点等处设置(大型台式),或为服务人员配置,这将为其他语种旅游者克服几乎所有有关旅游方面的语言障碍。
它同样可在商贸类甚至军事类被广泛采用。
由于它体积小、成本低、易于普及,而普及面越广,即配持人越多,他们享有的交流自由度就越大。
并且,随大规模集成电路及电脑技术的飞速发展,主要是存量越大而运算处理速度越快,其翻译性能----主要指预译数据库的类别数及预译句的容量、检索的速度,特别是检索的效率(模糊识别能力)----将越优异。
此外,预译句库作为人类生活各范畴专家与语言学家的作品,在市场推动下,必将不断更新且越来越实用,它将分语种分主题类别以多种数据载体方式在专门商店,甚至在网上出售,这甚至可能成为一种产业。
权利要求
1.采用声频数据比较的自动翻译处理方法,包括事先将汉语句子、外语句子通过声频数据输入到电脑存储器中,将许多句汉语句子一一编上序号,形成汉语句库,将许多句外语句子也一一编上序号,形成外语句库,汉语句库的汉语句子序号与外语句库的外语句子序号一一对应,且这种序号的一一对应建立在相同语义上,二者构成预译句库,麦克风拾取的汉语语音声频信号经音频放大模/数转换至微处理器CPU处理识别,微处理器CPU将输入的汉语声频数据信号与存储在预译句库中的汉语句库的每一句汉语句子的声频数据信号进行对比,调取相同或相似声频数据信号的一句汉语句子,根据该汉语句子序号,微处理器CPU发出指令,调出外语句库中对应的相同序号的外语句子,经音频放大数/模转换后通过扬声器播出,反之也如此。
2.采用声频数据比较的自动翻译器,其特征在于由语音拾取电路、微处理器CPU、句库存储器、语音播放电路构成,语音拾取电路的麦克风接音频模/数转换电路,音频模/数转换电路接预译句库存储器,微处理器CPU接预译句库存储器,预译句库存储器存储汉语句库、外语句库,汉语句库、外语句库输出接音频放大数/模转换电路,音频放大数/模转换电路接扬声器。
3.根据权利要求1所述的采用声频数据比较的自动翻译处理方法,其特征在于声频数据同位存储电路存储汉语句子或外语句子的声频数据信号。
4.根据权利要求1所述的采用声频数据比较的自动翻译处理方法,其特征在于预译句库中的句子系按语义主题内容分类选定。
5.根据权利要求1所述的采用声频数据比较的自动翻译处理方法,其特征在于存入电脑预译句库存储器中的汉语句库的汉语句子由特定人阅读,经麦克风拾取该特定声频信号并经模/数转换后输入到微处理器CPU中,微处理器CPU将该特定声频数据存入预译句库存储器中。
6.根据权利要求1所述的采用声频数据比较的自动翻译处理方法,其特征在于预译句库中的句子采用数据载体输入至电脑存储器。
全文摘要
本发明涉及一种采用声频数据比较的自动翻译处理方法及翻译器。将汉语、外语句子通过声频数据输入电脑,且汉语和外语句子之间一一编上对应序号且语义相同,构成汉语、外语句库的预译句库。说汉语时,CPU根据声频数据从汉语句库中找出相同或相似声频数据的汉语句子,并根据其序号调出外语句库中相同序号的外语句子经处理后至扬声器播出,反之也如此。本发明利用电脑存储量大及检索快的特点,解决了现有翻译装置企图象人工翻译那样实现基本无规律、无联系的各语种语义间的同义互换所带来的不可能实现的难题和缺陷。本发明使翻译器能听懂汉语或外语方言。语言交流内容可根据旅游、经济、法律等进行分类。本翻译器结构简单、体积小,可靠性强。
文档编号G06F3/16GK1716241SQ20051004087
公开日2006年1月4日 申请日期2005年7月4日 优先权日2005年7月4日
发明者张 杰 申请人:张 杰
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1