一种能够实现多语言互译的智能眼镜的制作方法

文档序号:18461494发布日期:2019-08-17 02:04阅读:593来源:国知局

本发明属于人工智能和自然语言处理技术领域,具体涉及一种能够实现多语言互译的智能眼镜。



背景技术:

随着科技进步和经济社会发展,不同国家不同民族的人们之间的交往日益频繁。然而,不同的语言给人们交流增加了障碍。长期以来,人们都是通过专门的文字翻译人员和口头翻译人员,实现跨语言的交流。这种依靠人力来翻译存在几个问题,一是翻译人员稀少,且培养周期长、培养难度很大,二是翻译人员一般只能进行两种语言之间的互译,要跨不同语言之间交流,就需要不同的翻译人员来进行翻译。这些困难严重制约了不同民族之间的交往。

自从电子计算机问世以后,人们就希望通过计算机实现跨语言翻译,这也是人工智能的最早研究内容之一。但是机器翻译一直进展缓慢,难以达到实用水平。

随着基于深度学习的人工智能技术的发展,机器翻译水平近些年取得大幅提升,技术路线从之前的统计机器翻译演进到基于端到端的神经机器翻译,翻译结果更加流畅自然,部分场景已经突破了应用门槛,对不同国家和民族的人们交流起到较大的辅助作用。

国外,微软于2016年发布了翻译工具microsofttranslator,这是全球首款真正意义上的“万能翻译器”。该产品最大的亮点在于,可以通过对底层深度神经网络技术的应用,实现精确的语音识别和翻译。microsofttranslator的识别与翻译部分采用了resnet深度神经网络与长期短期记忆技术,而resnet神经网络深度则高达150层。

谷歌的翻译软件似乎更受青睐一些,多年的搜索引擎历程使其积累大量的数据与经验。大概在2014年左右,有关在机器翻译中应用深度学习的论文开始大量出现。谷歌根据这些理论成果,对自家的翻译软件进行多次改进以提升其准确度。

谷歌本身拥有大量的机器集群,在这些集群上部署神经网络训练任务相对而言就非常容易了。只需指定所需资源,就能将训练任务加以部署,从而最大限度地缩减研究成本。这可以使研究者从这类事情中解放出来,更加专心致力于网络结构方面的研究,并且能够让他们去进行大量的实验,用以验证其想法,这使得谷歌的翻译产品进步加速。

国外市场如火如荼,国内的情形也与之相差无几。去年9月,百度在日本发布了智能翻译机。可在中英、中日等多种语言互译模式中流畅识别一键翻译,还能为手机、电脑等设备提供wifi,且自带80余个国家的移动数据流量,自动连接4g网络。同年,腾讯也推出了一款名为“翻译君”的翻译软件。该软件驱动内核为ai,采用nmt(神经网络机器翻译)和语音识别等先进技术,能够实现同声传译功能,且支持在手机等移动终端的应用及实时会话翻译等内容。去年,一直在语音交互方面有深入研究的科大讯飞推出了智能翻译产品“晓译翻译机”。内置语音识别技术,配合运算芯片可实现中英离线互译,也能做到不受网络环境限制。甚至连电商也开始涉足翻译领域。去年8月,京东推出了一款可进行多国语言实时翻译的“准儿翻译机”。

观察当下各大企业,技术线路都有清晰的两块,一块是图像识别、语音识别方向,一块是自然语言处理方向。翻译,是“自然语言处理”的最重要分支,也是比较难的一支。人工智能在早期就是符号智能,人把各种规则变成符号算式输入机器。

早期的机器翻译是基于词和语法规则。而人类并不了解大脑是如何工作的,但是依然工作的很好。反过来,人类自己语言熟练,不代表人能理解自己语言神经是怎么运作的。这就导致依赖人工规则的翻译软件笑话百出。

后来出现了“统计机器翻译方法”(statisticalmachinetranslation,smt),也就是通过对大量的平行语料进行统计分析,找出常见的词汇组合规则,尽量避免奇怪的短语组合。smt翻译短语效果好,但是翻译句子就一般,直到近几年基于神经网络的翻译模型(neuralmachinetranslation,nmt)崛起。

神经网络是通过对人脑的基本单元——神经元的建模和联接,探索模拟人脑神经系统功能的模型,并研制一种具有学习、联想、记忆和模式识别等智能信息处理功能的人工系统。神经网络的一个重要特性是它能够从环境中学习。神经网络机器翻译模拟人脑神经的层级结构,具有多层芯片网络,从基础层开始,每一层都对从上一层接收来的信息进行抽象,自动识别出语言的规则、模式。人不了解那些规则也没关系,反正交给机器了,只要结果正确即可。这就是端到端的翻译。

简单说来,神经网络是一种能够运用数据模式发现功能来实现数据归类或预测的数学模型。换言之,如果只有一层数据,你只能发现简单的模式;而利用神经网络机器翻译,却可以发现模式中嵌套的模式。在翻译差异极大的语言(例如中文和阿拉伯语)时,这项功能尤为重要。

相比smt聚焦于局部信息(短语),nmt更擅长利用全局信息,在对整个句子的信息解码、编码后,才生成结果。所以无论是语音识别还是翻译,你会发现句子长一点,机器识别和翻译的效果就会更好一点。比如,语序问题是“翻译”头疼的问题,中文会把所有的定语都放在中心词前面,英文则会倒装,以往机器常混淆这个顺序。nmt通过基于深度学习的神经网络,向人类较好地学习到语序模式,长句翻译比以往流畅多了。

尽管现在计算机翻译水平已经接近于专业的翻译人员了,但是由于计算机携带不方便,所以运用不同语言的人员之间的交流还是不方便。为了进一步克服这些困难,本发明提供一种能够实现多语言互译的智能眼镜,使得人们在看到外文时,眼镜上显示的永远是母语文字,或者耳朵中听到的是母语语音。



技术实现要素:

为了解决现有的机器翻译设备携带和使用不便的问题,本发明提供一种能够实现多语言互译的智能眼镜,使得人们在看到外文时,眼镜上显示的永远是母语文字,或者耳朵中听到的永远是母语语音,从而彻底解决人们跨语言交流问题。

为实现上述目标,本发明采用以下技术方案:

一种能够实现多语言互译的智能眼镜,所述眼镜由眼镜架、眼镜片、计算芯片、通信芯片、显示膜、天线、麦克风、喇叭、电源组成。

所述眼镜架包括眼镜架体和通信天线、麦克风、喇叭、摄像头和电源,所述通信天线有两条,分别嵌入在眼镜架的两条腿里,所述喇叭有两个,分别嵌入安装在眼镜架的两条腿里,所述麦克风安装在镜框下部中央位置,所述摄像头安装在镜框上部中央位置,所述电源安装在镜框上。

所述眼镜片包括四个部分,一是正常的镜片,二是计算芯片,三是通信芯片,四是显示膜。所述正常的镜片用于实现普通眼镜的功能,所述计算芯片嵌入在左镜片中,所述通信芯片嵌入在右镜片中,所述显示膜附着在镜片内侧表面。所述摄像头、麦克风、喇叭、显示膜与所述计算芯片存在电连接,所述通信天线与所述通信芯片电连接,所述通信芯片与所述计算芯片电连接,所述电源与所述摄像头、麦克风、喇叭、显示膜、计算芯片、通信天线、通信芯片均存在电连接。

所述计算芯片包括硬件和软件,所述硬件包括处理器和存储器,所述软件包括操作系统、摄像软件、ocr软件、通信软件、语音处理软件。

所述通信芯片包括硬件和软件,所述硬件包括处理器、存储器、通信部件,所述软件包括操作系统、调制解调软件、编码解码软件和发送接收软件。

所述智能眼镜通过与远端的云平台无线通信,相互协同完成跨语言翻译任务,所述无线通信方式包括但不限于wifi、蓝牙等。

所述智能眼镜的工作方式分为两种,一种是文本翻译方式,另一种是语音合成翻译方式。

所述文本翻译方式的工作过程包括以下步骤:

1、所述摄像头摄取外文图像,将图像传递给所述计算芯片,所述计算芯片对图像中的文字执行ocr(opticalcharacterrecognition光学字符识别)操作,将字符图像转变成文本,然后所述计算芯片将字符文本发送给所述通信芯片,所述通信芯片对字符进行编码、调制后,通过所述天线发送出去;

2、所述云平台接收所述智能眼镜发送过来的信号,经过解调、解码后,判别语种,然后启动对应语种与目标语种的翻译引擎将源语言文本翻译成目标语言文本,然后将目标语言文本进行编码、调制后发送出去;

3、所述智能眼镜通过所述天线接收到云平台发送过来的信号,所述天线将接收的信号发送给所述通信芯片,所述通信芯片将接收的信号经过解调、解码后得到目标文本信息,然后将目标文本信息发送给所述计算芯片,所述计算芯片将目标文本信息传递到所述显示膜上进行显示,这时人眼看到的就是经过翻译的目标语言文本。

所述语音合成翻译方式的工作过程包括以下步骤:

1、如果使用者发出“语音”的声音,麦克风就会捕获该声音并传递给所述计算芯片,所述计算芯片将该声音信号传递给所述通信芯片,所述通信芯片将声音信号经过编码、调制后传递给所述天线发送出去;

2、所述云平台接收到信号后,经过解调、解码后,得到声音信息,云平台根据用户旨意,将目标语言文本合成为目标语言语音,然后通过无线通信发送给所述智能眼镜;

3、所述天线接收到信号后传递给所述通信芯片,所属通信芯片将信号解调、解码后传递给所述计算芯片,所述计算芯片将接收的声音信号传递给所述喇叭播放,这样人耳就能听到目标语言的语音。

所述云平台的翻译引擎采用基于深度神经网路的端到端翻译引擎,能够翻译的语言种类包括但不限于中、英、日、俄、韩、维、蒙等语言,能够实现上述任意两种语言之间的文本互译。

所述云平台的语音合成软件采用商用的语音合成软件。

本发明的优点和有益效果为:

1)使用端云结合的架构,使得客户端设备减小,增加便携性。

2)将文字读取、文字显示、语音播放设备嵌入到眼镜上,使得用户所见即所得,非常方便实用。

3)能够实现主要语种之间的互译,大幅提高应用范围。

具体实施方式

下面结合实施例对本发明作进一步说明。

实施例

一种能够实现多语言互译的智能眼镜,所述眼镜由眼镜架、眼镜片、计算芯片、通信芯片、显示膜、天线、麦克风、喇叭、电源组成。

所述眼镜架包括眼镜架体和通信天线、麦克风、喇叭、摄像头和电源,所述通信天线有两条,分别嵌入在眼镜架的两条腿里,所述喇叭有两个,分别嵌入安装在眼镜架的两条腿里,所述麦克风安装在镜框下部中央位置,所述摄像头安装在镜框上部中央位置,所述电源安装在右镜框上。

所述眼镜片包括四个部分,一是正常的镜片,二是计算芯片,三是通信芯片,四是显示膜。所述正常的镜片用于实现普通眼镜的功能,所述计算芯片嵌入在左镜片中,所述通信芯片嵌入在右镜片中,所述显示膜附着在镜片内侧表面。所述摄像头、麦克风、喇叭、显示膜与所述计算芯片存在电连接,所述通信天线与所述通信芯片电连接,所述通信芯片与所述计算芯片电连接,所述电源与所述摄像头、麦克风、喇叭、显示膜、计算芯片、通信天线、通信芯片均存在电连接。

所述计算芯片包括硬件和软件,所述硬件采用嵌入式arm处理器s3c2410,所述软件包括安卓操作系统android8.0、摄像软件采用minivcap、ocr软件采用汉王嵌入式版本、通信软件采用wifi、语音处理软件采用goldwave。

所述通信芯片包括硬件和软件,所述硬件采用bcm4325,所述软件包括操作系统、调制解调软件、编码解码软件和发送接收软件。

所述智能眼镜通过与远端的云平台无线通信,相互协同完成跨语言翻译任务,所述无线通信方式采用wifi。

所述智能眼镜的工作方式分为两种,一种是文本翻译方式,另一种是语音合成翻译方式。

所述文本翻译方式的工作过程包括以下步骤:

1、所述摄像头摄取外文图像,将图像传递给所述计算芯片,所述计算芯片对图像中的文字执行ocr操作,将字符图像转变成文本,然后所述计算芯片将字符文本发送给所述通信芯片,所述通信芯片对字符进行编码、调制后,通过所述天线发送出去;

2、所述云平台接收所述智能眼镜发送过来的信号,经过解调、解码后,判别语种,然后启动对应语种与目标语种的翻译引擎将源语言文本翻译成目标语言文本,然后将目标语言文本进行编码、调制后发送出去;

3、所述智能眼镜通过所述天线接收到云平台发送过来的信号,所述天线将接收的信号发送给所述通信芯片,所述通信芯片将接收的信号经过解调、解码后得到目标文本信息,然后将目标文本信息发送给所述计算芯片,所述计算芯片将目标文本信息传递到所述显示膜上进行显示,这时人眼看到的就是经过翻译的目标语言文本。

所述语音合成翻译方式的工作过程包括以下步骤:

1、如果使用者发出“语音”的声音,麦克风就会捕获该声音并传递给所述计算芯片,所述计算芯片将该声音信号传递给所述通信芯片,所述通信芯片将声音信号经过编码、调制后传递给所述天线发送出去;

2、所述云平台接收到信号后,经过解调、解码后,得到声音信息,云平台根据用户旨意,将目标语言文本合成为目标语言语音,然后通过无线通信发送给所述智能眼镜;

3、所述天线接收到信号后传递给所述通信芯片,所属通信芯片将信号解调、解码后传递给所述计算芯片,所述计算芯片将接收的声音信号传递给所述喇叭播放,这样人耳就能听到目标语言的语音。

所述云平台的翻译引擎采用科大讯飞基于深度神经网络的端到端翻译引擎,能够翻译的语言种类包括但不限于中、英、日、俄、韩、维、蒙等语言,能够实现上述任意两种语言之间的文本互译。

所述云平台的语音合成软件采用商用科大讯飞的语音合成软件。

最后应说明的是:显然,上述实施例仅仅是为清楚地说明本发明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明的保护范围之中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1