一种基于深度学习的专业领域机器同步翻译装置及方法与流程

文档序号:14911147发布日期:2018-07-10 23:26阅读:357来源:国知局

本发明属于人工智能的自然语言处理技术领域,涉及一种基于深度学习的专业领域机器同步翻译装置及方法,适用于对翻译有一定实时性和专业性要求的专业领域会议,如政治领域新闻发布会或计算机领域学术交流会议等,同时也适用于日常的对话实时翻译。



背景技术:

随着科学技术的发展和经济全球化,无论是在日常生活中还是学术领域沟通上,国际交流沟通已经是一个几乎每个人都有过的经历,但跨语言交流场景对参与者的多语言水平要求较高,交流参与者通常会借助词典或是翻译软件甚至口译员进行跨语言交流。于是在这样的需求背景下,近年来便携式机器翻译设备应运而生。但是,现有的传统式便携式机器翻译设备需要佩戴者和翻译设备进行半双工式交流,即当佩戴者想要进行翻译时,需要佩戴者按下按钮,并说出一句话,同时等待设备翻译并反馈结果后,再说出下一句话进行翻译,如此往复进行会话翻译或陈述翻译。这样的机器翻译设备的实时性很多时候并不能满足一些如会议或者课堂的同步翻译或口译的需求。而且在涉及专业领域的会议或课堂等的使用场景里,传统机器翻译设备不论在翻译专业词汇的准确度上还是在处理一些特定语句的语序上的表现都不能够令人满意。

虽然一些对翻译质量要求较高的场合仍然需要同声传译人员进行人工翻译,但是在这类场合下,人工译员是在接近满负荷状态(Tightrope Hypothesis)下工作的,随时有可能由于各种原因导致同传中的漏译或是错译。同时,发言者的话语中有着大量的专业词汇和大量的口语体,甚至是引经据典,这都是同传人员将要面临的困难。若在上述场景中将一种效果良好的机器实时翻译的结果与语音识别结果同时作为一个辅助提示实时反馈给口译人员,将一定程度上降低口译人员的翻译难度,减少漏译及误译现象的发生,同时还可以适当降低翻译成本。但是传统的机器翻译对于口语体和专业领域词汇的处理尤其不理想,如果作为辅助的机器翻译结果中仍有相当程度之误译,接收提示的口译人员就必须花费更多的时间,先根据原文了解文意,再对照机器翻译稿,分辨正确和错误的翻译,这样的辅助设备对于同声传译译员来说更可能是干扰而非帮助。而一个实时或准实时的、且经过专业领域优化的机器翻译设备则可以更好地解决上述问题。

本发明将推动同声传译从译员同传(Human SI)向机辅同传(Computer-aided SI),再向最终的机器口译(Machine SI)发展。基于深度学习来一方面解决译员在同声传译现场出现的听不懂、记不住、译不出的困难,提高术语和固有表达的双语转换正确率,另一方面译员可以根据机器翻译在线即时进行译后编辑,提高译语的信息量,而且在一些场景能够替代译员实现延时一秒以内的准实时的同声传译功能。



技术实现要素:

针对自然语言处理和机器翻译技术,需要在提高翻译在专业领域的准确率的同时加快翻译速度与翻译实时性,本发明提供一种基于深度学习的专业领域机器同步翻译装置及方法。相比现有的传统机器翻译装置,本发明提供的翻译装置在实时性和对于专业领域表达用语的处理上效果更佳,符合口译人员的需求,可以作为其口译时的辅助设备。同时在对翻译精度没有绝对准确要求的翻译场合下则可以直接使用本装置进行翻译,使用方便快捷。

本发明的技术方案:

一种基于深度学习的专业领域机器同步翻译装置,包括可穿戴入耳式监听及录音采样器、可穿戴便携式显示处理器;

所述的可穿戴入耳式监听及录音采样器包括声音采样单元、重力感应单元、发声单元、无线数据传输单元A、中央处理单元A和供电单元A;其中,重力感应单元为加速度传感器,用于检测佩戴者的佩戴行为和发声状态,并用于感应佩戴者的操作手势;声音采样单元包含传声器A(靠近佩戴者口部的传声器)、传声器B(远离佩戴者口部的传声器)和噪音过滤器,传声器用于捕获外界声音,噪音过滤器将两个传声器接收到的声音信号进行抵消和放大处理,滤去部分环境噪音和发声单元正在发出的声音;发声单元为动圈发声器,用于向佩戴者反馈语音的翻译结果;无线数据传输单元A为蓝牙传输芯片A,以实现与显示单元进行数据通信;中央处理单元A为嵌入式为场景设计功耗(SDP)0.5W-1W的超低功耗中央处理器,用于控制和协调各个单元间的操作;供电单元A为微型稳压锂电池A,在保证能为可穿戴入耳式监听及录音采样器稳定供电的同时保持其便携性;

所述的可穿戴便携式显示处理器包括语音识别单元、无线数据传输单元B、中央处理单元B、神经网络仿生计算单元、显示单元、视频信号处理单元和供电单元B;其中,无线数据传输单元B包含蓝牙传输芯片B、无线局域网(WLAN)传输芯片和4G-LTE通信芯片,蓝牙传输芯片B用于和可穿戴入耳式监听及录音采样器进行数据通信,无线局域网传输芯片和4G-LTE通信芯片用于提供装置与云计算服务器之间的通信途径;中央处理单元B为场景设计功耗(SDP)2W-10W的低功耗中央处理器,用于控制和协调可穿戴便携式显示处理器内各个单元间的工作和数据信号的收发;显示单元包括LED显示面板和电容触控面板,用于向佩戴者显示识别和翻译的结果并提供人机交互方式;视频信号处理单元为图形处理器,用于控制显示单元并生成HDMI视频数字信号以向投影仪或外接显示器实时投影识别和翻译的结果;供电单元B为微型稳压锂电池B,为可穿戴便携式显示处理器稳定供电;

所述的语音识别单元包含数据缓冲模块、断句模块、语音转文本模块和文本优化模块;数据缓冲模块用于缓存来自声音采样单元采集到的音频数据流;断句模块用于根据佩戴者的讲话停顿间隔将佩戴者讲话的连续音频数据切分成多个单句的音频数据;语音转文本模块用于接收来自断句模块的音频数据流,并将音频数据流转换成和说话人的同种语言的文本信息;文本优化模块用于接收来自语音转文本模块的文本信息,并对文本信息添加标点符号,删去口语中无意义或重复的部分(如“嗯”、“啊”等),同时对文本进行分词,以提升后续翻译工作的准确度;

所述的神经网络仿生计算单元包括预翻译模块和专业领域表达微调模块;所述的预翻译模块用于接收语音识别单元传来的文本信息,将文本信息向目标语言进行初步翻译,得到初步翻译结果;预翻译模块包括编码器A、解码器A和注意力模块A;其中编码器A和解码器A各包括一个循环神经网络,每个循环神经网络采用LSTM(长短期记忆)网络,一个LSTM网络包含4层神经网络层,每一层包括1024个神经元;所述的编码器A用于将源语言语句转换成隐层状态向量列表;解码器A用于将隐层状态向量列表转换为目标语言的语句;注意力模块A用于在解码器的转换过程中优化其转换工作,以达到关注上下文的效果;所述的专业领域表达微调模块用于将预翻译模块得到的初步翻译结果调整成为更符合口译要求的结果,包括编码器B、解码器B、注意力模块B,其中编码器B和解码器B各包括两个循环神经网络;编码器B用于将预翻译语句转换成隐层状态向量列表;解码器B用于将隐层状态向量列表转换为根据专业领域微调后的语句;注意力模块B用于在解码器的转换过程中优化其转换工作,以达到关注上下文的效果。

一种基于深度学习的专业领域机器同步翻译方法,步骤如下:

步骤1,佩戴者使用前,先在Linux系统下基于TensorFlow平台搭建预翻译神经网络模型和专业领域表达微调神经网络模型,然后分别置入神经网络仿生单元中的预翻译模块和专业领域表达微调模块中;神经网络模型的建立方法如下:

步骤1-1,建立预翻译神经网络模型;预翻译神经网络模型利用NMT(神经机器翻译)方法建立,并使用大规模的从源语言到目标语言的平行语料对其进行训练,得到一个训练好的预翻译神经网络模型;

步骤1-2,建立专业领域表达微调神经网络模型:首先在预翻译神经网络模型的目标语言词汇表的基础上加入专业领域的罕见词汇,形成专业词汇表,该专业词汇表作为专业领域表达微调神经网络模型的目标语言词汇表;然后使用TensorFlow平台搭建基于LSTM的神经网络模型,并利用大规模的预翻译结果-人工专业翻译结果语料对基于LSTM的神经网络模型进行训练,得到一个训练好的专业领域表达微调神经网络模型;其中,基于LSTM的神经网络模型的搭建方法如下:

步骤1-2-1,编码器B依次读取语句x中分好的第t个词xt,同时对当前的词语产生编码隐层状态向量ht,然后将所有的隐层状态向量ht(t=1,2,…,n)进行拼接得到编码隐层状态向量列表(h1,h2,…,hn);编码隐层状态向量ht的计算方式如下:

it=σ(W(i)xt+U(i)ht-1)

ft=σ(W(f)xt+U(f)ht-1)

ot=σ(W(o)xt+U(o)ht-1)

其中,xt为语句中的第t个词,ht为编码器对应的第t个编码隐层状态向量,ht-1是编码器读取上一个词语时的编码隐层状态向量;σ(·)为非线性变换函数,tanh(·)为双曲正切函数;W(i),W(f),W(o),W(c),U(i),U(f),U(o),U(c)皆为LSTM模型计算过程中待训练的权值参数,角标i,f,o,c分别表示符号属于输入门、遗忘门、输出门和神经元记忆的计算参数;it,ft,ot,ct皆为模型计算过程的中间变量,分别表示LSTM单元的输入门的输出,遗忘门的输出,输出门的输出,新记忆和最终记忆;°符号表示乘积;

步骤1-2-2,注意力模块B配合解码器B进行解码,首先解码器B逐项读取编码器B输出的编码隐层状态向量列表,并对于编码隐层状态向量列表中的每一项产生一个解码隐层状态向量si;然后将所有解码隐层状态向量si(i=1,2,…,n)进行拼接得到解码隐层状态向量列表(s1,s2,…,sn);

在解码过程中,解码器B通过编码隐层状态向量列表(h1,h2,…,hn)和其已经解码生成的输出序列(y1,y2,…yi-1)来预测下一个输出的单词yi;由于有注意力模块B的存在,解码器B会有侧重地关注编码器B产生的隐层状态;隐层状态向量si的计算方法如下:

zi=[yi-1;bi]

ii=σ(W(i)zi+U(i)si-1)

fi=σ(W(f)zi+U(f)si-1)

oi=σ(W(o)zi+U(o)si-1)

其中,yi-1为解码过程中第i-1个词,即已经输出的上一个词,si为解码器B对应的第i个隐层状态向量,si-1是解码器B生成上一个词语时的隐层状态向量;σ(·)为非线性变换函数,tanh(·)为双曲正切函数;W(i),W(f),W(o),W(c),U(i),U(f),U(o),U(c)皆为LSTM模型计算过程中待训练的权值参数,其中角标i,f,o,c分别表示符号属于输入门、遗忘门、输出门和神经元记忆的计算参数;其中zi,ii,fi,oi,ci皆为模型计算过程的中间变量,分别表示LSTM单元的来自注意力机制的输入,输入门的输出,遗忘门的输出,输出门的输出,新记忆和最终记忆;[;]符号表示向量元素的拼接;其中bi为当前解码器B输出词与编码器端每个词对应关系的数学表示,通过注意力机制的方式计算:

其中,eit,ait皆为模型计算过程的中间变量;为注意力模型参数,exp(·)为指数函数,j为作为起迭代作用的临时变量;σ(·)为非线性变换函数,tanh(·)为双曲正切函数;

步骤1-2-3,模型根据步骤1-2-2得到的解码隐层状态向量列表(s1,s2,…,sn)对应其目标语言词汇表生成目标端的词语,输出最终翻译结果;得到基于LSTM的神经网络模型;

步骤2,可穿戴便携式显示处理器的中央处理单元B控制显示单元向佩戴者展示设置选项,佩戴者选择翻译源语言和目标语言后,中央处理单元B通过控制无线数据传输单元B的蓝牙传输芯片B与可穿戴入耳式监听及录音采样器建立连接,以通知其进入工作状态;可穿戴入耳式监听及录音采样器通过其无线传输单元接收到来自可穿戴便携式显示处理器的连接请求后进入工作状态,其重力感应单元利用加速度传感器实时获取设备的加速度,当设备收到两次横向加速度改变时(即佩戴者轻敲耳中的设备时),声音采样单元将开始工作,即此时装置已启动监听状态;供电单元A为可穿戴入耳式监听及录音采样器稳定供电;

步骤3,可穿戴入耳式监听及录音采样器中的传声器A(靠近佩戴者口部的传声器)和传声器B(远离佩戴者口部的传声器)将声音采样后,分别得到音频信号DA和DB,得到DA和DB的同时将其输入噪音过滤器,噪音过滤器以差分放大器的方式将信号DA和信号DB相减,得到降低环境噪音的信号DC,并将DC进行信号放大处理,然后信号DC被传输到中央处理器A中,中央处理单元A通过基于软件的数模信号转换方法将模拟信号DC转换为数字信号,并将得到的数字信号传送到无线数据传输单元A的蓝牙传输芯片A中,蓝牙传输芯片A将收到的信号以音频数据流的形式传输到可穿戴便携式显示处理器的语音识别单元;

步骤4,首先语音识别单元将收到的音频信息,利用断句模块根据佩戴者的讲话停顿间隔将佩戴者讲话的连续音频数据切分成多个单句的音频数据,其次利用语音转文本模块将音频数据流转换成和说话人的同种语言的文本信息,最后利用文本优化模块用于接收来自语音转文本模块的文本信息,并对文本信息添加标点符号,删去口语中无意义或重复的部分(如“嗯”、“啊”等),同时对文本进行分词;随后将文本信息以流的形式传入到神经网络仿生计算单元;

步骤5,在网络状态良好的情况下,中央处理器将通过云计算的方式,利用无线局域网(WLAN)传输芯片和/或4G-LTE通信芯片与具备强大计算能力的服务器进行连接,使其运行步骤1中训练好的模型以进行翻译;在离线状态下,则由本地的神经网络仿生单元利用步骤1中训练好的深度学习模型进行翻译;

步骤6,翻译后的文本将传输至可穿戴便携式显示处理器的中央处理单元B,中央处理单元B控制视频信号处理单元将视频数字信号传输到显示单元和HDMI输出端;显示单元利用LED显示面板根据得到的视频数字信号实时显示识别和翻译的结果;HDMI输出端将视频信号输出到外接的显示器或者投影仪等设备上;同时,可穿戴便携式显示处理器的中央处理单元B将翻译后的文本通过开源TTS方法生成语音音频数据,由无线数据传输单元B的蓝牙传输芯片B传输到可穿戴入耳式监听及录音采样器的无线数据传输单元A中,无线数据传输单元A接收到音频数据后,将其传递给中央处理单元A,中央处理单元A通过基于软件的数模信号转换方法将数字信号转换为模拟信号并传送到发声单元,发声单元中的动圈发声器通过振动发声将语音翻译结果以声音的形式反馈给其佩戴者,供电单元B为可穿戴便携式显示处理器稳定供电。

本发明的有益效果:本发明是基于深度学习算法理论,在不断学习翻译质量极高的高级译员的经验条件下,充分训练。区别于传统机器口译方式,本发明在语音识别处理上更适合口语、预翻译后会针对专业领域进行翻译结果微调,同时结合可穿戴式装置的交互特性,使装置作为口译人员的辅助设备能为其提供有用的帮助与提示,或作为直接翻译设备能实现更加准确地处理专业领域术语,更接近口译人员的翻译效果。

附图说明

图1为本发明装置组成结构图。

具体实施方式

以下结合技术方案和附图详细叙述本发明的具体实施例。

一种基于深度学习的专业领域机器同步翻译装置,包括可穿戴入耳式监听及录音采样器、可穿戴便携式显示处理器;

所述的可穿戴入耳式监听及录音采样器包括声音采样单元、重力感应单元、发声单元、无线数据传输单元A、中央处理单元A和供电单元A;其中,重力感应单元为加速度传感器,用于检测佩戴者的佩戴行为和发声状态,并用于感应佩戴者的操作手势;声音采样单元包含传声器A(靠近佩戴者口部的传声器)、传声器B(远离佩戴者口部的传声器)和一个噪音过滤器,传声器用于捕获外界声音,噪音过滤器将两个传声器接收到的声音信号进行抵消和放大处理,滤去部分环境噪音和发声单元正在发出的声音;发声单元为动圈发声器,用于向佩戴者反馈语音的翻译结果;无线数据传输单元A为蓝牙传输芯片A,以实现与显示处理模块进行数据通信;中央处理单元A为嵌入式为场景设计功耗(SDP)0.5W-1W的超低功耗中央处理器,用于控制和协调各个单元间的操作;供电单元A为微型稳压锂电池A,在保证能为可穿戴入耳式监听及录音采样器稳定供电的同时保持其便携性;

所述的可穿戴便携式显示处理器包括语音识别单元、无线数据传输单元B、中央处理单元B、神经网络仿生计算单元、显示单元、视频信号处理单元和供电单元B;其中,无线数据传输单元B包含蓝牙传输芯片B、无线局域网(WLAN)传输芯片和4G-LTE通信芯片,蓝牙传输芯片B用于和可穿戴入耳式监听及录音采样器进行数据通信,无线局域网传输芯片和4G-LTE通信芯片用于提供装置与云计算服务器之间的通信途径;中央处理单元B为场景设计功耗(SDP)2W-10W的低功耗中央处理器,用于控制和协调模块内各个单元间的工作和数据信号的收发;显示单元包括LED显示面板和电容触控面板,用于向佩戴者显示识别和翻译的结果并提供人机交互方式;视频信号处理单元为图形处理器,用于控制显示单元并生成HDMI视频数字信号以向投影仪或外接显示器实时投影识别和翻译的结果;供电单元B为微型稳压锂电池B,为可穿戴便携式显示处理器稳定供电;

所述的语音识别单元包含数据缓冲模块、断句模块、语音转文本模块和文本优化模块;数据缓冲模块用于缓存来自声音采样单元采集到的音频数据流;断句模块用于根据佩戴者的讲话停顿间隔将佩戴者讲话的连续音频数据切分成多个单句的音频数据;语音转文本模块用于接收来自断句模块的音频数据流,并将音频数据流转换成和说话人的同种语言的文本信息;文本优化模块用于接收来自语音转文本模块的文本信息,并对文本信息添加标点符号,删去口语中无意义或重复的部分(如“嗯”、“啊”等),同时对文本进行分词,以提升后续翻译工作的准确度;

所述的神经网络仿生计算单元中的神经网络模型包括预翻译模块和专业领域表达微调模块;所述的预翻译模块用于接收语音识别单元传来的文本信息,将文本信息向目标语言进行初步翻译,得到初步翻译结果;预翻译模块包括编码器A、解码器A和注意力模块A;其中编码器A和解码器A各包括一个循环神经网络,每个循环神经网络采用LSTM(长短期记忆)网络,一个LSTM网络包含4层神经网络层,每一层包括1024个神经元;所述的编码器A用于将源语言语句转换成隐层状态向量列表;解码器A用于将隐层状态向量列表转换为目标语言的语句;注意力模块A用于在解码器的转换过程中优化其转换工作,以达到关注上下文的效果;所述的专业领域表达微调模块用于将预翻译模块得到的初步翻译结果调整成为更符合口译要求的结果,包括编码器B、解码器B、注意力模块B,其中编码器B和解码器B各包括两个循环神经网络;编码器B用于将预翻译语句转换成隐层状态向量列表;解码器B用于将隐层状态向量列表转换为根据专业领域微调后的语句;注意力模块B用于在解码器的转换过程中优化其转换工作,以达到关注上下文的效果。

一种基于深度学习的专业领域机器同步翻译方法,步骤如下:

步骤1,佩戴者使用前,先在Linux系统下基于TensorFlow平台搭建预翻译神经网络模型和专业领域表达微调神经网络模型,然后分别置入神经网络仿生单元中的预翻译模块和专业领域表达微调模块中;神经网络模型的建立方法如下:

步骤1-1,建立预翻译神经网络模型;预翻译神经网络模型利用NMT(神经机器翻译)方法建立,并使用大规模的从源语言到目标语言的平行语料对其进行训练,得到一个训练好的预翻译神经网络模型;

步骤1-2,建立专业领域表达微调神经网络模型:首先在预翻译神经网络模型的目标语言词汇表的基础上加入专业领域的罕见词汇,形成专业词汇表,该专业词汇表作为专业领域表达微调神经网络模型的目标语言词汇表;然后使用TensorFlow平台搭建基于LSTM的神经网络模型,并利用大规模的预翻译结果-人工专业翻译结果语料对基于LSTM的神经网络模型进行训练,得到一个训练好的专业领域表达微调神经网络模型;其中,基于LSTM的神经网络模型的搭建方法如下:

步骤1-2-1,编码器B依次读取语句x中分好的第t个词xt,同时对当前的词语产生编码隐层状态向量ht,然后将所有的隐层状态向量ht(t=1,2,…,n)进行拼接得到编码隐层状态向量列表(h1,h2,…,hn);编码隐层状态向量ht的计算方式如下:

it=σ(W(i)xt+U(i)ht-1)

ft=σ(W(f)xt+U(f)ht-1)

ot=σ(W(o)xt+U(o)ht-1)

其中,xt为语句中的第t个词,ht为编码器对应的第t个编码隐层状态向量,ht-1是编码器读取上一个词语时的编码隐层状态向量;σ(·)为非线性变换函数,tanh(·)为双曲正切函数;W(i),W(f),W(o),W(c),U(i),U(f),U(o),U(c)皆为LSTM模型计算过程中待训练的权值参数,角标i,f,o,c分别表示符号属于输入门、遗忘门、输出门和神经元记忆的计算参数;it,ft,ot,ct皆为模型计算过程的中间变量,分别表示LSTM单元的输入门的输出,遗忘门的输出,输出门的输出,新记忆和最终记忆;°符号表示乘积;

步骤1-2-2,注意力模块B配合解码器B进行解码,首先解码器B逐项读取编码器B输出的编码隐层状态向量列表,并对于编码隐层状态向量列表中的每一项产生一个解码隐层状态向量si;然后将所有解码隐层状态向量si(i=1,2,…,n)进行拼接得到解码隐层状态向量列表(s1,s2,…,sn);

在解码过程中,解码器B通过编码隐层状态向量列表(h1,h2,…,hn)和其已经解码生成的输出序列(y1,y2,…yi-1)来预测下一个输出的单词yi;由于有注意力模块B的存在,解码器B会有侧重地关注编码器B产生的隐层状态;隐层状态向量si的计算方法如下:

zi=[yi-1;bi]

ii=σ(W(i)zi+U(i)si-1)

fi=σ(W(f)zi+U(f)si-1)

oi=σ(W(o)zi+U(o)si-1)

其中,yi-1为解码过程中第i-1个词,即已经输出的上一个词,si为解码器B对应的第i个隐层状态向量,si-1是解码器B生成上一个词语时的隐层状态向量;σ(·)为非线性变换函数,tanh(·)为双曲正切函数;W(i),W(f),W(o),W(c),U(i),U(f),U(o),U(c)皆为LSTM模型计算过程中待训练的权值参数,其中角标i,f,o,c分别表示符号属于输入门、遗忘门、输出门和神经元记忆的计算参数;其中zi,ii,fi,oi,ci皆为模型计算过程的中间变量,分别表示LSTM单元的来自注意力机制的输入,输入门的输出,遗忘门的输出,输出门的输出,新记忆和最终记忆;[;]符号表示向量元素的拼接;其中bi为当前解码器B输出词与编码器端每个词对应关系的数学表示,通过注意力机制的方式计算:

其中,eit,ait皆为模型计算过程的中间变量;为注意力模型参数,exp(·)为指数函数,j为作为起迭代作用的临时变量;σ(·)为非线性变换函数,tanh(·)为双曲正切函数;

步骤1-2-3,模型根据步骤1-2-2得到的解码隐层状态向量列表(s1,s2,…,sn)对应其目标语言词汇表生成目标端的词语,输出最终翻译结果;得到基于LSTM的神经网络模型;

步骤2,可穿戴便携式显示处理器的中央处理单元B控制显示单元向佩戴者展示设置选项,佩戴者选择翻译源语言和目标语言后,中央处理单元B通过控制无线数据传输单元B的蓝牙传输芯片B与可穿戴入耳式监听及录音采样器建立连接,以通知其进入工作状态;可穿戴入耳式监听及录音采样器通过其无线传输单元接收到来自可穿戴便携式显示处理器的连接请求后进入工作状态,其重力感应单元利用加速度传感器实时获取设备的加速度,当设备收到两次横向加速度改变时(即佩戴者轻敲耳中的设备时),声音采样单元将开始工作,即此时装置已启动监听状态;供电单元A为可穿戴入耳式监听及录音采样器稳定供电;

步骤3,可穿戴入耳式监听及录音采样器中的传声器A(靠近佩戴者口部的传声器)和传声器B(远离佩戴者口部的传声器)将声音采样后,分别得到音频信号DA和DB,得到DA和DB的同时将其输入噪音过滤器,噪音过滤器以差分放大器的方式将信号DA和信号DB相减,得到降低环境噪音的信号DC,并将DC进行信号放大处理,然后信号DC被传输到中央处理器A中,中央处理单元A通过基于软件的数模信号转换方法将模拟信号DC转换为数字信号,并将得到的数字信号传送到无线数据传输单元A的蓝牙传输芯片A中,蓝牙传输芯片A将收到的信号以音频数据流的形式传输到可穿戴便携式显示处理器的语音识别单元;

步骤4,首先语音识别单元将收到的音频信息,利用断句模块根据佩戴者的讲话停顿间隔将佩戴者讲话的连续音频数据切分成多个单句的音频数据,其次利用语音转文本模块将音频数据流转换成和说话人的同种语言的文本信息,最后利用文本优化模块用于接收来自语音转文本模块的文本信息,并对文本信息添加标点符号,删去口语中无意义或重复的部分(如“嗯”、“啊”等),同时对文本进行分词;随后将文本信息以流的形式传入到神经网络仿生计算单元;

步骤5,在网络状态良好的情况下,中央处理器将通过云计算的方式,利用无线局域网(WLAN)传输芯片和/或4G-LTE通信芯片与具备强大计算能力的服务器进行连接,使其运行步骤1中训练好的模型以进行翻译;在离线状态下,则由本地的神经网络仿生单元利用步骤1中训练好的深度学习模型进行翻译;

步骤6,翻译后的文本将传输至可穿戴便携式显示处理器的中央处理单元B,中央处理单元B控制视频信号处理单元将视频数字信号传输到显示单元和HDMI输出端;显示单元利用LED显示面板根据得到的视频数字信号实时显示识别和翻译的结果;HDMI输出端将视频信号输出到外接的显示器或者投影仪等设备上;同时,可穿戴便携式显示处理器的中央处理单元B将翻译后的文本通过开源TTS方法生成语音音频数据,由无线数据传输单元B的蓝牙传输芯片B传输到可穿戴入耳式监听及录音采样器的无线数据传输单元A中,无线数据传输单元A接收到音频数据后,将其传递给中央处理单元A,中央处理单元A通过基于软件的数模信号转换方法将数字信号转换为模拟信号并传送到发声单元,发声单元中的动圈发声器通过振动发声将语音翻译结果以声音的形式反馈给其佩戴者,供电单元B为可穿戴便携式显示处理器稳定供电。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1