本发明涉及聋哑人与正常人的交互技术领域,尤其涉及一种聋哑人与正常人的辅助对话系统、方法及智能手机。
背景技术:
聋哑人由于听觉功能的缺失,在与正常人交流中存在着较大的障碍,特别是在聋哑人就医、购物等必须进行交流的场景,这种障碍就显得更为突出。
通常情况下,聋哑人会随身携带一个笔记本,需要交流时在本子上通过书写文字的方式,与正常人进行交流。这种方式虽然在一定程度上解决了聋人与正常人交流的问题,但还是不很方便,一是随时携带笔记本,二是交流时双方交互写字也不自然便捷。
为了给聋哑人与正常人之间的对话提供便利,出现了一些技术方案,主要可分为两类:
第一类是基于手语和语音(或文字)的双向转换,即通过手语采集和识别装置来获取聋哑人的手语输入,再转换成语音输出给正常人,而正常人通过语音或文字输入,再通过文字或转换成手语显示给聋哑人。这类方案涉及的专利申请有一种便携式聋哑人交流设备(申请号:201610538192.0)、聋哑人进行信息交流的方法、装置及智能终端(申请号:201610168501.X)、一种聋哑患者交流装置(申请号:201510706510.5)、实现聋哑人智能通讯的系统(申请号:201410783982.6)、一种聋哑人交流智能辅助系统及交流的方法(申请号:201610393525.5)、聋哑人与人的智能信息交流装置及其交流方法(申请号:201610324696.2)、聋哑人语言转换器(申请号:201320276478.8)、一种辅助聋哑人对话的智能眼镜(申请号:201510419346.X)。
另一类是通过专门的装置获取聋哑人的脑电波进行转换,这类方案的专利申请有聋哑人交流帽(申请号:201220639893.0)。
上述方案中,第一类方案虽然可以部分实现聋哑人与正常人的交互,但手语交互还是很不准确,采集设备在实际使用中很难操作;而语音识别由于涉及的应用场景很复杂,一般的语音识别方法也达不到实用的程度。第二类方法一方面造价很高,一般人用不起,携带也不方便,而且技术难度高,只能正确获取少量的词汇。
技术实现要素:
为了解决上述问题,本发明的目的在于提出了一种聋哑人与正常人的辅助对话系统、方法及智能手机。系统重点面向医院、银行、购物、出行等聋人生活中必须进行交流沟通的场景,提供了一种基于语音识别/合成的与正常人进行对话的系统。该系统基于智能手机上的多种传感器进行智能场景感知,根据得到的场景信息进行针对性的语音端点检测、语音增强,并选择加载适合的语音识别模型,从而可提高语音识别的准确性至可实用级别。
具体地说,本发明公开了一种基于智能手机的聋哑人与正常人的辅助对话系统,包括:对话交互模块、场景感知模块、数据采集及预处理模块、语音识别模块、语音合成模块,其中:
场景感知模块,用于感知并确定聋哑人与正常人的对话场景;
数据采集及预处理模块,用于采集正常人话音,生成声音数据,对该声音数据进行预处理,生成语音数据;
语音识别模块,用于接收识别该语音数据,并加载对应该对话场景的语音识别模型,根据该语音识别模型将该语音数据识别并转换成文字信息;
语音合成模块,用于将聋哑人输入对话的文本内容转换成语音信息,并发给正常人;
对话交互模块,用于控制整个交互流程以及聋哑人与系统之间的交互。
该聋哑人与正常人的辅助对话系统,其中该对话交互模块,包括:
流程控制模块,用于控制整个交互流程;
对话文本输入模块,用于聋哑人在触摸屏上输入对话的文本内容;
对话信息显示模块,用于将该文字信息发送到智能终端触摸屏,显示给聋哑人看。
该聋哑人与正常人的辅助对话系统,其中该数据采集及预处理模块,包括根据该对话场景进行对该声音数据的起始点和结束点检测、去除噪音。
该聋哑人与正常人的辅助对话系统,其中该场景感知模块,包括:
位置分析模块,根据GPS,获取聋哑人所处的位置数据,并根据该位置数据,通过调用地图软件确定聋哑人位置属性;
运动分析模块,根据调用运动传感器,获取聋哑人的运动属性;
语义分析模块,根据分析聋哑人首次输入的该文本内容,获取该文本内容的语义属性;
场景确定模块,根据该位置属性、该运动属性以及该语义属性,通过加权融合的算法确定场景信息。
该聋哑人与正常人的辅助对话系统,其中该数据采集及预处理模块,包括:
数据采集子模块,用于持续实时采集该声音数据并存入缓冲池;
数据预处理子模块,用于从该缓冲池中取出该声音数据,并从该声音数据中提取语音数据,对该语音数据进行语音增强处理后发送给该语音识别模块。
本发明还提出了一种聋哑人与正常人的辅助对话方法,其中包括以下步骤:
场景感知步骤,感知并确定聋哑人与正常人的对话场景;
数据采集及预处理步骤,采集正常人话音,生成声音数据,对该声音数据进行预处理,生成语音数据,并将该语音数据发送给语音识别步骤;
语音识别步骤,接收该语音数据,并加载对应该对话场景的语音识别模型,根据该语音识别模型将该语音数据识别并转换成文字信息,该语音识别模型包括声学模型和语言模型;
语音合成步骤,将聋哑人输入对话的文本内容,转换成语音信息,并发给正常人听;
对话交互步骤,控制整个交互流程。
该聋哑人与正常人的辅助对话方法,其中该对话交互步骤,包括:
流程控制步骤,控制整个交互流程;
对话文本输入步骤,通过触摸屏,输入聋哑人对话的文本内容;
对话信息显示步骤,发送该文字信息到智能终端触摸屏,显示给聋哑人看。
该聋哑人与正常人的辅助对话方法,其中该数据采集及预处理步骤,包括:
数据采集步骤,持续实时采集该声音数据并存入缓冲池;
数据预处理步骤,从该缓冲池中取出该声音数据,并从该声音数据中提取语音数据,对该语音数据进行语音增强处理后发送给该语音识别步骤。
该聋哑人与正常人的辅助对话方法,其中该数据预处理步骤,
每次从缓冲池中取一段固定时长的该声音数据;
判断该声音数据中是否包含有语音,采用的判断方法为基于预先训练的分类器的方法:预先为每种场景训练一个语音分类器,该分类器为混合高斯模型、支持向量机、人工神经网络模型中的一种;
若判断包含有语音,则进行记录后,继续取后续该声音数据进行处理;
若判断未包含有语音,则查询是否有语音记录,若没有,则继续取后续声音处理,若有,则计算累计间隔时间,若该累计间隔时间小于预先规定的阈值,则继续取后续该声音数据进行处理,若该累计间隔时间大于预先规定的该阈值,则根据语音记录,截取从第一次记录到最后一次记录时间内所包含的全部该声音数据作为该语音数据,对该语音数据进行语音增强处理后发送给该语音识别步骤。
本发明还包括一种采用该辅助对话系统的智能手机,包括外置远讲拾音器,采用直接插入或者无线方式与智能手机连接。
本发明技术效果在于基于智能手机上的多种传感器感知并确定对话场景,根据得到的对话场景信息进行针对性的语音检测、语音增强,并选择加载适合的语音识别模型,从而可提高语音识别的准确性至可实用级别。系统重点面向医院、银行、购物、出行等聋人生活中必须进行交流沟通的场景,提供了一种基于语音识别/合成的与正常人进行对话的系统,可大大提升聋哑人生活的便捷性,减少与正常人沟通时的障碍。
附图说明
图1为系统环境组成图;
图2为系统框图组成图;
图3为交互过程的流程图;
图4为对话交互模块流程图;
图5为场景感知模块流程图;
图6为基于场景的声音采集及预处理模块流程图。
具体实施方式
如图1所示,本发明包括智能手机及外置远讲拾音器。智能手机应具有CPU、存储器、触摸屏、无线通信、GPS、麦克风(MIC)、扬声器、音频接口等模块和器件,还具加速度和陀螺仪等运动传感器模块。智能手机上内置的MIC适合近距离拾音,如果使用者(聋哑人)离说话人(正常人)比较远的话,采集声音的效果就会降低,从而影响语音识别的准确性,通过外置的远讲MIC,就可以避免这种情况。外置MIC可以是直接插在智能手机的MIC插孔中,也可以是通过蓝牙无线连接。
如图2所示,本发明还包括运行在智能手机的一种应用系统(app),包括对话交互模块、场景感知模块、数据采集及预处理模块、语音识别模块、语音合成模块。
对话交互模块,用于控制整个交互流程以及聋哑人与系统之间的交互,该对话交互模块包括三个子模块:流程控制模块,与各模块相连,用于控制整个系统按照交互流程运行;对话文本输入模块,用于聋哑人在触摸屏上输入对话的文本内容;对话信息显示模块,连接于语音识别模块之后,正常人说的话,经过语音识别后,转化成文字信息,然后将该文字信息显示在智能手机上给聋哑人看。
数据采集及预处理模块,用于采集正常人话音,生成声音数据,并对该声音数据进行预处理,生成语音数据,包括根据预先判断的该对话场景特征进行对该声音数据的起始点和结束点检测、去除噪音等,并将采集到的一段完整的语音数据发送给语音识别模块。
语音识别模块,用于接收识别该语音数据,加载对应该对话场景的语音识别模型,并根据该语音识别模型将该语音数据转换成文字信息,在流程控制模块的控制下,将该文字信息发送到对话信息显示模块。在语音识别时,加载对应该对话场景的语音识别模型,使得该语音识别模型更适应当前场景的语音。
语音合成模块,用于将聋哑人输入的该文本对话内容,转换成语音信息,并在流程控制模块的控制下,将该语音信息发给正常人,例如用智能终端(例如智能手机)上的扬声器播放给正常人听。
图3为本发明的辅助对话系统交互过程的流程图,首先启动系统,聋哑人通过对话文本输入模块首次输入文本内容,之后场景感知模块通过感知分析聋哑人的位置、运动信息以及该文本内容信息,确定对话场景,流程控制模块调用语音合成模块,播放该文本内容给对方正常人听,对方听后用语音回复,数据采集及预处理模块根据该对话场景采集对方输入语音,对其进行预处理,并判断采集到的对方输入语音是否完整,若不完整,则继续采集对方输入语音,若完整,则将处理后的语音发送给语音识别模块,流程控制模块调用语音识别模块,将处理后的该语音转换成文字信息,并将该文字信息发送给对话信息显示模块,显示语音识别的内容给聋哑人看,流程控制模块判断对话是否结束,若没结束,则聋哑人输入文字(文本)内容并再次调用语音合成模块,若是则结束对话。
下面用一个实施例来进一步说明本发明。
本发明中,智能终端采用智能手机,其主要性能指标如下:
CPU:4核1.6GHz;
操作系统:Android 6.0;
数据无线网络:支持2G/3G/4G移动网络;
存储器:32GROM/4GRAM;
触摸屏:5.5英寸2560×1440分辨率;
声音接口类型:3.5mm 4极耳机插头;
无线接口:WIFI、NFC、蓝牙;
麦克风:MEMS麦克风;
扬声器:立体声外放扬声器;
主要传感器:GPS、加速度、陀螺仪;
本发明中,外置远讲拾音器采用某品牌的麦克风,其主要性能指标如下:
输入声压:110db;
频率响应:20Hz~20kHz;
灵敏度:-43dB;
阻抗:2.2Ω;
接口类型:3.5mm 4极耳机插头;
指向性:全指向;
外置远讲拾音器采用直接插入或者无线的方式与智能手机连接。
本发明在上述智能手机的Android 6.0操作系统环境上开发的一种应用系统(app),包括对话交互模块、场景感知模块、数据采集及预处理模块、语音识别模块、语音合成模块。其中:
对话交互模块用于控制整个交互按流程以及聋哑人与系统之间的交互,其流程见图4。该模块包括三个子模块,其中:流程控制模块,用于控制整个交互流程;对话文本输入模块,用于聋哑人在触摸屏上输入对话的文本内容;对话信息显示模块,用于把正常人说的话经过语音识别后的文字信息,并将该文字信息显示在智能手机上给聋哑人看。
场景感知模块,用于感知并确定聋哑人与正常人的对话场景,其流程见图5。该模块由对话交互模块来调用,该场景感知模块包括以下4个模块:
位置分析模块,通过调用智能手机上的定位模块GPS,获取聋哑人当时所处的位置数据,并根据该位置数据,通过调用第三方地图软件确定聋哑人位置属性。本实施例中,位置属性定义为下述五个类别之一:银行、医院、商店、马路、其它。
运动分析模块,通过调用智能手机上的运动传感器模块,获取聋哑人当时的运动属性。本实施例中,具体实施方式为:调用智能终端上的加速度计模块,获取加速度数据,将加速度数据积分得到速度数据,计算一段时长(参考值5-60秒,本实施例中为30秒)内的平均速度,利用预设的阈值,根据平均速度确定其运动属性。在本实施例中,将运动属性定义为下述三个类别之一:静止、步行、交通工具。
语义分析模块,分析聋哑人首次输入的对话文本内容得到其语义属性。本实施例中,具体实施方式为:定义语义属性为下述五个类别之一:银行、医院、商店、马路、交通工具。利用预先采集或人工生成的对应各个场景对话的文本语料预先训练对应各个场景的主题模型。对聋哑人首次输入的对话文本进行主题判别,确定属于哪个主题。主题模型及主题判别可采用当前常用的方法,如基于向量空间模型(VSM)、潜在语义分析(LSA)、隐含狄利克雷分布(LDA)等。本实施例中采用向量空间模型方法,即将各个场景的训练语料和聋哑人首次输入的对话文本都进行分词后表示为词向量,然后计算词向量间的余弦距离,选取距离最小的场景为最终判别的场景。
场景确定模块,根据该位置属性、该运动属性以及该语义属性,通过加权融合的算法确定对话场景(即场景信息,聋哑人当时所处的具体场景)。在本实施例中,将对话场景定义为如下五个类别之一:银行、医院、商店、马路、交通工具。所述加权融合算法的具体过程为:首先,建立位置属性、运动属性、关键词语义属性的取值与场景信息的取值之间的对应关系。本实施例中,定义的对应关系为:
位置属性:银行->银行,医院->医院,商店->商店,马路->{马路,交通工具},其它->交通工具
运动属性:{静止、步行}->{银行、医院、商店、马路},交通工具->交通工具
关键词语义属性:银行->银行,医院->医院,商店->商店,马路->马路,交通工具->交通工具
接照该对应关系,可得到每种属性下每种场景的得分:设p1,m1,s1分别表示位置属性、运动属性、关键词语义属性下“银行”场景的得分;p2,m2,s2分别表示位置属性、运动属性、关键词语义属性下“医院”场景的得分;p3,m3,s3分别表示位置属性、运动属性、关键词语义属性下“商店”场景的得分;p4,m4,s4分别表示位置属性、运动属性、关键词语义属性下“马路”场景的得分;p5,m5,s5分别表示位置属性、运动属性、关键词语义属性下“交通工具”场景的得分。若每种属性的取值对应相应的场景,则该得分为1,否则为0。定义
Si=cp*pi+cm*mi+cs*si,i=1,2,3,4,5
其中,S1-S5分别表示最终确定的场景为“银行”、“医院”、“商店”、“马路”、“交通工具”的得分,cp,cm,cs分别为各属性对应的权重,在本实施例中,取值分别为:0.3,0.3,0.4。根据S1-S5,选取得分最高的场景为最终确定的对话场景。
数据采集及预处理模块用于采集正常人话音,生成声音数据,并对该声音数据进行预处理,生成语音数据。根据不同对话场景的特点,可以更加准确地确定对话者所说的一段语音的起始点和结束点,有针对性地去除声音采集过程中的噪音(如汽车上的喇叭声、场景中的人声等等),从而获取这段完整的对话语音数据,送到后续的语音识别模块进行识别。在本实施例中,采用连接至智能手机MIC口的外置远讲拾音器采集正常人话音。在另一个实施例中,采用与智能手机通过蓝牙进行无线连接的外置远讲拾音器采集正常人话音。在另一个实施例中,采用智能手机内置的麦克风采集正常人话音。在本实施例中,采集的正常人话音数据为16KHz采样、16位量化的单声道PCM编码数据。数据采集及预处理模块的流程图见图6。该模块包括两个子模块:图6左侧虚线部分为数据采集子模块,负责持续实时采集声音数据并存入缓冲池。图6右侧虚线部分为数据预处理子模块,负责从缓冲池中取出数据并检测语音数据,若检测到语音数据后则截取完整的语音数据、对其进行语音增强处理后返回。其具体过程包括:
(1)每次从缓冲池中取一段固定时长的声音数据。本实施例中,设定取1秒的声音数据;
(2)对固定时长的该声音数据,进行基于场景的语音检测,即判断该声音数据中是否包含有语音。采用的方法为基于预先训练的分类器的方法:预先为每种场景训练一个语音分类器。分类器可采用混合高斯模型(GMM)、支持向量机(SVM)、人工神经网络(ANN)等已有模型。在本实施例中,采用SVM模型。预先在每种场景下采集大量包含和不包含语音的声音数据并进行相应的标记,形成训练数据集。然后用训练数据集训练分类器模型。训练方法采用当前已有的方法和工具,如libSVM工具。在数据预处理时,根据场景感知模块所判断得到的对话场景,采用与该对话场景对应的分类器,对当前声音数据进行分类,判断其是否包含有语音;
(3)若判断包含有语音,则进行记录后,继续取后续声音数据进行处理;若判断未包含有语音,则查询是否有语音的记录,如没有则继续取后续声音处理。如果有,则计算累计间隔时间,即最后一次记录到语音数据的时间与当前数据的时间差,若累计间隔时间小于预先规定的阈值,则认为可能仍存在连续的语音,继续取后续声音处理;若累计间隔时间大于预先规定的阈值,则认为语音已经结束,进行下一步处理;
(4)根据语音记录,截取从第一次记录到最后一次记录时间所包含的全部声音数据作为语音数据,对其进行语音增强操作后返回。语音增强用于去除背景噪音,可采用当前常用的各种语音增强方法,如背景谱减法、维纳滤波法等。本实施例中采用维纳滤波法。
语音识别模块用于将接收到的一段声音数据,识别并转换成文字信息,该模块由对话交互模块来调用。语音识别模块可内置于智能手机中,也可通过网络调用服务器端的语音识别云服务。在本实施例中,语音识别模块通过智能手机的网络(WI-FI或数据网络)调用服务器的语音识别云服务。在初次进行识别时,基于场景感知模块判断的场景进行语音识别场景设置。根据场景设置,语音识别模块加载相应的语音识别模型,包括针对特别场景的声学模型和语言模型,从而提高语音识别的正确率,更加适应多种应用场景。针对特别场景的声学模型和语言模型采用相应场景的语音或文本数据训练得到。语音识别系统的构建和声学模型、语言模型的训练可采用当前已有的方法和工具。在本实施例中,语音识别模块采用开源工具HTK(Hidden Markov Model Toolkit)构建,自动语音识别模块采用当前已有技术构建:声学特征为MFCC(Mel Frequency Cepstrum Coefficient)、短时能量及其一阶、二阶差分,声学模型为带调三音子的HMM(Hidden Markov Model)模型,语言模型为3-gram模型,词表规模为120K,解码算法为基于令牌传递的深度优先搜索算法。
语音合成模块用于将正常人输入的文字信息转换成语音,并通过智能手机上的喇叭(扬声器)输出,该模块由对话交互模块来调用。本实施例中,语音合成模块调用第三方的语音合成引擎。
此外,本发明还提供一种聋哑人与正常人的辅助对话方法,包括以下步骤:
场景感知步骤,感知并确定聋哑人与正常人的对话场景;
数据采集及预处理步骤,采集正常人对话声音,生成声音数据,对该声音数据进行预处理,生成语音数据;
语音识别步骤,接收该语音数据,并加载对应该对话场景的语音识别模型,根据该语音识别模型将该语音数据识别并转换成文字信息,该语音识别模型包括声学模型和语言模型;
语音合成步骤,将聋哑人输入对话的文本内容,转换成语音信息,并发给正常人听;
对话交互步骤,控制整个交互流程。
其中对话交互步骤包括:
流程控制步骤,控制整个交互流程;
对话文本输入步骤,通过触摸屏,输入聋哑人对话的文本内容;
对话信息显示步骤,发送该文字信息到智能终端触摸屏,显示给聋哑人看。
数据采集及预处理步骤,包括根据该对话场景进行对话语音的起始点和结束点检测、去除噪音。
场景感知步骤,包括:
位置分析步骤,根据智能终端GPS,获取聋哑人所处的位置数据,并调用第三方的地图软件,根据该位置数据,确定聋哑人位置属性;
运动传感器步骤,通过调用智能终端加速度和陀螺仪,获取聋哑人的运动属性;
语义分析步骤,根据分析聋哑人首次输入的对话文本,获取该对话文本的语义属性;
场景确定步骤,根据该位置属性、该运动属性以及该语义属性,通过加权融合的算法确定场景信息。
数据采集及预处理步骤,包括:
数据采集步骤,持续实时采集声音数据并存入缓冲池;
数据预处理步骤,从该缓冲池中取出该声音数据,并从该声音数据中提取语音数据,对该语音数据进行语音增强处理后发送给该语音识别步骤。
用于从该缓冲池中取出该声音数据,并从该声音数据中提取语音数据,对该语音数据进行语音增强处理后发送给该语音识别步骤。
数据预处理步骤,
每次从缓冲池中取一段固定时长的声音数据;
判断该声音数据中是否包含有语音,采用的判断方法为基于预先训练的分类器的方法:预先为每种场景训练一个语音分类器,该分类器为混合高斯模型、支持向量机、人工神经网络模型中的一种;
若判断包含有语音,则进行记录后,继续取后续该声音数据进行处理;
若判断未包含有语音,则查询是否有语音的记录,若没有,则继续取后续声音处理,若有,则计算累计间隔时间,若该累计间隔时间小于预先规定的阈值,则继续取后续该声音数据进行处理,若该累计间隔时间大于预先规定的阈值,则根据语音记录,截取从第一次记录到最后一次记录时间内所包含的全部该声音数据作为该语音数据,对该语音数据进行语音增强处理后发送给该语音识别步骤。
本发明还提出一种智能手机,包括外置远讲拾音器,该拾音器采用直接插入或者无线方式与智能手机连接。
虽然本发明以上述实施例公开,但具体实施例仅用以解释本发明,并不用于限定本发明,任何本技术领域技术人员,在不脱离本发明的构思和范围内,可作一些的变更和完善,故本发明的权利保护范围以权利要求书为准。