信息处理方法及电子设备与流程

文档序号:11954787阅读:168来源:国知局
信息处理方法及电子设备与流程

本发明涉及信息处理领域,尤其涉及一种信息处理方法及电子设备。



背景技术:

随着信息技术的发展,很多电子设备都能够进行语音识别,并基于语音识别对电子设备进行语音控制。在现有技术中通常在进行语音识别时,要求用户说话的发音很标准等,否则可能会导致识别正确率低等现象。故在现有技术中如何提高语音识别正确率,依然是待解决的问题。



技术实现要素:

有鉴于此,本发明实施例期望提供的信息处理方法及电子设备,至少可以部分解决上述问题。

为达到上述目的,本发明的技术方案是这样实现的:

本发明实施例第一方面提供一种信息处理方法,包括:

获得由从设备采集的音频数据;

获得与所述从设备对应的语境数据;其中,所述语境数据用于表征所述从设备采集的所述音频数据的语音环境;

获得依据所述语境数据识别所述音频数据的识别结果。

基于上述方案,所述语境数据包括以下至少其中之一:

表征采集所述音频数据的所述从设备所在空间的用途数据;

根据历史采集周期内,采集的历史音频数据与语境具有关联关系的词条的出现频次,确定的语境参数;

根据第n时刻采集的音频数据所映射的主题信息,确定的第n+1时刻的语境数据;所述n为不小于1的整数。

基于上述方案,所述获得由从设备采集的音频数据,包括:

主设备通过第一连接方式接收所述从设备发送的音频数据;

所述获得与所述从设备对应的语境数据,包括:

通过第二连接方式向服务器发送所述音频数据及所述语境数据;

并通过所述第二连接方式接收所述服务器对所述音频数据及所述语境数据识别后返回的所述识别结果;

其中,所述第一连接方式的最大通信距离小于所述第二连接方式的最大通信距离。

基于上述方案,所述获得由从设备采集的音频数据,包括:

从至少两个所述从设备的第一从设备接收所述音频数据;

所述获得与所述从设备对应的语境数据,包括:

从第一从设备接收表征所述第一从设备的设备属性的属性数据;

根据所述属性数据,确定所述语境数据。

基于上述方案,所述根据所述属性数据,确定所述语境数据,包括:

依据所述属性数据及预先确定的属性数据与语境数据的对应关系,确定所述语境数据。

基于上述方案,所述获得依据所述语境数据识别所述音频数据的识别结果,包括:

当所述音频数据中包括对应于多个识别结果的一个或多个同音词条时,选择与所述语境数据相适配的识别结果作为所述同音词条的最终识别结果。

基于上述方案,所述获得依据所述语境数据识别所述音频数据的识别结果,包括:

当对所述语音数据的识别结果的修正时,选择与所述语境数据相适配的修正结果作为所述语音数据的最终识别结果。

本发明实施例第二方面提供一种电子设备,包括:

第一获得单元,用于获得由从设备采集的音频数据;

第二获得单元,用于获得与所述从设备对应的语境数据;其中,所述语境数据用于表征所述从设备采集的所述音频数据的语音环境;

第三获得单元,用于获得依据所述语境数据识别所述音频数据的识别结果。

本发明实施例第三方面提供一种电子设备,包括通信接口及与所述通信接口连接的处理器;

其中,所述处理器通过预定执行指令,自行获取或通过所述通信接口获得由从设备采集的音频数据;获得与所述从设备对应的语境数据;获得依据所述语境数据识别所述音频数据的识别结果;其中,所述语境数据用于表征所述从设备采集的所述音频数据的语音环境。

基于上述方案,所述语境数据包括以下至少其中之一:

表征采集所述音频数据的所述从设备所在空间的用途数据;

根据历史采集周期内,采集的历史音频数据与语境具有关联关系的词条的出现频次,确定的语境参数;

根据第n时刻采集的音频数据所映射的主题信息,确定的第n+1时刻的语境数据;所述n为不小于1的整数。

基于上述方案,所述通信接口包括第一通信接口和第二通信接口;其中,所述第一通信接口不同于所述第二通信接口;

所述第一通信接口,用于通过第一连接方式接收所述从设备发送的音频数据;

所述第二通信接口,用于通过第二连接方式向服务器发送所述音频数据及所述语境数据;并通过所述第二连接方式接收所述服务器对所述音频数据及所述语境数据识别后返回的所述识别结果;

其中,所述第一连接方式的最大通信距离小于所述第二连接方式的最大通信距离。

基于上述方案,所述通信接口,具体用于从至少两个所述从设备的第一从设备接收所述音频数据;从第一从设备接收表征所述第一从设备的设备属性的属性数据;

所述处理器,具体用于根据所述属性数据,确定所述语境数据。

基于上述方案,所述处理器,具体用于依据所述属性数据及预先确定的属性数据与语境数据的对应关系,确定所述语境数据。

基于上述方案,所述处理器,具体用于当所述音频数据中包括对应于多个识别结果的一个或多个同音词条时,选择与所述语境数据相适配的识别结果作为所述同音词条的最终识别结果。

基于上述方案,所述处理器,具体用于当对所述语音数据的识别结果的修正时,选择与所述语境数据相适配的修正结果作为所述语音数据的最终识别结果。

本发明实施例提供的信息处理方法及电子设备,在进行音频数据的语音识别之前,还会获取该音频数据对应的语境数据,在识别时根据语境数据选择与语境数据表征的语音环境相适配的识别结果作为最终识别结果,这样可以避免仅仅依据音频数据进行识别,以提升识别的正确率及精确度。

附图说明

图1为本发明实施例提供的第一种信息处理方法的流程示意图;

图2为本发明实施例提供的一种主设备、从设备及服务器之间的联系关系示意图;

图3为本发明实施例提供的第二种信息处理方法的流程示意图;

图4为本发明实施例提供的第一种电子设备的结构示意图;

图5为本发明实施例提供的第二种电子设备的结构示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。

实施例一:

如图1所示,本实施例提供一种信息处理方法,包括:

步骤S110:获得由从设备采集的音频数据;

步骤S120:获得与所述从设备对应的语境数据;其中,所述语境数据用于表征所述从设备采集的所述音频数据的语音环境;

步骤S130:获得依据所述语境数据识别所述音频数据的识别结果。

本实施例提供一种信息处理方法可用于各种连接了所述从设备的电子设备中,所述电子设备可为台式电脑、笔记本电脑或服务器等。所述从设备可为采集语音数据的音频采集设备等。通常所述从设备可包括多个,离散的分布在不同的位置。

在本实施例中,当然所述信息处理方法的执行主体,也可以是从设备本身。当所述设备为上述电子设备的主设备时,所述步骤S110可为从从设备处接收所述音频数据;当所述电子设备为从设备本身时,所述从设备自行采集所述音频数据。

在步骤S120将获取所述语境数据,所述语境数据可表征音频数据的语音环境。通常使用者在使用语音交互时,所说的话与语音环境相关。所述语音环境可表征说话者时所处的状况和状态,而说话者所处的状况和状态,又决定了说话者所说话的内容,显然这样语境数据,可协助语音识别中对同音词或不标准发音的校准过程中,针对同一音频数据映射的多个词条进行选择,以提升识别准确率。

故在本实施例的步骤S130中将会根据所述语境数据了识别所述音频数据。所述语境数据可用于反映了一个音频数据对应的同音词条的概率。例如,用户在餐馆用餐,餐馆这样的语音环境,可能聊根桌上的菜品、饮品以及餐厅服务态度以及职业内容相关等,当确定了语音环境的时候,当一个饮品数据对应了两个同音词条时,可认为与所述语境数据匹配或更接近的同音词条是用户所说内容的概率更高,则此时将与所述语境数据匹配或更接近的同音词条作为所述识别结果,这样就可以提升识别准确率。当然,在具体的实现过程中,语音识别不局限于上述识别应用,总之,通过语境数据的获取,以及依据语境数据作为识别的参考依据,能够提升识别的精确度。

在本实施例中所述步骤S130中,基于所述语境数据进行音频数据的识别,可由执行本实施例所述信息处理方法的电子设备自行执行,也可以所述由该设备将所述音频数据和所述语境数据发送给具有识别功能的其他电子设备,例如是,语音识别服务器进行远程识别,识别后再从其他电子设备接收识别结果,总之本实施例所述步骤S130中获取识别结果的方式有多种,不局限于任意一种。

实施例二:

如图1所示,本实施例提供一种信息处理方法,包括:

步骤S110:获得由从设备采集的音频数据;

步骤S120:获得与所述从设备对应的语境数据;其中,所述语境数据用于表征所述从设备采集的所述音频数据的语音环境;

步骤S130:获得依据所述语境数据识别所述音频数据的识别结果。

本实施例提供一种信息处理方法可用于各种连接了所述从设备的电子设备中,所述电子设备可为台式电脑、笔记本电脑或服务器等。所述从设备可为采集语音数据的音频采集设备等。通常所述从设备可包括多个,离散的分布在不同的位置。

所述语境数据的获取方式有多种,语境数据的组成也有多种,在本实施例中,提供三种形成所述语境数据的组成形式。

第一种:

表征采集所述音频数据的所述从设备所在空间的用途数据。例如,所述音频数据的采集是发生在厨房,那么在厨房可能采集的用户输入的音频数据可包括用户查询菜谱的数据,查询饮品制作的数据等,故厨房这一空间所在的用途数据可为制作餐饮的位置,显然会体现了在该空间内发送与餐饮制作相关的音频数据的采集的概率是很高的,故一个采集后的音频数据对应有多个选项,其中一个与餐饮制作相关,另一个与餐饮制作不相关,则此时可以优先选择与餐饮制作这一语境数据相关的选项作为所述识别结果。

第二种:

根据历史采集周期内,采集的历史音频数据与语境具有关联关系的词条的出现频次,确定的语境参数。例如,在一些固定的场所,通常会发生的活动是相类似的,例如会议室讨论工作的地方,不同的会议室属于不同的部门,再控制语音系统操作时,进行语音识别。在本实施例中可以通过采集周期内采集的历史音频数据,分析出对应的从设备所在位置经常发生的对话或语音输入的语境数据的概率。例如,在历史采用周期内大量发生与化学实验相关的语音输入,则可认为当前从设备所在位置,经常发生化学实验相关的对话,此时,下次再采集到“tongshi”这一语音时,可根据该语境数据,确定选择出与化学实验相关性更大的识别结果作为最终的识别结果,以提升识别正确率和成功率。在本实施中,所述历史采样周期可为N天、例如,一周、半个月也可以为M个小时。所述历史采样周期可为当前周期的前一个或几个周期,与当前时间点可能是连续的时间点也可能是间隔的时间点,这样根据该从设备经常采集的音频数据的识别结果,与语境关系的对应关系,可确定出经常发生在该从设备周边的对话或语音输入对应的语境,以历史采集数据的识别提升当前语音识别的识别结果的正确率。

第三种:

根据第n时刻采集的音频数据所映射的主题信息,确定的第n+1时刻的语境数据;所述n为不小于1的整数。

人们在说话的时候,通常前后两个输入的音频数据是有关联性,这种关联性可体现在语境上,在本实施例中可以用主题信息反映所述语境,即对应于所述语境数据。在本实施例中根据前后两个采集时刻输入的关联性,以前一个采集时候获取的音频数据所反映的主题信息,确定当前采集时刻的语境数据,以辅助识别当前采集时刻的音频数据,这样能够有效提升识别精确度。

在具体实现过程中,所述第n时刻和所述第n+1时刻是相互连续分布的两个采集时刻,或这两个采集时刻的音频数据是用户一次性输入的音频数据的两个部分。通常用户分别输入的音频数据,处于表达习惯的不同,用户输入的音频数据会出现停顿,通常停顿较久的两次语音采集的音频数据的关联性,可能没有停顿较短的两次语音采集的音频数据的关联性大,故在本实施例中所述第n采集时刻和第n+1采集时刻采集的音频数据为对应的停顿时间小于预设停顿时间的音频数据,可视为用户一次性输入音频数据的两个关联部分。

总之,在第三种方式可为动态的根据输入语音之间的关联性,确定语境数据,以获得更加精确的语境数据,以提升语音识别结果。

实施例三:

如图1所示,本实施例提供一种信息处理方法,包括:

步骤S110:获得由从设备采集的音频数据;

步骤S120:获得与所述从设备对应的语境数据;其中,所述语境数据用于表征所述从设备采集的所述音频数据的语音环境;

步骤S130:获得依据所述语境数据识别所述音频数据的识别结果。

所述步骤S110可包括:主设备通过第一连接方式接收所述从设备发送的音频数据;

所述步骤S120可包括:

通过第二连接方式向服务器发送所述音频数据及所述语境数据;

并通过所述第二连接方式接收所述服务器对所述音频数据及所述语境数据识别后返回的所述识别结果;

其中,所述第一连接方式的最大通信距离小于所述第二连接方式的最大通信距离。

在本实施例中执行所述信息处理方法的电子设备为主设备,如图2所示

这里的主设备一端与所述从设备连接,另一端与所述服务器连接。所述主设备作为所述从设备和所述服务器之间的中间设备。在图2中所述主设备是通过互联网与服务器建立连接,在具体的实现过程中,所述主设备也可以与所述服务器之间建立直连。这里的直连是指将主设备与服务器之间直接不再经过其他电子设备的前提下,直接建立连接。

所述第一连接方式和所述第二连接方式是不同的连接方式,这种不同可体现在以下方面:

传输的信号类型,例如,其中一种为有线信号,另一种为无线信号,例如,第一连接方式可传输的物线信号,第二连接方式传输的为有线信号,但是第一连接方式的最大通信距离是小于第二连接方式的通信距离,当然不排除第一连接方式和第二连接方式传输的信号都是无线信号,例如,第一连接方式传输的为WiFi信号、蓝牙信号或红外信号,而所述第二连接方式传输的无线信号可为第三代移动通信3G、第四代移动通信4G或第五代移动通信5G的移动数据信号。

传输的信号编码方式不同,例如,第一连接方式传输是遵守WiFi协议对应的编码方式的WiFi信号,第二连接方式传输的是遵守3G3、4G或5G通信协议对应的编码方式的移动数据。

总之,在本实施例中不管是第一连接方式和第二连接方式的如何不同,总之选择的所述第一连接方式的最大通信距离是小于第二连接方式的最大通信距离,这样方便,所述主设备线网络侧的远程服务器,获取所述识别结果,

实施例四:

如图1所示,本实施例提供一种信息处理方法,包括:

步骤S110:获得由从设备采集的音频数据;

步骤S120:获得与所述从设备对应的语境数据;其中,所述语境数据用于表征所述从设备采集的所述音频数据的语音环境;

步骤S130:获得依据所述语境数据识别所述音频数据的识别结果。

所述步骤S110可包括:从至少两个所述从设备的第一从设备接收所述音频数据;

如图3所示,所述步骤S120可包括:

步骤S121:从第一从设备接收表征所述第一从设备的设备属性的属性数据;

步骤S122:根据所述属性数据,确定所述语境数据。

在本实施例中所述音频数据是从P个从设备中的一个或p1个从设备中接收的,这里的p1为不大于所述P的正整数。所述一个或p1个向主设备(即执行所述步骤S110至步骤S130的电子设备)发送音频数据的电子设备统称为第一从设备。

在本实施例中所述步骤S120中将获取属性数据,该属性数据表征对应第一从设备的设备属性的属性数据。在本实施例中所述设备属性可包括设备编号等设备标识、设备所在的地理位置、设备所在的应用环境的应用环境数据等各种表征设备属性特征的数据。

在本实施例中所述音频数据是按照音频格式编码的数据。所述属性数据可为按照文本格式编码的数据。在步骤S130中解码所述音频数据时,是需要利用音频解码方式来解码的,而所述属性数据可以按照普通的文本编码格式来解码所述语境数据。

在本实施例中所述音频数据和所述语境数据可以是一同发送的,也可以是分开发送的。

但是,所述音频数据为需要解码的对象,而所述语境数据则是为解码所述音频数据提供参考依据的数据,并直接作为解码对象。

所述步骤S122的可实现方式有多种,以下结合上述实施例提供两种所述步骤S122的可实现方式:

可实现方式一:

所述步骤S122可包括:

依据所述属性数据及预先确定的属性数据与语境数据的对应关系,确定所述语境数据。

在本实施例中所述对应关系可为预先存储在主设备中或服务器中的,可以在进行语境数据确定时,可以根据属性数据与属性数据的对应关系,以当前获取的语境数据为检索依据,查询所述对应关系,从而确定出所述语境数据,具有实现简便的特点。

例如,所述步骤S121可包括:从所述第一从设备接收所述第一从设备的设备标识数据;这里的设备标识数据可包括设备编号、设备名称等各种在当前通信系统各种唯一标识一个从设备的设备信息。所述步骤S122可包括:查询所述设备标识数据与语境数据的对应关系,确定所述第一从设备对应的语境数据。

再例如,所述步骤S121可包括:从所述第一从设备接收所述第一从设备所在的位置数据;所述步骤S122可包括:查询所述位置数据与语境数据的对应关系,确定所述第一从设备对应的语境数据。

在本实施例中对应关系,可为预先设置,例如根据用户输入预先配置,也可以是主设备、从设备或服务器中的至少其中之一,动态学习获得的。例如,所述对应关系是通过对所述第一从设备历史时刻采集的历史音频数据分析确定的。具体的获取方法,可包括:分析第m1时刻所述第一从设备采集的音频数据对应的第m1识别结果;基于所述第m1识别结果,确定所述第一从设备对应的语境数据;建立所述第一从设备的设备属性与语境数据的对应关系;其中,所述对应关系用于为获取第m2时刻的语境数据提供依据;其中,所述第m2时刻晚于所述第m1时刻。

当然以上仅是对应关系获取的几种可实现方式,具体实现不局限于上述任意一种。

可选方式二:

所述步骤S121可包括:从所述第一从设备接收所述第一从设备对应的语境数据;所述步骤S122可包括:根据接收的所述语境数据,确定所述第一从设备当前对应的语境数据。在本实施例中可预先直接在所述第一从设备中存储其对应的语境数据,以后从设备向对应的主设备发送所述音频数据时,可通过查询本地存储的所述语境数据,并会将所述语境数据发送给所述第一从设备,方便主设备或服务器的语音识别。当然在本种可实现方式中,所述语境数据直接作为所述从设备的设备属性被存储。

总之,本实施例提供了一种基于从设备发送的属性数据获得所述语境数据的方法,在具有语音识别精确度高的同时,还具有实现简便的特点。

实施例五:

如图1所示,本实施例提供一种信息处理方法,包括:

步骤S110:获得由从设备采集的音频数据;

步骤S120:获得与所述从设备对应的语境数据;其中,所述语境数据用于表征所述从设备采集的所述音频数据的语音环境;

步骤S130:获得依据所述语境数据识别所述音频数据的识别结果。

所述步骤S130可包括:

当所述音频数据中包括对应于多个识别结果的一个或多个同音词条时,选择与所述语境数据相适配的识别结果作为所述同音词条的最终识别结果。

例如,检测到语音数据包括拼音数据,而针对拼音可能对应了不同意思的汉字,在本实施例中会根据语境数据选择与其相适配的汉字(即所述同音词条)作为最终识别结果。这样的话,在化学实验使“tongshi”可能被识别为“铜石”的概率大于在普通办公场合被识别为“同事“的概率大。

这样通过语境数据的获取,可以提高同音词条的识别准确率,提升识别正确率。

实施例六:

如图1所示,本实施例提供一种信息处理方法,包括:

步骤S110:获得由从设备采集的音频数据;

步骤S120:获得与所述从设备对应的语境数据;其中,所述语境数据用于表征所述从设备采集的所述音频数据的语音环境;

步骤S130:获得依据所述语境数据识别所述音频数据的识别结果。

所述步骤S130可包括:

当对所述语音数据的识别结果的修正时,选择与所述语境数据相适配的修正结果作为所述语音数据的最终识别结果。

有些人在进行语音发音时,可能会口音的问题,会产生发音不准的问题。为了提升识别正确率,可能会对识别结果进行修正,此时纠正的结果可能也涉及多个不同意思的词条,具体选择哪一个更为合理,在本实施例中优选为与语境数据相适配的修正结果,作为最终识别结果,这样显然可以提升识别的正确率。

实施例七:

如图4所示,本实施例提供一种电子设备,包括:

第一获得单元110,用于获得由从设备采集的音频数据;

第二获得单元120,用于获得与所述从设备对应的语境数据;其中,所述语境数据用于表征所述从设备采集的所述音频数据的语音环境;

第三获得单元130,用于获得依据所述语境数据识别所述音频数据的识别结果。

本实施例中所述电子设备可以对于笔记本电脑、台式电脑等各种电子设备。所述第一获得单元110、第二获得单元120及第三获得单元130可对应于处理器及处理电路,所述处理器可对应于中央处理器CPU、微处理器MCU、数字信号处理器DSP或可编程阵列或应用处理器AP等。所述处理电路可包括专用集成电路等,能够通过执行预定指令完成上述功能。

当然所述第一获得单元110、第二获得单元120及第三获得单元130,也可以对应于通信接口,可以从其他设备中接收上述音频数据、语境数据及识别结果。总之在本实施例中通过语境数据的获得,再依据语境数据获得识别结果,能够提升识别精确度,本实施例提供的电子设备,可以执行前述任意信息处理方法中提供的技术方案。

实施例八:

如图5所示,本实施例提供一种电子设备,包括通信接口210及与所述通信接口110连接的处理器220;

其中,所述处理器220通过预定执行指令,自行获取或通过所述通信接口110获得由从设备采集的音频数据;获得与所述从设备对应的语境数据;获得依据所述语境数据识别所述音频数据的识别结果;其中,所述语境数据用于表征所述从设备采集的所述音频数据的语音环境。

在本实施例中所述通信接口可为有线接口或无线接口。所述有线接口可包括电缆接口或光缆接口,所述无线接口可包括WiFi、红外或蓝牙等各种无线通信接口。所述通信接口与所述处理器220可通过数据总线等内部通信接口连接。所述数据总线可包括PCI总线或IIC总线等。本实施例电子设备通过获取语境数据,并依据语境数据获得音频数据的识别结果,可以提升识别结果的准确度和精确度。

在本实施例中所述语境数据可为指示采集的所述音频数据的语音环境的任何数据,数据的获取形式以及内容有多种,以下提供几种可选方式,所述语境数据可为以下任何一种或任意两种的组合。

第一种:表征采集所述音频数据的所述从设备所在空间的用途数据;

第二种:根据历史采集周期内,采集的历史音频数据与语境具有关联关系的词条的出现频次,确定的语境参数;

第三种:根据第n时刻采集的音频数据所映射的主题信息,确定的第n+1时刻的语境数据;所述n为不小于1的整数。

上述三种语境数据第一种是根据采集所述音频数据的从设备所在空间的空间用途确定,其他两种都是根据该从设备先前获取的音频数据通过各种学习算法确定的。这里的学习算法可包括向量机学习算法或神经网络学习算法等。值得注意的是:本实施例提供了几种语境数据的组成,但是具体实现时不限于上述任意一种。

实施例九:

如图5所示,本实施例提供一种电子设备,包括通信接口210及与所述通信接口110连接的处理器220;

其中,所述处理器220通过预定执行指令,自行获取或通过所述通信接口110获得由从设备采集的音频数据;获得与所述从设备对应的语境数据;获得依据所述语境数据识别所述音频数据的识别结果;其中,所述语境数据用于表征所述从设备采集的所述音频数据的语音环境。

所述通信接口210包括第一通信接口和第二通信接口;其中,所述第一通信接口不同于所述第二通信接口;所述第一通信接口,用于通过第一连接方式接收所述从设备发送的音频数据;所述第二通信接口,用于通过第二连接方式向服务器发送所述音频数据及所述语境数据;并通过所述第二连接方式接收所述服务器对所述音频数据及所述语境数据识别后返回的所述识别结果;其中,所述第一连接方式的最大通信距离小于所述第二连接方式的最大通信距离。

本实施例提供的电子设备,是从设备与服务器之间的中间设备,一方面通过所述第一通信接口与从设备建立连接,并以第一连接方式获取音频数据,同时又利用第二通信接口与服务器连接,将获取的语境数据和音频数据以第二连接方式发送给服务器,并从服务器获取识别结果。当然,在具体实现时,所述电子设备的处理器,也可以自行根据所述语境数据和音频数据进行语音识别,获得所述识别结果。

实质上,本实施例提供的所述电子设备相当于图2中所示的主设备,所述第一通信接口连接的为从设备,所述第二通信接口连接的为图2所示的服务器。

实施例十:

如图5所示,本实施例提供一种电子设备,包括通信接口210及与所述通信接口110连接的处理器220;

其中,所述处理器220通过预定执行指令,自行获取或通过所述通信接口110获得由从设备采集的音频数据;获得与所述从设备对应的语境数据;获得依据所述语境数据识别所述音频数据的识别结果;其中,所述语境数据用于表征所述从设备采集的所述音频数据的语音环境。

所述通信接口210,具体用于从至少两个所述从设备的第一从设备接收所述音频数据;从第一从设备接收表征所述第一从设备的设备属性的属性数据;所述处理器220,具体用于根据所述属性数据,确定所述语境数据。

在本实施例中所述电子设备会从第一从设备接收所述音频数据,并且会从第一从设备接收属性数据,该属性数据表征的是从设备的属性特征,该属性特征可直接为第一从设备采集音频数据的语境数据,也可以是与语境数据具有对应关系。

本实施例提供的电子设备,具有提升了识别结果的正确率及精确度的特点,同时还具有实现简单及结构简单的特点。

在一些实施例中,所述处理器220,具体用于依据所述属性数据及预先确定的属性数据与语境数据的对应关系,确定所述语境数据。例如,所述通信接口可用于从所述第一从设备接收所述第一从设备的设备标识数据;这里的设备标识数据可包括设备编号、设备名称等各种在当前通信系统各种唯一标识一个从设备的设备信息。所述处理器220可用于查询所述设备标识数据与语境数据的对应关系,确定所述第一从设备对应的语境数据。再例如,所述通信接口210可用于从所述第一从设备接收所述第一从设备所在的位置数据;所述处理器可用于查询所述位置数据与语境数据的对应关系,确定所述第一从设备对应的语境数据。此外,在本实施例中对应关系,可为预先存储在所述电子设备的存储介质中的。所述存储介质可分别与所述处理器通过内部通信接口连接,当然、所述对应关系也可以是从电子设备根据历史时刻获取的音频数据动态学习获得的。例如,所述对应关系是通过对所述第一从设备历史时刻采集的历史音频数据分析确定的。所述处理器220可用于分析第m1时刻所述第一从设备采集的音频数据对应的第m1识别结果;基于所述第m1识别结果,确定所述第一从设备对应的语境数据;建立所述第一从设备的设备属性与语境数据的对应关系;其中,所述对应关系用于为获取第m2时刻的语境数据提供依据;其中,所述第m2时刻晚于所述第m1时刻。

在另一些实施例中,所述通信接口210可直接用于从所述第一从设备接收所述第一从设备对应的语境数据;所述处理器220具体用于根据接收的所述语境数据,确定所述第一从设备当前对应的语境数据。在本实施例中可预先直接在所述第一从设备中存储其对应的语境数据,以后从设备向对应的主设备发送所述音频数据时,可通过查询本地存储的所述语境数据,并会将所述语境数据发送给所述第一从设备,方便主设备或服务器的语音识别。当然在本种可实现方式中,所述语境数据直接作为所述从设备的设备属性被存储。

当然,以上仅是提供了几种语境数据获得优选结构,并非对电子设备的限定;总之本实施例提供的电子设备具有识别准确率高的特点。

实施例十一:

如图5所示,本实施例提供一种电子设备,包括通信接口210及与所述通信接口110连接的处理器220;

其中,所述处理器220通过预定执行指令,自行获取或通过所述通信接口110获得由从设备采集的音频数据;获得与所述从设备对应的语境数据;获得依据所述语境数据识别所述音频数据的识别结果;其中,所述语境数据用于表征所述从设备采集的所述音频数据的语音环境。

所述处理器220,具体用于当所述音频数据中包括对应于多个识别结果的一个或多个同音词条时,选择与所述语境数据相适配的识别结果作为所述同音词条的最终识别结果。

本实施例中所述处理器220,主要用于根据语音数据的语境数据,对同音词条进行识别,选择与所述语境数据相适配的识别结果,作为所述最终识别结果,以提升识别的正确率。

在本实施例中,所述处理器220在两个或两个以上的识别结果选择所述之中识别结果时,选择与所述语境数据相适配的为选择与所述语境数据关联最紧密的或有关联的识别结果作为所述最终识别结果。

实施例十二:

如图5所示,本实施例提供一种电子设备,包括通信接口210及与所述通信接口110连接的处理器220;

其中,所述处理器220通过预定执行指令,自行获取或通过所述通信接口110获得由从设备采集的音频数据;获得与所述从设备对应的语境数据;获得依据所述语境数据识别所述音频数据的识别结果;其中,所述语境数据用于表征所述从设备采集的所述音频数据的语音环境。

所述处理器220,具体用于当对所述语音数据的识别结果的修正时,选择与所述语境数据相适配的修正结果作为所述语音数据的最终识别结果。

在进行语音修正时,根据用户日常的发音习惯,可能修正A也可以能修正为B,但是具体是修正为A还是修正为B,可以为根据所述语境数据来确定,选择与所述语境数据相适配的修正结果作为最终识别结果。

在本实施例中,所述选择与所述语境数据相适配的修正结果可包括:选择与所述语境数据对应的语境环境相关联或更相近的修正结果作为最终识别结果。

以下结合上述任意实施例提供一个具体示例:

示例一:

本示例提供一种信息处理方法,可包括:

记录采集引擎的识别结果,因为用户使用采集引擎通常是在一个特定的位置(比如厨房),特定的场景(比如炒菜)下使用该引擎,因此用户使用该采集引擎的方式必然和使用的位置和场景是相关的,通过记录用户的识别结果,统计识别结果的词条出现的频率和相关性,我们就可以得到用户是在什么位置,什么场景下使用该采集引擎。该采集引擎可对应于各种音频采集设备,例如麦克风mic等。通过识别用户的使用位置和语音场景,电子设备将可以反过来优化识别结果,比如电子设备预判出用户使用场景是厨房,那么识别结果的语音类别就应该大部分情况下是厨房或者食物相关的语义。

这里的使用位置和所述语音场景即为前述的语境数据表征的语境环境的一种。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1