一种用于车载的语音识别数据处理方法及系统与流程

文档序号：17973010发布日期：2019-06-21 23:36阅读：215来源：国知局

本发明涉及一种语音识别数据处理方法及系统，尤其涉及用于车载的语音识别数据处理方法及系统。

背景技术：

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。近几年来，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

随着互联网的快速发展以及移动智能终端的普及应用，将语音识别应用于智能移动终端的情况越来越常见，大量人力、物力、财力被投入到关于移动终端上的各类语音对话机器人、语音助手、互动工具的各项研究与应用中，以期为客户提供新颖和便利的交互方式。

当将语音识别技术应用到车联网平台上时，由于在驾驶汽车时需要更加考虑到行驶的安全性能，希望语音识别技术能够在更短的时间内更准确地将用户的真实意图所反应出来，虽然目前的现有技术中存在大量关于语音识别数据处理的方法和系统，但在涉及到汽车驾驶领域时，往往存在反响不及时，以及大量驾驶专用的术语无法准确地识别出来的问题，因此，亟需要一种语音识别数据处理方法及系统，能够适用于车载领域，使得车载领域的语音识别的反应速度有所提升，并且提高语音识别的准确性。

技术实现要素：

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

为了达到上述目的，本发明提供了一种用于车载语音识别数据处理的方法，具体包括：在多个驾驶场景中的预定驾驶场景下接收用户的语音输入；采用与上述预定驾驶场景相对应的语音识别模型对上述语音输入进行识别；基于语音识别结果，在与上述预定驾驶场景相对应的知识库中执行语音意图查询匹配；以及返回上述查询匹配的结果。

在如上述方法的一实施例中，提供与上述多个驾驶场景相对应的语音样本，根据上述语音样本训练与多个驾驶场景相对应的语音识别模型，以在预定驾驶场景下提供上述与预定驾驶场景相对应的语音识别模型。

在如上述方法的一实施例中，与多个驾驶场景相对应的多个知识库，与上述预定驾驶场景相对应的知识库中包含有优先数据库以及普通数据库，其中，上述优先数据库中存储有在预定驾驶场景下用户经常使用的语音意图查询匹配结果，并且响应于用户使用上述预定驾驶场景，基于上述语音识别结果，优先在上述知识库中的优先数据库中执行语音意图查询匹配。

在如上述方法的一实施例中，在上述优先数据库中未能查询到语音意图的匹配结果，则使用包含于与预定驾驶场景相对应的知识库中的普通数据库执行语音意图查询匹配。

在如上述方法的一实施例中，还包括在预定驾驶场景下，响应于多次出现的语音意图查询匹配结果，收集上述多次出现的语音意图查询匹配结果以及与之对应的语音输入的识别结果，以更新上述优先数据库。

在如上述方法的一实施例中，上述多个驾驶场景包括一般驾驶场景、全自动驾驶场景、半自动驾驶场景、巡航驾驶场景、运动驾驶场景，上述方法还进一步包括根据车辆的驾驶状态判断并获取上述预定驾驶场景。

在如上述方法的一实施例中，还包括根据上述查询匹配的结果执行相应的车载操作。

本发明还提供了一种用于车载语音识别数据处理的系统，具体包括：数据库，存储有与多个驾驶场景相对应的多个知识库；获取模块，用以在上述多个驾驶场景中的预定驾驶场景下接收用户的语音输入；识别模块，用以采用与上述预定驾驶场景相对应的语音识别模型对上述语音输入进行识别；匹配模块，用以基于语音识别结果，在与上述预定驾驶场景相对应的知识库中执行语音意图查询匹配；输出模块，用以返回上述查询匹配的结果。

在如上述系统的一实施例中，还包括提供与上述多个驾驶场景相对应的语音样本，根据上述语音样本训练与多个驾驶场景相对应的语音识别模型，以在预定驾驶场景下提供上述与预定驾驶场景相对应的语音识别模型。

在如上述系统的一实施例中，上述与预定驾驶场景相对应的知识库中进一步包含有优先数据库以及普通数据库，其中，上述优先数据库中存储有在预定驾驶场景下用户经常使用的语音意图查询匹配结果，并且响应于用户使用上述预定驾驶场景，上述匹配模块基于上述语音识别结果，优先在上述知识库中的优先数据库中执行语音意图查询匹配。

在如上述系统的一实施例中，上述匹配模块在上述优先数据库中，未能查询到语音意图的匹配结果，则上述匹配模块在包含于与预定驾驶场景相对应的知识库中的普通数据库中执行语音意图查询匹配。

在如上述系统的一实施例中，还包括学习模块，用以在预定驾驶场景下，响应于多次出现的语音意图查询匹配结果，收集上述多次出现的语音意图查询匹配结果以及与之对应的语音输入的识别结果，以更新上述优先数据库。

在如上述系统的一实施例中，上述多个驾驶场景包括一般驾驶场景、全自动驾驶场景、半自动驾驶场景、巡航驾驶场景、运动驾驶场景，上述获取模块还进一步根据车辆的驾驶状态判断并获取上述预定驾驶场景。

在如上述系统的一实施例中，还包括处理模块，用以根据上述查询匹配的结果执行相应的车载操作。

根据本发明所提供的用于车载的语音识别数据处理方法和系统，通过使用与预定驾驶场景相对应的语音识别模型以及知识库，能够有效提高用于车载的语音识别的响应速度，提高用户的使用体验感，提高客户满意度。

附图说明

图1示出了根据本发明所提供方法的一实施例示意图。

图2示出了根据本发明所提供方法的另一实施例示意图。

图3示出了根据本发明所提供方法更新优先数据库的实施例示意图。

图4a示出了根据本发明所提供系统的一实施例示意图。

图4b示出了根据本发明所提供系统包含优先数据库的实施例示意图。

图4c示出了根据本发明所提供系统的另一实施例示意图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

如前所述，当将语音识别技术应用到车联网平台上时，由于在驾驶汽车时需要更加考虑到行驶的安全性能，希望语音识别技术能够在更短的时间内更准确地将用户的真实意图所反应出来，虽然目前的现有技术中存在大量关于语音识别数据处理的方法和系统，但在涉及到汽车驾驶领域时，往往存在反响不及时，以及大量驾驶专用的术语无法准确地识别出来的问题，因此，亟需要一种语音识别数据处理方法及系统，能够适用于车载领域，使得车载领域的语音识别的反应速度有所提升，并且提高语音识别的准确性。

为了达到上述目的，本发明提供了一种用于车载语音识别数据处理的方法和系统。图1示出了根据本发明所提供方法的一实施例示意图。如图1所示，本发明所提供的方法具体包括步骤110：在预定驾驶场景下接收用户的语音输入，步骤120：采用与预定驾驶场景相对应的语音识别模型对语音输入进行识别，步骤130：基于语音识别结果，在与预定驾驶场景相对应的知识库中执行语音意图查询匹配，以及步骤140：返回查询匹配的结果。

在如上述的实施例中，驾驶场景指的是用户在行车过程中可能会采用的各种驾驶场景，包括但不限于一般驾驶场景、全自动驾驶场景、半自动驾驶场景、巡航驾驶场景、运动驾驶场景等。其中上述预定驾驶场景指的是，用户在使用本发明所提供的用于车载语音识别数据处理的方法和系统的当下，用户驾驶车辆的驾驶场景，上述预定驾驶场景通过进一步判断车辆的驾驶状态获得。

在如上述的实施例中，还包括了提供与各种驾驶场景相对应的语音样本，上述的语音识别模型系根据上述与各种驾驶场景相对应的语音样本训练得到。根据提供的对应于不同驾驶场景的语音样本，能够训练得到对应于不同驾驶场景的语音模识别模型，因此，当用户需要使用本发明所提供的车载语音识别数据处理的方法时，用户处于哪一个预定驾驶场景，则采用与该预定驾驶场景相对应的语音识别模型对语音输入进行识别。

通过上述方法，能够在语音识别环节有针对性地对语音输入进行识别，采用与预定驾驶场景相对应的语音识别模型对语音输入进行识别能够有效提高语音识别的速度，为后续尽快反馈语音输入的结果做好前期工作的准备。

在如上所述的实施例中，本发明所提供的方法还提供了与各种驾驶场景相对应的知识库，上述知识库中存储有识别语音意图的匹配数据，当识别出用户的语音输入后，还需要识别出用户的语音输入背后的语音意图，从而能够响应于用户的语音意图进行相应的操作。因此本发明所提供的方法提供了各种与驾驶场景关联的知识库，当用户需要使用本发明所提供的车载语音识别数据处理的方法时，用户处于哪一个预定驾驶场景，在通过如前所述的采用与该预定驾驶场景相对应的语音识别模型快速识别出用户的语音输入后，采用与该预定驾驶场景相对应的知识库，在上述对应的知识库中执行语音意图查询匹配。

通过上述方法，能够在语意识别环节有针对性地对语音输入结果进行语音意图匹配，采用与预定驾驶场景相对应的知识库对语音输入结果进行语音意图匹配能够有效提高语音意图匹配的速度，能加快反馈语音输入结果，提高人机交互的效率，提升用户体验度。

在如上述的实施例中，当匹配出用户的语音意图后，将返回语音意图查询匹配的结果。在另一实施例中，本发明所提供的方法还包括根据上述语音意图查询匹配的结果执行相应的车载操作。

图2示出了根据本发明所提供方法的另一实施例示意图。在如图2所示的实施例中，与预定驾驶场景相关的知识库中包含优先数据库。如图2所示，其中步骤210-230可以参考如图1所示的步骤110-130，在获取到通过如前所述的采用与该预定驾驶场景相对应的语音识别模型快速识别出用户的语音输入后，执行步骤240，优先采用建立的优先数据库，在上述的优先数据库中执行语音意图查询匹配，若在优先数据库中找到了对应的语意匹配结果，说明用户按照在预定驾驶场景下的习惯发出了语音指令，则执行步骤250，返回查询匹配的结果。若在优先数据库中没有找到了对应的语意匹配结果，说明用户在预定的驾驶场景下有了新的语音要求，则为了保证能够输出语音反馈结果，执行步骤241，使用包含于与预定驾驶场景相对应的知识库中的普通数据库执行语音意图查询匹配，随后执行步骤250，返回查询匹配结果。

通过上述实施例，相当于在与预定驾驶场景相对应的知识库中将用户常用的语音意图与不常用的语音意图分区块保存，使得在后续再次使用该预定驾驶场景时，能够优先在优先数据库中查找常用的语音意图，提高响应速度。

图3示出了根据本发明所提供方法更新优先数据库的实施例示意图。其中步骤310-330可以参考如图1所示的步骤110-130，如图3所示，当用户在某一预定驾驶场景下使用了一段时间的本发明所提供的方法，因此积累了一定数量的语音意图查询匹配，步骤340为判断在上述一定数量的语音意图查询匹配中，是否存在多次相同的语意匹配，若存在相同的语意匹配，则所说明在预定驾驶场景下，用户习惯、较高频率地发出相应的语音指示，因此执行步骤350，将上述多次出现的相同的语音意图查询收集起来，一并收集与之匹配的语音识别结果，执行步骤360，更新优先数据库，将优先数据库存储于与上述预定驾驶场景相对应的知识库中。

通过上述方法，在预定的驾驶场景下，虽然已经提供了初始的优先数据库以提高语音反馈的响应，但由于用户的差异性，在经过一段时间的使用后，不同用户会积累一定数量不同的语音指令的习惯，因此，通过更新上述优先数据库的方式，使得本发明所提供的方法具有自学习能力，能够更好地适应于不同用户的应用习惯，能够快速地将查询匹配的结果反馈出来，提高了语音识别的效率。

在如上述的实施例中，本发明所提供的方法还包括根据上述语音意图查询匹配的结果执行相应的车载操作。

图4a示出了根据本发明提供系统的一实施例示意图，如图4a所示，本发明所提供的用于车载语音识别数据处理的系统，具体包括，数据库410、获取模块420、识别模块430、匹配模块440以及输出模块450。数据库410中存储有多个与驾驶场景相对应的知识库411、412……，获取模块420用以在预定驾驶场景下接收用户的语音输入，识别模块430用以采用与预定驾驶场景相对应的语音识别模型对语音输入进行识别，匹配模块440用以基于语音识别结果，在存储在数据库410中的与预定驾驶场景相对应的知识库中执行语音意图查询匹配，输出模块450用以返回上述查询匹配的结果。

其中，在上述的实施例中，驾驶场景指的是用户在行车过程中可能会采用的各种驾驶模式，包括但不限于一般驾驶场景、全自动驾驶场景、半自动驾驶场景、巡航驾驶场景、运动驾驶场景等。其中上述预定驾驶场景指的是，用户在使用本发明所提供的用于车载语音识别数据处理的方法和系统的当下，用户驾驶车辆的驾驶场景。

在如上述的实施例中，还包括了提供与各种驾驶场景相对应的语音样本，识别模块430将根据上述提供的不同的语音样本训练与各种驾驶场景相对应的语音识别模型，根据提供的对应于不同驾驶场景的语音样本，能够训练得到对应于不同驾驶场景的语音模识别模型，因此，当用户需要使用本发明所提供的车载语音识别数据处理的系统时，用户处于哪一个预定驾驶场景，则采用与该预定驾驶场景相对应的语音识别模型对语音输入进行识别。

通过上述系统，识别模块430能够在语音识别环节有针对性地对语音输入进行识别，采用与预定驾驶场景相对应的语音识别模型对语音输入进行识别能够有效提高语音识别的速度，为后续尽快反馈语音输入的结果做好前期工作的准备。

在如上所述的实施例中，本发明所提供的系统还提供了与各种驾驶场景相对应的知识库411、412……，上述知识库中存储有识别语音意图的匹配数据，上述知识库以及其中所包含的各种匹配数据均被存储在数据库410中。当识别模块430识别出用户的语音输入后，还需要通过匹配模块440识别出用户的语音输入背后的语音意图，从而能够响应于用户的语音意图进行相应的操作。因此本发明所提供的系统提供了各种与驾驶场景关联的知识库，当用户需要使用本发明所提供的车载语音识别数据处理的方法时，用户处于哪一个预定驾驶场景，在通过如前所述的采用与该预定驾驶场景相对应的语音识别模型快速识别出用户的语音输入后，采用与该预定驾驶场景相对应的知识库，在上述对应的知识库中执行语音意图查询匹配。

通过上述系统，匹配模块440能够在语意识别环节有针对性地对语音输入结果进行语音意图匹配，采用与预定驾驶场景相对应的知识库对语音输入结果进行语音意图匹配能够有效提高语音意图匹配的速度，能加快反馈语音输入结果，提高人机交互的效率，提升用户体验度。

在如上述的实施例中，当匹配模块440匹配出用户的语音意图后，将返回语音意图查询匹配的结果，上述结果通过输出模块450输出。在另一实施例中，本发明所提供的系统还包括以处理模块470，参见图4c，用以根据上述语音意图查询匹配的结果执行相应的车载操作。

图4b示出了根据本发明所提供系统包含优先数据库的实施例示意图。如图4b所示，本发明所提供的系统还包含一学习模块460，当用户在某一预定驾驶场景下使用了一段时间的本发明所提供的系统，因此积累了一定数量的语音意图查询匹配时，学习模块460则判断在上述一定数量的语音意图查询匹配中，是否存在多次相同的语意匹配，若存在相同的语意匹配，则所说明在预定驾驶场景下，用户习惯、较高频率地发出相应的语音指示，将上述多次出现的相同的语音意图查询收集起来，一并收集与之匹配的语音识别结果，并且更新优先数据库411a、412a……，将优先数据库存储于与上述预定驾驶场景相对应的知识库中。

如图4b所示，当用户处于某一预定驾驶场景，以一般驾驶场景为例，此时，与一般驾驶场景相对应的知识库为知识库411，存储在数据库410中，当用户在一般驾驶场景使用了一段时间本发明所提供的系统，则学习模块460如上所述，在知识库411中更新与一般驾驶场景相关的优先数据库411a，一并存储在数据库410中。

又如，当用户处于巡航驾驶场景时，与巡航驾驶场景相对应的知识库为知识库412，存储在数据库410中，当用户在巡航驾驶场景使用了一段时间本发明所提供的系统，则学习模块460如上所述，在知识库412中更新与一般驾驶场景相关的优先数据库412a，一并存储在数据库410中。

通过上述实施例，使得匹配模块440在后续再次使用该预定驾驶场景时，能够优先在优先数据库中查找常用的语音意图，提高响应速度。

仍以一般驾驶场景为例，当匹配模块440在优先数据库411a中没有查询到相关的匹配结果后，仍可以在知识库411中的普通数据库411b中执行语音意图查询匹配，并最终将匹配结果反馈给输出模块450，由输出模块450输出。同样，若用户处于巡航驾驶场景，采用知识库412，当匹配模块440在优先数据库412a中没有查询到相关的匹配结果后，仍可以在知识库412中的普通数据库412b中执行语音意图查询匹配，并最终将匹配结果反馈给输出模块450，由输出模块450输出。

图4c示出了根据本发明所提供系统的另一实施例示意图。在如图4c所示的实施例中，上述系统还包括以处理模块470，用以根据上述语音意图查询匹配的结果执行相应的车载操作。

例如，用户可能在预定驾驶场景下通过语音告知智能车机想要提高正在收听的音乐广告的音量，则，通过本发明所提供的系统，能够将用户的上述语意识别出来，并且反馈给处理模块470，处理模块470则因此控制麦克风的音量，将音量调大，以满足开车用户的需求。

又例如，用户可能在巡航驾驶场景下通过语音告知智能车机想要降低汽车的车速，则，通过本发明所提供的系统，能够将用户的上述语意识别出来，并且反馈给处理模块470，处理模块470则因此控制车辆的车速，将车速降低，以满足开车用户的需求。

通过本发明所提供的方法以及系统，通过使用与预定驾驶场景相对应的语音识别模型以及知识库，同时通过学习模块，在用户使用的过程中，将用户经常使用的语意存储在优先数据库中，不断优化语音识别所采用的模型和资料，能够有效提高用于车载的语音识别的响应速度，提高用户的使用体验感，提高客户满意度。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如dsp与微处理器的组合、多个微处理器、与dsp核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动盘、cd-rom、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在asic中。asic可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括ram、rom、eeprom、cd-rom或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(dsl)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、dsl、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(cd)、激光碟、光碟、数字多用碟(dvd)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹磊
技术所有人：上海擎感智能科技有限公司
我是此专利的发明人