车机端功能无关的语音过滤方法、装置、终端和介质与流程

文档序号:32691692发布日期:2022-12-27 18:49阅读:30来源:国知局
车机端功能无关的语音过滤方法、装置、终端和介质与流程

1.本技术涉及智能汽车领域,尤其涉及一种车机端功能无关的语音过滤方法、装置、终端和介质。


背景技术:

2.随着智能汽车的发展,目前车联网系统的云端服务器具有asr(automatic speech recognition,自动语音识别技术)功能的配置,可以将汽车用户的连续说进行在线云语音识别,完成与用户的交互并执行特定的功能。然而,当用户在打电话或与车内人说话等情况时,很多时候会将这些非功能目的的语音进行识别、出现功能无关的文字上屏等情况,车辆的语音功能交互的准确率较低。


技术实现要素:

3.有鉴于此,本技术实施例提供了一种车机端功能无关的语音过滤方法、装置、终端和介质,用以解决车辆的语音功能交互的准确率较低的问题。
4.第一方面,本技术实施例提供了一种车机端功能无关的语音过滤方法,包括:
5.根据用户输入的唤醒指令连接云端服务器;
6.在将采集到的用户语音实时上传至所述云端服务器的过程中,监测所述用户说话时的行为状态,并根据所述行为状态判断所述用户语音是否与车机端功能无关;
7.在判定所述用户语音与所述车机端功能无关时,停止将所述用户语音上传至所述云端服务器。
8.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述监测所述用户说话时的行为状态,包括:
9.在用户说话时,通过摄像设备获取待识别图像;
10.将所述待识别图像输入到行为识别模型中,其中,所述行为识别模型采用包括用户行为动作的训练集训练得到;
11.通过所述行为识别模型对所述待识别图像进行行为特征提取,根据提取的所述行为特征输出并确定所述用户说话时的所述行为状态。
12.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述监测所述用户说话时的行为状态,包括:
13.在用户说话时,通过摄像设备获取驾驶员头部位置图像;
14.所述根据所述行为状态判断所述用户语音是否与车机端功能无关,包括:
15.根据所述驾驶员头部位置图像,确定驾驶员头部相较于正视前方的偏离角度;
16.根据所述偏离角度及预设的第一角度阈值,判断所述用户语音是否与车机端功能无关,其中,若所述偏离角度大于所述第一角度阈值,则判定所述用户语音与车机端功能无关。
17.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述监测
所述用户说话时的行为状态之前,所述方法还包括:
18.获取驾驶员的标识信息,其中,所述标识信息用于识别驾驶员身份;
19.根据所述标识信息获取所述驾驶员的个体差异调整信息,其中,所述个体差异调整信息包括与确定所述偏离角度关联的个体差异特征信息和调整参数,所述个体差异特征信息记录有不同身份的所述驾驶员在相同个体特征上的不同数值,所述调整参数用于调整所述第一角度阈值,所述个体差异特征信息和所述调整参数具有映射关系,以根据所述映射关系对不同身份的所述驾驶员的所述第一角度阈值进行设定;
20.根据所述驾驶员的个体差异调整信息,设定所述第一角度阈值。
21.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
22.获取驾驶员的个体差异特征信息,其中,所述个体差异特征信息记录有不同身份的所述驾驶员在相同个体特征上的不同数值;
23.上传所述驾驶员的个体差异特征信息和所述行为状态到所述云端服务器,获取判定调整信息,其中,所述判定调整信息包括调整数值,用于调整所述行为状态对应的判定阈值;
24.根据所述判定调整信息调整所述行为状态的判定。
25.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述在判定所述用户语音与所述车机端功能无关时,停止将所述用户语音上传至所述云端服务器,包括:
26.当所述用户语音与所述车机端功能无关时,向语音模块发送截断指令;
27.根据所述语音模块返回的截断反馈信号,确定所述用户语音截断在所述语音模块,停止所述用户语音发送至所述云端。
28.如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述停止将所述用户语音上传至所述云端服务器之后,所述方法还包括:
29.根据用户再次输入的所述唤醒指令,或者,在间隔预设时间段后,向所述语音模块发送恢复语音上传指令;
30.根据所述语音模块返回的恢复反馈信号,将当前的所述用户语音发送至所述云端。
31.第二方面,本技术实施例提供了一种车机端功能无关的语音过滤装置,包括:
32.云端连接模块,用于根据用户输入的唤醒指令连接云端服务器;
33.语音相关性确定模块,用于在将采集到的用户语音实时上传至所述云端服务器的过程中,监测所述用户说话时的行为状态,并根据所述行为状态判断所述用户语音是否与车机端功能无关;
34.语音截断模块,用于在判定所述用户语音与所述车机端功能无关时,停止将所述用户语音上传至所述云端服务器。
35.进一步地,所述语音相关性确定模块,包括:
36.图像采集单元,用于在用户说话时,通过摄像设备获取待识别图像;
37.图像输入单元,用于将所述待识别图像输入到行为识别模型中,其中,所述行为识别模型采用包括用户行为动作的训练集训练得到;
38.特征提取单元,用于通过所述行为识别模型对所述待识别图像进行行为特征提取,根据提取的所述行为特征输出并确定所述用户说话时的所述行为状态。
39.进一步地,所述语音相关性确定模块,还包括:
40.头部图像采集单元,用于在用户说话时,通过摄像设备获取驾驶员头部位置图像;
41.偏离角度确定单元,用于根据所述驾驶员头部位置图像,确定驾驶员头部相较于正视前方的偏离角度;
42.语音相关性确定单元,用于根据所述偏离角度及预设的第一角度阈值,判断所述用户语音是否与车机端功能无关,其中,若所述偏离角度大于所述第一角度阈值,则判定所述用户语音与车机端功能无关。
43.进一步地,该车机端功能无关的语音过滤装置还具体用于:
44.获取驾驶员的标识信息,其中,所述标识信息用于识别驾驶员身份;
45.根据所述标识信息获取所述驾驶员的个体差异调整信息,其中,所述个体差异调整信息包括与确定所述偏离角度关联的个体差异特征信息和调整参数,所述个体差异特征信息记录有不同身份的所述驾驶员在相同个体特征上的不同数值,所述调整参数用于调整所述第一角度阈值,所述个体差异特征信息和所述调整参数具有映射关系,以根据所述映射关系对不同身份的所述驾驶员的所述第一角度阈值进行设定;
46.根据所述驾驶员的个体差异调整信息,设定所述第一角度阈值。
47.进一步地,该车机端功能无关的语音过滤装置还具体用于:
48.获取驾驶员的个体差异特征信息,其中,所述个体差异特征信息记录有不同身份的所述驾驶员在相同个体特征上的不同数值;
49.上传所述驾驶员的个体差异特征信息和所述行为状态到所述云端服务器,获取判定调整信息,其中,所述判定调整信息包括调整数值,用于调整所述行为状态对应的判定阈值;
50.根据所述判定调整信息调整所述行为状态的判定。
51.进一步地,所述语音截断模块包括:
52.截断指令发送单元,用于当所述用户语音与所述车机端功能无关时,向语音模块发送截断指令;
53.语音截断单元,根据所述语音模块返回的截断反馈信号,确定所述用户语音截断在所述语音模块,停止所述用户语音发送至所述云端。
54.进一步地,该车机端功能无关的语音过滤装置还具体用于:
55.根据用户再次输入的所述唤醒指令,或者,在间隔预设时间段后,向所述语音模块发送恢复语音上传指令;
56.根据所述语音模块返回的恢复反馈信号,将当前的所述用户语音发送至所述云端。
57.第三方面,本技术实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时执行如第一方面所述车机端功能无关的语音过滤方法的步骤。
58.第四方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如第一方面所述车机
端功能无关的语音过滤方法的步骤。
59.在本技术实施例中,首先根据用户输入的唤醒指令连接云端服务器,以使得云端服务器能够进入到用户语音识别的状态,及时对用户语音进行识别并进行文字转换;然后在将采集到的用户语音实时上传至云端服务器的过程中,监测用户说话时的行为状态,并根据行为状态判断用户语音是否与车机端功能无关,能够将与车机端功能无关的用户语音过滤出来,通过用户的行为状态判断用户语音的有效性;最后在判定用户语音与车机端功能无关时,及时停止将用户语音上传至云端服务器,令这些无意义语音不会发送到云端服务器进行语音分析,使得云端服务器识别的用户语音都是与车机端功能相关的语音。本技术能够有效提高车辆的语音功能交互的准确率。
附图说明
60.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
61.图1是本技术实施例中一种车机端功能无关的语音过滤方法的流程图;
62.图2是本技术实施例中一种与车机端功能无关的语音过滤方法一一对应的装置的原理框图;
63.图3是本技术实施例中一种计算机设备的示意图。
具体实施方式
64.为了更好的理解本技术的技术方案,下面结合附图对本技术实施例进行详细描述。
65.应当明确,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
66.在本技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术。在本技术实施例和所附权利要求书中所使用的单数形式的“一种”、
“”
和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
67.应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的相同的字段,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
68.应当理解,尽管在本技术实施例中可能采用术语第一、第二、第三等来描述预设范围等,但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如,在不脱离本技术实施例范围的情况下,第一预设范围也可以被称为第二预设范围,类似地,第二预设范围也可以被称为第一预设范围。
69.取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件
或事件)时”或“响应于检测(陈述的条件或事件)”。
70.本技术提供一种车机端功能无关的语音过滤方法。图1是本技术实施例中一种车机端功能无关的语音过滤方法的流程图。该方法可应用在车机终端以及对应的云端服务器,该云端服务器可具备语音识别以及语音转文本的算力服务。在用户发出语音时,云端服务器可根据用户发出的语音识别并转换为文本,并下发显示在车机终端界面上。如图1所示,该车机端功能无关的语音过滤方法包括车机终端执行的如下步骤:
71.s10:根据用户输入的唤醒指令连接云端服务器。
72.其中,唤醒指令是指启动车辆的语音识别功能的指令,能够让车机终端连接到云端服务器,以根据发出的与车机终端相关的用户语音进行语音识别,并将识别后的文本下发到车机终端的屏幕上显示。需要说明的是,本技术中车机端和车机终端是两个的概念,车机端包括车机终端,车机端是一个更泛的概念,可以理解为车辆侧,与车机端相关的用户语音是指与实现车辆功能相关的用户语音,通过该与车机端相关的用户语音可控制车辆实现特定功能,例如导航、控制车窗开关、控制车辆空调温度等。车机终端是车辆上搭载的终端设备,可与用户的手持终端设备、服务器等互联网设备进行信息交互。该车机终端还可包括显示屏幕,显示屏幕上显示有与用户交互的对象、控件等,用户能够通过该车机终端直接输入与车机端相关的功能指令,并执行相应的车辆功能。
73.s20:在将采集到的用户语音实时上传至云端服务器的过程中,监测用户说话时的行为状态,并根据行为状态判断用户语音是否与车机端功能无关。
74.其中,该云端服务器能够调动语音识别算力,其本身或与其通信的算力服务器具备语音识别的能力。需要说明的是,本技术不采用终端设备实现语音识别,而是采用云端服务器进行语音识别的原因是,终端设备的语音识别准确度有限,而与车机终端相关的语音识别对识别精度的要求比较高,若采用终端设备实现语音识别可能出现语音识别不准确导致与车端功能相关的指令无法生成,更严重的是,可能因识别错误生成错误的指令,这甚至会给用户带来安全问题。另一方面,采用云端服务器实现语音识别在安全性上会高于终端设备,能够有效防止其他用户通过终端设备输入一些用户非预期的指令。还需要说明的是,云端服务器的语音识别涉及到算力调用,需注意,云端服务器的语音识别服务需要gpu(graphics processing unit,图像处理器)算力支持,成本一般比较高,接入asr厂商识别引擎有的是按照并发数收费甚至字数收费。鉴于这种前提下,本技术强调识别与车机端无关的用户语音可减少云端服务器asr识别服务的无意义识别,让车辆的语音功能交互更加准确,同时也可以节省更多的成本。
75.在一实施例中,用户语音采集后并不是直接上传至云端服务器,而是在采集用户语音时,同步地对用户说话时的行为状态进行检测,从而根据用户的行为状态,例如与乘客交谈、唱歌、他人讲电话时,通过这些行为状态判断用户语音是否与车机端功能无关。本技术实施例中,通过判断用户语音是否与车机端功能相关,有助于过滤掉用户发出的与车机端功能无关的无意义语音。
76.s30:在判定用户语音与车机端功能无关时,停止将用户语音上传至云端服务器。
77.在一实施例中,若判定确定出用户语音跟车机端功能无关,则及时截止用户语音。云端服务器不会接收到这些跟车机端功能无关的用户语音,只对成功上传的用户语音进行语音识别,这样,能够有效地提高车辆的语音功能交互的准确率。
78.在本技术实施例中,首先根据用户输入的唤醒指令连接云端服务器,以使得云端服务器能够进入到用户语音识别的状态,及时对用户语音进行识别并进行文字转换;然后在将采集到的用户语音实时上传至云端服务器的过程中,监测用户说话时的行为状态,并根据行为状态判断用户语音是否与车机端功能无关,能够将与车机端功能无关的用户语音过滤出来,通过用户的行为状态判断用户语音的有效性;最后在判定用户语音与车机端功能无关时,及时停止将用户语音上传至云端服务器,令这些无意义语音不会发送到云端服务器进行语音分析,使得云端服务器识别的用户语音都是与车机端功能相关的语音。本技术能够有效提高车辆的语音功能交互的准确率。
79.进一步地,在步骤s20中,即监测用户说话时的行为状态的步骤中,具体包括如下步骤:
80.s211:在用户说话时,通过摄像设备获取待识别图像。
81.其中,待识别图像是通过摄像设备采集的待进行行为状态识别的用户图像。
82.在一实施例中,车辆驾驶盘的上方,面向用户方向设有至少一摄像设备,在用户输入唤醒指令后,摄像设备可同步启动,并对用户进行摄影,以在用户说话时采集用户相关的待识别图像。
83.s212:将待识别图像输入到行为识别模型中,其中,行为识别模型采用包括用户行为动作的训练集训练得到。
84.在一实施例中,该行为识别模型用于对用户行为动作进行识别,以确定出用户的行为状态。需要说明的是,该行为识别模型采用用户行为动作的训练集训练得到。该训练集中的训练图像具体可以包括多种不同的与车机端功能无关的用户行为动作图像,这些多种不同的与车机端功能无关的用户行为图像可以包括预先拍摄的用户行为动作图像,也可以包括现有的一些可获取的用户行为动作图像,此外,还应该设置对照的用户行为动作图像。将这几样用户行为动作图像按照预设的比例输入到如卷积神经网络中进行训练,通过多次迭代,根据损失函数反向更新网络参数后,在达到训练次数或者更新在预设的变化阈值范围内时,训练得到该行为识别模型。本技术实施例中,将待识别图像输入到行为识别模型中,可通过该行为识别模型判定用户当前的行为动作是否与车机端相关。
85.s213:通过行为识别模型对待识别图像进行行为特征提取,根据提取的行为特征输出并确定用户说话时的行为状态。
86.在一实施例中,识别模型一般采用卷积或者基于卷积进行改进的神经网络训练得到,在训练过程中通过卷积进行图像特征提取,将训练图像中的深层特征挖掘出来,并与行为识别模型输出的结果关联起来,从而起到准确识别的效果。可以理解地,待识别图像是实时对用户进行拍摄所获得的图像,该待识别图像是独一无二的,但是该待识别图像中包含的深层特征却能够反映出图像的行为状态。具体地,采用已训练好的行为识别模式对待识别图像在行为状态方面进行行为特征的提取并输出模型结果,根据该模型输出的结果可确定用户说话时的行为状态。
87.步骤s211-s213中,在用户说话时同步对用户进行图像采集,并将采集到的待识别图像输入到行为识别模型中,从而根据该预先训练好点的行为识别模型确定用户说话时的行为状态。本实施例中,通过用户在发出语音的伴随行为的状态检测,可很好地区分用户语音与车机端是否相关。
88.进一步地,在步骤s20中,即监测用户说话时的行为状态的步骤中,具体还包括:在用户说话时,通过摄像设备获取驾驶员头部位置图像。
89.具体地,用户可以是车辆的驾驶员。在一实施例中,以驾驶员头部位置为主要判断依据来确定用户说话时的行为状态。若用户的头部位置出现较大的偏移,将认为用户在做其他与车机端功能相关的事情。
90.进一步地,根据行为状态判断用户语音是否与车机端功能无关,包括:
91.s221:根据驾驶员头部位置图像,确定驾驶员头部相较于正视前方的偏离角度。
92.在一实施例中,摄像设备可以设置在驾驶员的正前端,在驾驶员驾车行驶时,驾驶员眼部是正视前方的。在驾驶员发出用户语音时,摄像设备同步地获取驾驶员头部位置图像,并与预设的驾驶员眼部正视前方的角度进行比较,从而通过角度比对,确定驾驶员头部相较于正视前方的偏离角度。
93.s222:根据偏离角度及预设的第一角度阈值,判断用户语音是否与车机端功能无关,其中,若偏离角度大于第一角度阈值,则判定用户语音与车机端功能无关。
94.其中,第一角度阈值具体可设置为60
°
,当驾驶员头部的偏离角度在60
°
之内,可以认为驾驶员在目视前方或者看向车机终端的显示界面。当驾驶员头部的偏离角度大于60
°
,则驾驶员可能是在与车上的其他人员进行交谈,或者寻找物品等一些与车机端功能无关的事情。在一实施例中,当驾驶员头部的偏离角度大于第一角度阈值,可判定用户语音与车机端功能无关。
95.进一步地,若判定出用户语音与车机端功能无关,车机终端可以通过语音播放提醒或屏幕文字提醒的方式让用户调整头部位置后再发出与车机端功能相关的语音。进一步地,车机终端的提醒方式可以根据驾驶员头部的偏离角度给出,具体地,若驾驶员头部的偏离角度不小于60
°
且不大于90
°
,则车机终端可以采用屏幕上显示文字的方式提醒用户,若驾驶员头部的偏离角度不小于90
°
,则车机终端可以采用语音播放的方式提醒用户。
96.步骤s221-s222中,以驾驶员的头部位置对用户的行为状态进行了判定,相比较于对用户整体图像的判定,该判定更具针对性,且也符合大部分的与车机端功能无关的判定,相比较对用户整体图像判定所需要较强算力的前提下,采用该以驾驶员的头部位置对用户的行为状态进行判断在成本上会较低,且也更适合推广。
97.进一步地,在步骤s20之前,即监测用户说话时的行为状态的步骤之前,具体还包括如下步骤:
98.s231:获取驾驶员的标识信息,其中,标识信息用于识别驾驶员身份。
99.其中,驾驶员的标识信息是指能够唯一识别驾驶员身份的信息。例如,驾驶员的声纹、指纹、人脸等生物特征均可以作为驾驶员的标识信息。在一实施例中,可以采用人脸识别或声纹识别的方式获取驾驶员的标识信息。这样,在唯一确定驾驶员的标识信息后,可根据驾驶员与其他人在身体上的差异更好地进行用户语音与车机端功能相关性的判定。
100.s232:根据标识信息获取驾驶员的个体差异调整信息,其中,个体差异调整信息包括与确定偏离角度关联的个体差异特征信息和调整参数,个体差异特征信息记录有不同身份的驾驶员在相同个体特征上的不同数值,调整参数用于调整第一角度阈值,个体差异特征信息和调整参数具有映射关系,以根据映射关系对不同身份的驾驶员的第一角度阈值进行设定。
101.s233:根据驾驶员的个体差异调整信息,设定第一角度阈值。
102.在一实施例中,不同驾驶员的头型、脖子的粗细会对偏离角度的识别造成一定的误差。可以理解地,偏离角度在理论上是不会受驾驶员的头型、脖子的粗细影响准确度,但是这需要采用精度很高的设备才能实现,而采用一般的图像识别模型,会一定程度上被这些驾驶员的个体差异调整信息所影响,所以鉴于实际应用的可行性和可推广性,本技术将驾驶员之间的个体差异引进,以使得用户语音与车机端功能相关性的判定更加准确。
103.其中,个体差异特征信息可以用户的头部宽度、高度,颈部的宽度和长度,甚至肩宽也可作为个体差异特征信息。调整参数用于调整第一角度阈值,例如用户a的个体差异特性信息对应的调整参数为+10
°
,则在获取角度阈值时,应当在标准的角度阈值的基础上加上10
°
,例如从60
°
设置为70
°
,这样,可以从驾驶员的个体差异出发,更精确地对用户的行为状态进行判断。
104.步骤s231-s233中,从驾驶员之间的个体差异出发对角度偏移进行了精准化的调整,使得在判断用户行为状态时能够更加准确。
105.进一步地,该车机端功能无关的语音过滤方法,还包括如下步骤:
106.s41:获取驾驶员的个体差异特征信息,其中,个体差异特征信息记录有不同身份的驾驶员在相同个体特征上的不同数值。
107.在一实施例中,同一辆车可能对应有不同的驾驶员,不同驾驶员之间存在着个体差异特征信息,这些个体差异特征信息可以提前采集。例如驾驶员可以通过手动录入或者图像识别的方式自动录入不同身份的驾驶员在相同个体特征上的不同数值。
108.s42:上传驾驶员的个体差异特征信息和行为状态到云端服务器,获取判定调整信息,其中,判定调整信息包括调整数值,用于调整行为状态对应的判定阈值。
109.在一实施例中,不同驾驶员在录入个体差异特征信息后,将上传到云端中,通过预设的算法计算不同的个体差异特征信息所对应的判定调整信息,也即具体需要对行为状态对应的判定阈值如驾驶员头部的角度阈值进行调整的调整数值。
110.s43:根据判定调整信息调整行为状态的判定。
111.在一实施例中,若是针对驾驶员头部的偏离角度进行判定,则根据判断调整信息调整角度阈值;除了对驾驶员头部的偏离角度进行判定还可以是其他的与个体差异相关的判定阈值进行判定,这些判定可用于确定驾驶员的行为状态。
112.步骤s41-s43中,可预先对不同驾驶员的个体差异特征信息进行采集,并通过计算得到的判定调整信息调整相关的判定阈值,能够从个体差异出发更精准地对驾驶员的行为状态进行判定。
113.进一步地,在步骤s30中,即在判定用户语音与车机端功能无关时,停止将用户语音上传至云端服务器的步骤中,具体包括如下步骤:
114.s311:当用户语音与车机端功能无关时,向语音模块发送截断指令。
115.其中,该语音模块可用于用户语音的采集以及上传。在用户语音相对于车机端功能实现无意义时,车机终端向内置或外接的语音模块发送截断指令,以根据该截断指令停止与车机端功能无关的用户语音的上传。
116.s312:根据语音模块返回的截断反馈信号,确定用户语音截断在语音模块,停止用户语音发送至云端。
117.在一实施例中,车机终端会接收到用户语音截断的反馈信号。通过接收的该反馈信号,可以触发提醒用户重新录入用户语音的提醒信息。
118.步骤s311-s312中,通过语音模块实现对车机端功能无关的用户语音的截断,使得真正需要进行语音识别的用户语音能够上传到云端,这样能够有效地过滤掉无意义的用户语音,能够有效地提高车辆的语音功能交互的准确率。
119.进一步地,在步骤s30之后,即停止将用户语音上传至云端服务器的步骤之后,方法还包括:
120.s321:根据用户再次输入的唤醒指令,或者,在间隔预设时间段后,向语音模块发送恢复语音上传指令。
121.其中,唤醒指令是启动车辆的语音识别功能的指令。恢复语音上传指令是让语音模块恢复上传用户语音到云端服务器的指令。
122.在一实施例中,用户可以通过发出预设的语音再次触发唤醒指令,让车机终端能够及时地停止语音截断,或者,若用户没有再次唤醒车机终端以实现语音识别,则可在间隔预设时间段如5s、10s后,向语音模块发送恢复语音上传指令。
123.s322:根据语音模块返回的恢复反馈信号,将当前的用户语音发送至云端。
124.在一实施例中,恢复语音上传后,语音模块采集当前的用户语音,并将该用户语音发送至云端。
125.步骤s321-s322中,提供了用户语音的重上传机制,在用户语音上传被截断后,用户仍可以快速恢复到语音上传的状态,使得车辆能够及时地回归到正常的语音识别状态,能够有效提高用户语音识别的效率。
126.在本技术实施例中,首先根据用户输入的唤醒指令连接云端服务器,以使得云端服务器能够进入到用户语音识别的状态,及时对用户语音进行识别并进行文字转换;然后在将采集到的用户语音实时上传至云端服务器的过程中,监测用户说话时的行为状态,并根据行为状态判断用户语音是否与车机端功能无关,能够将与车机端功能无关的用户语音过滤出来,通过用户的行为状态判断用户语音的有效性;最后在判定用户语音与车机端功能无关时,及时停止将用户语音上传至云端服务器,令这些无意义语音不会发送到云端服务器进行语音分析,使得云端服务器识别的用户语音都是与车机端功能相关的语音。本技术能够有效提高车辆的语音功能交互的准确率。
127.进一步地,本技术还在用户说话时同步对用户进行图像采集,并将采集到的待识别图像输入到行为识别模型中,从而根据该预先训练好点的行为识别模型确定用户说话时的行为状态。通过用户在发出语音的伴随行为的状态检测,可很好地区分用户语音与车机端是否相关。
128.进一步地,本技术还以驾驶员的头部位置对用户的行为状态进行了判定,相比较于对用户整体图像的判定,该判定更具针对性,且也符合大部分的与车机端功能无关的判定,相比较对用户整体图像判定所需要较强算力的前提下,采用该以驾驶员的头部位置对用户的行为状态进行判断在成本上会较低,且也更适合推广。
129.进一步地,本技术还从驾驶员之间的个体差异出发对角度偏移进行了精准化的调整,使得在判断用户行为状态时能够更加准确。
130.进一步地,本技术还可预先对不同驾驶员的个体差异特征信息进行采集,并通过
计算得到的判定调整信息调整相关的判定阈值,能够从个体差异出发更精准地对驾驶员的行为状态进行判定。
131.进一步地,本技术还通过语音模块实现对车机端功能无关的用户语音的截断,使得真正需要进行语音识别的用户语音能够上传到云端,这样能够有效地过滤掉无意义的用户语音,能够有效地提高车辆的语音功能交互的准确率。
132.进一步地,本技术还提供了用户语音的重上传机制,在用户语音上传被截断后,用户仍可以快速恢复到语音上传的状态,使得车辆能够及时地回归到正常的语音识别状态,能够有效提高用户语音识别的效率。
133.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
134.图2是本技术实施例中一种与车机端功能无关的语音过滤方法一一对应的装置的原理框图。如图2所示,该车机端功能无关的语音过滤装置包括云端连接模块10、语音相关性确定模块20和语音截断模块30。
135.云端连接模块10,用于根据用户输入的唤醒指令连接云端服务器。
136.语音相关性确定模块20,用于在将采集到的用户语音实时上传至云端服务器的过程中,监测用户说话时的行为状态,并根据行为状态判断用户语音是否与车机端功能无关。
137.语音截断模块30,用于在判定用户语音与车机端功能无关时,停止将用户语音上传至云端服务器。
138.进一步地,语音相关性确定模块20,包括:
139.图像采集单元,用于在用户说话时,通过摄像设备获取待识别图像
140.图像输入单元,用于将待识别图像输入到行为识别模型中,其中,行为识别模型采用包括用户行为动作的训练集训练得到。
141.特征提取单元,用于通过行为识别模型对待识别图像进行行为特征提取,根据提取的行为特征输出并确定用户说话时的行为状态。
142.进一步地,语音相关性确定模块20,还包括:
143.头部图像采集单元,用于在用户说话时,通过摄像设备获取驾驶员头部位置图像。
144.偏离角度确定单元,用于根据驾驶员头部位置图像,确定驾驶员头部相较于正视前方的偏离角度。
145.语音相关性确定单元,用于根据偏离角度及预设的第一角度阈值,判断用户语音是否与车机端功能无关,其中,若偏离角度大于第一角度阈值,则判定用户语音与车机端功能无关。
146.进一步地,该车机端功能无关的语音过滤装置还具体用于:
147.获取驾驶员的标识信息,其中,标识信息用于识别驾驶员身份。
148.根据标识信息获取驾驶员的个体差异调整信息,其中,个体差异调整信息包括与确定偏离角度关联的个体差异特征信息和调整参数,个体差异特征信息记录有不同身份的驾驶员在相同个体特征上的不同数值,调整参数用于调整第一角度阈值,个体差异特征信息和调整参数具有映射关系,以根据映射关系对不同身份的驾驶员的第一角度阈值进行设定。
149.根据驾驶员的个体差异调整信息,设定第一角度阈值。
150.进一步地,该车机端功能无关的语音过滤装置还具体用于:
151.获取驾驶员的个体差异特征信息,其中,个体差异特征信息记录有不同身份的驾驶员在相同个体特征上的不同数值。
152.上传驾驶员的个体差异特征信息和行为状态到云端服务器,获取判定调整信息,其中,判定调整信息包括调整数值,用于调整行为状态对应的判定阈值。
153.根据判定调整信息调整行为状态的判定。
154.进一步地,语音截断模块30包括:
155.截断指令发送单元,用于当用户语音与车机端功能无关时,向语音模块发送截断指令。
156.语音截断单元,根据语音模块返回的截断反馈信号,确定用户语音截断在语音模块,停止用户语音发送至云端。
157.进一步地,该车机端功能无关的语音过滤装置还具体用于:
158.根据用户再次输入的唤醒指令,或者,在间隔预设时间段后,向语音模块发送恢复语音上传指令。
159.根据语音模块返回的恢复反馈信号,将当前的用户语音发送至云端。
160.在本技术实施例中,首先根据用户输入的唤醒指令连接云端服务器,以使得云端服务器能够进入到用户语音识别的状态,及时对用户语音进行识别并进行文字转换;然后在将采集到的用户语音实时上传至云端服务器的过程中,监测用户说话时的行为状态,并根据行为状态判断用户语音是否与车机端功能无关,能够将与车机端功能无关的用户语音过滤出来,通过用户的行为状态判断用户语音的有效性;最后在判定用户语音与车机端功能无关时,及时停止将用户语音上传至云端服务器,令这些无意义语音不会发送到云端服务器进行语音分析,使得云端服务器识别的用户语音都是与车机端功能相关的语音。本技术能够有效提高车辆的语音功能交互的准确率。
161.进一步地,本技术还在用户说话时同步对用户进行图像采集,并将采集到的待识别图像输入到行为识别模型中,从而根据该预先训练好点的行为识别模型确定用户说话时的行为状态。通过用户在发出语音的伴随行为的状态检测,可很好地区分用户语音与车机端是否相关。进一步地,本技术还以驾驶员的头部位置对用户的行为状态进行了判定,相比较于对用户整体图像的判定,该判定更具针对性,且也符合大部分的与车机端功能无关的判定,相比较对用户整体图像判定所需要较强算力的前提下,采用该以驾驶员的头部位置对用户的行为状态进行判断在成本上会较低,且也更适合推广。进一步地,本技术还从驾驶员之间的个体差异出发对角度偏移进行了精准化的调整,使得在判断用户行为状态时能够更加准确。进一步地,本技术还可预先对不同驾驶员的个体差异特征信息进行采集,并通过计算得到的判定调整信息调整相关的判定阈值,能够从个体差异出发更精准地对驾驶员的行为状态进行判定。进一步地,本技术还通过语音模块实现对车机端功能无关的用户语音的截断,使得真正需要进行语音识别的用户语音能够上传到云端,这样能够有效地过滤掉无意义的用户语音,能够有效地提高车辆的语音功能交互的准确率。进一步地,本技术还提供了用户语音的重上传机制,在用户语音上传被截断后,用户仍可以快速恢复到语音上传的状态,使得车辆能够及时地回归到正常的语音识别状态,能够有效提高用户语音识别的
效率。
162.本技术还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可读指令,计算机可读指令被处理器执行时实现如实施例所述车机端功能无关的语音过滤方法。
163.图3是本技术实施例中一种计算机设备的示意图。
164.如图3所示,计算机设备110包括处理器111、存储器112以及存储在存储器112中并可在处理器111上运行的计算机可读指令113。处理器111执行计算机可读指令113时实现车机端功能无关的语音过滤方法的各个步骤。
165.示例性地,计算机可读指令113可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器112中,并由处理器111执行,以完成本技术。一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述计算机可读指令113在计算机设备110中的执行过程。
166.计算机设备110可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,处理器111、存储器112。本领域技术人员可以理解,图3仅仅是计算机设备110的示例,并不构成对计算机设备110的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
167.所称处理器111可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
168.存储器112可以是计算机设备110的内部存储单元,例如计算机设备110的硬盘或内存。存储器112也可以是计算机设备110的外部存储设备,例如计算机设备110上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,存储器112还可以既包括计算机设备110的内部存储单元也包括外部存储设备。存储器112用于存储计算机可读指令以及计算机设备所需的其他程序和数据。存储器112还可以用于暂时地存储已经输出或者将要输出的数据。
169.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
170.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
171.本技术实施例中,服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网
络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
172.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
173.所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机可读指令包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机可读指令代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
174.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
175.以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1