一种发问结束静音时间的确定方法、装置及电子设备与流程

文档序号：16188556发布日期：2018-12-08 05:27阅读：296来源：国知局

本发明涉及人工智能技术领域，特别是涉及一种发问结束静音时间的确定方法、装置及电子设备。

背景技术

近年来，随着人工智能技术的快速发展，市场上出现了许多人工智能设备。有一些人工智能设备内嵌了智能语音技术，用户可以通过语音对人工智能设备进行控制，可以与人工智能设备进行语音交互，包括天气查询、设置闹钟、讲故事、聊天等，这些能够与用户进行语音交互的人工智能设备可以称为智能语音终端，例如，智能音箱、可以进行语音交互的机器人等。

智能语音终端在实现上述语音交互功能时，显然语音响应速度是十分重要的。智能语音终端采集用户语音信号时，会将采集到的用户语音信号实时发送至与其通信连接的服务器，服务器接收该用户语音信号时，会监测用户语音信号的静音时间，当静音时间达到预设时间时，便确定用户语音信号结束，也就是说，当用户说话出现一段静音时间后，判断为该次用户语音发问结束，服务器便会对该段用户语音信号进行语音识别等解析工作。其中，该预设时间可以称为发问结束静音时间，其标识用户此次发问结束。

一般智能语音终端的发问结束静音时间是预先设置的，不能改变。这样，由于不同用户说话时的语速差异较大，采用固定的发问结束静音时间经常会导致语速较快的用户在实际发问结束后，需要等待较久时间，智能语音终端才会响应。而语速较慢的用户经常在还没有说完一段话时，就被智能语音终端抢断响应，显然，这种发问结束静音时间的确定方式会导致智能语音终端响应不准确，用户体验不佳。

技术实现要素：

本发明实施例的目的在于提供一种发问结束静音时间的确定方法、装置及电子设备，以提高智能语音终端的响应准确度及用户体验。具体技术方案如下：

第一方面，本发明实施例提供了一种发问结束静音时间的确定方法，所述方法包括：

获取智能语音终端采集的用户语音信号；

确定所述用户语音信号的语速信息，其中，所述语速信息为标识所述用户语音信号的语速特征的信息；

根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间。

可选的，所述获取智能语音终端采集的用户语音信号的步骤，包括：

实时获取智能语音终端采集的用户语音信号；

所述确定所述用户语音信号的语速信息的步骤之前，包括：

监控所述用户语音信号的时长达到预设时长；

所述根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间的步骤，包括：

根据所述语速信息及预设的静音时间设置规则，确定当前获取的用户语音信号对应的发问结束静音时间。

可选的，所述语速信息为平均语速；

所述确定所述用户语音信号的语速信息的步骤，包括：

获取所述用户语音信号的时长；

对所述用户语音信号进行语音识别，得到所述用户语音信号对应的文字数量；

根据所述文字数量及所述时长，确定所述用户语音信号的平均语速。

可选的，所述根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间的步骤，包括：

根据所述平均语速与预设的语速阈值的大小关系，确定发问结束静音时间。

可选的，所述预设的语速阈值包括第一预设语速阈值及第二预设语速阈值，其中，所述第一预设语速阈值小于第二预设语速阈值；

所述根据所述平均语速与预设的语速阈值的大小关系，确定发问结束静音时间的步骤，包括：

当所述平均语速小于所述第一预设语速阈值时，确定发问结束静音时间为第一静音时间；

当所述平均语速大于所述第一预设语速阈值，且小于所述第二预设语速阈值时，确定发问结束静音时间为第二静音时间；

当所述平均语速大于所述第二预设语速阈值时，确定发问结束静音时间为第三静音时间，其中，所述第一静音时间大于所述第二静音时间，所述第二静音时间大于所述第三静音时间。

可选的，所述语速信息为字与字的平均间隔时间；

所述确定所述用户语音信号的语速信息的步骤，包括：

对所述用户语音信号进行语音识别，得到所述用户语音信号对应的文字中相邻文字之间的间隔时间；

根据所述间隔时间，计算所述用户语音信号对应的平均间隔时间。

可选的，所述根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间的步骤，包括：

根据所述平均间隔时间与预设的时间阈值的大小关系，确定发问结束静音时间。

可选的，所述预设的时间阈值包括第一预设时间阈值及第二预设时间阈值，其中，所述第一预设时间阈值大于第二预设时间阈值；

所述根据所述平均间隔时间与预设的时间阈值的大小关系，确定发问结束静音时间的步骤，包括：

当所述平均间隔时间大于所述第一预设时间阈值时，确定发问结束静音时间为第四静音时间；

当所述平均间隔时间小于所述第一预设时间阈值，且大于所述第二预设时间阈值时，确定发问结束静音时间为第五静音时间；

当所述平均间隔时间小于所述第二预设时间阈值时，确定发问结束静音时间为第六静音时间，其中，所述第四静音时间大于所述第五静音时间，所述第五静音时间大于所述第六静音时间。

可选的，在所述根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间的步骤之后，所述方法还包括：

当检测到获取的所述智能语音终端当前采集的用户语音信号对应的静音时间达到所确定的发问结束静音时间时，响应所述当前采集的用户语音信号对应的用户指令，其中，所述用户指令为根据所述当前采集的用户语音信号的语义确定的指令。

第二方面，本发明实施例提供了一种发问结束静音时间的确定装置，所述装置包括：

语音信号获取模块，用于获取智能语音终端采集的用户语音信号；

语速信息确定模块，用于确定所述用户语音信号的语速信息，其中，所述语速信息为标识所述用户语音信号的语速特征的信息；

静音时间确定模块，用于根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间。

可选的，所述语音信号获取模块包括：

实时获取子模块，用于实时获取智能语音终端采集的用户语音信号；

所述装置还包括：

预设时长监控模块，用于在所述确定所述用户语音信号的语速信息之前，监控所述用户语音信号的时长达到预设时长；

所述静音时间确定模块包括：

静音时间确定子模块，用于根据所述语速信息及预设的静音时间设置规则，确定当前获取的用户语音信号对应的发问结束静音时间。

可选的，所述语速信息为平均语速；

所述语速信息确定模块包括：

时长获取子模块，用于获取所述用户语音信号的时长；

文字数量确定子模块，用于对所述用户语音信号进行语音识别，得到所述用户语音信号对应的文字数量；

平均语速确定子模块，用于根据所述文字数量及所述时长，确定所述用户语音信号的平均语速。

可选的，所述静音时间确定模块包括：

第一确定子模块，用于根据所述平均语速与预设的语速阈值的大小关系，确定发问结束静音时间。

可选的，所述预设的语速阈值包括第一预设语速阈值及第二预设语速阈值，其中，所述第一预设语速阈值小于第二预设语速阈值；

所述第一确定子模块包括：

第一确定单元，用于当所述平均语速小于所述第一预设语速阈值时，确定发问结束静音时间为第一静音时间；

第二确定单元，用于当所述平均语速大于所述第一预设语速阈值，且小于所述第二预设语速阈值时，确定发问结束静音时间为第二静音时间；

第三确定单元，用于当所述平均语速大于所述第二预设语速阈值时，确定发问结束静音时间为第三静音时间，其中，所述第一静音时间大于所述第二静音时间，所述第二静音时间大于所述第三静音时间。

可选的，所述语速信息为字与字的平均间隔时间；

所述语速信息确定模块包括：

间隔时间确定子模块，用于对所述用户语音信号进行语音识别，得到所述用户语音信号对应的文字中相邻文字之间的间隔时间；

平均间隔时间确定子模块，用于根据所述间隔时间，计算所述用户语音信号对应的平均间隔时间。

可选的，所述静音时间确定模块包括：

第二确定子模块，用于根据所述平均间隔时间与预设的时间阈值的大小关系，确定发问结束静音时间。

可选的，所述预设的时间阈值包括第一预设时间阈值及第二预设时间阈值，其中，所述第一预设时间阈值大于第二预设时间阈值；

所述第二确定子模块包括：

第四确定单元，用于当所述平均间隔时间大于所述第一预设时间阈值时，确定发问结束静音时间为第四静音时间；

第五确定单元，用于当所述平均间隔时间小于所述第一预设时间阈值，且大于所述第二预设时间阈值时，确定发问结束静音时间为第五静音时间；

第六确定单元，用于当所述平均间隔时间小于所述第二预设时间阈值时，确定发问结束静音时间为第六静音时间，其中，所述第四静音时间大于所述第五静音时间，所述第五静音时间大于所述第六静音时间。

可选的，所述装置还包括：

指令响应模块，用于在所述根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间的步骤之后，当检测到获取的所述智能语音终端当前采集的用户语音信号对应的静音时间达到所确定的发问结束静音时间时，响应所述当前采集的用户语音信号对应的用户指令，其中，所述用户指令为根据所述当前采集的用户语音信号的语义确定的指令。

第三方面，本发明实施例还提供了一种电子设备，包括处理器、存储器和通信总线，其中，处理器、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的发问结束静音时间的确定方法步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的发问结束静音时间的确定方法步骤。

本发明实施例所提供的方案中，首先获取智能语音终端采集的用户语音信号，然后确定用户语音信号的语速信息，最后根据语速信息及预设的静音时间设置规则，确定发问结束静音时间，其中，语速信息为标识用户语音信号的语速特征的信息。采用该方式确定发问结束静音时间，可以根据用户的语速特征设定合理的发问结束静音时间，针对不同语速的用户，智能语音终端也可以准确响应，大大提高智能语音终端的响应准确度及用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种发问结束静音时间的确定方法的流程图；

图2为图1所示实施例中步骤s102的一种具体流程图；

图3为图1所示实施例中步骤s102的另一种具体流程图；

图4为本发明实施例所提供的一种发问结束静音时间的确定装置的结构示意图；

图5为本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了提高智能语音终端的响应准确度及用户体验，本发明实施例提供了一种发问结束静音时间的确定方法、装置、电子设备及计算机可读存储介质。

下面首先对本发明实施例所提供的一种发问结束静音时间的确定方法进行介绍。

本发明实施例所提供的一种发问结束静音时间的确定方法可以应用于与智能语音终端通信连接的服务器，以下简称服务器。智能语音终端可以为任意能够通过语音控制，与用户进行语音交互的智能设备，例如，可以为智能音箱、语音机器人等，在此不做具体限定。

如图1所示，一种发问结束静音时间的确定方法，所述方法包括：

s101，获取智能语音终端采集的用户语音信号；

s102，确定所述用户语音信号的语速信息，其中，所述语速信息为标识所述用户语音信号的语速特征的信息；

s103，根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间。

可见，本发明实施例所提供的方案中，服务器可以首先获取智能语音终端采集的用户语音信号，然后确定用户语音信号的语速信息，最后根据语速信息及预设的静音时间设置规则，确定发问结束静音时间，其中，语速信息为标识用户语音信号的语速特征的信息。采用该方式确定发问结束静音时间，可以根据用户的语速特征设定合理的发问结束静音时间，针对不同语速的用户，智能语音终端也可以准确响应，大大提高智能语音终端的响应准确度及用户体验。

在上述步骤s101中，用户说话即发出用户语音信号时，智能语音终端便会采集到该用户语音信号，并实时发送至服务器，那么服务器便可以获取智能语音终端所采集的用户语音信号。

在一种实施方式中，上述服务器获取的智能语音终端所采集的用户语音信号可以是当前时刻智能语音终端所采集的用户语音信号。例如，可以为用户当前时刻说出的一句话或者几个字对应的一段语音信号。那么，此时服务器所确定的发问结束静音时间便可以作为当前时刻用户说出的一句话或者几个字对应的发问结束静音时间，也就是说，当用户本次发问结束后，智能语音终端采集下一段用户语音信号时，服务器便可以再确定该下一段用户语音信号对应的发问结束静音时间，形成实时地对每一段用户语音信号进行动态确定发问结束静音时间的方式。

在另一种实施方式中，上述服务器获取的智能语音终端所采集的用户语音信号可以是一段时间内智能语音终端所采集的用户语音信号，该一段时间可以为3天、5天、一个星期等，在此不做具体限定。也就是说，服务器可以按照预设时间进行发问结束静音时间的确定，根据在预设时间内智能语音终端所采集的所有或者一部分用户语音信号的语速信息，确定发问结束静音时间。

服务器获取智能语音终端采集的用户语音信号后，可以确定用户语音信号的语速信息，也就是执行步骤s102。其中，语速信息为标识用户语音信号的语速特征的信息。也就是可以表示用户说话快慢的信息，例如，可以为语速、字与字的平均间隔时间等，在此不做具体限定。服务器确定用户语音信号的语速信息的方式，可以为语音识别等语音信号处理领域的常用方式，在此不做具体限定及说明。

举例而言，如果用户语音信号的语速信息为平均语速，上述预设时间为3天，那么服务器便可以计算3天内获取的所有或者一部分用户语音信号的平均语速，作为语速信息，在这种情况下，服务器可以每3天设置一次发问结束静音时间。

接下来，在步骤s103中，服务器便可以根据语速信息及预设的静音时间设置规则，确定发问结束静音时间。例如，可以根据用户语音信号的语速及预设语速阈值的大小关系等，确定发问结束静音时间。为了方案清晰及布局清晰，后续将会对服务器根据语速信息及预设的静音时间设置规则，确定发问结束静音时间的具体实施方式进行举例介绍。

需要说明的是，在本文中，所说的“文字”和“字”指代的是按照各语言习惯所区分的组成一句话的单元，通常为用户说话停顿所划分出来的单元。例如，在汉语中，“文字”和“字”即指按照中文习惯划分的汉字，对于“今天天气怎么样”这样一句话，其包括7个字，即“今”、“天”、“天”、“气”、“怎”、“么”及“样”。在英语中，所说的“文字”和“字”即可以指代一个单词。同理的，在其它语言中，例如韩语、日语、法语等语言中，所说的“文字”和“字”即可以指代按照其各自的语言习惯所区分的组成一句话的单元，在此不再一一例举。

为了可以实时对用户语音信号对应的发问结束静音时间进行调整，以使智能语音终端可以对不同用户发出的语音信号进行准确响应，作为本发明实施例的一种实施方式，上述获取智能语音终端采集的用户语音信号的步骤，可以包括：实时获取智能语音终端采集的用户语音信号。

服务器可以实时获取智能语音终端采集的用户语音信号，也就是说，在智能语音终端采集的用户语音信号的同时，将用户语音信号发送至服务器，服务器接收到用户语音信号即进行相应处理。

相应的，在上述确定所述用户语音信号的语速信息的步骤之前，上述方法还可以包括：监控所述用户语音信号的时长达到预设时长。

在这种情况下，由于发问结束静音时间是实时确定的，也就是说，当用户说出一句话时，该句话所对应的发问结束静音时间还未确定，那么为了响应用户语音信号，服务器在获取用户语音信号的同时，可以监控该用户语音信号的时长是否达到预设时长，如果达到预设时长，则执行确定该用户语音信号的语速信息的步骤。

其中，该预设时长可以根据一般用户说出一句话的时间长短来确定，在此不对预设时长进行具体限定，一般该预设时长可以保证用户语音信号对应的文字包括两个字以上即可。

相应的，上述根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间的步骤，可以包括：

根据所述语速信息及预设的静音时间设置规则，确定当前获取的用户语音信号对应的发问结束静音时间。

服务器监控用户语音信号的时长达到预设时长时，便可以确定该用户语音信号的语速信息，进而根据语速信息及预设的静音时间设置规则，确定该用户语音信号对应的发问结束静音时间，也就是当前获取的用户语音信号对应的发问结束静音时间，可以理解为用户当前所说的一句话对应的发问结束静音时间。

例如，预设时长为500毫秒，当服务器监控用户语音信号的时长达到500毫秒时，便确定该用户语音信号的语速信息，根据语速信息及预设的静音时间设置规则，确定该用户语音信号对应的发问结束静音时间，假设确定该用户语音信号对应的发问结束静音时间为600毫秒，由于服务器在接收用户语音信号的同时，会监测用户语音信号的静音时间，那么当监测到静音时间达到600毫秒时，服务器便会判断此次用户发问结束，进而进行识别解析等处理，以响应用户语音信号对应的用户指令。

可见，在本实施例中，服务器可以根据实时获取的用户语音信号，对用户发出的每一句语音对应的发问结束静音时间进行动态设置，在不同用户使用同一个智能语音终端时，也能根据不同用户的语速特征，对用户的每一句语音进行准确响应，进一步提升用户体验。

针对上述语速信息为平均语速的情况而言，作为本发明实施例的一种实施方式，如图2所示，上述确定所述用户语音信号的语速信息的步骤，可以包括：

s201，获取所述用户语音信号的时长；

服务器可以通过在接收用户语音信号的同时，记录用户语音信号时长等方式获得用户语音信号的时长，由于获取用户语音信号的时长的方式可以采用语音信号处理领域的任意获取语音信号时长的方式，因此，在此不再进行限定及说明。

如果服务器获取的用户语音信号是上述预设时间内智能语音终端采集的用户语音信号，那么此时服务器便可以获取所有或者一部分用户语音信号的总时长。例如，服务器获取的用户语音信号是一周内的用户语音信号，那么服务器获取的用户语音信号的时长即可以为这一周内的所有用户语音信号的总时长，也可以为这一周内的一部分用户语音信号的总时长。

如果服务器获取的是当前时刻智能语音终端采集的用户语音信号，那么服务器获取的用户语音信号的时长即为该当前时刻智能语音终端采集的用户语音信号的时长。

s202，对所述用户语音信号进行语音识别，得到所述用户语音信号对应的文字数量；

接下来，服务器可以对获取的用户语音信号进行语音识别，进而得到该用户语音信号对应的文字数量。可以理解的是，服务器在对该用户语音信号进行语音识别时，即可以获得该用户语音信号对应的文字内容，也可以获取该用户语音信号对应的文字数量。

例如，服务器在对用户语音信号进行语音识别的时，得到其对应的文字内容为“播下一首歌”，那么，显然服务器可以确定该用户语音信号对应的文字数量为5。

可以理解的是，服务器获得的文字数量对应的用户语音信号为与步骤s201中确定用户语音信号的时长时相同的用户语音信号，也就是说，如果上述用户语音信号为预设时间内的一部分语音信号，那么在计算文字数量时，也是对该一部分用户语音信号进行语音识别所获得的文字数量。

s203，根据所述文字数量及所述时长，确定所述用户语音信号的平均语速。

在获得用户语音信号对应的文字数量后，服务器便可以根据该文字数量及上述时长，确定用户语音信号的平均语速。可以理解的是，语速即为用户说话的速度，可以用单位时间内说出的文字数量表示，即用户语音信号对应的文字数量与时长的商。

例如，用户语音信号对应的文字数量为6，用户语音信号对应的时长为3秒，那么该用户语音信号的平均语速即为6/3＝2个每秒，也就是说该用户说话的平均语速为每秒钟2个字。

可见，本实施例中，服务器可以获取用户语音信号的时长，对用户语音信号进行语音识别，得到用户语音信号对应的文字数量，然后根据文字数量及时长，确定用户语音信号的平均语速。可以快速准确地确定用户语音信号的语速信息，提高后续确定发问结束静音时间的速度和准确度。

针对上述语速信息为平均语速的情况而言，作为本发明实施例的一种实施方式，上述根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间的步骤，可以包括：

根据所述平均语速与预设的语速阈值的大小关系，确定发问结束静音时间。

在本实施方式中，服务器可以根据上述图2所示实施例中计算得到的平均语速与预设的语速阈值的大小关系，确定发问结束静音时间。其中，预设的语速阈值可以根据统计一般人说话的平均语速等因素确定，例如，可以为3个每秒、4个每秒、5个每秒等，在此不做具体限定。预设的语速阈值可以为一个，也可以为多个，这都是合理的，在此也不做具体限定。

在这种情况下，作为本发明实施例的一种实施方式，上述预设的语速阈值可以包括第一预设语速阈值及第二预设语速阈值，其中，所述第一预设语速阈值小于第二预设语速阈值。

在一种实施方式中，可以采用一般说话较慢的人的平均语速作为第一预设语速阈值，采用一般说话较快的人的平均语速作为第二预设语速阈值。

相应的，上述根据所述平均语速与预设的语速阈值的大小关系，确定发问结束静音时间的步骤，可以包括：

当所述平均语速小于所述第一预设语速阈值时，确定发问结束静音时间为第一静音时间；当所述平均语速大于所述第一预设语速阈值，且小于所述第二预设语速阈值时，确定发问结束静音时间为第二静音时间；当所述平均语速大于所述第二预设语速阈值时，确定发问结束静音时间为第三静音时间。其中，第一静音时间大于第二静音时间，第二静音时间大于第三静音时间。

服务器在根据上述平均语速与预设的语速阈值的大小关系，确定发问结束静音时间时，可以将平均语速与第一预设语速阈值及第二预设语速阈值进行比较，如果平均语速小于该第一预设语速阈值，说明该平均语速较慢，也就说明用户说话的语速较慢，那么服务器则可以确定发问结束静音时间为第一静音时间。可以理解的是，该第一静音时间应较长，以避免智能语音终端在响应用户指令时会抢断响应。一般该第一静音时间可以为700毫秒，这样可以保证智能语音终端在响应用户指令时不会抢断响应，又可以保证响应速度不会过慢。

如果平均语速大于第一预设语速阈值，且小于第二预设语速阈值，说明该平均语速较为适中，不是很快也不是很慢，也就说明用户说话的语速适中，不是很快也不是很慢，那么服务器则可以确定发问结束静音时间为第二静音时间。可以理解的是，该第二静音时间不宜过长，也不宜过短，一般该第二静音时间可以为500毫秒，这样可以保证智能语音终端在响应用户指令时不会抢断响应，又可以保证响应速度不会过慢。

如果平均语速大于第二预设语速阈值，说明该平均语速较快，也就说明用户说话的语速较快，那么服务器则可以确定发问结束静音时间为第三静音时间。可以理解的是，该第三静音时间应较短，以尽量在保证智能语音终端在响应用户指令时不会抢断响应的同时，尽可能提高响应速度，避免用户说话结束后等待时间较长。一般该第三静音时间可以为300毫秒，这样可以保证智能语音终端在响应用户指令时不会抢断响应，又可以尽量提高响应速度。

可见，本实施例中，服务器可以根据平均语速与第一预设语速阈值及第二预设语速阈值的大小关系，设置三种长短不同的发问结束静音时间，尽可能保证智能语音终端在响应用户指令时不会抢断响应，又可以尽量提高响应速度，适应不同用户的说话习惯，进一步提升用户体验。

针对上述语速信息为字与字的平均间隔时间的情况而言，作为本发明实施例的一种实施方式，如图3所示，上述确定所述用户语音信号的语速信息的步骤，可以包括：

s301，对所述用户语音信号进行语音识别，得到所述用户语音信号对应的文字中相邻文字之间的间隔时间；

服务器可以在接收用户语音信号的同时，对用户语音信号进行语音识别，进而得到用户语音信号对应的文字中相邻文字之间的间隔时间。需要说明的是，该相邻文字之间的间隔时间指代的即为按照各语言习惯区分的组成一句话的单元之间的间隔时间。

示例性的，如果用户语音信号对应的文字为“你在做什么”，那么相邻文字之间的间隔时间即为文字“你”与“在”之间，“在”与“做”之间，“做”与“什”之间，以及“什”与“么”之间的间隔时间。

如果服务器获取的用户语音信号是上述预设时间内智能语音终端采集的用户语音信号，那么此时服务器便可以获取这些用户语音信号中全部或者一部分对应的文字中相邻文字之间的间隔时间。例如，服务器获取的用户语音信号是3天内的用户语音信号，那么服务器获取的用户语音信号对应的文字中相邻文字之间的间隔时间即为这3天内的所有或者一部分用户语音信号对应的文字中相邻文字之间的间隔时间。

如果服务器获取的为当前时刻智能语音终端采集的用户语音信号，那么服务器获取的用户语音信号对应的文字中相邻文字之间的间隔时间即为该当前时刻智能语音终端采集的用户语音信号对应的文字中相邻文字之间的间隔时间。

对于获取用户语音信号对应的文字中相邻文字之间的间隔时间的具体方式，可以通过语音信号对应的频谱或者波形图中的波峰、波谷对应的时间等方式确定，在此不做具体限定。

s302，根据所述间隔时间，计算所述用户语音信号对应的平均间隔时间。

确定了上述间隔时间后，服务器便可以计算用户语音信号对应的平均间隔时间。例如，上述用户语音信号对应的文字为“你在做什么”，文字“你”与“在”之间，“在”与“做”之间，“做”与“什”之间，以及“什”与“么”之间的间隔时间分别为：400毫秒、450毫秒、420毫秒及435毫秒，那么，该用户语音信号对应的平均间隔时间即为(400+450+420+435)/4＝426.25毫秒。

可见，本实施例中，服务器可以对用户语音信号进行语音识别，得到用户语音信号对应的文字中相邻文字之间的间隔时间，然后根据间隔时间确定用户语音信号的平均间隔时间。可以快速准确地确定用户语音信号的语速信息，提高后续确定发问结束静音时间的速度和准确度。

针对上述语速信息为平均间隔时间的情况而言，作为本发明实施例的一种实施方式，上述根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间的步骤，可以包括：

根据所述平均间隔时间与预设的时间阈值的大小关系，确定发问结束静音时间。

在本实施方式中，服务器可以根据上述图3所示实施例中计算得到的平均间隔时间与预设的时间阈值的大小关系，确定发问结束静音时间。其中，预设的时间阈值可以根据统计一般人说话时的字与字之间的间隔时间等因素确定，例如，可以为350毫秒、400毫秒、450毫秒等，在此不做具体限定。预设的时间阈值可以为一个，也可以为多个，这都是合理的，在此也不做具体限定。

在这种情况下，作为本发明实施例的一种实施方式，上述预设的时间阈值可以包括第一预设时间阈值及第二预设时间阈值，其中，所述第一预设时间阈值大于第二预设时间阈值。

在一种实施方式中，可以采用一般说话较慢的人说话时字与字之间的平均间隔时间作为第一预设时间阈值，采用一般说话较快的人说话时字与字之间的平均间隔时间作为第二预设时间阈值。

相应的，上述根据所述平均间隔时间与预设的时间阈值的大小关系，确定发问结束静音时间的步骤，可以包括：

当所述平均间隔时间大于所述第一预设时间阈值时，确定发问结束静音时间为第四静音时间；当所述平均间隔时间小于所述第一预设时间阈值，且大于所述第二预设时间阈值时，确定发问结束静音时间为第五静音时间；当所述平均间隔时间小于所述第二预设时间阈值时，确定发问结束静音时间为第六静音时间，其中，所述第四静音时间大于所述第五静音时间，所述第五静音时间大于所述第六静音时间。

服务器在根据上述平均间隔时间与预设的时间阈值的大小关系，确定发问结束静音时间时，可以将平均间隔时间与第一预设时间阈值及第二预设时间阈值进行比较，如果平均间隔时间大于该第一预设时间阈值，说明该平均间隔时间较长，也就说明用户说话时字与字间隔时间较长，那么服务器则可以确定发问结束静音时间为第四静音时间。可以理解的是，该第四静音时间应较长，以避免智能语音终端在响应用户指令时会抢断响应。一般该第四静音时间可以为700毫秒，这样可以保证智能语音终端在响应用户指令时不会抢断响应，又可以保证响应速度不会过慢。

如果平均间隔时间小于第一预设时间阈值，且大于第二预设时间阈值，说明该平均间隔时间较为适中，不是很长也不是很短，也就说明用户说话用户说话时字与字间隔时间适中，不是很长也不是很短，那么服务器则可以确定发问结束静音时间为第五静音时间。可以理解的是，该第五静音时间不宜过长，也不宜过短，一般该第五静音时间可以为500毫秒，这样可以保证智能语音终端在响应用户指令时不会抢断响应，又可以保证响应速度不会过慢。

如果平均间隔时间小于第二预设时间阈值，说明该平均间隔时间较短，也就说明用户说话时字与字间隔时间较短，那么服务器则可以确定发问结束静音时间为第六静音时间。可以理解的是，该第六静音时间应较短，以尽量在保证智能语音终端在响应用户指令时不会抢断响应的同时，尽可能提高响应速度，避免用户说话结束后等待时间较长。一般该第六静音时间可以为300毫秒，这样可以保证智能语音终端在响应用户指令时不会抢断响应，又可以尽量提高响应速度。

可见，本实施例中，服务器可以根据平均间隔时间与第一预设时间阈值及第二预设时间阈值的大小关系，设置三种大小不同的发问结束静音时间，尽可能保证智能语音终端在响应用户指令时不会抢断响应，又可以尽量提高响应速度，适应不同用户的说话习惯，进一步提升用户体验。

作为本发明实施例的一种实施方式，在上述根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间的步骤之后，上述方法还可以包括：

当检测到获取的所述智能语音终端当前采集的用户语音信号对应的静音时间达到所确定的发问结束静音时间时，响应所述当前采集的用户语音信号对应的用户指令。

其中，该用户指令为根据当前采集的用户语音信号的语义确定的指令。例如，服务器通过语音识别确定当前采集的用户语音信号的语义为“今天天气如何”，那么用户指令即可以为“播放天气预报”。又例如，服务器通过语音识别确定当前采集的用户语音信号的语义为“播放下一首歌”，那么用户指令即可以为“播放下一首歌曲”。

如上述内容的描述，服务器在接收智能语音终端发送的用户语音信号的同时，实时检测用户语音信号对应的静音时间，那么，在检测到获取的智能语音终端当前采集的用户语音信号对应的静音时间达到所确定的发问结束静音时间时，说明用户此次发问结束，服务器便可以对接收到的用户语音信号进行语音识别，确定当前采集的用户语音信号的语义，及其对应的用户指令，进而响应该用户指令。

示例性的，如果用户指令即为“播放天气预报”，那么服务器便可以从网络资源或者通过其他方式获取天气预报信息，并将该天气预报信息发送至智能语音终端，以使智能语音终端播放该天气预报信息，用户便可以获知天气预报。

可见，在本实施例中，服务器在检测到获取的智能语音终端当前采集的用户语音信号对应的静音时间达到所确定的发问结束静音时间时，响应当前采集的用户语音信号对应的用户指令，可以根据确定的发问结束静音时间判断用户发问结束，且响应用户指令，用户体验更佳。

相应于上述方法实施例，本发明实施例还提供了一种发问结束静音时间的确定装置。下面对本发明实施例所提供的一种发问结束静音时间的确定装置进行介绍。

如图4所示，一种发问结束静音时间的确定装置，所述装置包括：

语音信号获取模块410，用于获取智能语音终端采集的用户语音信号；

语速信息确定模块420，用于确定所述用户语音信号的语速信息；

其中，所述语速信息为标识所述用户语音信号的语速特征的信息。

静音时间确定模块430，用于根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间。

可见，本发明实施例所提供的方案中，首先获取智能语音终端采集的用户语音信号，然后确定用户语音信号的语速信息，最后根据语速信息及预设的静音时间设置规则，确定发问结束静音时间，其中，语速信息为标识用户语音信号的语速特征的信息。采用该方式确定发问结束静音时间，可以根据用户的语速特征设定合理的发问结束静音时间，针对不同语速的用户，智能语音终端也可以准确响应，大大提高智能语音终端的响应准确度及用户体验。

作为本发明实施例的一种实施方式，上述语音信号获取模块410可以包括：

实时获取子模块(图4中未示出)，用于实时获取智能语音终端采集的用户语音信号；

所述装置还可以包括：

预设时长监控模块(图4中未示出)，用于在所述确定所述用户语音信号的语速信息之前，监控所述用户语音信号的时长达到预设时长；

所述静音时间确定模块430可以包括：

静音时间确定子模块(图4中未示出)，用于根据所述语速信息及预设的静音时间设置规则，确定当前获取的用户语音信号对应的发问结束静音时间。

作为本发明实施例的一种实施方式，上述语速信息可以为平均语速；

上述语速信息确定模块可以包括：

时长获取子模块(图4中未示出)，用于获取所述用户语音信号的时长；

文字数量确定子模块(图4中未示出)，用于对所述用户语音信号进行语音识别，得到所述用户语音信号对应的文字数量；

平均语速确定子模块(图4中未示出)，用于根据所述文字数量及所述时长，确定所述用户语音信号的平均语速。

作为本发明实施例的一种实施方式，上述静音时间确定模块430可以包括：

第一确定子模块(图4中未示出)，用于根据所述平均语速与预设的语速阈值的大小关系，确定发问结束静音时间。

作为本发明实施例的一种实施方式，上述预设的语速阈值可以包括第一预设语速阈值及第二预设语速阈值，其中，所述第一预设语速阈值小于第二预设语速阈值；

上述第一确定子模块可以包括：

第一确定单元(图4中未示出)，用于当所述平均语速小于所述第一预设语速阈值时，确定发问结束静音时间为第一静音时间；

第二确定单元(图4中未示出)，用于当所述平均语速大于所述第一预设语速阈值，且小于所述第二预设语速阈值时，确定发问结束静音时间为第二静音时间；

第三确定单元(图4中未示出)，用于当所述平均语速大于所述第二预设语速阈值时，确定发问结束静音时间为第三静音时间，其中，所述第一静音时间大于所述第二静音时间，所述第二静音时间大于所述第三静音时间。

作为本发明实施例的一种实施方式，上述语速信息可以为字与字的平均间隔时间；

所述语速信息确定模块可以包括：

间隔时间确定子模块(图4中未示出)，用于对所述用户语音信号进行语音识别，得到所述用户语音信号对应的文字中相邻文字之间的间隔时间；

平均间隔时间确定子模块(图4中未示出)，用于根据所述间隔时间，计算所述用户语音信号对应的平均间隔时间。

作为本发明实施例的一种实施方式，上述静音时间确定模块430可以包括：

第二确定子模块(图4中未示出)，用于根据所述平均间隔时间与预设的时间阈值的大小关系，确定发问结束静音时间。

作为本发明实施例的一种实施方式，上述预设的时间阈值可以包括第一预设时间阈值及第二预设时间阈值，其中，所述第一预设时间阈值大于第二预设时间阈值；

上述第二确定子模块可以包括：

第四确定单元(图4中未示出)，用于当所述平均间隔时间大于所述第一预设时间阈值时，确定发问结束静音时间为第四静音时间；

第五确定单元(图4中未示出)，用于当所述平均间隔时间小于所述第一预设时间阈值，且大于所述第二预设时间阈值时，确定发问结束静音时间为第五静音时间；

第六确定单元(图4中未示出)，用于当所述平均间隔时间小于所述第二预设时间阈值时，确定发问结束静音时间为第六静音时间。

其中，所述第四静音时间大于所述第五静音时间，所述第五静音时间大于所述第六静音时间。

作为本发明实施例的一种实施方式，上述装置还可以包括：

指令响应模块(图4中未示出)，用于在所述根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间的步骤之后，当检测到获取的所述智能语音终端当前采集的用户语音信号对应的静音时间达到所确定的发问结束静音时间时，响应所述当前采集的用户语音信号对应的用户指令。

其中，所述用户指令为根据所述当前采集的用户语音信号的语义确定的指令。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现如下步骤：

获取智能语音终端采集的用户语音信号；

确定所述用户语音信号的语速信息，其中，所述语速信息为标识所述用户语音信号的语速特征的信息；

根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间。

可见，本发明实施例所提供的方案中，电子设备可以首先获取智能语音终端采集的用户语音信号，然后确定用户语音信号的语速信息，最后根据语速信息及预设的静音时间设置规则，确定发问结束静音时间，其中，语速信息为标识用户语音信号的语速特征的信息。采用该方式确定发问结束静音时间，可以根据用户的语速特征设定合理的发问结束静音时间，针对不同语速的用户，智能语音终端也可以准确响应，大大提高智能语音终端的响应准确度及用户体验。

上述电子设备提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect，pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture，eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(randomaccessmemory，ram)，也可以包括非易失性存储器(non-volatilememory，nvm)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(centralprocessingunit，cpu)、网络处理器(networkprocessor，np)等；还可以是数字信号处理器(digitalsignalprocessing，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

其中，上述获取智能语音终端采集的用户语音信号的步骤，可以包括：

实时获取智能语音终端采集的用户语音信号；

上述确定所述用户语音信号的语速信息的步骤之前，可以包括：

监控所述用户语音信号的时长达到预设时长；

上述根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间的步骤，可以包括：

根据所述语速信息及预设的静音时间设置规则，确定当前获取的用户语音信号对应的发问结束静音时间。

其中，上述语速信息可以为平均语速；

上述确定所述用户语音信号的语速信息的步骤，可以包括：

获取所述用户语音信号的时长；

对所述用户语音信号进行语音识别，得到所述用户语音信号对应的文字数量；

根据所述文字数量及所述时长，确定所述用户语音信号的平均语速。

其中，上述根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间的步骤，可以包括：

根据所述平均语速与预设的语速阈值的大小关系，确定发问结束静音时间。

其中，上述预设的语速阈值可以包括第一预设语速阈值及第二预设语速阈值，其中，所述第一预设语速阈值小于第二预设语速阈值；

上述根据所述平均语速与预设的语速阈值的大小关系，确定发问结束静音时间的步骤，可以包括：

当所述平均语速小于所述第一预设语速阈值时，确定发问结束静音时间为第一静音时间；

当所述平均语速大于所述第一预设语速阈值，且小于所述第二预设语速阈值时，确定发问结束静音时间为第二静音时间；

上述语速信息可以为字与字的平均间隔时间；

上述确定所述用户语音信号的语速信息的步骤，可以包括：

对所述用户语音信号进行语音识别，得到所述用户语音信号对应的文字中相邻文字之间的间隔时间；

根据所述间隔时间，计算所述用户语音信号对应的平均间隔时间。

其中，上述根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间的步骤，可以包括：

根据所述平均间隔时间与预设的时间阈值的大小关系，确定发问结束静音时间。

其中，上述预设的时间阈值可以包括第一预设时间阈值及第二预设时间阈值，其中，所述第一预设时间阈值大于第二预设时间阈值；

上述根据所述平均间隔时间与预设的时间阈值的大小关系，确定发问结束静音时间的步骤，可以包括：

当所述平均间隔时间大于所述第一预设时间阈值时，确定发问结束静音时间为第四静音时间；

当所述平均间隔时间小于所述第一预设时间阈值，且大于所述第二预设时间阈值时，确定发问结束静音时间为第五静音时间；

其中，在上述根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间的步骤之后，上述方法还可以包括：

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取智能语音终端采集的用户语音信号；

确定所述用户语音信号的语速信息，其中，所述语速信息为标识所述用户语音信号的语速特征的信息；

根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间。

可见，本发明实施例所提供的方案中，计算机程序被处理器执行时，首先获取智能语音终端采集的用户语音信号，然后确定用户语音信号的语速信息，最后根据语速信息及预设的静音时间设置规则，确定发问结束静音时间，其中，语速信息为标识用户语音信号的语速特征的信息。采用该方式确定发问结束静音时间，可以根据用户的语速特征设定合理的发问结束静音时间，针对不同语速的用户，智能语音终端也可以准确响应，大大提高智能语音终端的响应准确度及用户体验。

其中，上述获取智能语音终端采集的用户语音信号的步骤，可以包括：

实时获取智能语音终端采集的用户语音信号；

上述确定所述用户语音信号的语速信息的步骤之前，可以包括：

监控所述用户语音信号的时长达到预设时长；

上述根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间的步骤，可以包括：

根据所述语速信息及预设的静音时间设置规则，确定当前获取的用户语音信号对应的发问结束静音时间。

其中，上述语速信息可以为平均语速；

上述确定所述用户语音信号的语速信息的步骤，可以包括：

获取所述用户语音信号的时长；

对所述用户语音信号进行语音识别，得到所述用户语音信号对应的文字数量；

根据所述文字数量及所述时长，确定所述用户语音信号的平均语速。

其中，上述根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间的步骤，可以包括：

根据所述平均语速与预设的语速阈值的大小关系，确定发问结束静音时间。

其中，上述预设的语速阈值可以包括第一预设语速阈值及第二预设语速阈值，其中，所述第一预设语速阈值小于第二预设语速阈值；

上述根据所述平均语速与预设的语速阈值的大小关系，确定发问结束静音时间的步骤，可以包括：

当所述平均语速小于所述第一预设语速阈值时，确定发问结束静音时间为第一静音时间；

当所述平均语速大于所述第一预设语速阈值，且小于所述第二预设语速阈值时，确定发问结束静音时间为第二静音时间；

上述语速信息可以为字与字的平均间隔时间；

上述确定所述用户语音信号的语速信息的步骤，可以包括：

对所述用户语音信号进行语音识别，得到所述用户语音信号对应的文字中相邻文字之间的间隔时间；

根据所述间隔时间，计算所述用户语音信号对应的平均间隔时间。

其中，上述根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间的步骤，可以包括：

根据所述平均间隔时间与预设的时间阈值的大小关系，确定发问结束静音时间。

其中，上述预设的时间阈值可以包括第一预设时间阈值及第二预设时间阈值，其中，所述第一预设时间阈值大于第二预设时间阈值；

上述根据所述平均间隔时间与预设的时间阈值的大小关系，确定发问结束静音时间的步骤，可以包括：

当所述平均间隔时间大于所述第一预设时间阈值时，确定发问结束静音时间为第四静音时间；

当所述平均间隔时间小于所述第一预设时间阈值，且大于所述第二预设时间阈值时，确定发问结束静音时间为第五静音时间；

其中，在上述根据所述语速信息及预设的静音时间设置规则，确定发问结束静音时间的步骤之后，上述方法还可以包括：

需要说明的是，对于上述装置、电子设备及计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

进一步需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高慧湍;李宝祥
技术所有人：北京猎户星空科技有限公司
我是此专利的发明人

上一篇：一种能够调节湿气的香椿种植大棚的制作方法
上一篇：一种多功能车载冰箱的制作方法