基于连续语音的多轮交互方法、装置、介质及设备与流程

文档序号：33191157发布日期：2023-02-04 08:31阅读：84来源：国知局

1.本发明涉及语音交互技术领域，特别是涉及基于连续语音的多轮交互方法、装置、介质及设备。

背景技术：

2.在当前的人机语音交互场景中，多轮语音交互方式较为繁琐，计算机在检测到一段语音到理解这段语音的时间内无法同时处理新的语音，而是必须在完成这段语音的语义解析后才能再次处理新的语音。在计算机理解语音的时间段内，用户只能无奈地等待，导致用户体验不佳，不能满足用户快速、准确的人机交互需求。

技术实现要素：

3.鉴于以上所述现有技术的缺点，本发明的目的在于提供基于连续语音的多轮交互方法、装置、介质及设备，用于解决现有技术中的以上不足。
4.为实现上述目的及其他相关目的，本发明提供一种基于连续语音的多轮交互方法，包括步骤：获取第一语音，在所述获取第一语音的过程中持续检测用户停顿；在检测到所述用户停顿时，进行语句划分；在停止获取所述第一语音之后，解析划分后的各第一语句的语义信息；根据所述第一语音的各所述语义信息执行相应操作。
5.于本发明一实施例中，所述方法还包括：在所述解析划分后的各第一语句的语义信息的步骤之后，按时间顺序存储各所述语义信息。
6.于本发明一实施例中，所述方法还包括：在所述解析划分后的各第一语句的语义信息的步骤之后，显示所述第一语音的各所述语义信息。
7.于本发明一实施例中，所述方法还包括：在解析所述第一语音的过程中，若获取第二语音，则抛弃对所述第一语音的解析；在所述获取第二语音的过程中持续检测用户停顿；在检测到所述用户停顿时，进行语句划分；在停止获取所述第二语音之后，解析划分后的各第二语句的语义信息；根据所述第二语音的各所述语义信息执行相应操作。
8.于本发明一实施例中，所述方法还包括：在所述解析划分后的各第二语句的语义信息的步骤之后，显示所述第二语音的各所述语义信息。
9.于本发明一实施例中，所述第一或第二语音为用户说出的在线预订需求信息。
10.于本发明一实施例中，所述在线预订需求信息包括：预订对象语句、预订地点语句、预订时间语句及预订入住日期语句中的至少两者。
11.为实现上述目的及其他相关目的，本发明提供一种基于连续语音的多轮交互装置，包括：语音获取模块，用于获取第一语音；语句划分模块，用于在所述语音获取模块获取第一语音的过程中持续检测用户停顿，并在检测到所述用户停顿时，进行语句划分；语义解析模块，用于在所述语音获取模块停止获取所述第一语音之后，解析划分后的各第一语句的语义信息；语音交互模块，用于根据所述第一语音的各所述语义信息执行相应操作。
12.为实现上述目的及其他相关目的，本发明提供一种计算机可读存储介质，其中存
储有计算机程序，所述计算机程序被处理器加载执行时，实现所述的基于连续语音的多轮交互方法。
13.为实现上述目的及其他相关目的，本发明提供一种电子设备，包括：处理器及存储器；其中，所述存储器用于存储计算机程序；所述处理器用于加载执行所述计算机程序，以使所述电子设备执行所述的基于连续语音的多轮交互方法。
14.如上所述，本发明的基于连续语音的多轮交互方法、装置、介质及设备，获取第一语音，在所述获取第一语音的过程中持续检测用户停顿；在检测到所述用户停顿时，进行语句划分；在停止获取所述第一语音之后，解析划分后的各第一语句的语义信息；根据所述第一语音的各所述语义信息执行相应操作；本发明等用户连续语音都采集完后再一起解析，从而节省了多轮交互中用户的等待时间，可以更加快速地、更加灵敏地进行连续语音的多轮交互。
附图说明
15.图1显示为现有技术中多轮场景下的人机交互流程图。
16.图2显示为本发明一实施例中基于连续语音的多轮交互方法的流程图。
17.图3显示为本发明另一实施例中基于连续语音的多轮交互方法的流程图。
18.图4显示为本发明一实施例中基于连续语音的多轮交互装置的模块图。
19.图5显示为本发明一实施例中电子设备的结构示意图。
具体实施方式
20.以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。
21.需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。
22.如图1所示，显示为现有技术中多轮场景下(订酒店)的人机交互流程图。需说明的是，图1以订酒店为例展示了现有多轮场景的人机交互流程，但多轮场景并不仅限于此，还可以为订机票、导航、点餐等等，由于篇幅有限便不一一列举。
23.在图1所示的示例中，用户与计算机共进行了5次交互，通过这5次交互才最终完成了酒店的预订，具体的：
24.第一次，用户说出语音“帮我订个酒店”，车机/语音识别模块识别该语音并解析该语音的语义，完成后播放语音“住哪里的酒店？”；
25.第二次，用户说出语音“南京市玄武区”，车机/语音识别模块识别该语音并解析该语音的语义，完成后播放语音“住几天？”；
26.第三次，用户说出语音“1天”，车机/语音识别模块识别该语音并解析该语音的语
义，完成后播放语音“入住日期？”；
27.第四次，用户说出语音“今天”，车机/语音识别模块识别该语音并解析该语音的语义，完成后播放语音“已找到一家酒店，是否支付？”；
28.第五次，用户说出语音“确认支付”，车机/语音识别模块完成订酒店的服务。
29.在这5次人机交互中，每次交互过程中的语义解析期间，用户只能等待，不能连续说出指令，因为计算机在此期间内无法再次处理新语音。在这5次人机交互中，用户总共等待的时间为四次语义解析的时间，人机交互耗费的时间较长，用户体验较差。
30.鉴于现有技术中的以上不足，本技术提出一种基于连续语音的多轮交互方法，用户可以连续说出语音，等用户连续语音都采集完后再一起解析，从而可以快速、灵敏地给出最终交互结果，大大节省了用户多轮交互时间，有效提升了用户使用体验。以下将结合附图对该技术原理的实现做详细阐述。
31.如图2所示，本实施例提供一种基于连续语音的多轮交互方法，包括以下步骤：
32.s21：获取第一语音，在所述获取第一语音的过程中持续检测用户停顿；
33.具体的，第一语音优选来源于登录授权的用户，而非其他用户。例如，在人与车机的交互场景中，该登录授权的用户一般是车主，而不是其他乘客。
34.举例而言，该第一语音为用户所说的“帮我订个酒店-南京市玄武区-1天-今天入住”，其中
“‑”
为用户停顿，该停顿的时间通常较短，如1～2秒钟，具体数值可自行定义。随着用户连续说出语音，若检测到1～2秒种的空白则认为是用户停顿。
35.第一语音可以为用户说出的在线预订需求信息，或者其它任意意图的指令信息，其中，所述在线预订需求信息包括：预订对象语句、预订地点语句、预订时间语句、预订入住日期语句等，比如“帮我订个酒店”、“南京市玄武区”、“1天”、“今天入住”等。若用户对返回的酒店结果不满意，还可以说出新的需求，从而重新搜索其它酒店。
36.s22：在检测到所述用户停顿时，进行语句划分；
37.具体的，在检测到第一个用户停顿时，从用户语音首次开始至此次停顿之间的语音信息划分为语句1，在检测到第二个用户停顿时，将用户语音第二次开始至此次停顿之间的语音信息划分为语句2，以此类推，直至在停止获取语音时，将用户语音最后一次开始至结束之间的语音信息划分为语句n。
38.其中，可预先设置停止语音获取的时间，例如获取语音的时间为1分钟，1分钟后则停止获取用户语音；或者，可预先设置语音停止的标志，例如语音持续5秒钟空白，当5秒内没有检测到用户语音，则认为用户已经停止说出语音，从而结束对用户语音的获取。
39.s23：在停止获取所述第一语音之后，解析划分后的各第一语句的语义信息；
40.具体的，在获取了用户连续的语音信息后，识别得到了该连续语音中的各个语句，分别对每个语句进行语义解析，从而分析用户语音指令的意图。
41.较佳的，在解析划分后的各第一语句的语义信息之后，按时间顺序存储各所述语义信息。例如，用户说出语音“帮我订个酒店-南京市玄武区-1天-今天入住”，通过检测停顿和语句划分，识别出该连续语音所包含的语句为语句1“帮我订个酒店”、语句2“南京市玄武区”、语句3“1天”、语句4“今天入住”，则按照语句1～4的顺序存储、显示语义信息。
42.s24：根据所述第一语音的各所述语义信息执行相应操作。
43.举例而言，用户说出语音“帮我订个酒店-南京市玄武区-1天-今天入住”，通过检
测停顿和语句划分，识别出该连续语音所包含的语句为“帮我订个酒店”、“南京市玄武区”、“1天”、“今天入住”，进而向用户展示符合用户预订需求的酒店信息，包括但不限于酒店名称、位置、图片、住宿费等。当检测到用户说出语音“确认支付”后，为用户预订今天南京市玄武区的酒店，并支付1天的住宿费。
44.如图3所示，在另一实施例中，在解析所述第一语音的过程中用户又说出了语音，此时执行如下步骤：
45.s31：抛弃对所述第一语音的解析；
46.s32：在所述获取第二语音的过程中持续检测用户停顿；
47.s33：在检测到所述用户停顿时，进行语句划分；
48.s34：在停止获取所述第二语音之后，解析划分后的各第二语句的语义信息；
49.s35：根据所述第二语音的各所述语义信息执行相应操作。
50.由于步骤s32～s35的具体实施方式相似于步骤s21～s24，故于此不再重复赘述。
51.在一实施例中，本技术的基于连续语音的多轮交互方法在解析语义时增加nlu队列(nlu全称为natural language understanding，即语义理解)，如果在语义理解结果返回以前用户开始继续交互，则抛弃本次语义理解不做处理，即从nlu队列中删除此次语义理解任务，转而处理用户新语音。
52.需要说明的是，本技术不对方法步骤的执行主体加以限制，以上方法可由一台电子设备负责执行，或几台电子设备共同协作执行。例如，由车机、网关、汽车中控、asr服务器(asr全称为automatic speech recognition，即语音识别)协作执行本方法，车机采集车主的语音信息并经网关、汽车中控传至asr服务器，由asr服务器执行前述步骤s21～s24，在解析所述第一语音的过程中用户又说出了语音，asr服务器则执行步骤s31～s35，执行结果可以经汽车中控、网关返回至车机进行显示。
53.参阅图4，本实施例提供一种基于连续语音的多轮交互装置40，由于本实施例的技术原理与前述方法实施例的技术原理相似，因而不再对同样的技术细节做重复性赘述。本实施例的基于连续语音的多轮交互装置40包括如下模块：语音获取模块41、语句划分模块42、语义解析模块43、语音交互模块44。
54.语音获取模块41用于获取第一语音；
55.语句划分模块42用于在所述语音获取模块获取第一语音的过程中持续检测用户停顿，并在检测到所述用户停顿时，进行语句划分；
56.语义解析模块43用于在所述语音获取模块停止获取所述第一语音之后，解析划分后的各第一语句的语义信息；另外，还用于按时间顺序存储、显示各所述语义信息；
57.语音交互模块44用于根据所述第一语音的各所述语义信息执行相应操作。
58.如图5所示，本技术还提供一种电子设备，所述电子设备为智能手机、平板电脑、便携式电脑、台式机、车机等，用以执行前述实施例介绍的基于连续语音的多轮交互方法。
59.图5显示的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。如图5所示，电子设备以通用计算设备的形式表现，其组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
60.总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，
外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(isa)总线，微通道体系结构(mac)总线，增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。
61.该电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。
62.系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(ram)30和/或高速缓存存储器32。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如cd-rom，dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。
63.具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
64.电子设备也可以与一个或多个外部设备14(例如键盘、扬声器、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备交互的设备通信，和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且，电子设备还可以通过网络适配器20与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图5所示，网络适配器20通过总线18与电子设备的其它模块通信。应当明白，尽管图中未示出，可以结合该电子设备使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
65.所属技术领域的技术人员知道，本发明的各个方面可以实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。
66.可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的
有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
67.计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
68.计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、rf等等，或者上述的任意合适的组合。
69.可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
70.应当理解，本发明的方法都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
71.也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。
72.也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。
73.综上，本发明的基于连续语音的多轮交互方法、装置、介质及设备，等用户连续语音都采集完后再一起解析，节省了多轮交互中用户的等待时间，从而可以更加快速地、更加灵敏地进行连续语音的多轮交互，有效克服了现有技术中的种种缺点而具高度产业利用价值。
74.上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：褚枭阳
技术所有人：博泰车联网（南京）有限公司
我是此专利的发明人

上一篇：PE板卡接密封机构的制作方法
上一篇：分体滑撬控制方法、装置、计算机设备和存储介质与流程