一种实现车内话者分离的方法及系统与流程

文档序号：33034654发布日期：2023-01-24 18:58阅读：43来源：国知局

1.本发明涉及车联网中人机交互领域，尤其涉及车内话者分离的实现方法及系统。

背景技术：

2.随着经济的发展，尤其是汽车工业的发展，现在社会的汽车数量越来越多，伴随着人们生活水平的提高，将汽车用作代步工具已经非常普遍，消费者在购车时对于车辆的配置要求也越来越高，但目前市场上常见的汽车配置都满足不了消费者对车辆人性化、智能化的要求。
3.尤其是在人机交互的过程中，目前基于车联网的人机交互已经发展到需要实现话者分离，或者说话者识别的程度。话者分离(话者识别)指的是能够通过语音来确认说话人的身份，区分不同说话者的说话内容。这一方面能够解决车内多名乘客同时给予指令，系统无法识别的问题，另一方面，在车载领域，还能够有针对性地对不同的说话人的指令进行分别处理。实现话者分离在车载环境中能够区分驾驶员和乘客，从而能够设计不同的身份可以响应的行为来提高驾驶安全性。举例来说，若驾驶员语音控制需要看电影，系统并不会响应，而乘客语音控制需要看电影，则能够响应。
4.若要实现话者分离，对硬件有一定的要求，需要在车内形成麦克风矩阵。这就要求车辆在出厂时需要已经形成固定的车内麦克风矩阵。因此，对车辆的出厂要求较高。也就使得很多老款的车辆无法及时享用话者分离技术。
5.有鉴于此，希望能够提供一种方法及系统，能够在实现话者分离的同时降低对车辆本身的硬件要求，从而能够有助于更多的车辆具有话者分离的功能。

技术实现要素：

6.以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
7.本发明的一个目的在于提供一种实现车内话者分离的方法及系统，其优势在于，能够通过多个外置的智能终端及其在车厢内的位置信息来构成麦克风矩阵，从而为实现车内话者分离提供了可能。本发明所提供的方法及系统对车辆的原始硬件要求不高，成本低廉，应用场景更为广泛。
8.本发明的另一个目的在于提供一种实现车内话者分离的方法及系统，其优势在于，本发明提供一种带有感应芯片的支架，能够在智能终端被放入支架后，通过感应上述感应芯片来与车机终端建立通信通道并获取智能终端在车厢内部的位置信息，整个过程无感化，用户体验良好。
9.本发明的优势和特点可通过下面的详细说明得以充分体现并可通过所附的示意性实施例得以实现。
10.本发明的一方面提供了一种实现车内话者分离的方法，具体包括：
11.响应于多个外置的智能终端均分别与车机终端建立通信通道，各个智能终端基于各自的通信通道输出各自在车厢内部的位置信息至上述车机终端；以及
12.各个智能终端将各自采集的车内录音输出至上述车机终端，以使上述车机终端至少基于各个智能终端的位置信息对同一时段的车内录音进行话者分离。
13.在上述方法的一实施例中，上述车厢内部的多个区域设置有感应芯片，响应于感应到上述感应芯片，各个智能终端与上述车机终端建立通信通道。
14.在上述的实施例中，各个感应芯片内包含有该感应芯片所在区域的位置信息，各个智能终端通过感应到的感应芯片获取各自在车内的位置信息。
15.进一步的，各个感应芯片分别设置在各个用以放置上述智能终端的支架内，响应于上述智能终端被放置在上述支架内，上述智能终端感应到上述感应芯片。
16.本发明的另一方面还提供了一种实现车内话者分离的系统，包括车机终端和多个外置的智能终端；其中
17.响应于多个外置的智能终端均分别与车机终端建立通信通道，各个智能终端基于各自的通信通道输出各自在车厢内部的位置信息至上述车机终端；以及
18.各个智能终端将各自采集的车内录音输出至上述车机终端，以使上述车机终端至少基于各个智能终端的位置信息对同一时段的车内录音进行话者分离。
19.在上述系统的一实施例中，上述车厢内部的多个区域设置有感应芯片，响应于感应到上述感应芯片，各个智能终端与上述车机终端建立通信通道。
20.在上述的实施例中，各个感应芯片内包含有该感应芯片所在区域的位置信息，各个智能终端通过感应到的感应芯片获取各自在车内的位置信息。
21.进一步的，各个感应芯片分别设置在各个用以放置上述智能终端的支架内，响应于上述智能终端被放置在上述支架内，上述智能终端感应到上述感应芯片。
附图说明
22.在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
23.图1示出了本发明的一方面所提供的实现车内话者分离的方法的流程图。
24.图2示出了本发明的另一方面所提供的实现车内话者分离的系统的结构示意图。
25.附图标记
26.200
ꢀꢀꢀꢀꢀꢀꢀꢀ
系统
27.210
ꢀꢀꢀꢀꢀꢀꢀꢀ
车机终端
28.220
ꢀꢀꢀꢀꢀꢀꢀꢀ
智能终端
具体实施方式
29.以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。
30.给出以下描述以使得本领域技术人员能够实施和使用本发明并将其结合到具体
应用背景中。各种变型、以及在不同应用中的各种使用对于本领域技术人员将是容易显见的，并且本文定义的一般性原理可适用于较宽范围的实施例。由此，本发明并不限于本文中给出的实施例，而是应被授予与本文中公开的原理和新颖性特征相一致的最广义的范围。
31.在以下详细描述中，阐述了许多特定细节以提供对本发明的更透彻理解。然而，对于本领域技术人员显而易见的是，本发明的实践可不必局限于这些具体细节。换言之，公知的结构和器件以框图形式示出而没有详细显示，以避免模糊本发明。
32.请读者注意与本说明书同时提交的且对公众查阅本说明书开放的所有文件及文献，且所有这样的文件及文献的内容以参考方式并入本文。除非另有直接说明，否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此，除非另有明确说明，否则所公开的每一个特征仅是一组等效或类似特征的一个示例。
33.注意，在使用到的情况下，标志左、右、前、后、顶、底、正、反、顺时针和逆时针仅仅是出于方便的目的所使用的，而并不暗示任何具体的固定方向。事实上，它们被用于反映对象的各个部分之间的相对位置和/或方向。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。
34.注意，在使用到的情况下，进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头，该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。
35.以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。
36.如上文所描述的，为了解决现有的技术中在车载环境下实现话者分离技术对车辆的硬件有较高的要求，使话者分离技术无法更为广泛地应用在车载人机交互领域，本发明提供了一种实现车内话者分离的方法及系统，能够降低对车辆的硬件要求，从而能够有助于更多的车辆具有话者分离的功能。
37.请结合图1来理解本发明所提供的实现车内话者分离的方法的流程图。如图1所示出的，本发明的一方面所提供的方法包括：
38.步骤s110：响应于多个外置的智能终端均分别与车机终端建立通信通道，各个智能终端基于各自的通信通道输出各自在车厢内部的位置信息至所述车机终端；以及
39.步骤s120：各个智能终端将各自采集的车内录音输出至所述车机终端，以使所述车机终端至少基于各个智能终端的位置信息对同一时段的车内录音进行话者分离。
40.需要注意的是，若已经具有了足够的数据，现有技术中已经能够通过软件的方式实现话者分离的功能。因此，对于本发明来说，只需要车辆上搭载有可以不断更新升级的车机终端，则可以通过不断升级车机终端来使车机终端在得到足够的数据的情况下实现话者分离的功能。可以理解的是，本领域技术人员可以采用现有或将有的软件、算法来实现话者分离，话者分离功能的具体处理方法不应不当地限制本发明的保护范围。
41.而足够的数据则需要足够的硬件设备来进行收集。为了降低对车辆的硬件要求，本发明系通过外置的智能终端来实现话者分离功能前段的数据收集。可以理解的是，外置的智能终端指向例如用户的智能手机、智能平板电脑等终端。并且，为了实现话者分离，对
于这些外置的智能终端，需要其具有通信和麦克风功能，能够获取车载环境中的车内录音，并且能够将车内录音输出给车机终端来进行话者分离的后续处理。
42.上述的外置的智能终端的数量通常在1-5个范围内。优选的，智能终端的数量可以关联于车辆内部座位的数量，或者车内乘客的个数，从而能够有针对性地对各个乘客的语音命令进行区别。关于智能终端的具体数量不应不当地限制本发明的保护范围。
43.通过处于同一个通信网络中的多个智能终端，能够形成与现有技术中实现话者分离功能常用的麦克风矩阵类似的智能终端矩阵。在本发明中，为了降低后续对多个外置智能终端收集的音频数据进行话者分离处理的难度，本发明所提供的方法在步骤s110中需要将各个智能终端在车厢内部的位置信息发送给车机终端。
44.随后在步骤s120中，各个智能终端将各自采集的车内录音输出至车机终端，以使得车机终端能够基于各个智能终端的位置信息对同一时段的车内录音进行话者分离。
45.需要注意的是，在上述的步骤s120中，智能终端输出至车机终端的车内录音均为已经经过编码等处理的音频数据，而并非最为原始的数据。由于现有技术中的硬件为麦克风矩阵，虽然能够实现数据的收集，但无法进行数据的处理，也就是说，在这种情况下，对于进行数据处理的车机终端而言，其还需要将麦克风收集的原始数据转换为能够进行操作处理的数据格式。而在本发明中，由于智能终端不仅仅具有麦克风的功能，还能够直接将智能终端的麦克风收集的数据转化为可以处理的数据格式后再输出给车机终端，对于车机终端而言，能够有效降低车机终端处理的工作量。
46.在一实施例中，本发明所提供的方法在步骤s110之前，还包括步骤s100：使各个智能终端与车机终端建立通信通道的步骤。
47.具体的，在一实施例中，各个智能终端是在接收到用户的连接指令之后，才与车机终端建立起通信通道。并且在该实施例中，各个智能终端在车厢内部的位置信息是从用户的连接指令中获取的。
48.在另一优选的实施例中，为了使整个功能实现得无感化，还需要在车厢内部的多个区域分别设置感应芯片。当智能终端感应到感应芯片时，能够自动地与车机终端开始建立通信通道。
49.进一步的，各个感应芯片内部包含有该感应芯片所在区域的位置芯片，从而能够在智能终端感应到芯片时获取感应芯片内部的位置信息，以该位置信息作为智能终端在车厢内部的位置信息。
50.在上述的实施例中，可以理解的是，上述的感应芯片可以是例如采用无线射频识别技术(rfid)的芯片，或者可以是采用近距离无线通信(nfc)的芯片。需要注意的是，本领域技术人员可以采用现有或将有的其他技术来提供能够带有位置信息的、可被感应的感应芯片，上述关于感应芯片的实现方法不应不当地限制本发明的保护范围。
51.在具有感应芯片的实施例中，用户并不需要发出实际的连接指令，并且也不需要在连接指令中设置智能终端在车厢内部的位置信息，能够大大降低用户的工作量，方便了客户。
52.更为优选的，在上述具有感应芯片的实施例中，各个感应芯片分别设置在各个用以放置所述智能终端的支架内。通过将感应芯片放置在支架内的方式，响应于智能终端被放置在所述支架内，智能终端能够感应到感应芯片，从而能够开始与车机终端建立通信通
道的步骤。
53.在上述优选的实施例中，由于用户只需要将移动终端放入对应的支架即可以实现智能终端与车机的连接，继而能够将位置信息传输给车机终端，并且能够采集车内录音数据，以便于话者分离功能的实现。整个过程中，需要用户协作的步骤非常少，因此，在该优选的实施例中，可以认为更彻底地实现了话者分离功能的无感化，用户感受更为良好。
54.需要注意的是，上述的支架应该具有可以被用来放置智能终端、可以设置感应芯片的作用，本领域技术人员可以根据现有或将有的技术来提供支架，支架的具体构造、制造方法等不应不当地限制本发明的保护范围。另外，可以理解的是，本领域技术人员能够根据实际需要在车厢内部的合适位置设置多个上述的支架，合适的位置可以指向正对乘客座位的位置。支架的数量和设置的位置同样不应不当地限制本发明的保护方位。
55.上述外置的智能终端与车机终端之间建立的通信通道可以是蓝牙信道、基于usb连接的通道、wifi信道中的一者或多者。可以理解的是，上述关于通信通道的举例不应不当地限制本发明的保护范围，本领域技术人员能够根据现有或将有的通信技术实现车机终端与外设的智能终端之间的通信连接，从而在车机终端与外设的智能终端之间构建起通信通道。
56.在另一实施例中，为了提高智能终端在车内位置信息的准确性，从而能够有助于车机终端更好地实现话者分离功能，本发明所提供的方法中，在步骤s120中，各个智能终端在将各自采集的车内录音输出至车机终端的同时还输出该车内录音采集时段内各个智能终端在车内的位置信息至车机终端。
57.也就是说，在上述的实施例中，每一次智能终端输出车内录音给车机终端，都会对应地将此时智能终端的位置信息发送给车机终端，这能够避免由于在使用过程中，用户将智能终端移动位置，导致定位不够准确的问题。
58.在上述的实施例中，可以通过在每次需要输出车内录音给车机终端前询问用户告知智能终端所在的位置信息来实现获取最新的位置信息的功能。或者，在具有感应芯片的实施例中，可以在每次输出车内录音给车机终端前主动再获取感应芯片内部的位置信息，以防止位置出现变化。
59.需要注意的是，本领域技术人员可以通过例如预设车厢内部的位置坐标系，通过预设固定参考点等方式来实现智能终端在车厢内部的位置信息的表达，关于位置信息的具体表现形式不应不当地限制本发明的保护范围。
60.根据本发明的另一方面，响应于各个智能终端与所述车机终端建立了通信通道，各个智能终端持续采集车内录音并输出至车机终端。也就是说，在该实施例中，智能终端始终保持车内语音的收集状态，因此，在这种模式下，相当于时刻保持待机状态，用户可以通过语音指令来唤醒智能终端，从而顺利地进行相关语音指令的收集。能够使整个交互过程无感，使用感较为良好。
61.在另一实施例中，各个智能终端仅响应于用户的操作开始采集车内录音。也就是说，在该实施例中，智能终端并不会持续收集车内录音，而是响应于用户的操作开始录音。在该实施例中，由于智能终端不用始终保持待机状态，能够有效地降低能耗。并且，由于是响应于用户的指令，能够保证响应用户指令的准确性和及时性。
62.至此，已经描述了本发明所提供的一种实现车内话者分离的方法的具体实现方
法。根据本发明的一方面所提供的一种实现车内话者分离的方法，能够通过多个外置的智能终端及其在车厢内的位置信息来构成麦克风矩阵，从而为实现车内话者分离提供了可能。本发明所提供的方法及系统对车辆的原始硬件要求不高，成本低廉，应用场景更为广泛。
63.在优选的实施例中，本发明还提供了一种带有感应芯片的支架，能够在智能终端被放入支架后，通过感应上述感应芯片来与车机终端建立通信通道并获取智能终端在车厢内部的位置信息，整个过程无感化，用户体验良好。
64.本发明的另一方面还提供了一种实现车内话者分离的系统。请参考图2。如图2所示出的，本发明所提供的实现车内话者分离的系统200包括车机终端210和多个外置的智能终端220；其中
65.响应于多个外置的智能终端220均分别与车机终端210建立通信通道，各个智能终端220基于各自的通信通道输出各自在车厢内部的位置信息至上述车机终端210；以及
66.各个智能终端220将各自采集的车内录音输出至上述车机终端210，以使上述车机终端210至少基于各个智能终端220的位置信息对同一时段的车内录音进行话者分离。
67.在另一实施例中，本发明所提供的系统200还包括多个感应芯片，分别设置在车厢内部的多个区域。响应于感应到上述感应芯片，各个智能终端220与上述车机终端210建立通信通道。
68.在上述的实施例中，可以理解的是，上述的感应芯片可以是例如采用无线射频识别技术(rfid)的芯片，或者可以是采用近距离无线通信(nfc)的芯片。需要注意的是，本领域技术人员可以采用现有或将有的其他技术来提供能够带有位置信息的、可被感应的感应芯片，上述关于感应芯片的实现方法不应不当地限制本发明的保护范围。
69.在上述具有感应芯片的实施例中，更为优选的，本发明所提供的系统200还包括多个支架，各个感应芯片设置在对应的支架内，上述支架用以放置智能终端220。当智能终端220被放置在支架内后，能够顺利地感应到设置在支架内部的感应芯片，从而能够在感应到芯片后与车机终端210建立通信通道。
70.需要注意的是，上述的支架应该具有可以被用来放置智能终端220、可以设置感应芯片的作用，本领域技术人员可以根据现有或将有的技术来提供支架，支架的具体构造、制造方法等不应不当地限制本发明的保护范围。另外，可以理解的是，本领域技术人员能够根据实际需要在车厢内部的合适位置设置多个上述的支架，合适的位置可以指向正对乘客座位的位置。支架的数量和设置的位置同样不应不当地限制本发明的保护方位。
71.对于本发明所提供的车机终端210，其至少包括处理器和存储器，处理器在执行存储在存储器上的计算机可读指令时实现会对应地实现上文所描述的与车机终端210关联的步骤，具体请参考上文关于的方法描述，在此不再赘述。
72.类似的，本发明所提供的智能终端220，其至少包括处理器、存储器以及麦克风设备，麦克风设备在处理器的控制下采集车内录音，处理器在执行存储在存储器上的计算机可读指令时实现会对应地实现上文所描述的与智能终端220关联的步骤，具体请参考上文关于的方法描述，在此不再赘述。
73.上述的外置的智能终端220的数量通常在1-5个范围内。优选的，智能终端220的数量可以关联于车辆内部座位的数量，或者车内乘客的个数，从而能够有针对性地对各个乘
客的语音命令进行区别。关于智能终端220的具体数量不应不当地限制本发明的保护范围。
74.本发明所提供的实现车内话者分离的系统，能够通过多个外置的智能终端及其在车厢内的位置信息来构成麦克风矩阵，从而为实现车内话者分离提供了可能。本发明所提供的方法及系统对车辆的原始硬件要求不高，成本低廉，应用场景更为广泛。
75.优选的，本发明提供一种带有感应芯片的支架，能够在智能终端被放入支架后，通过感应上述感应芯片来与车机终端建立通信通道并获取智能终端在车厢内部的位置信息，整个过程无感化，用户体验良好。
76.结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如dsp与微处理器的组合、多个微处理器、与dsp核心协作的一个或多个微处理器、或任何其他此类配置。
77.结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可移动盘、cd-rom、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在asic中。asic可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。
78.在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括ram、rom、eeprom、cd-rom或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(dsl)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、dsl、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(cd)、激光碟、光碟、数字多用碟(dvd)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
79.提供之前的描述是为了使本领域中的任何技术人员均能够实践本文中所描述的各种方面。但是应该理解，本发明的保护范围应当以所附权利要求书为准，而不应被限定于以上所解说实施例的具体结构和组件。本领域技术人员在本发明的精神和范围内，可以对各实施例进行各种变动和修改，这些变动和修改也落在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：唐涛田发景
技术所有人：上海擎感智能科技有限公司
我是此专利的发明人

上一篇：一种多角度快速调节光学元件的装置及方法
上一篇：一种园林照明装置、照明控制方法及照明系统与流程