一种引领机器人语音信息的生成方法、装置和引领机器人与流程

文档序号：29253771发布日期：2022-03-16 10:37阅读：99来源：国知局

1.本公开涉及引领机器人技术领域，尤其涉及一种引领机器人语音信息的生成方法、装置和引领机器人。

背景技术：

2.目前在一些商场或写字楼场景下，已经有使用机器人来为来访者提供引领服务。来访者可以向这些机器人讲出自己想要到达的目标地点，便可以获得相应的导航信息，或者机器人便可以通过语音的方式为来访者讲解导航信息，非常的方便和智能。不过，现有的这些机器人一般仅支持中文或英文，如果来访者是讲其它语言或方言，那么机器人可能则无法识别来访者的讲话内容，从而无法完成引领服务。

技术实现要素：

3.有鉴于此，本公开实施例提供了一种引领机器人语音信息的生成方法、装置和引领机器人，以解决现有技术中引领机器人支持语言类型少，不能提为更多语言类型的来访者提供引领服务的问题。
4.本公开实施例的第一方面，提供了一种引领机器人语音信息的生成方法，包括：在引领机器人检测到有来访者需要引领帮助时，获取该来访者的语音信号；识别该语音信号的语言类型；基于该语言类型，确定该引领机器人的应答语音信号的生成方式，该生成方式包括本地方式和服务器方式；基于该生成方式生成与该来访者的语言类型对应的应答语音信号，并在该引领机器人上播放该应答语音信号。
5.本公开实施例的第二方面，提供了一种引领机器人语音信息的生成装置，包括：语音获取模块，被配置为在引领机器人检测到有来访者需要引领帮助时，获取该来访者的语音信号；语音识别模块，被配置为识别该语音信号的语言类型；方式确认模块，被配置为基于该语言类型，确定该引领机器人的应答语音信号的生成方式，该生成方式包括本地方式和服务器方式；语音生成模块，被配置为基于该生成方式生成与该来访者的语言类型对应的应答语音信号，并在该引领机器人上播放该应答语音信号。
6.本公开实施例的第三方面，提供了一种引领机器人，包括扬声器、显示器和计算设备，该计算设备分别与扬声器和显示器连接，该计算设备包括存储器、处理器以及存储在存储器中并且可以在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。
7.本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。
8.本公开实施例与现有技术相比存在的有益效果是：通过在引领机器人检测到有来访者需要引领帮助时，获取该来访者的语音信号；识别该语音信号的语言类型；基于该语言类型，确定该引领机器人的应答语音信号的生成方式，该生成方式包括本地方式和服务器方式；基于该生成方式生成与该来访者的语言类型对应的应答语音信号，并在该引领机器
人上播放该应答语音信号，实现了根据语言类型的不同，选择在引领机器人或服务器上来生成应对来访者的应答语音信号，使引领机器人能够应对更多不同语种的来访者，增大了服务范围。
附图说明
9.为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。
10.图1是本公开实施例的应用场景的场景示意图；
11.图2是本公开实施例提供的一种引领机器人语音信息的生成方法的流程示意图；
12.图3是本公开实施例提供的一种引领机器人语音信息的生成装置的结构示意图；
13.图4是本公开实施例提供的一种计算设备的结构示意图。
具体实施方式
14.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。
15.下面将结合附图详细说明根据本公开实施例的一种引领机器人语音信息的生成方法和装置。
16.图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括机器人1、用户2、服务器3和网络4。
17.机器人1通过网络4与服务器3连接，在本公开应用场景下，机器人1可以为引领机器人，用于为用户2提供导航或引领服务。具体地，机器人1上可以包括扬声器11和显示器12，扬声器11可以用于播放引领相关的语音信息，例如播放导航信息；显示器12可以用于显示与引领或导航相关的信息，例如，显示器12可以显示信息输入界面，供用户2输入目标地点。
18.服务器3可以是提供各种服务的服务器，例如，对与其建立通信连接的机器人1发送的请求进行接收的后台服务器，该后台服务器可以对机器人1发送的请求进行接收和分析等处理，并生成处理结果。服务器4可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本公开实施例对此不作限制。
19.需要说明的是，服务器3可以是硬件，也可以是软件。当服务器3为硬件时，其可以是为机器人1提供各种服务的各种电子设备。当服务器3为软件时，其可以是为机器人1提供各种服务的多个软件或软件模块，也可以是为机器人1提供各种服务的单个软件或软件模块，本公开实施例对此不作限制。
20.网络4可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，wifi，本公开实施例对此不作限制。
21.用户2可以向机器人1讲出包含自己想要去到的目标地点的语音信号，机器人1在
接收到用户2的语音信号之后，识别语音信号的语言类型，并根据语音类型的不同，如果语言类型是引领机器人默认的语言类型，那么机器人1将根据该目标地点生成对应的应答语音信号；如果语言类型不是引领机器人默认的语言类型，那么机器人1将用户2的语音信号发送给服务器3，由服务器3根据该语音信号的语言。
22.需要说明的是，机器人1、服务器3以及网络4的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本公开实施例对此不作限制。
23.图2是本公开实施例提供的一种引领机器人语音信息的生成方法的流程图。图2的引领机器人语音信息的生成方法可以由图1的机器人1执行。如图2所示，该引领机器人语音信息的生成方法包括：
24.s201，在引领机器人检测到有来访者需要引领帮助时，获取该来访者的语音信号；
25.s202，识别该语音信号的语言类型；
26.s203，基于该语言类型，确定该引领机器人的应答语音信号的生成方式，该生成方式包括本地方式和服务器方式；
27.s204，基于该生成方式生成与该来访者的语言类型对应的应答语音信号，并在该引领机器人上播放该应答语音信号。
28.具体地，在本地方式下，可以直接在引领机器人上生成应答来访者的应答语音信号。例如，引领机器人的默认语言类型为中文或普通话，当来访者使用中文向引领机器人发出包含目标地点的语音信号时，引领机器人可以在本地生成应答该目标地点的导航语音信息，即应答语音信号。在服务器方式下，引领机器人只需要将来访者的语音信号发送给服务器，并从服务器接收应答来访者的应答语音信号，即由服务器来生成应对来访者的应答语音信号。例如，引领机器人的默认语言类型为中文或普通话，当来访者使用英文向引领机器人发出包含目标地点的语音信号，那么引领机器人将该语音信号转发给服务器，服务器将识别该语音信号的内容，得到目标地点，然后生成该目标地点的应答信息，并根据该应答信息生成对应的应答语音信号，并返回给引领机器人，引领机器人接收该应答语音信号，并在引领机器人上播放该应答语音信号。由于服务器具有更强的信息处理能力，因此能够提供除了默认语言类型之外的其他语言类型的语音信号的分析处理能力。
29.本公开实施例通过对来访者发出的语音信号的语言信号进行识别，根据语言类型的不同，选择在引领机器人或服务器上来生成应对来访者的应答语音信号，使引领机器人能够应对更多不同语种的来访者，增大了服务范围。
30.在一些实施例中，该基于该语言类型，确定该引领机器人的应答语音信号的生成方式，该生成方式包括本地方式和服务器方式，包括：检测该语音信号的语言类型是否为默认语言类型；若是，则确定以本地方式生成该引领机器人的应答语音信号；若不是，则确定以服务器方式生成该引领机器人的应答语音信号。
31.具体地，默认语言类型可以是用户根据使用场景来自行设置的一种或多种语言类型，也可以是用户对已经设置的默认语言类型进行调整后的新的默认语言类型，本公开实施例对此不作限制。在本公开实施例中，优选为引领机器人预先设置一种默认语言类型，例如，中文。
32.本公开实施例针对来访者使用机器人默认语言类型来发出语音信号时，可以由引领机器人来快速得到相应的应答语音信号。
33.在一些实施例中，在确定以本地方式生成该引领机器人的应答语音信号的情况下，该基于该生成方式生成与该来访者的语言类型对应的应答语音信号，包括：对该来访者的语音信号进行识别，得到该语音识别的翻译信息；将该翻译信息输入预先训练的导航应答模型，得到该导航应答模型输出的应答信息；基于该应答信息生成默认语言类型的应答语音信号。
34.具体地，导航应答模型可以是预先利用对话模板样本进行学习得到的机器学习模型，利用导航应答模型可以智能地回答来访者的问题。例如，来访者的语音信号对应的翻译信息为：我想去目标地点a，那么将该翻译信息输入导航问答模型中，便可以自动得到相应的导航信息，并将该导航信息生成默认语言类型的应答语音信号，让来访者可以通过引领机器人播放的应答语音信号来了解所问目标地点的导航信息。
35.本公开实施例通过预先建立对应来访者语音信号的导航应答模型，来智能生成应对来访者的应答语音信号，使得引领机器人具有较高的智能性，并且能够快速响应来访者的语音信号。
36.在一些实施例中，在确定以服务器方式生成该引领机器人的应答语音信号的情况下，该基于该生成方式生成与该来访者的语言类型对应的应答语音信号，包括：将该来访者的语音信号发送至服务器，请求该服务器生成与该来访者的语音信号的语言类型一致的应答语音信号，该服务器与该引领机器人网络连接；接收该服务器返回的应答语音信号。
37.具体地，相比于引领机器人，服务器具有更丰富的计算资源和运算能力，因此，可以由服务器来应对非默认语言类型的语音信号，能够快速地得到应答语音信号。
38.结合图1应用场景来说，假设引领机器人为图1机器人1，那么服务器3可以通过网络4与一个或多个机器人1连接，在机器人1检测到用户2发出的语音信号不是默认语言类型的情况下，将语音信号发送给服务器3，由服务器3对该语音信号进行识别，得到对应的翻译信息，同样可以利用预先训练的导航应答模型或其他机器学习模型来智能生成对应的应答信息，并将该应答信息编码为与来访者的语音信号的语言类型一致的应答语音信号，并将应答语音信号返回给机器人1。在本公开实施例中，为了提高机器人1与服务器3之间的通信速度，机器人1与服务器3之间可以采用有线网络连接，即在局域网下来为机器人1提供服务。
39.本公开实施例通过服务器来生成来访者的应答语音信号，可以进一步扩大引领机器人的语言服务范围。
40.在一些实施例中，该获取该来访者的语音信号，包括：若在预设时间内未接收到语音信号，则在该引领机器人的显示屏幕上显示信息输入界面，并提示该来访者在该信息输入界面上输入想要查询的目标地点。
41.具体地，引领机器人检测到有来访者需要引领帮助时，可能有些来访者并不会及时发出语音信号来寻求引领帮助，或者也可能不能发出语音信号。例如，在来访者为残障人士时，可能来访者不能说话，那么引领机器人则无法获取到语音信号。
42.在本公开实施例中，如果在预设时间内引领机器人没有接受到语音信号，则可以在引领机器人上显示信息输入界面来供来访者进行手动输入引领信息。这样，使得来访者除了可以使用语音来寻求引领服务之外，也可以使用手动输入信息的方式来获取引领服务。
43.具体地，预设时间可以是用户根据经验数据设置的时间阈值，也可以是用户对已经设置的预设时间进行调整后得到的新的时间阈值，本公开实施例对此不作限制。
44.本公开实施例针对来访者未发出语音信号或未在规定时间内发出语音信号的情况提供了额外的信息输入方式，使引领机器人能够应对更多不同情况的来访者，并提供更人性化和周到的引领服务。
45.在一些实施例中，该识别该语音信号的语言类型，包括：基于该来访者在该信息输入界面上输入的引领信息确定应答该引领信息的语言类型。
46.具体地，如果来访使用信息输入界面来向引领机器人发送想要查询的信息，例如，来访者在信息输入界面输入目标地点，则可以引领机器人可以根据来访者输入的内容来确定来访者所使用的语言类型，以便后续生成与该语言类型一致的应答语言信息。
47.进一步地，当用户采用信息输入界面来输入想要查询的目标地点时，引领机器人在生成应答语音信息的同时，可以在播放该应答语音信息的同时，还在该信息输入界面显示该应答语音信息对应的语音内容，使得如果来访者不具备听力的情况下，还可以通过信息输入界面显示的内容来获取引领信息。
48.本公开针对用户手动输入需要查询的信息的情况提供了相对应的语言类型识别方式，以及在播放应答语音信息的同时，还提供内容显示的方式来使来访者能够及时获取到引领信息。
49.在一些实施例中，该识别该语音信号的语言类型，包括：在无法识别出该语音信号的语言类型的情况下，控制该引领机器人开启远程视频窗口，由人工通过该远程视频窗口与该来访者进行视频通话。
50.具体地，实际中来访者发出的语音信号的语言类型可能并不在引领机器人和服务器预设范围内，或者，来访者发出的语音信息不标准，也或是来访者讲的是方言等情况下，此时，引领机器人可能无法识别来访者的语音信号对应的语言类型。对于这些场景，引领机器人可以开启远程视频窗口来为来访者提供人工服务，即由人员与来访者进行视频通话，从而解决来访者的引领服务。
51.本公开实施例通过设置远程视频窗口来应对引领机器人和服务器的服务能力范围之外的情况，使得引领机器人能够应对各种不同场景的来访者，尽可能地避免了无法为来访者提供引领服务的情况。
52.上述所有可选技术方案，可以采用任意结合形成本技术的可选实施例，在此不再一一赘述。
53.下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。
54.图3是本公开实施例提供的一种引领机器人语音信息的生成装置的示意图。如图3所示，该引领机器人语音信息的生成装置包括：
55.语音获取模块301，被配置为在引领机器人检测到有来访者需要引领帮助时，获取该来访者的语音信号；
56.语音识别模块302，被配置为识别该语音信号的语言类型；
57.方式确认模块303，被配置为基于该语言类型，确定该引领机器人的应答语音信号的生成方式，该生成方式包括本地方式和服务器方式；
58.语音生成模块304，被配置为基于该生成方式生成与该来访者的语言类型对应的应答语音信号，并在该引领机器人上播放该应答语音信号。
59.本公开实施例通过对来访者发出的语音信号的语言信号进行识别，根据语言类型的不同，选择在引领机器人或服务器上来生成应对来访者的应答语音信号，使引领机器人能够应对更多不同语种的来访者，增大了服务范围。
60.在一些实施例中，图3中的方式确认模块303检测该语音信号的语言类型是否为默认语言类型；若是，则确定以本地方式生成该引领机器人的应答语音信号；若不是，则确定以服务器方式生成该引领机器人的应答语音信号。
61.在一些实施例中，在确定以本地方式生成该引领机器人的应答语音信号的情况下，图3中的语音生成模块304对该来访者的语音信号进行识别，得到该语音识别的翻译信息；将该翻译信息输入预先训练的导航应答模型，得到该导航应答模型输出的应答信息；基于该应答信息生成默认语言类型的应答语音信号。
62.在一些实施例中，在确定以服务器方式生成该引领机器人的应答语音信号的情况下，图3中的语音生成模块304将该来访者的语音信号发送至服务器，请求该服务器生成与该来访者的语音信号的语言类型一致的应答语音信号，该服务器与该引领机器人网络连接；接收该服务器返回的应答语音信号。
63.在一些实施例中，图3中的语音获取模块301用于若在预设时间内未接收到语音信号，则在该引领机器人的显示屏幕上显示信息输入界面，并提示该来访者在该信息输入界面上输入想要查询的目标地点。
64.在一些实施例中，图3中的语音识别模块302基于该来访者在该信息输入界面上输入的引领信息确定应答该引领信息的语言类型。
65.在一些实施例中，图3中的语音识别模块302在无法识别出该语音信号的语言类型的情况下，该引领机器人语音信息的生成装置还包括：视频通话模块305，被配置为控制该引领机器人开启远程视频窗口，由人工通过该远程视频窗口与该来访者进行视频通话。
66.应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。
67.图4是本公开实施例提供的计算设备400的示意图。图4中的计算设备4可以应用图1应用场景下的机器人1中，例如，机器人1可以包括扬声器、显示器和计算设备4，计算设备分别与扬声器和显示器连接。如图4所示，该实施例的计算设备400包括：处理器401、存储器402以及存储在该存储器402中并且可以在处理器401上运行的计算机程序403。处理器401执行计算机程序403时实现上述各个方法实施例中的步骤。或者，处理器401执行计算机程序403时实现上述各装置实施例中各模块/单元的功能。
68.示例性地，计算机程序403可以被分割成一个或多个模块/单元，一个或多个模块/单元被存储在存储器402中，并由处理器401执行，以完成本公开。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序403在计算设备400中的执行过程。
69.计算设备400可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。计算设备400可以包括但不仅限于处理器401和存储器402。本领域技术人员可以理解，图4
仅仅是计算设备400的示例，并不构成对计算设备400的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如，计算设备还可以包括输入输出设备、网络接入设备、总线等。
70.处理器401可以是中央处理单元(central processing unit，cpu)，也可以是其它通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field-programmable gate array，fpga)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
71.存储器402可以是计算设备400的内部存储单元，例如，计算设备400的硬盘或内存。存储器402也可以是计算设备400的外部存储设备，例如，计算设备400上配备的插接式硬盘，智能存储卡(smart media card，smc)，安全数字(secure digital，sd)卡，闪存卡(flash card)等。进一步地，存储器402还可以既包括计算设备400的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及计算设备所需的其它程序和数据。存储器402还可以用于暂时地存储已经输出或者将要输出的数据。
72.所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
73.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。
74.本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。
75.在本公开所提供的实施例中，应该理解到，所揭露的装置/计算设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。
76.作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
77.另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
78.集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
79.以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张卫芳李旭支涛
技术所有人：北京云迹科技有限公司
我是此专利的发明人

上一篇：基于资源转移的安全防护方法、装置、系统和计算机设备与流程
上一篇：一种移动基站用冷却液的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、平老师：1.功能涂层设计与应用 2.柔性电子器件设计与应用 3.结构动态参数测试与装置研发 4.智能机电一体化产品研发 5.3D打印工艺与设备
2、潘老师：1.机电一体化装备及其控制技术 2.多传感器信息融合与质量评定
3、王老师：机械制造
4、袁老师：1.薄膜气敏传感器 2.薄膜太阳能电池
5、李老师：新型电力电子技术在微网中的应用
如您是高校老师，可以点此联系我们加入专家库。