一种语音处理方法、装置及计算机存储介质与流程

文档序号：30055614发布日期：2022-05-17 17:55阅读：86来源：国知局

1.本发明涉及语音处理技术领域，特别是涉及一种语音处理方法、装置及计算机存储介质。

背景技术：

2.智能音箱是在传统音箱的基础上，结合通信技术、传感技术或其他互联网技术，使之在扩音的基础功能之上，拥有更多新的、符合现代生活场景的功能。智能音箱不仅被视为未来智能家居智能物联的核心交互原件，同时也被认为是人工智能各类内容技能集合体。然而，现有的智能音箱只能用于与用户进行简单对话，无法实现不同用户之间的语音交互，而如何通过音箱设备实现不同用户之间的语音交互一直处于研究之中。
3.前面的叙述在于提供一般的背景信息，并不一定构成现有技术。

技术实现要素：

4.本发明的一个目的是提供一语音处理方法、装置及计算机存储介质，其优势在于通过音箱设备实现不同用户之间的语音交互。
5.本发明的另一个目的是提供一语音处理方法、装置及计算机存储介质，其优势在于可以基于用户的实时位置确定用于输出语音的音箱设备，从而确保不同用户之间语音交互的及时性。
6.本发明的另一个目的是提供一语音处理方法、装置及计算机存储介质，其优势在于能够根据获取到的用户语音，快速确定用户语音对应的接收方账户。
7.本发明的另一个目的是提供一语音处理方法、装置及计算机存储介质，其优势在于能够根据用户输入的需求自动检测提醒条件的满足，并准确、及时的输出提醒的语音。
8.本发明的另一个目的是提供一语音处理方法、装置及计算机存储介质，其优势在于在满足用户隐私条件的情形下才播放语音，避免了信息泄露，更好地保护用户隐私。
9.本发明的其它优势和特点通过下述的详细说明得以充分体现并可通过所附权利要求中特地指出的手段和装置的组合得以实现。
10.依本发明的一个发明，能够实现前述目的和其它目的和优势的本发明的一语音处理方法，包括以下步骤：
11.获取第一语音，所述第一语音携带有接收方信息；
12.基于所述接收方信息，确定接收方账户；以及
13.在满足预设条件时，经由目标音箱设备播放所述第一语音；其中，所述目标音箱设备为所述接收方账户登录的音箱设备。
14.根据本发明的一个实施例，所述基于所述接收方信息，确定接收方账户，包括以下步骤：
15.基于采集所述第一语音的音箱设备的设备标识，查询已存储的不同音箱设备的设备标识与账户之间的登录对应关系，获得与所述设备标识对应的目标账户；
16.获取所述目标账户的通讯录信息；以及
17.基于所述目标账户的通讯录信息和所述接收方信息，确定接收方账户。如此，无需用户额外输入接收方账户，且能够快速确定接收方账户，进一步提升了用户使用体验。
18.根据本发明的一个实施例，所述根据所述目标账户的通讯录信息和所述接收方信息，确定接收方账户，包括以下步骤：
19.在基于所述目标账户的通讯录信息确定有多个与所述接收方信息相匹配的用户或无与所述接收方信息相匹配的用户时，基于预设信息，选择满足预设规则的用户对应的账户为接收方账户，和/或基于输入的选择指令，选择所述选择指令所指示的用户对应的账户为接收方账户。如此，在基于通讯录信息和接收方信息无法直接确定接收方账户时，通过结合预设信息和/或输入的选择操作确定接收方账户，操作灵活且准确度高。
20.根据本发明的一个实施例，所述预设条件包括以下条件中的至少一种：
21.检测到所述接收方账户登录音箱设备；
22.检测到所述接收方账户对应的接收方用户在所述目标音箱设备附近；以及
23.检测到只有所述接收方账户对应的接收方用户和指定用户在所述目标音箱设备附近，所述指定用户为所述接收方用户预先设置的。如此，能够确保语音被真正的接收方及时获知且减少信息泄露风险，提高了语音交互安全性和隐私性。
24.相应的，本发明提供一种执行上述方法的语音处理装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：获取第一语音，所述第一语音携带有接收方信息；基于所述接收方信息，确定接收方账户；以及在满足预设条件时，经由目标音箱设备播放所述第一语音；其中，所述目标音箱设备为所述接收方账户登录的音箱设备。
25.相应的，本发明提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音处理方法的步骤。
附图说明
26.图1为本发明实施例提供的语音处理方法的应用环境示意图；
27.图2为本发明实施例提供的语音处理方法的流程示意图；
28.图3为本发明实施例提供的语音处理方法的交互示意图；
29.图4为本发明实施例提供的语音处理装置的结构示意图。
具体实施方式
30.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
31.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该
要素的过程、方法、物品或者装置中还存在另外的相同要素，此外，本技术不同实施例中具有同样命名的部件、特征、要素可能具有相同含义，也可能具有不同含义，其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。
32.应当理解，尽管在本文可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本文范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语"如果"可以被解释成为"在
……
时"或"当
……
时"或"响应于确定"。再者，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“a、b或c”或者“a、b和/或c”意味着“以下任一个：a；b；c；a和b；a和c；b和c；a、b和c”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。
33.应该理解的是，虽然本技术实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
34.需要说明的是，在本文中，采用了诸如s101、s102等步骤代号，其目的是为了更清楚简要地表述相应内容，不构成顺序上的实质性限制，本领域技术人员在具体实施时，可能会先执行s102后执行s101等，但这些均应在本技术的保护范围之内。
35.应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
36.在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本技术的说明，其本身没有特定的意义。因此，“模块”、“部件”或者“单元”可以混合地使用。
37.图1为本发明实施例提供的语音处理方法的应用环境示意图，音箱设备1与服务器2之间通过网络3进行数据交互。音箱设备1在用户登录服务器2之后，接收输入的携带有接收方信息的第一语音，并将所述第一语音向服务器2发送；服务器2获取所述第一语音后，基于所述接收方信息，确定接收方账户，以及在满足预设条件时，经由所述接收方账户登录的音箱设备1播放所述第一语音，从而简单且快速地通过音箱设备实现不同用户之间的语音交互。其中，接收第一语音的音箱设备1与所述接收方账户登录的音箱设备1可为同一音箱设备，也可为不同音箱设备。需要说明的是，所述音箱设备1可以为车机、车载音箱、智能音箱等设备。此外，图1中仅分别示出两个音箱设备，以作为示例性说明，实际应用中可为一个或多个。可选地，音箱设备1或服务器2也可以执行以下步骤：在获取携带有接收方信息的第一语音后，基于所述接收方信息，确定接收方账户，以及在满足预设条件时，经由目标音箱设备播放所述第一语音，其中，所述目标音箱设备为所述接收方账户登录的音箱设备。
38.参阅图2，为本发明实施例提供的语音处理方法的流程示意图，该语音处理方法可
以由本发明实施例提供的一种语音处理装置来执行，该语音处理装置可以采用软件和/或硬件的方式来实现，该语音处理装置具体可以是图1中的音箱设备1或服务器2，所述语音处理方法包括以下步骤：
39.步骤s101：获取第一语音，所述第一语音携带有接收方信息；
40.在一个实施例中，所述语音处理方法的执行主体为音箱设备，音箱设备获取第一语音可以是响应于检测到预设唤醒按键被触发，获取第一语音，和/或，响应于接收到预设唤醒语音或预设唤醒词，获取第一语音。如此，通过快速唤醒操作以实现快速获取语音，提高了语音处理效率。这里，音箱设备可通过麦克风等语音采集装置采集用户输入的携带有接收方信息的第一语音。此外，用户在唤醒音箱设备后，可控制音箱设备进行登录。而音箱设备可支持一种或多种登录方式，例如，音箱设备可以支持声纹登录、指纹登录、人脸登录、语音指令登录等，具体地，对于不同用户，可分别设置不同的语音指令作为登录验证信息，如第一用户可将语音指令“小音，芝麻开门”作为登录验证信息，第二用户可将语音指令“小音，哆来咪”作为登录验证信息。当然，音箱设备也可通过连接的具有管理应用程序的移动终端进行登录。为了引导用户登录账户，音箱设备可播放登录提示音频或展示登录提示消息等。
41.在一个实施例中，音箱设备获取第一语音之前，所述方法还可包括以下步骤：获取登录验证信息，并向服务器发送音箱设备的设备标识和所述登录验证信息，以登录目标账户。其中，所述音箱设备的设备标识可以是该音箱设备所具有的唯一的标识信息，比如音箱设备上预置的条形码、二维码或电子产品代码等。以所述登录验证信息为登录验证语音为例，所述音箱设备获取到用户输入的登录验证语音后，将所述登录验证语音和音箱设备的设备标识向服务器发送，以请求服务器对所述登录验证语音进行验证而登录对应的目标账户。可以理解地，音箱设备向服务器发送所述音箱设备的设备标识的目的是使服务器在对所述登录验证信息验证通过后，将所述音箱设备的设备标识与所述目标账户进行关联，以完成登录并方便后续语音交互操作。此外，服务器在对所述登录验证信息验证通过，以允许目标账户登录所述音箱设备后，可向所述音箱设备发送验证通过响应消息和与所述目标账户相关的信息如用户姓名等。
42.在另一个实施例中，所述语音处理方法的执行主体为服务器，服务器获取第一语音可以是接收音箱设备发送的第一语音。这里，向服务器发送第一语音的音箱设备可称为发送方账户或发送方用户登录的音箱设备。
43.需要说明的是，所述接收方信息可以包括以下信息至少一种：接收方姓名、昵称、账户等，比如，所述第一语音中可包含“妈”、“爸”等昵称。当然，所述接收方信息可以是一个接收方信息，也可以是多个接收方信息。此外，所述第一语音还可携带有发送方账户或发送方用户登录的音箱设备的设备标识。
44.步骤s102：基于所述接收方信息，确定接收方账户；
45.具体地，基于采集所述第一语音的音箱设备的设备标识，查询已存储的不同音箱设备的设备标识与账户之间的登录对应关系，获得与所述设备标识对应的目标账户；获取所述目标账户的通讯录信息；以及基于所述目标账户的通讯录信息和所述接收方信息，确定接收方账户。如此，无需用户额外输入接收方账户，且能够快速确定接收方账户，进一步提升了用户使用体验。
46.在一个实施例中，所述语音处理方法的执行主体为音箱设备，音箱设备基于所述接收方信息，确定接收方账户可具体包括以下步骤：音箱设备查询本地的通讯录信息，将与所述接收方信息匹配的用户对应的账号作为接收方账户；或者，音箱设备向服务器发送携带有所述接收方信息和音箱设备的设备标识的查询请求，以查询服务器中存储的不同音箱设备的设备标识与账户之间的登录对应关系，并接收所述服务器基于所述查询请求返回的与所述设备标识对应的目标账户的通讯录信息，以及基于所述目标账户的通讯录信息和所述接收方信息，确定接收方账户。
47.在另一个实施例中，所述语音处理方法的执行主体为服务器，服务器基于所述接收方信息，确定接收方账户可具体包括以下步骤：服务器基于所述音箱设备的设备标识，查询已存储的不同音箱设备的设备标识与账户之间的登录对应关系，获得与所述设备标识对应的目标账户；获取所述目标账户的通讯录信息；以及基于所述目标账户的通讯录信息和所述接收方信息，确定接收方账户。可以理解地，服务器在接收到音箱设备发送的携带有接收方信息的第一语音后，相应获知音箱设备想要将第一语音发送给所述接收方信息对应的接收方用户，此时需要先确定登录所述音箱设备的目标账户，也可称为发送方账户。当不同用户或同一用户使用不同账户登录同一或不同音箱设备时，服务器可以记录各账户登录的音箱设备的设备标识与账户之间的登录对应关系，以方便管理音箱设备与账户。在一实施例中，所述方法还可包括：服务器接收所述音箱设备发送的所述音箱设备的设备标识和登录验证信息，根据存储的不同登录验证信息与账户的对应关系对所述登录验证信息进行验证，在验证通过后使所述音箱设备登录与所述登录验证信息对应的目标账户，以及存储所述音箱设备的设备标识与所述目标账户之间的登录对应关系。这里，在音箱设备进行账户登录的过程中，服务器在接收到所述音箱设备发送的所述音箱设备的设备标识和登录验证信息后，将已存储的不同登录验证信息与账户的对应关系对所述登录验证信息进行验证，即比较已存储的登录验证信息是否包含所述音箱设备发送的登录验证信息，若包含，说明对所述登录验证信息的验证通过，此时可相应获知与所述登录验证信息对应的目标账户，并存储所述音箱设备的设备标识与所述目标账户之间的登录对应关系。需要说明的是，所述登录验证信息可以为语音信息、指纹信息或人脸图像等。此外，服务器在对所述音箱设备发送的登录验证信息的验证通过后，还可向所述音箱设备发送验证通过响应消息，以指示所述音箱设备已登录目标账户。同时，所述验证通过响应消息也可携带有所述目标账户信息。此外，服务器存储的不同登录验证信息与账户的对应关系是在用户注册账户时获取的。
48.其中，与手机上的通讯录、微信的通讯录、qq的联系人列表等类似，所述目标账户的通讯录信息包括有不同用户的姓名或昵称以及对应账户等数据，如好友的姓名和对应账户、家人的昵称和对应账户等。这里，所述对应账户包括但不限于手机号码、sim卡信息、社交账号或支付账号等。以使用手机号码注册账户为例，第一用户使用手机号码a作为账户在服务器中注册，第一用户的爸爸使用手机号码b作为账户在服务器中注册，第一用户可通过加好友操作等方式将其爸爸在服务器中注册的账户即手机号码b加入自身账户的通讯录中，并将对应联系人姓名设置为昵称“爸爸”；当然，服务器也可通过提取第一用户的手机上的通讯录数据，根据该通讯录数据确定第一用户的所有联系人中已在服务器中注册的联系人，并向第一用户推荐是否将某一个或多个已注册的联系人加入到自身账户的通讯录中。
49.在一个实施例中，所述基于所述目标账户的通讯录信息和所述接收方信息，确定
接收方账户可包括以下步骤：查询所述目标账户的通讯录信息，确定与所述接收方姓名或昵称匹配的用户对应的账户为接收方账户。例如，若所述接收方信息包括接收方姓名“张三”，则查询所述目标账户的通讯录信息，以将通讯录中用户“张三”对应的账户作为接收方账户。
50.在另一个实施例中，所述基于所述目标账户的通讯录信息和所述接收方信息，确定接收方账户可包括以下步骤：在基于所述目标账户的通讯录信息确定有多个与所述接收方信息相匹配的用户或无与所述接收方信息相匹配的用户时，基于预设信息，选择满足预设规则的用户对应的账户为接收方账户，和/或基于输入的选择指令，选择所述选择指令所指示的用户对应的账户为接收方账户。这里，预设信息和预设规则可根据实际情况需要进行设置，例如，若所述预设信息包括聊天记录，则所述预设规则可包括以下规则中的至少一种：在当前时间之前的预设时长内与所述发送方账户之间有聊天记录；以及对聊天记录对应的聊天对象的称呼与所述接收方信息相匹配。如此，通过简单筛选操作，能够快速且准确地确定接收方用户。举例说明如下：假设所述接收方信息包括昵称“陈老师”，而所述目标账户的通讯录信息记载有多个姓名或昵称为“陈老师”的用户，此时可将在当前时间之前的预设时间范围(例如10分钟或24小时)内有聊天记录的陈老师对应的账户作为接收方账户。或者，假设所述接收方信息包括昵称“小六子”，而所述目标账户的通讯录信息未记载有姓名或昵称为“小六子”的用户，此时可查询聊天记录中与不同聊天对象之间的聊天信息，若一聊天信息中包含“小六子，你在吗”或“小六子，明天一起去打篮球吗”等将聊天对象称呼为“小六子”的情况，则可将该聊天对象对应的账户作为接收方账户。需要说明的是，在基于所述目标账户的通讯录信息确定有多个与所述接收方信息相匹配的用户时，可输出多个与所述接收方信息相匹配的用户的信息以供用户进行选择，用户输入的选择指令可为语音选择指令，也可为触摸选择指令等。例如，假设与接收方信息“李四”相匹配的用户有多个，可语音输出多个与接收方信息“李四”相匹配的用户的信息，以供用户通过语音方式选择所需的接收方用户。如此，在基于通讯录信息和接收方信息无法直接确定接收方账户时，通过结合预设信息和/或输入的选择操作确定接收方账户，操作灵活且准确度高。
51.步骤s103：在满足预设条件时，经由目标音箱设备播放所述第一语音；其中，所述目标音箱设备为所述接收方账户登录的音箱设备。
52.在一个实施例中，当所述第一语音为提醒类语音，即所述第一语音的目的是提醒用户时，所述预设条件可包括以下条件中的至少一种：当前时间满足所述第一语音所指示的时间提醒条件；当前位置满足所述第一语音所指示的位置提醒条件；以及检测到所述第一语音所指示的事件发生。其中，所述当前时间满足所述第一语音所指示的时间提醒条件可以是当前时间达到或超过所述第一语音所指示的提醒时间，例如，假设所述第一语音为“下午两点半提醒我准时参加下午三点的会议”，若当前时间为下午两点半时，说明当前时间满足所述第一语音所指示的时间提醒条件，则经由目标音箱设备播放所述第一语音。所述当前位置满足所述第一语音所指示的位置提醒条件可以是当前位置位于所述第一语音所指示的提醒位置或当前位置与所述第一语音所指示的提醒位置小于预设距离等。例如，假设所述第一语音为“将要到达a酒店时提醒我”，若当前位置与a酒店之间的距离小于预设距离，说明当前位置满足所述第一语音所指示的位置提醒条件，则经由目标音箱设备播放所述第一语音。所述检测到所述第一语音所指示的事件发生可以是检测到所述第一语音所
指示的事件已发生或正在发生，例如，假设所述第一语音为“天气预报播放时提醒我”，若当前正在播报天气，则经由目标音箱设备播放所述第一语音。本实施例中，在所述第一语音满足以下至少一种要求时判定所述第一语音为提醒类语音，包括：未携带有接收方信息；携带的接收方信息对应接收方为发送方本人；检测到时间、地点或提醒等关键词。这里，在获取所述第一语音后，可直接识别所述第一语音是否为提醒类语音或其它类语音，也可先检测在获取到所述第一语音之前是否已获取到用于指示将输入提醒类语音的指示消息。如此，能够确保语音及时被接收方获知，提高了语音交互的有效性和便捷性。
53.在另一个实施例中，当所述第一语音为聊天类语音，即所述第一语音的目的是与用户对话或聊天时，所述预设条件可包括以下条件中的至少一种：检测到所述接收方账户登录音箱设备；检测到所述接收方账户对应的接收方用户在所述目标音箱设备附近；以及检测到只有所述接收方账户对应的接收方用户和指定用户在所述目标音箱设备附近，所述指定用户为所述接收方用户预先设置的或系统默认的。如此，能够确保语音被真正的接收方及时获知且减少信息泄露风险，提高了语音交互安全性和隐私性。这里，在一个实施例中，当所述语音处理方法的执行主体为音箱设备时，音箱设备检测所述接收方账户对应的接收方用户和/或指定用户是否在所述音箱设备附近的方式可以包括一种或多种，可选的，通过声纹识别、图像识别、红外检测、蓝牙信号强度中的至少一种方式或参数检测接收方账户对应的接收方用户和/或指定用户是否在所述音箱设备附近。可以理解地，所述音箱设备可以通过设置的声音采集装置如麦克风等采集周围环境中的声音，并对采集的声音进行声纹识别，以检测接收方账户对应的接收方用户和/或指定用户是否在所述音箱设备附近。例如，假设接收方账户对应的接收方用户使用语音登录音箱设备，音箱设备在获取到第一语音后，此时音箱设备采集周围环境中的声音，基于接收方账户对应的接收方用户登录时所输入的语音对采集的周围环境中的声音进行声纹识别，若识别成功，说明接收方账户对应的接收方用户在所述音箱设备附近。当然，所述音箱设备也可以通过设置的人体感应装置如红外探测器等检测接收方账户对应的接收方用户是否在所述音箱设备附近。此外，接收方账户对应的接收方用户可能使用移动终端或可穿戴设备与所述音箱设备建立蓝牙连接，此时所述音箱设备检测到的与移动终端或可穿戴设备之间的蓝牙信号强度可以表征接收方账户对应的接收方用户与所述音箱设备之间的距离，若所述蓝牙信号强度大于预设强度阈值，说明检测到接收方账户对应的接收方用户在所述音箱设备附近，否则说明接收方账户对应的接收方用户不在所述音箱设备附近。举例说明如下：假设用户通过车载音箱输入语音“妈，银行卡密码为123456”，用户的妈妈在使用自身对应账户登录家中的智能音箱且该智能音箱获取该语音后，该智能音箱根据不同场合决定是否输出该语音，比如在检测到只有用户的妈妈在家、或者只有用户的妈妈和其它指定家人在家时输出该语音，而在检测到除用户的妈妈和/或其它指定家人在家之外，还有客人在家时不输出该语音，以确保该语音能够被接收方及时获知且减少了信息泄露风险。
54.在另一个实施例中，当所述语音处理方法的执行主体为服务器时，服务器可通过检测是否接收到与所述接收方账户相关的登录验证信息以检测所述接收方账户是否登录音箱设备，此外，服务器也可通过接收音箱设备发送的检测结果以判断所述接收方账户对应的接收方用户是否在所述目标音箱设备附近，以及是否只有所述接收方账户对应的接收方用户和指定用户在所述目标音箱设备附近。例如，服务器接收到第一音箱设备发送的语
音后，若检测到该语音对应的接收方账户登录第二音箱设备，则可向第二音箱设备发送该语音，以使第二音箱设备播放该语音。
55.综上，上述实施例提供的语音处理方法中，在获取到第一语音后，基于所述第一语音中携带的接收方信息确定接收方账户，并在满足预设条件时，经由所述接收方账户登录的音箱设备播放所述第一语音，以通过音箱设备实现不同用户之间的语音交互；同时，可以基于用户的实时位置确定用于输出语音的音箱设备，从而确保不同用户之间语音交互的及时性；并且，能够根据获取到的用户语音，快速确定用户语音对应的接收方账户，能够根据用户输入的需求自动检测提醒条件的满足，并准确、及时的输出提醒的语音提升了用户使用体验；以及，在满足用户隐私条件的情形下才播放语音，避免了信息泄露，更好地保护用户隐私。
56.在另一个实施例中，所述第一语音还携带有发送方账户，所述方法还包括以下步骤：确定在预设时长内获取到第二语音时，经由所述发送方账户登录的音箱设备播放所述第二语音。这里，所述语音处理方法的执行主体为音箱设备，接收方账户登录的音箱设备确定在预设时长内获取到第二语音时，经由所述发送方账户登录的音箱设备播放所述第二语音，以实现快速语音交互。以音箱设备包括第一音箱设备和第二音箱设备为例，假设发送方用户向发送方账户登录的第一音箱设备输入第一语音，第一音箱设备通过服务器使接收方账户登录的第二音箱设备播放所述第一语音后，此时第二音箱设备在播放完所述第一语音后可在预设时长内保持唤醒、监听或激活状态，若接收方用户在预设时长内向第二音箱设备输入第二语音，则第二音箱设备确定将所述第一语音对应的发送方账户作为第二语音对应的接收方账户，再向服务器发送第二语音和所述第一语音对应的发送方账户，以通过服务器使发送方账户登录的第一音箱设备播放所述第二语音。其中，第一音箱设备与第二音箱设备可为同一音箱设备，也可为不同音箱设备。如此，确定在播放完第一语音之后的预设时长内获取到第二语音时，直接经由发送方账户登录的音箱设备播放第二语音，无需重新唤醒音箱设备，也无需重复接收方信息，操作便捷且提高了语音交互效率。
57.基于前述实施例相同的发明构思，下面通过具体应用场景对前述实施例的技术方案进行详细说明。本实施例中以所述语音处理方法的执行主体包括音箱设备和服务器，音箱设备包括第一音箱设备和第二音箱设备，且第一音箱设备为车机以及第二音箱设备为智能音箱为例，参见图3，为本发明实施例提供的一种语音处理方法的交互示意图，包括以下步骤：
58.步骤s201.车机获取用户输入登录验证语音；
59.本实施例中，以所述登录验证语音为“123”为例进行说明。
60.步骤s202.车机向服务器发送登录验证语音；
61.步骤s203.服务器对登录验证语音进行声纹识别；
62.具体地，服务器对登录验证语音“123”进行声纹识别，以查询是否有与发出该登录验证语音“123”的声纹匹配的用户。
63.步骤s204.服务器识别成功，控制车机登录目标账户；
64.这里，服务器对登录验证语音“123”声纹识别成功后，获取与用户对应的目标账户以控制车机登录目标账户，并向车机返回登录目标账户的响应消息。
65.步骤s205.车机获取用户输入第一语音；
66.本实施例中，以所述第一语音为“妈，晚点回家”为例进行说明。
67.步骤s206.车机发送第一语音至服务器；
68.这里，车机将第一语音“妈，晚点回家”向服务器发送。
69.步骤s207.服务器查找目标账户的通讯录中与第一语音对应的接收方账户；
70.这里，服务器查找目标账户的通讯录中用户的妈妈的账户，将其作为接收方账户。
71.步骤s208.服务器控制智能音箱登录接收方账户；
72.这里，智能音箱的用户可向智能音箱输入登录验证语音，智能音箱将该登录验证语音向服务器发送以请求登录接收方账户，服务器在对该登录验证语音验证通过后，向智能音箱发送登录接收方账户的响应消息，使得智能音箱成功登录接收方账户。
73.步骤s209.服务器向智能音箱发送第一语音；
74.这里，服务器检测到智能音箱的登录账号为接收方账户时，向智能音箱发送该第一语音。
75.步骤s210.智能音箱检测到满足预设条件时，播放该第一语音；
76.这里，智能音箱检测到该用户的妈妈在附近时，播放该第一语音。
77.步骤s211.智能音箱在预设时长内获取第二语音；
78.本实施例中，以第二语音为用户的妈妈输入的回复语音“好的，我去公园散步了”为例进行说明。例如，假设预设时长为10秒，用户的妈妈在智能音箱播放完第一语音“妈，晚点回家”后，5秒内回复第二语音“好的，我去公园散步了”，则智能音箱获取该第二语音。
79.步骤s212.智能音箱向服务器发送该第二语音；
80.步骤s213.服务器向车机发送该第二语音；
81.步骤s214.车机播放该第二语音。
82.如此，通过车机和智能音箱简单且快速地实现用户之间的语音交互，提升了用户使用体验。
83.基于前述实施例相同的发明构思，本发明实施例提供了一种语音处理装置，如图4所示，该语音处理装置可设置在服务器、车机、智能音箱等设备上，本领域技术人员可以不限定其设置和/或安装的具体位置，该语音处理装置包括：处理器110和用于存储能够在处理器110上运行的计算机程序的存储器111；其中，图4中示意的处理器110并非用于指代处理器110的个数为一个，而是仅用于指代处理器110相对其他器件的位置关系，在实际应用中，处理器110的个数可以为一个或多个；同样，图4中示意的存储器111也是同样的含义，即仅用于指代存储器111相对其他器件的位置关系，在实际应用中，存储器111的个数可以为一个或多个。
84.其中，所述处理器110用于运行所述计算机程序时，执行以下步骤：
85.获取第一语音，所述第一语音携带有接收方信息；
86.基于所述接收方信息，确定接收方账户；以及
87.在满足预设条件时，经由目标音箱设备播放所述第一语音；其中，所述目标音箱设备为所述接收方账户登录的音箱设备。
88.如此，通过音箱设备实现不同用户之间的语音交互；同时，可以基于用户的实时位置确定用于输出语音的音箱设备，从而确保不同用户之间语音交互的及时性；并且，能够根据获取到的用户语音，快速确定用户语音对应的接收方账户，能够根据用户输入的需求自
动检测提醒条件的满足，并准确、及时地输出提醒的语音提升了用户使用体验；以及，在满足用户隐私条件的情形下才播放语音，避免了信息泄露，更好地保护用户隐私。
89.在一个实施例中，所述第一语音还携带有发送方账户，所述处理器110用于运行所述计算机程序时，执行以下步骤：
90.确定在预设时长内获取到第二语音时，经由所述发送方账户登录的音箱设备播放所述第二语音。
91.在另一个实施例中，所述处理器110用于运行所述计算机程序时，执行以下步骤：
92.基于采集所述第一语音的音箱设备的设备标识，查询已存储的不同音箱设备的设备标识与账户之间的登录对应关系，获得与所述设备标识对应的目标账户；
93.获取所述目标账户的通讯录信息；以及
94.基于所述目标账户的通讯录信息和所述接收方信息，确定接收方账户。
95.如此，无需用户额外输入接收方账户，且能够快速确定接收方账户，进一步提升了用户使用体验。
96.在另一个实施例中，所述处理器110用于运行所述计算机程序时，执行以下步骤：
97.在基于所述目标账户的通讯录信息确定有多个与所述接收方信息相匹配的用户或无与所述接收方信息相匹配的用户时，基于预设信息，选择满足预设规则的用户对应的账户为接收方账户，和/或基于输入的选择指令，选择所述选择指令所指示的用户对应的账户为接收方账户。
98.如此，在基于通讯录信息和接收方信息无法直接确定接收方账户时，通过结合预设信息和/或输入的选择操作确定接收方账户，操作灵活且准确度高。
99.在另一个实施例中，所述预设信息包括聊天记录；所述预设规则包括以下规则中的至少一种：
100.在当前时间之前的预设时长内与所述发送方账户之间有聊天记录；以及
101.对聊天记录对应的聊天对象的称呼与所述接收方信息相匹配。
102.如此，通过简单筛选操作，能够快速且准确的确定接收方用户。
103.在另一个实施例中，所述预设条件包括以下条件中的至少一种：
104.当前时间满足所述第一语音所指示的时间提醒条件；
105.当前位置满足所述第一语音所指示的位置提醒条件；以及
106.检测到所述第一语音所指示的事件发生。
107.如此，能够确保语音及时被接收方获知，提高了语音交互的有效性和便捷性。
108.在另一个实施例中，所述预设条件包括以下条件中的至少一种：
109.检测到所述接收方账户登录音箱设备；
110.检测到所述接收方账户对应的接收方用户在所述目标音箱设备附近；以及
111.检测到只有所述接收方账户对应的接收方用户和指定用户在所述目标音箱设备附近，所述指定用户为所述接收方用户预先设置的。
112.如此，能够确保语音被真正的接收方及时获知且减少信息泄露风险，提高了语音交互安全性和隐私性。
113.在另一个实施例中，所述处理器110用于运行所述计算机程序时，执行以下步骤：
114.响应于检测到预设唤醒按键被触发，获取第一语音；和/或，
115.响应于接收到预设唤醒语音或预设唤醒词，获取第一语音。
116.如此，通过快速唤醒操作以实现快速获取语音，提高了语音处理效率。
117.该语音处理装置还可包括：至少一个网络接口112。该语音处理装置中的各个组件通过总线系统113耦合在一起。可理解，总线系统113用于实现这些组件之间的连接通信。总线系统113除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图4中将各种总线都标为总线系统113。
118.其中，存储器111可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(rom，read only memory)、可编程只读存储器(prom，programmable read-only memory)、可擦除可编程只读存储器(eprom，erasable programmable read-only memory)、电可擦除可编程只读存储器(eeprom，electrically erasable programmable read-only memory)、磁性随机存取存储器(fram，ferromagnetic random access memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom，compact disc read-only memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(ram，random access memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(sram，static random access memory)、同步静态随机存取存储器(ssram，synchronous static random access memory)、动态随机存取存储器(dram，dynamic random access memory)、同步动态随机存取存储器(sdram，synchronous dynamic random access memory)、双倍数据速率同步动态随机存取存储器(ddrsdram，double data rate synchronous dynamic random access memory)、增强型同步动态随机存取存储器(esdram，enhanced synchronous dynamic random access memory)、同步连接动态随机存取存储器(sldram，synclink dynamic random access memory)、直接内存总线随机存取存储器(drram，direct rambus random access memory)。本发明实施例描述的存储器111旨在包括但不限于这些和任意其它适合类型的存储器。
119.本发明实施例中的存储器111用于存储各种类型的数据以支持该语音处理装置的操作。这些数据的示例包括：用于在该语音处理装置上操作的任何计算机程序，如操作系统和应用程序；联系人数据；电话簿数据；消息；图片；视频等。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序，例如媒体播放器(media player)、浏览器(browser)等，用于实现各种应用业务。这里，实现本发明实施例方法的程序可以包含在应用程序中。
120.基于前述实施例相同的发明构思，本实施例还提供了一种计算机存储介质，所述计算机存储介质中存储有计算机程序，计算机存储介质可以是磁性随机存取存储器(fram，ferromagnetic random access memory)、只读存储器(rom，read only memory)、可编程只读存储器(prom，programmable read-only memory)、可擦除可编程只读存储器(eprom，erasable programmable read-only memory)、电可擦除可编程只读存储器(eeprom，electrically erasable programmable read-only memory)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(cd-rom，compact disc read-only memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。
121.其中，所述计算机程序被处理器运行时，执行以下步骤：
122.获取第一语音，所述第一语音携带有接收方信息；
123.基于所述接收方信息，确定接收方账户；以及
124.在满足预设条件时，经由目标音箱设备播放所述第一语音；其中，所述目标音箱设备为所述接收方账户登录的音箱设备。
125.如此，通过音箱设备实现不同用户之间的语音交互；同时，可以基于用户的实时位置确定用于输出语音的音箱设备，从而确保不同用户之间语音交互的及时性；并且，能够根据获取到的用户语音，快速确定用户语音对应的接收方账户，能够根据用户输入的需求自动检测提醒条件的满足，并准确、及时的输出提醒的语音提升了用户使用体验；以及，在满足用户隐私条件的情形下才播放语音，避免了信息泄露，更好地保护用户隐私。
126.在一个实施例中，所述第一语音还携带有发送方账户，所述计算机程序被处理器运行时，执行以下步骤：
127.确定在预设时长内获取到第二语音时，经由所述发送方账户登录的音箱设备播放所述第二语音。
128.在另一个实施例中，所述计算机程序被处理器运行时，执行以下步骤：
129.基于采集所述第一语音的音箱设备的设备标识，查询已存储的不同音箱设备的设备标识与账户之间的登录对应关系，获得与所述设备标识对应的目标账户；
130.获取所述目标账户的通讯录信息；以及
131.基于所述目标账户的通讯录信息和所述接收方信息，确定接收方账户。
132.如此，无需用户额外输入接收方账户，且能够快速确定接收方账户，进一步提升了用户使用体验。
133.在另一个实施例中，所述计算机程序被处理器运行时，执行以下步骤：
134.在基于所述目标账户的通讯录信息确定有多个与所述接收方信息相匹配的用户或无与所述接收方信息相匹配的用户时，基于预设信息，选择满足预设规则的用户对应的账户为接收方账户，和/或基于输入的选择指令，选择所述选择指令所指示的用户对应的账户为接收方账户。
135.如此，在基于通讯录信息和接收方信息无法直接确定接收方账户时，通过结合预设信息和/或输入的选择操作确定接收方账户，操作灵活且准确度高。
136.在另一个实施例中，所述预设信息包括聊天记录；所述预设规则包括以下规则中的至少一种：
137.在当前时间之前的预设时长内与所述发送方账户之间有聊天记录；以及
138.对聊天记录对应的聊天对象的称呼与所述接收方信息相匹配。
139.如此，通过简单筛选操作，能够快速且准确的确定接收方用户。
140.在另一个实施例中，所述预设条件包括以下条件中的至少一种：
141.当前时间满足所述第一语音所指示的时间提醒条件；
142.当前位置满足所述第一语音所指示的位置提醒条件；以及
143.检测到所述第一语音所指示的事件发生。
144.如此，能够确保语音及时被接收方获知，提高了语音交互的有效性和便捷性。
145.在另一个实施例中，所述预设条件包括以下条件中的至少一种：
146.检测到所述接收方账户登录音箱设备；
147.检测到所述接收方账户对应的接收方用户在所述目标音箱设备附近；以及
148.检测到只有所述接收方账户对应的接收方用户和指定用户在所述目标音箱设备附近，所述指定用户为所述接收方用户预先设置的。
149.如此，能够确保语音被真正的接收方及时获知且减少信息泄露风险，提高了语音交互安全性和隐私性。
150.在另一个实施例中，所述计算机程序被处理器运行时，执行以下步骤：
151.响应于检测到预设唤醒按键被触发，获取第一语音；和/或，
152.响应于接收到预设唤醒语音或预设唤醒词，获取第一语音。
153.如此，通过快速唤醒操作以实现快速获取语音，提高了语音处理效率。以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
154.在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，除了包含所列的那些要素，而且还可包含没有明确列出的其他要素。
155.以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：时红仁应臻恺
技术所有人：上海擎感智能科技有限公司
我是此专利的发明人

上一篇：立式研磨机的制作方法
上一篇：一种活菌型乳酸菌饮品及其制备方法与流程