语音识别方法和系统与流程

文档序号：11620361阅读：226来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本公开涉及电子设备，具体地，涉及一种语音识别方法和系统。

背景技术：

随着计算机技术的发展，人工智能系统的应用越来越广泛。能够执行人机对话的智能系统已被广泛应用于智能家居、网络教育和办公领域。然而，目前的人机对话智能系统往往仅能够实现根据用户需求提供服务，而无法实现针对不同用户提供个性化的服务的效果。

因此，需要一种能够满足根据不同用户提供个性化服务的需求的智能交互系统和智能交互方法。

技术实现要素：

本公开的一个方面提供了一种语音识别方法，包括：接收用户语音；响应于接收到用户语音，获取与发出所述用户语音的用户相关的附加信息；以及根据接收到的用户语音和所述附加信息，提供个性化服务。

可选地，所述附加信息包括：用户的位置和用户的类别中的至少一个。

可选地，所述获取所述附加信息包括：通过分析接收到的用户语音，来获取所述附加信息。

可选地，获取所述附加信息包括：通过传感器采集所述附加信息。

可选地，所述提供个性化服务包括：提供不同权限级别的服务。

可选地，所述提供个性化服务包括：以不同方式提供相同的服务。

本公开的另一方面提供了一种语音识别系统，包括：一个或更多个音频设备，配置为接收用户语音；中央控制器，与所述音频设备通信连接，所述中央控制器配置为：响应于接收到来自所述一个或更多个音频设备的用户语音，获取与发出所述用户语音的用户相关的附加信息；以及根据接收到的用户语音和所述附加信息，提供个性化服务。

可选地，所述附加信息包括：用户的位置和用户的类别中的至少一个。

可选地，所述中央控制器进一步配置为通过分析接收到的用户语音，来获取所述附加信息。

可选地，所述语音识别系统还包括：传感器，其中所述中央控制器配置为控制经由传感器采集所述附加信息。

可选地，所述中央控制器进一步配置为：响应于所述用户的位置和/或用户的类别不同，提供不同权限级别的服务。

可选地，所述中央控制器进一步配置为：响应于所述用户的位置和/或用户的类别不同，以不同方式提供相同的服务。

可选地，所述一个或更多个音频设备还配置为发出声音；且所述中央控制器进一步配置为：响应于所述用户的位置和/或用户的类别不同，控制所述一个或更多个音频设备以不同模式发出针对所述用户语音的声音反馈。

本公开的另一方面提供了一种非易失性存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了根据本公开的实施例的语音识别系统的框图；

图2(a)、2(b)和2(c)描述了根据接收到的用户语音和附加信息提供个性化服务的操作的示意图；

图3示意性示出了根据本公开的实施例的语音识别系统的一个应用场景的示意图；

图4描述了示意性示出了根据本公开的实施例的语音识别系统的另一应用场景的示意图；以及

图5示出了根据本公开的实施例的语音识别方法的流程图。

具体实施方式

根据结合附图对本公开示例性实施例的以下详细描述，本公开的其它方面、优势和突出特征对于本领域技术人员将变得显而易见。

在本公开中，术语“包括”和“含有”及其派生词意为包括而非限制；术语“或”是包含性的，意为和/或。

在本说明书中，下述用于描述本公开原理的各种实施例只是说明，不应该以任何方式解释为限制公开的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本公开的示例性实施例。下述描述包括多种具体细节来帮助理解，但这些细节应认为仅仅是示例性的。因此，本领域普通技术人员应认识到，在不背离本公开的范围和精神的情况下，可以对本文中描述的实施例进行多种改变和修改。此外，为了清楚和简洁起见，省略了公知功能和结构的描述。此外，贯穿附图，相同参考数字用于相似功能和操作。

本公开的实施例提供了一种语音识别方法和系统，所述语音识别方法和系统能够根据用户语音和与发出所述用户语音的用户相关的附加信息提供个性化的服务。

图1示意性示出了根据本公开的实施例的语音识别系统100的框图。如图1所示，所述语音识别系统100可以包括一个或更多个音频设备110a、110b以及110c，所述音频设备可以配置为接收用户语音；以及中央控制器120，与所述音频设备通信连接。备选地，所述一个或更多个音频设备还配置为发出声音，以便向用户提供声音反馈。所述中央控制器220配置为：响应于接收到来自所述一个或更多个音频设备的用户语音，获取与发出所述用户语音的用户相关的附加信息；以及根据接收到的用户语音和所述附加信息，提供个性化服务。所述附加信息包括：用户的位置和用户的类别中的至少一个，其中用户的类别可以是根据不同属性(例如，年龄、身份)划分的用户类别。所述提供个性化的服务可以包括响应于所述用户的位置和/或用户的类别不同，提供不同权限级别的服务。所述不同权限级别的服务是指不同类的服务，例如，可以将第一权限的服务称作第一类服务；将第二权限的服务称作第二类服务。备选地，所述提供个性化的服务还可以包括响应于所述用户的位置和/或用户的类别不同，以不同方式提供相同的服务。所述提供个性化的服务的具体方式将在下文所详述，因此在此将不进行赘述。

中央控制器120可以是单个控制器，但也可以包括两个或更多个控制单元。例如，中央控制器120可以包括通用控制器、指令集处理器和/或相关芯片组和/或专用微控制器(例如，专用集成电路(asic))。中央控制器120可以实现为单个集成电路(ic)芯片的部分或单个设备(例如，个人计算机)。中央控制器120还可以配置为与诸如电视、空调、冰箱等的其他设备150相连，以便通过来自音频设备的声音信息控制所述其他设备并提供相应服务。另一方面，中央控制器120还可以配置为与网络140相连以便根据用户需要通过网络执行相应的服务。备选地，中央控制器220还可以配置为外部云相连，以便通过云服务提供针对用户需要的反馈信息。中央控制器120还可以包括内部云，以便执行快速响应、个人信息备份、安全控制等功能。例如，可以将涉及个人隐私的信息备份到私有云，即，中央控制器120的内部云，以便实现对个人隐私保护。

应注意，中央控制器120可以备选地与用户识别设备130(诸如，摄像头、智能地板等)相连，以便获取与发出所述用户语音的用户相关的附加信息，诸如，通过摄像头拍摄用户图像从而获取用户的身份或用户位置。此外，中央控制器120还可以直接地经由与其相连的音频设备来获取与发出所述用户语音的用户相关的附加信息，例如，通过对由音频设备采集的声音进行声纹识别，来确定用户身份；或者通过音频设备的定位功能，来确定发出所述语音的用户的位置。

下面将参考图2(a)、2(b)和2(c)描述中央控制器如何根据接收到的用户语音和附加信息提供个性化服务。

在音频设备能够获取与发出所述用户语音的用户相关的附加信息的情况下(如图2(a)和2(b)所示)，中央控制器可以通过以下两种方式提供个性化的服务结果：

方式一：音频设备可以具备音频识别功能，且通过使用音频识别功能，音频设备可以对发出用户语音的用户进行用户识别，从而提供诸如用户类别的附加信息。此外，作为另一示例，可以将多个音频设备布置在不同房间中，并通过确定采集到用户语音来自安装在哪个房间的音频设备，来定位发出用户语音的用户的位置。以上方式仅是为了列举音频设备如何获取附加信息的示例，不应理解为对本公开的限制。本领域技术人员应清楚任何具有获取与发出用户语音的用户相关的附加信息的功能的音频设备都应包括在本发明的范围。如图2(a)所示，音频设备首先在操作p11，将获取的附加信息和用户语音发送给中央控制器；接着，在p12，中央控制器根据接收到的附加信息和用户语音，生成针对所述用户语音的个性化结果。具体地，所述生成针对所述用户语音的个性化结果可以包括：预先存储针对该用户语音(例如，提问)的多种结果，其中所述多个结果可以是对应于不同权限的结果；并根据附加信息从所述多种结果筛选与所述附加信息相对应的个性化结果。备选地，所述生成针对所述用户语音的个性化结果还可以包括：存储或搜索针对所述用户语音的反馈结果，并根据对附加信息的分析来对所述反馈结果进行修改或加工，使得生成适合的个性化结果。最后，在操作p13，将所生成的个性化结果发送给音频设备，以便经由音频设备输出。

方式二：如图2(b)所示，尽管音频设备具有获取附加信息的功能，然而在操作p21，音频设备仅向中央控制器提供用户语音。在操作p22，中央控制器向音频设备提供针对所述用户语音存储的多个结果，所述多个结果可以是对应于不同权限的结果。最后，在操作p23，音频设备根据所获取的附加信息选择适合的个性化结果输出。

以上描述了在音频设备具备获取与发出用户语音的用户相关的附加信息的功能的情况下如何提供个性化服务。图2(c)描述了在音频设备不具备获取与发出用户语音的用户相关的附加信息的功能的情况下如何提供个性化服务。

在该情况下，中央控制器通过传感器(例如，摄像头)获取所述附加信息(操作p32)，并根据从音频设备接收到用户语音和从传感器接收的附加信息，生成针对所述用户语音的个性化结果并将个性化结果发送给音频设备以供输出。所述生成操作与图2(a)所示的过程相似，因此将不再进行赘述。

综上可知，根据本公开的实施例的语音识别系统可以通过接收用户语音并获取与发出所述用户语音的用户相关的附加信息，来根据接收到的用户语音和所述附加信息，提供个性化服务。

图3示意性示出了根据本公开的实施例的语音识别系统300的一个应用场景的示意图。如图3所示，一个或更多个音频设备310-1、310-2和310-3可以分布在不同的空间中，例如，音频设备310-1可以分布在会议室，音频设备310-2可以分布在休息室，且音频设备310-3可以分布在学习室。

在该示例情况下，不同房间对应于不同权限的服务。例如，当用户与语音识别系统进行交互时，所述语音识别系统可以经由音频设备首先采集用户发出的用户语音，并接着确定发出所述用户语音的用户所在的房间。例如，如上所述，可以通过确定采集到所述用户语音的音频设备安装在哪个房间，来确定用户位置；也可以通过诸如摄像机的其他传感器来确定用户位置。具体地，如果用户在会议室发出诸如“请展示财务报表”的用户语音，则语音识别系统经由音频设备310-1采集到所述用户语音，并经由音频设备和/或所包括的其他传感器获取与发出所述用户语音的用户相关的附加信息(在这种情况下，附加信息是位置信息)，即，用户在会议室中。此外，如果与该会议室相对应的服务中包括展示财务报表的功能，则中央控制器320可以控制经由诸如显示器、投影仪的其他设备展示财务报表。然而，如果与该会议室相对应的服务中不包括展示财务报表的功能，则中央控制器320可以将例如“本房间不具有预览财务报表的权限”的声音反馈提供给音频设备310-1，以便播放给用户。备选地，在与该会议室相对应的服务中不包括展示财务报表的功能的情况下，中央控制器320还可以将搜索到的财务报表提供给音频设备310-1，此时音频设备310-1定位自己的安装房间，并由于确定所在安装房间不具备展示财务报表的权限(换言之，音频设备310-1、310-2和310-3由于被安装在不同房间而具有不同权限)，而不输出财务报表，或备选地输出诸如“本房间不具有预览财务报表的权限”的声音反馈。

同理，可以将休息室的服务权限设置为包括输出天气信息、影视信息和播放音乐歌曲等的服务，且将诸如学习室的服务权限设置为包括包括输出网络学习资料和查阅图书等的服务。因此，如果用户在休息室请求查看财务报表，则该要求将会被拒绝。类似地，如果用户在学习室请求播放音乐歌曲或查看财务表表，则该要求同样将被拒绝。

因此，通过使用根据本公开的实施例的语音识别系统，可以针对不同场所提供不同安全级别的服务。

图4描述了示意性示出了根据本公开的实施例的语音识别系统400的另一应用场景的示意图。如图4所示，语音识别系统400可以根据不同的用户身份提供个性化的服务。具体地，当用户是30岁左右的青年女士并发出诸如“请播放音乐”的用户语音时，语音识别系统400可以经由音频设备410采集所述用户语音，并通过对所述用户语音进行声纹分析或通过使用诸如摄像头的传感器，获取发出所述用户语音的用户相关的附加信息(在该情况下，附加信息为用户类别)，因此，确定用户是30岁左右的青年女士。接着，中央处理器420可以在其内部云中或与之相连的外部云中搜索30岁左右的青年女士所喜爱的歌曲(诸如，歌曲1)，并将搜索的歌曲a提供给音频设备410以便由音频设备410播放。当然，如上所述，中央处理器420可以将存储在其内部云和/或与之相连的外部云中的歌曲全部发送给音频设备410，音频设备410根据其获取的附加信息来从所述歌曲中筛选适合30岁左右的青年女士的歌曲并输出。如果确定发出“请播放音乐”的用户语音的用户是老年人，则所述语音识别系统400可以相应地经由音频设备410播放适合于老年人的歌曲(例如，歌曲2)。此外，如果确定发出“请播放音乐”的用户语音的用户是儿童，则所述语音识别系统400可以相应地经由音频设备410播放适合于儿童的儿童歌曲(例如，歌曲3)。也就是说，尽管用户所发出的用户语音(例如，用户的要求)是相同的，然而根据本公开的实施例的语音识别系统可以根据发出所述用户语音的不同用户类别，提供不同的服务结果。除此之外，根据本公开的实施例的语音识别系统还可以根据不同类别的用户设置不同的服务权限。例如，当儿童提出要求观看枪战片时，拒绝所述观看请求。另一方面，即使针对所述用户语音的服务结果是相同的，依然可以针对不同类别的用户以不同方式提供所述服务结果。例如，当用户询问当天天气情况时，查询到的天气情况信息是相同的。但是在播报所述天气情况时，如果用户是老年人，则音频设备可以以尊重长者的语气和/或较慢的语速来播放所述天气情况；如果用户是青年人，则音频设备可以以正常的语气和/或语速来播放所述天气情况；且如果用户是儿童，则音频设备可以以长辈的语气和/或较慢的语速来播放所述天气情况。应注意，在以上实施例中，以将用户分为老年人、青年人和儿童为例示意性地说明了本公开，然而用户的分类方式不限于此，且本公开旨在包括一个或更多个分类方式。

综上，以上示例性地描述了根据本公开的实施例的语音识别系统的应用场景。如上所述，所述语音识别系统通过接收用户语音并获取与发出所述用户语音的用户相关的附加信息，来根据接收到的用户语音和所述附加信息，提供个性化服务。

根据本发明的另一方面，还提供了一种语音识别方法。图5示出了根据本公开的实施例的语音识别方法的流程图。具体地，所述方法可以包括：在步骤s501，接收用户语音。在步骤s503，响应于接收到用户语音，获取与发出所述用户语音的用户相关的附加信息。所述获取所述附加信息可以包括：通过分析接收到的用户语音，来获取所述附加信息。此外，所述获取所述附加信息包括：通过传感器采集所述附加信息。在步骤s505，根据接收到的用户语音和所述附加信息，提供个性化服务。提供个性化服务可以包括提供不同权限级别的服务和/或以不同方式提供相同服务。具体地，所述附加信息可以包括：用户的位置和用户的类别中的至少一个。通过使用根据本公开的实施例的语音识别方法，可以通过采集用户语音并获取与发出所述用户语音相关的用户的附加信息，来提供个性化的服务，实现更智能的语音识别系统。

因此，以上提供了一种语音识别系统和语音识别方法，所述语音识别方法和系统能够根据用户语音和与发出所述用户语音的用户相关的附加信息提供个性化的服务。

此外，应注意，根据本公开各实施例的上述方法、装置、单元和/或模块可以通过有计算能力的电子设备执行包含计算机指令的软件来实现。所述有计算能力的电子设备可以包含通用处理器、数字信号处理器、专用处理器、可重新配置处理器等能够执行计算机指令的装置，但不限于此。上述各设备和/或模块可以在一个电子设备中实现，也可以在不同电子设备中实现。这些软件可以存储在计算机可读存储介质中。

所述计算机可读存储介质例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括：磁存储装置，如磁带或硬盘(hdd)；光存储装置，如光盘(cd-rom)；存储器，如随机存取存储器(ram)或闪存；和/或有线/无线通信链路。计算机可读存储介质可以包括一个或多个计算机程序，该计算机程序可以包括代码/计算机可执行指令，其在由处理器执行时使得处理器执行例如上面所描述的方法流程及其任何变形。

计算机程序可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序中的代码可以包括一个或多个程序模块。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器执行时，使得处理器可以执行上面所描述的方法流程及其任何变形。

尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李晓龙;王锐;马岩
技术所有人：联想（北京）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。