一种语义理解设备、方法及存储介质与流程

文档序号：33180068发布日期：2023-02-04 04:45阅读：42来源：国知局

1.本技术涉及语音处理技术领域，尤其涉及一种语义理解设备、方法及存储介质。

背景技术：

2.通过目前的语义理解方法，进行语义理解的过程中，需要将每种用户需求，或每种场景都进行计算，然后结合用户语音的上下文信息，进行综合决策。
3.针对每种用户需求，或每种场景都进行计算，计算数据量大，浪费算力资源，且语义理解时间较长。

技术实现要素：

4.本技术提供一种语义理解设备、方法及存储介质，用以提升语义理解的准确性，节省算力资源以及语义理解时间。
5.第一方面，本技术实施例提供一种语义理解设备，该设备包括：通信接口和处理器，其中：
6.通信接口，用于在接收到目标用户触发的语音交互指令后，获取至少一个数据采集设备采集的目标用户的目标状态信息；
7.处理器，用于在目标用户对应的目标语义记录信息中，获取与目标状态信息匹配的目标语义理解结果，并基于目标语义理解结果对应的语义理解模型，对语音交互指令进行语义理解，其中，目标语义记录信息包含目标用户的各个历史状态信息与语义理解结果的对应关系。
8.第二方面，本技术实施例提供一种语义理解的方法，该方法包括：
9.在接收到目标用户触发的语音交互指令后，获取至少一个数据采集设备采集的目标用户的目标状态信息；
10.在目标用户对应的目标语义记录信息中，获取与目标状态信息匹配的目标语义理解结果，其中，目标语义记录信息中包含目标用户的各个历史状态信息与语义理解结果的对应关系；
11.基于目标语义理解结果对应的语义理解模型，对语音交互指令进行语义理解。
12.第三方面，本技术实施例提供一种语义理解的装置，该装置包括：
13.第一获取模块，用于在接收到目标用户触发的语音交互指令后，获取至少一个数据采集设备采集的目标用户的目标状态信息；
14.第二获取模块，用于在目标用户对应的目标语义记录信息中，获取与目标状态信息匹配的目标语义理解结果，其中，目标语义记录信息中包含目标用户的各个历史状态信息与语义理解结果的对应关系；
15.语义理解模块，用于基于目标语义理解结果对应的语义理解模型，对语音交互指令进行语义理解。
16.第四方面，本技术实施例提供一种计算机可读存储介质，计算机可读存储介质存
储有计算机指令，计算机指令被处理器执行时实现本技术实施例提供的语义理解的方法步骤。
17.本技术实施例有益效果如下：
18.本技术实施例提供一种语义理解设备、方法及存储介质，应用于语音交互领域中的语义理解服务；通过语义理解设备进行语义理解时，先获取至少一个数据采集设备采集的目标用户的目标状态信息；然后根据目标状态信息，在目标用户对应的目标语义记录信息中，获取与目标状态信息匹配的目标语义理解结果；最后基于目标语义理解结果对应的语义理解模型，对语音交互指令进行语义理解。基于目标状态信息筛选语义理解模型，无需调用每个场景和/或需求下的语义理解模型，仅调用与目标状态信息匹配的语义理解模型，减少语义理解模型的调用，节省算力资源和语义理解时间，同时提升语义理解的准确性。
19.本技术的其它特征向量和优点将在随后的说明书中阐述，并且，子模型地从说明书中变得显而易见，或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
20.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1为本技术实施例的一种应用场景示意图；
22.图2为本技术实施例的一种语义理解设备的结构图；
23.图3为本技术实施例的一种语义理解方法的流程图；
24.图4为本技术实施例的一种用户特征信息绑定方法的流程图；
25.图5为本技术实施例的一种语义理解的装置结构图。
具体实施方式
26.为了使本技术的目的、技术方案及有益效果更加清楚明白，以下将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术部分实施例，并不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
27.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
28.下面对本技术实施例的设计构思进行简单介绍。
29.本技术实施例涉及语音交互领域中的语义理解服务，以对用户触发的语音交互指令进行语义理解，识别用户意图，并提供相应的服务。
30.相关技术中，在进行语义理解的过程中，需要将每种用户需求和/或每种应用场景
都进行计算，然后结合用户语音交互指令的上下文信息，对获取的每种语义理解结果进行综合决策，并筛选出语义理解结果，识别用户意图。
31.仅结合用户语音交互指令的上下文信息，对语义理解结果进行综合决策，使筛选出的语义理解结果不够准确；且在语义理解过程中，对每种用户需求和/或每种应用场景都进行计算，计算工作量大，花费的时间长。
32.有鉴于此，本技术实施例提供一种语义理解设备及方法，用以提升语义理解的准确性、节省算力资源以及语义理解的时间。
33.在本技术实施例中，给出一种语义理解设备，该语义理解设备部署于用户家庭，具备本地存储和语义理解的能力，同时该语义理解设备可以与至少一个数据采集设备进行交互，以获取至少一个数据采集设备采集的目标用户的目标状态信息。
34.语义理解设备本地存储有各个用户对应的语义记录信息，语义记录信息中包含有各个用户对应的各个历史状态信息与语义理解结果的对应关系。
35.通过语义理解设备进行语义理解时，语义理解设备在接收到目标用户触发的语音交互后，获取至少一个数据采集设备采集的目标用户的目标状态信息；将目标状态信息与目标用户对应的目标语义记录信息中的各个历史状态信息进行匹配，并确定匹配成功的历史状态信息对应的目标语义理解结果；然后，基于目标语义理解结果对应的语义理解模型，对语音交互指令进行语义理解，识别用户意图，为用户提供相应的服务。
36.在此过程中，基于目标用户的目标状态信息和目标用户对应的历史状态信息，预测目标用户在目标状态信息下用于表征需求和/或场景的目标语义理解结果，并确定目标语义理解结果对应的语义理解模型，通过确定的语义理解模型，对语音交互指令进行语义理解，无需对每一个应用场景和/或需求进行计算，节省算力资源和语义理解的时间，同时结合需求或场景进行综合决策，提升语义理解的准确性。
37.在介绍完本技术实施例的设计思想之后，下面对本技术实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本技术实施例而非限定。在具体实施过程中，可以根据实际需要灵活地应用本技术实施例提供的技术方案。
38.请参考图1，图1为本技术实施例提供的一种可能的应用场景示意图，该应用场景中包括数据采集设备10、家庭路由20以及语义理解设备30。
39.在一种可能的实现方式中，通过家庭路由20为数据采集设备10和语义理解设备30进行ip地址分配，以使数据采集设备10与语义理解设备30通过网路进行连接，并通过家庭路由20将数据采集设备10采集的数据转发给语义理解设备30。
40.其中，数据采集设备10包括但不限于：
41.用于采集视频数据的视频数据采集设备10-1，该视频数据采集设备10-1可以为部署于用户家庭中的隐私加固摄像头、带音视频采集功能的智能设备等；
42.用于采集音频数据的音频数据采集设备10-2，该音频数据采集设备10-2可以为语义理解设备30套系产品中的智能音箱也称为套系智能音箱、带音视频采集功能的智能设备等；
43.用于识别用户位置信息、用户轮廓特征信息以及用户心跳特征信息的传感器10-3，该传感器10-3可以为采用毫米波雷达技术的家用传感器，也称为家用毫米波雷达传感
器。
44.需要说明的是，隐私加固摄像头与传统摄像头相比，仅可在局域网内部传输视频数据，且通过预置的加密算法对视频数据进行加密，防止视频数据被窃取，造成隐私信息泄露，比如隐私加固摄像头通过家庭路由20将加密的视频数据传输到语义理解设备30中，由语义理解设备30按照预置的解密算法解密，获取视频数据；
45.带音视频采集功能的智能设备，可以为家庭中带有音视频采集能力的智能家电，比如同时具有视频和音频采集能力的社交电视；可以为智能手持终端设备，比如手机、平板电脑等；还可以为家庭中的小型化的具备一定音频和视频采集能力的智能面板设备。带音视频采集功能的智能设备与语义理解设备30通信，将采集到的音频数据和视频数据通过家庭路由20传输到语义理解设备30，由语义理解设备30进行处理，实现家庭联动或智能设备本身的智能服务；
46.套系智能音箱与普通智能音箱相比，该套系智能音箱采集的音频数据不直接外发至云平台进行语音识别和语义理解，而是通过家庭路由20将采集到的音频数据传输至语义理解设备30，由语义理解设备30进行语音识别和语义理解，为用户提供服务；
47.家用毫米波雷达传感器应用于用户对视频数据采集设备10-1敏感的场景，例如卫生间，通过家用毫米波雷达传感器可以识别用户位置信息，同时获取用户轮廓特征信息、用户心跳特征信息等用户特征信息。
48.其中，语义理解设备30可以为家庭边缘计算服务器，该家庭边缘计算服务器是家庭数据存储中心、边缘计算中心、隐私保护中心、友好交互中心。
49.在本技术实施例中，家庭边缘计算服务器中部署有数据存储服务、数据分析服务，以及语义理解服务；
50.其中，数据存储服务：为家庭边缘计算服务器对采集的音频数据、视频数据以及通过家庭毫米波雷达传感器采集的用户位置信息、用户特征信息等进行识别处理，并将识别处理获得的用户状态信息进行本地存储；
51.数据分析服务：为家庭边缘计算服务器基于获取的用户状态信息和历史状态信息，分析用户的场景和/或需求，并确定分析出的场景和/或需求下的语义理解模型；
52.语义理解服务：为家庭边缘计算服务器在用户触发语音交互指令后，调用分析出的场景和/或需求下的语义理解模型，对语音交互指令的语音识别内容进行语义理解，提升用户意图理解的准确性，降低算法资源占用。
53.请参考图2，图2示出了本技术实施例中语义理解设备30的结构示意图。
54.下面以语义理解设备30为例对本技术实施例进行具体说明。应该理解的是，图2所示语义理解设备30仅是一个范例，并且语义理解设备30可以具有比图2中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
55.图2中示例性示出了根据示例性实施例中语义理解设备30的硬件配置框图。如图2所示，语义理解设备30包括：存储器310、通信接口320、处理器330、电源340、总线350等部件。
56.存储器310可用于存储软件程序及数据。处理器350通过运行存储在存储器310的
软件程序或数据，从而执行语义理解设备30的各种功能以及数据处理。
57.存储器310可以包括易失性存储器形式的可读介质，例如随机存取存储器(ram)3101和/或高速缓存存储器3102，还可以进一步包括只读存储器(rom)3103。
58.存储器310还可以包括具有一组(至少每个)程序模块3104的程序/实用工具3105，这样的程序模块3104包括但不限于：操作系统、每个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每个或某种组合中可能包括网络环境的实现。
59.在本技术实施例中，存储器310可以存储语义记录信息，语义记录信息中包括但不限于：获取的各个用户对应的各个历史状态信息对应的时间段、各个用户对应的各个历史状态信息与语义理解结果的对应关系、各个用户对应的各个历史状态信息与语音识别内容的对应关系、各个历史状态信息对应的语义理解结果的记录数、各个历史状态信息对应的语义理解结果的置信度。
60.通信接口320用于接收各个数据采集设备传输的用户数据，用户数据包括但不限：音视频采集设备采集的音频数据、视频数据、传感器采集的用户轮廓、心跳等用户特征信息以及用户位置信息；
61.语义理解设备30还会通过通信接口320向被控设备发送控制指令，或通过通信接口320向外网服务发送请求信息；
62.比如，语义理解设备30基于目标语义理解结果对应的语义理解模型，确定目标用户触发语音交互指令的意图为控制家庭场景中的某一被控设备，此时，语义理解设备30将通过通信接口320向被控设备发送相应的控制指令；
63.再比如，语义理解设备30基于目标语义理解结果对应的语义理解模型，确定目标用户触发语音交互指令的意图为请求网络媒体资源，此时，语义理解设备30将通过通信接口320向外网服务器发送请求信息，以请求对应的网络媒体资源。
64.处理器330是语义理解设备30的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器310内的软件程序，以及调用存储在存储器310内的数据，执行本技术实施例中提供的语义理解的任一方法步骤。
65.在一些实施例中，处理器330可包括一个或多个处理单元；处理器330还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带处理器也可以不集成到处理器330中。
66.在本技术实施例中，处理器330，用于在语义记录信息中获取与目标状态信息匹配的目标语义理解结果，并基于目标语义理解结果对应的语义理解模型，对语音交互指令进行语义理解，其中，语义记录信息包含各个用户的历史状态信息与语义理解结果的对应关系。
67.在一种可能的实现方式中，目标语义记录信息中还包括：各个历史状态信息各自对应的时间段；
68.处理器330具体用于：确定获取目标状态信息的目标时间；在目标语义记录信息中，查找与目标时间匹配的目标时间段，并确定目标时间段对应的历史状态信息；在目标时间段对应的历史状态信息中，查找与目标状态信息匹配的历史状态信息，并将匹配的历史状态信息对应的至少一个语义理解结果，作为目标语义理解结果。
69.在一种可能的实现方式中，目标语义记录信息中还包括：各个历史状态信息对应的语义理解结果的记录数；
70.处理器330具体用于：在目标语义记录信息中，查找与目标状态信息匹配的历史状态信息，并获取匹配的历史状态信息对应的至少一个语义理解结果；针对获取的任意一个语义理解结果，确定对应的目标记录数，并基于获取的各个目标记录数确定总记录数；针对获取的任意一个语义理解结果，确定相应的目标记录数，与总记录数之间的比例值；将比例值达到第一阈值的语义理解结果，作为目标语义理解结果。
71.在一种可能的实现方式中，目标语义记录信息中还包括：各个历史状态信息对应的语义理解结果的置信度；
72.处理器330具体用于：在目标语义记录信息中，查找与目标状态信息匹配的历史状态信息，并获取匹配的历史状态信息对应的至少一个语义理解结果；针对获取的任意一个语义理解结果，分别确定对应的置信度；将置信度达到第二阈值的语义理解结果，作为目标语义理解结果。
73.在一种可能的实现方式中，处理器330具体通过如下方式查找与目标状态信息匹配的历史状态信息：
74.针对目标语义记录信息中的任意一个历史状态信息，将目标状态信息中包含的各个维度信息，分别与历史状态信息中包含的相应维度信息进行匹配，确定维度信息匹配成功的目标数量；
75.获取目标数量达到第三阈值的历史状态信息，作为与目标状态信息匹配的历史状态信息。
76.在一种可能的实现方式中，若存在至少两个数据采集设备，处理器330还用于：将至少两个数据采集设备各自采集的目标用户的用户特征信息进行绑定。
77.在一种可能的实现方式中，绑定条件为：
78.确定目标区域中的目标用户未完成至少两个数据采集设备各自采集的用户特征信息之间的绑定，且允许至少两个数据采集设备采集目标用户的用户特征信息。
79.在一种可能的实现方式中，处理器330对语音交互指令进行语义理解之后，还用于：
80.若语义理解结果为请求网络媒体资源，则向外网服务器发送请求信息，以获取对应的网络媒体资源；或
81.若语义理解结果为控制指令下发，则向同一局域网中的被控设备发送控制指令，以使被控设备根据控制指令进行工作。
82.语义理解设备30还包括给各个部件供电的电源340(比如电池)。电源340可以通过电源管理系统与处理器330逻辑相连，从而通过电源管理系统实现管理充电、放电以及功耗等功能。语义理解设备30还可配置有电源按钮，用于语义理解设备30的开机和关机等功能。
83.语义理解设备30还包括用于连接语义理解设备30中的各个部件的总线350，总线350表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
84.需要说明的是，本技术实施例提供的语义理解设备30中还包括蓝牙模块、无线保真(wireless fidelity，wi-fi)模块等；其中：
85.蓝牙模块，用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如，语义理解设备30可以通过蓝牙模块与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接，从而进行数据交互；
86.wi-fi属于短距离无线传输技术，语义理解设备30可以通过wi-fi模块帮助用户收发电子邮件、浏览网页和访问流媒体等，它为用户提供了无线的宽带互联网访问。
87.基于上述应用场景，下面结合上述描述的应用场景，根据附图来描述本技术示例性实施方式提供的语义理解的方法，需要注意的是，上述应用场景仅是为了便于理解本技术的精神和原理而示出，本技术的实施方式在此方面不受任何限制。
88.请参考图3，图3示例性提供本技术实施例中一种语义理解的方法，可应用于家庭边缘计算服务器，该方法包括：
89.步骤s300，在接收到目标用户触发的语音交互指令后，获取至少一个数据采集设备采集的目标用户的目标状态信息。
90.为了保证语义理解结果的准确性，本技术实施例中，在进行语义理解的过程中，除了获取语音交互指令的语音识别内容，还需确定目标用户的目标状态信息，以基于目标状态信息确定目标语义理解结果，目标语义理解结果用于表征目标用户的需求和/或场景。
91.其中，目标状态信息为目标用户对应的用户状态信息，用户状态信息包括但不限于：
92.用户情绪信息、用户穿着信息、用户行为动作信息、用户位置信息。
93.在一种可能的实现方式中，用户状态信息是家庭边缘计算服务器，基于内置的识别算法，对至少一个数据采集设备采集的用户数据进行识别后获取的，其中用户数据包括但不限于：音频数据、视频数据、家用毫米波雷达传感器采集的数据。
94.比如，家庭边缘计算服务器通过通信接口接收视频数据采集设备采集的视频数据，并通过内置的识别算法对视频数据进行识别处理，获取用户状态信息，其中，识别处理过程包括但不限于：
95.通过面部表情识别算法，识别视频数据中包含的各个用户的用户情绪信息；
96.通过服装识别算法，识别视频数据中包含的各个用户的用户穿着信息；
97.通过用户行为动作识别算法，识别视频数据中包含的各个用户的用户行为动作信息。
98.需要说明的是，在对视频数据进行识别处理时，还会通过人脸识别算法，识别视频数据中包含的各个用户的人脸特征信息，其中，人脸特征信息用于确定视频数据中包含的各个用户的用户身份标识；还需要采用人体跟踪算法，将视频数据中包含的各个用户的用户身份标识与用户情绪信息、用户穿着信息、用户行为动作信息进行绑定。
99.比如，家庭边缘计算服务器通过通信接口接收音频数据采集设备采集的音频数据，并通过内置的识别算法对音频数据进行识别处理，获取用户状态信息；其中，识别处理过程为：通过语音识别算法，识别音频数据中各个用户对应的语音识别内容。
100.需要说明的是，在对音频数据进行识别处理时，还会通过声纹识别算法，识别音频数据中包含的各个用户的声纹特征信息，其中，声纹特征信息用于确定音频数据中包含的各个用户的用户身份标识；并将各个用户的声纹特征信息与相应的语音识内容进行绑定。
101.同时，本技术实施例的家庭边缘计算服务器也通过本地语义理解算法，识别音频
数据中的语音识别内容的语义理解结果。
102.在一种特殊的情况下，当音频数据采集设备为套系智能音箱时，还可通过预置的拾音音箱绑定用户位置信息。
103.比如，家庭边缘计算服务器通过通信接口接收家用毫米波雷达传感器采集的用户位置信息、用户轮廓特征信息以及用户心跳特征信息等，其中，用户轮廓特征信息以及用户心跳特征信息用于确定用户身份标识；并将用户身份标识和相应的用户位置信息进行绑定。
104.为了使语义理解结果更加准确，通常在家庭场景中安装多个数据采集设备，并通过多个数据采集设备采集用户数据；且每个数据采集设备都会将自身采集的用户数据传输到家庭边缘计算服务器，以使家庭边缘计算服务器对获取的用户数据进行识别处理，确定各个用户的用户身份标识和相应的用户状态信息。
105.那么如何基于音频数据中识别出的用于确定用户身份标识的声纹特征信息、视频数据中识别出的用于确定用户身份标识的人脸特征信息，以及通过传感器获取的用于确定用户身份标识的用户轮廓特征信息、用户心跳特征信息，确定同一用户也是本技术实施例中需要解决的问题；
106.比如，通过音频数据识别出的声纹特征信息包含声纹特征信息a和声纹特征信息b，若仅包含有音频数据采集设备，则可直接为声纹特征信息a分配用户身份标识a，声纹特征信息b分配用户身份标识b；但是，若还通过视频数据识别出人脸特征信息，人脸特征信息包括人脸特征信息a和人脸特征信息b，那么人脸特征信息a是对应声纹特征信息a还是声纹特征信息b，即为人脸特征信息a对应用户身份标识a还是用户身份标识b是无法确定的；即，基于多个数据采集设备采用的用户数据，如何确定用户数据中包含的用户特征信息是否为同一用户的用户特征信息的问题，也是本技术实施例中需要解决的。
107.考虑到用户绑定的操作专业性，以及数据采集设备进入千家万户后可能存在的运维问题，本技术实施例提供了一种多个数据采集设备采集的用于确定身份标识的用户特征信息绑定方法；
108.请参考图4，图4示例性提供本技术实施例中一种用户特征信息绑定的方法流程图，包括如下步骤：
109.步骤s400，家庭边缘计算服务器在工作过程中，通过内置识别算法，识别出目标数据采集设备采集的用户数据中包含用户特征信息时，为识别出的用户特征信息对应的用户分配唯一的用户身份标识；
110.比如，目标数据采集设备为视频数据采集设备，家庭边缘计算服务器调用人脸识别算法，识别到视频数据包含人脸特征信息，并为每个人脸特征信息对应的家庭中的用户分配唯一的用户身份标识；或
111.目标数据采集设备为音频数据采集设备，家庭边缘计算服务器调用声纹识别算法，识别到音频数据包含声纹特征信息，并为每个声纹特征信息对应的家庭中的用户分配唯一的用户身份标识；或
112.目标数据采集设备为毫米波雷达传感器，家庭边缘计算服务器基于毫米波雷达传感器传输的用户轮廓特征信息和/或用户心跳特征信息，为每个的用户轮廓特征信息和/或用户心跳特征信息对应的家庭中的用户分配唯一的用户身份标识。
113.需要说明的是，为家庭中用户分配用户身份标识时，仅为新增用户分配用户身份标识，并针对新增用户执行用户特征信息之间的绑定；因此，当目标用户为新增用户时，为目标用户分配用户身份标识，并将多个数据采集设备采集的目标用户的用户特征信息进行绑定。
114.步骤s401，家庭边缘计算服务器确定满足绑定条件；
115.在一种可能的实现方式中，家庭边缘计算服务器基于目标数据采集设备采集的用户数据，确定家庭中仅包含有一个用户，且未完成多个数据采集设备各自采集的用户特征信息之间的绑定，且允许多个数据采集设备采集目标用户的用户特征信息，确定满足绑定条件，并获取该用户的用户身份标识。
116.在另一中可能的实现方式中，家庭边缘计算服务器基于目标数据采集设备采集的用户数据，确定家庭中包含有多个用户，但其中一个用户未完成多个数据采集设备各自采集的用户特征信息之间的绑定，且允许多个数据采集设备采集目标用户的用户特征信息，确定满足绑定条件，并获取为完成棒冰的一个用户的用户身份标识。
117.在另一种可能的实现方式中，家庭边缘计算服务器基于目标数据采集设备采集的用户数据，确定家庭中的目标位置(比如卧室、客厅等)仅包含有一个用户，且未完成多个数据采集设备各自采集的用户特征信息之间的绑定，且允许多个数据采集设备采集目标用户的用户特征信息，确定满足绑定条件，并获取该用户的用户身份标识。
118.步骤s402，家庭边缘计算服务器等待其他数据采集设备上传采集的用户数据。
119.步骤s403，家庭边缘计算服务器针对接收到的其他数据采集设备采集的用户数据，进行识别，获取用户特征信息，并将获取的用户特征信息与目标数据采集设备采集的用户特征信息以及相应的用户身份标识进行绑定。
120.步骤s404，家庭边缘计算服务器确定是否完成多个数据采集设备采集的用户特征信息之间的绑定，若是则执行步骤s405，否则执行步骤s402。
121.在一种可能的实现方式中，家庭边缘计算服务器根据接收到的其他数据采集设备采集的用户数据，识别出包含有多个用户特征信息时，确定多个用户特征信息是否已分配用身份标识，若均分配用户身份标识，则确定未完成多个数据采集设备采集的用户特征信息之间的绑定；若存在一个用户特征信息未完成绑定，则将该用户特征信息与目标数据采集设备采集的用户特征信息以及相应的用户身份标识进行绑定；若存在两个用户特征信息未完成绑定，则确定未完成多个数据采集设备采集的用户特征信息之间的绑定。
122.在另一种可能的实现方式中，家庭边缘计算服务器根据接收到的其他数据采集设备采集的用户数据，识别出包含有一个用户特征信息时，且该一个用户特征信息未分配用户身份标识，则将该用户特征信息与目标数据采集设备采集的用户特征信息以及相应的用户身份标识进行绑定；若已有绑定结果，则优化绑定。
123.步骤s405，家庭边缘计算服务器存储用户身份标识和通过多个数据采集设备采集的用户特征信息之间的绑定关系。
124.如表1所示，为用户身份标识和多个数据采集设备采集的用户特征信息之间的绑定关系。
125.表1
126.用户身份标识人脸特征信息声纹特征信息轮廓特征信息心跳特征信息
127.在本技术实施例中，家庭边缘计算服务器在执行完用户身份标识和多个数据采集设备采集的用户特征信息绑定后，当用户通过人脸特征信息、声纹特征信息、轮廓特征信息、心跳特征信息中的任一用户特征信息确定用户身份标识后，可以同步关联附近时刻相同用户通过其他数据采集设备的识别结果，跨媒体感知。
128.当目标状态信息包括目标用户情绪信息、目标用户穿着信息、目标用户行为动作信息、目标用户位置信息这四种维度信息时，考虑到并不一定可以实时或同时获取到目标用户情绪信息、目标用户穿着信息、目标用户行为动作信息、目标用户位置信息等信息；本技术实施例中，在获取目标状态信息时设定一定的时间窗，取目标用户在时间窗内的最后一次识别结果，即时间窗内的最后一次识别获取的到的目标用户情绪信息、最后一次识别获取的到的目标用户穿着信息、最后一次识别获取的到的目标用户行为动作信息、最后一次识别获取的到的目标用户位置信息。
129.需要说明的是，设定获取目标用户状态信息的时间窗是一种补偿策略，在语义理解时尽量调用识别结果的前提下，对于长时间未识别时，例如用户起夜后的语音交互信息，不能以用户睡觉前的姿态动作为依据。例如，触发套系智能音箱语音识别当前获取到了用户身份标识、用户所处位置信息，其他信息未获取，此时，利用时间窗内每个维度信息最近一次识别的结果填充。
130.步骤s301，在目标用户对应的目标语义记录信息中，获取与目标状态信息匹配的目标语义理解结果。
131.为了节约算力资源以及节省语义理解的时间，本技术实施例中不再调用每种用户需求和/或每种场景下的语义理解模型，进行语义理解，而是基于目标用户的目标状态信息，预测用于表征目标用户的需求和/或场景的目标语义理解结果，并确定目标语义理解结果对应的语义理解模型，然后基于确定的语义理解模型进行语义理解服务。此时，计算过程中无需调用所有需求和/或场景下的语义理解模型，进行语义理解服务，节约算力资源和语义理解时间。
132.在本技术实施例中，获取与目标状态信息匹配的目标语义理解结果时，主要基于目标状态信息与目标语义记录信息中记录的目标用户的历史状态信息进行匹配，获取匹配成功的历史状态信息，并确定匹配成功的历史状态信息对应的用于表征目标用户的需求和/或场景的目标语义理解结果；因此，目标语义记录信息中主要包含：目标用户的历史状态信息与语义理解结果的对应关系。如表2所示：
133.表2
134.用户身份标识用户情绪用户穿着用户行为动作用户位置语义理解结果用户a不高兴大衣躺着卧室播放歌曲用户a不高兴大衣躺着客厅明天天气用户a不高兴大衣躺着卧室讲笑话
………………………………
135.在本技术实施例中，家庭边缘计算服务器获取到至少一个数据采集设备采集的用户数据后，基于内置的识别算法对用户数据进行识别，确定各个数据采集设备采集的用户特征信息和相应的用户状态信息；
136.比如，基于视频数据识别出人脸特征信息和相应的用户情绪、用户穿着以及用户
行为动作，基于音频数据识别出声纹特征信息和相应的语音交互指令对应的语音识别内容，基于家用毫米波雷达传感器传输的数据识别出轮廓特征信息和相应的用户位置。
137.由于已将多个用户特征信息以及用户身份标识进行绑定，因此可以确定出用户身份标识，并确定用户身份标识对应的目标状态信息，目标状态信息中包括用户情绪、用户穿着、用户行为动作以及用户位置等维度信息。
138.在确定出用户身份标识和对应的目标状态信息后，将目标状态信息与该用户身份标识对应的各个历史状态信息进行匹配，获取匹配成功的历史状态信息对应的语义理解结果作为目标语义理解结果。
139.在一种可能的实现方式中，进行目标状态信息和历史状态信息匹配时，针对任一历史状态信息，将目标状态信息中的各个维度信息，与历史状态信息中相应的维度信息进行匹配，并确定匹配成功的维度信息的目标数量，然后获取目标数量达到第三阈值的历史状态信息，作为与目标状态信息匹配成功的历史状态信息；
140.比如，将目标状态信息中的用户情绪与该历史状态信息中的用户情绪进行匹配、将目标状态信息中的用户穿着与该历史状态信息的用户穿着进行匹配、将目标状态信息中的用户行为动作与该历史状态信息的用户行为动作进行匹配、将目标状态信息中的用户位置与该历史状态信息中的用户位置进行匹配，并确定匹配成功的维度信息的目标数量，若该目标数量达到第三阈值，则确定该历史状态信息与目标状态信息匹配成功，获取该历史状态信息对应的语义理解结果，作为目标语义理解结果。
141.在本技术实施例中，考虑到不同时间段内，目标用户的需求、场景不同，也即不同时间段内的目标语义理解结果不同，在本技术实施例中为了使确定出的目标语义理解结果，以及与目标语义理解结果对应的语义理解模型更加的准确，给出一种还包含各个历史状态信息对应的时间段的目标语义记录信息，如表3所示：
142.表3
[0143][0144]
当目标语义记录信息中包含有各个历史状态信息各自对应的时间段的情况下，在确定目标语义理解结果时，确定获取目标状态信息的目标时间，在目标语义记录信息中，查找与目标时间匹配的目标时间段，并确定目标时间段对应的历史状态信息，然后在目标时间段对应的历史状态信息中，查找与目标状态信息匹配的历史状态信息，并将匹配的历史状态信息对应的至少一个语义理解结果，作为目标语义理解结果。
[0145]
在一种可能的实现方式中，进行目标状态信息和历史状态信息匹配时，针对任一历史状态信息，将目标状态信息中的各个维度信息，与历史状态信息中相应的维度信息进
行匹配，并确定匹配成功的维度信息的目标数量，然后获取目标数量达到第三阈值的历史状态信息，作为与目标状态信息匹配成功的历史状态信息。
[0146]
先基于获取目标状态信息的目标时间，对历史状态信息进行一次筛选，再将目标状态信息与历史状态信息进行匹配，对历史状态信息进行二次筛选，最后将二次筛选获得的历史状态信息对应的语义理解结果作为目标语义理解结果，提升目标语义理解结果和相应的语义理解模型的准确性，进一步提升语义理解的准确性。
[0147]
在本技术实施例中，为了筛选出更加符合目标用户的目标语义理解结果，目标语义记录信息中还包括：各个历史状态信息对应的各个语义理解结果的记录数，如表4所示：
[0148]
表4
[0149]
用户身份标识用户情绪用户穿着用户行为动作用户位置语义理解结果记录数用户a不高兴大衣躺着卧室播放歌曲80用户a不高兴大衣躺着卧室明天天气10用户a不高兴大衣躺着卧室讲笑话3
……………………………………
[0150]
当目标语义记录信息中包含有各个语义理解结果的记录数的情况下，在确定目标语义理解结果时，在目标语义记录信息中，查找与目标状态信息匹配的历史状态信息，并获取匹配成功的历史状态信息对应的至少一个语义理解结果；针对获取的任意一个语义理解结果，确定对应的目标记录数，并基于获取的各个目标记录数确定总记录数，然后确定相应的目标记录数，与总记录数之间的比例值；最后，将比例值达到第一阈值的语义理解结果，作为目标语义理解结果。
[0151]
如上述表4所示，若目标状态信息为：用户情绪
‑‑
不高兴、用户穿着
‑‑
大衣、用户行为动作
‑‑
躺着、用户位置
‑‑
卧室，与目标状态信息匹配成功的历史状态信息对应的语义理解结果包括：播放歌曲、明天天气和讲笑话三种，三种语义理解结果对应的记录数分别为：80、10、3，总记录数为93，因此，对应的比例值分别为：0.86、0.11、0.03；若第一阈值为0.5；则播放歌曲为目标语义理解结果。
[0152]
在一种可能的实现方式中，当目标语义记录信息中包含有各个语义理解结果的记录数的情况下，在确定目标语义理解结果时，在目标语义记录信息中，查找与目标状态信息匹配的历史状态信息，并获取匹配成功的历史状态信息对应的至少一个语义理解结果；针对获取的任意一个语义理解结果，确定对应的目标记录数，然后将目标记录数大于记录数阈值的语义理解结果作为目标语义理解结果。
[0153]
在一种可能的实现方式中，进行目标状态信息和历史状态信息匹配时，针对任一历史状态信息，将目标状态信息中的各个维度信息，与历史状态信息中相应的维度信息进行匹配，并确定匹配成功的维度信息的目标数量，然后获取目标数量达到第三阈值的历史状态信息，作为与目标状态信息匹配成功的历史状态信息。
[0154]
在本技术实施例中，为了筛选出更加符合目标用户的目标语义理解结果，目标语义记录信息中还包括：各个历史状态信息对应的各个语义理解结果的置信度，如表5所示：
[0155]
表5
[0156]
用户身份标识用户情绪用户穿着用户行为动作用户位置语义理解结果置信度用户a不高兴大衣躺着卧室播放歌曲80％
用户a不高兴大衣躺着卧室明天天气10％用户a不高兴大衣躺着卧室讲笑话3％
……………………………………
[0157]
当目标语义记录信息中包含有各个语义理解结果的置信度的情况下，在确定目标语义理解结果时，在目标语义记录信息中，查找与目标状态信息匹配的历史状态信息，并获取匹配成功的历史状态信息对应的至少一个语义理解结果；针对获取的任意一个语义理解结果，分别确定对应的置信度；然后，将置信度达到第二阈值的语义理解结果，作为目标语义理解结果。
[0158]
如上述表5所示，若目标状态信息为：用户情绪
‑‑
不高兴、用户穿着
‑‑
大衣、用户行为动作
‑‑
躺着、用户位置
‑‑
卧室，与目标状态信息匹配成功的历史状态信息对应的语义理解结果包括：播放歌曲、明天天气和讲笑话三种，三种语义理解结果对应的置信度分别为：80％、10％、3％；若第二阈值为50％；则播放歌曲为目标语义理解结果。
[0159]
在本技术实施例中，为了筛选出的目标语义理解结果更加准确，目标语义记录信息中的内容综合表2～表5的内容，如表6所示：
[0160]
表6
[0161][0162]
当目标语义记录信息中包含有历史状态信息、时间段、记录数、置信度和语义理解结果的情况下，在确定目标语义理解结果时：
[0163]
基于获取目标状态信息的时间与时间段进行匹配，确定匹配成功的时间段对应的历史状态信息；
[0164]
针对确定的任一历史状态信息，将该历史状态信息与目标状态信息进行匹配，确定匹配成功的历史状态信息对应的语义理解结果；
[0165]
针对确定的任一语义理解结果，确定该语义理解结果对应的记录数和置信度，并采用加权处理的方式，将记录数和置信度进行加权，确定加权结果值；选取加权结果值大于设定阈值的语义理解结果，作为目标语义理解结果。
[0166]
在一种可能的实现方式下，经过数据统计分析，确定某一语义理解结果与某一维度信息无关时，则可将该维度信息对应的用户状态设置为空，比如语义理解结果与用户行为动作无关，则用户行为动作可设置为空，如表7所示：
[0167]
表7
[0168][0169]
需要说明的是，家庭边缘计算服务器中存储各个家庭用户对应的语义记录信息，存储的语义记录信息是家庭边缘计算服务器基于获取的语音交互指令识别出的语音识别内容、数据采集设备采集的用户数据识别出的用户状态信息、用户身份标识、以及针对语音识别内容确定的语义理解结果，并叠加上获取用户数据的时间段进行更新的，具体关系如表8所示：
[0170]
表8
[0171][0172]
步骤s302，基于目标语义理解结果对应的语义理解模型，对目标用户触发的语音交互指令进行语义理解。
[0173]
在基于语义理解模型对目标用户触发的语音交互指令进行语义理解，是对语音交互指令进行语音识别后，对语音识别获得的语音内容信息进行语义理解。
[0174]
在进行语义理解，获得的语义理解结果即为用户意图，基于语义理解结果为用户提供相应的服务器。
[0175]
若语义理解结果为请求网络媒体资源，则向外网服务器发送请求信息，以获取对应的网络媒体资源；或
[0176]
若语义理解结果为控制指令下发，则向同一局域网中的被控设备发送控制指令，以使被控设备根据控制指令进行工作。
[0177]
在本技术实施例中，通过语义理解设备的感知能力确定目标状态信息，基于目标状态信息和历史状态信息进行匹配，筛选语义理解模型，无需调用每个场景和/或需求下的语义理解模型，仅调用与目标状态信息匹配的语义理解模型，减少语义理解模型的调用，节省算力资源和语义理解时间，同时提升语义理解的准确性。
[0178]
基于同一发明构思，本技术实施例还提供了一种语义理解的装置500，请参考图5，图5示例性提供了本技术实施例中一种语义理解的装置500，该装置包括：
[0179]
第一获取模块501，用于在接收到目标用户触发的语音交互指令后，获取至少一个数据采集设备采集的目标用户的目标状态信息；
[0180]
第二获取模块502，用于在目标用户对应的目标语义记录信息中，获取与目标状态信息匹配的目标语义理解结果，其中，目标语义记录信息中包含目标用户的各个历史状态信息与语义理解结果的对应关系；
[0181]
语义理解模块503，用于基于目标语义理解结果对应的语义理解模型，对语音交互指令进行语义理解。
[0182]
在一种可能的实现方式中，目标语义记录信息中还包括：各个历史状态信息各自
对应的时间段；
[0183]
第二获取模块502具体用于：
[0184]
确定获取目标状态信息的目标时间；
[0185]
在目标语义记录信息中，查找与目标时间匹配的目标时间段，并确定目标时间段对应的历史状态信息；
[0186]
在目标时间段对应的历史状态信息中，查找与目标状态信息匹配的历史状态信息，并将匹配的历史状态信息对应的至少一个语义理解结果，作为目标语义理解结果。
[0187]
在一种可能的实现方式中，目标语义记录信息中还包括：各个历史状态信息对应的语义理解结果的记录数；
[0188]
第二获取模块502具体用于：
[0189]
在目标语义记录信息中，查找与目标状态信息匹配的历史状态信息，并获取匹配的历史状态信息对应的至少一个语义理解结果；
[0190]
针对获取的任意一个语义理解结果，确定对应的目标记录数，并基于获取的各个目标记录数确定总记录数；
[0191]
针对获取的任意一个语义理解结果，确定相应的目标记录数，与总记录数之间的比例值；
[0192]
将比例值达到第一阈值的语义理解结果，作为目标语义理解结果。
[0193]
在一种可能的实现方式中，目标语义记录信息中还包括：各个历史状态信息对应的语义理解结果的置信度；
[0194]
第二获取模块502具体用于：
[0195]
在目标语义记录信息中，查找与目标状态信息匹配的历史状态信息，并获取匹配的历史状态信息对应的至少一个语义理解结果；
[0196]
针对获取的任意一个语义理解结果，分别确定对应的置信度；
[0197]
将置信度达到第二阈值的语义理解结果，作为目标语义理解结果。
[0198]
在一种可能的实现方式中，第二获取模块502通过如下方式查找与目标状态信息匹配的历史状态信息：
[0199]
针对目标语义记录信息中的任意一个历史状态信息，将目标状态信息中包含的各个维度信息，分别与历史状态信息中包含的相应维度信息进行匹配，确定维度信息匹配成功的目标数量；
[0200]
获取目标数量达到第三阈值的历史状态信息，作为与目标状态信息匹配的历史状态信息。
[0201]
在一种可能的实现方式中，若存在至少两个数据采集设备，该装置500还包括绑定模块504：
[0202]
绑定模块504具体用于：将至少两个数据采集设备各自采集的目标用户的用户特征信息进行绑定。
[0203]
在一种可能的实现方式中，绑定条件为：确定目标区域中的目标用户未完成至少两个数据采集设备各自采集的用户特征信息之间的绑定，且允许至少两个数据采集设备采集目标用户的用户特征信息。
[0204]
在一种可能的实现方式中，语义理解模块503对语音交互指令进行语义理解之后，
还用于：
[0205]
若语义理解结果为请求网络媒体资源，则向外网服务器发送请求信息，以获取对应的网络媒体资源；或
[0206]
若语义理解结果为控制指令下发，则向同一局域网中的被控设备发送控制指令，以使被控设备根据控制指令进行工作。
[0207]
在一些可能的实施方式中，本技术提供的语义理解的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本技术各种示例性实施方式的语义理解的方法中的步骤。
[0208]
程序产品可以采用每个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有每个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0209]
本技术的实施方式的短信息的发送控制的程序产品可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在计算装置上运行。
[0210]
可读信号介质可以包括在基带中或者作为载波一子模型传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
[0211]
可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。
[0212]
可以以一种或多种程序设计语言的任意组合来编写用于执行本技术操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如java、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。
[0213]
应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本技术的实施方式，上文描述的两种或更多单元的特征向量和功能可以在每个单元中具体化。反之，上文描述的每个单元的特征向量和功能可以进一步划分为由多个单元来具体化。
[0214]
此外，尽管在附图中以特定顺序描述了本技术方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为每个步骤执行，和/或将每个步骤分解为多个步骤执行。
[0215]
显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孟卫明何晨迪王月岭
技术所有人：海信集团控股股份有限公司
我是此专利的发明人