一种提供辅助服务的装置及方法与流程

文档序号：17973075发布日期：2019-06-21 23:37阅读：225来源：国知局

本发明属于视频监控技术领域，具体涉及一种提供辅助服务的装置及方法。

背景技术：

随着人脸识别技术和语音识别技术的发展，它们的应用场景也在不断拓展。在目前的人机交互场景中，普遍存在的是用户与智能机器人一对一对话交互，首先智能机器人通过人脸识别技术验证用户与其提供的身份证信息是否一致，在验证通过后，用户发出语音指令表达需求，智能机器人通过语音识别技术识别语音信息，利用可视化技术和语音展示用户需要的产品；然后用户通过语音确认该产品是否满足需求，完成交互。识别客户下达的语音指令，并按照并且智能机器人按照客户的指令进行的目前的人脸识别技术。申请人发现，目前的交互方式需要用户专门与智能终端进行交互。

技术实现要素：

为了解决上述的目前的交互方式需要用户专门与智能终端进行交互的技术问题，本发明实施例提出了一种提供辅助服务的装置及方法。

在本发明的第一方面，提供一种提供辅助服务的装置。该装置包括：信息采集模块、身份识别模块、语音分析模块和服务内容提供模块；其中，

信息采集模块，包括视频采集单元和音频采集单元，所述视频采集单元采集其拍摄范围内的视频内容，所述音频采集单元采集其接收范围内的音频内容；

身份识别模块，响应于视频采集单元采集的视频内容中出现多个人脸，对所述视频采集单元采集的视频内容进行人脸识别，获取各个人脸的脸部信息；基于获取的各个人脸的脸部信息和预先形成的场景人脸数据集，确定各个人脸所属的身份类型；所述场景人脸数据集表征人脸的脸部信息与身份类型的关联关系；

语音分析模块，对音频采集单元采集的音频内容进行语音识别，以及对语音识别单元识别的语音内容进行语义识别，获取关键信息；以及

服务内容提供模块，基于身份识别模块确定的各个人脸所属身份类型的组合和语音分析模块获取的关键信息，提供服务内容进行展示。

在某些实施例中，所述服务内容提供模块根据身份识别模块确定的各个人脸所属身份类型的组合，确定所述组合拥有的权限级别；根据语音分析模块获取的关键信息和所述权限级别，提供服务内容进行展示。

在某些实施例中，所述服务内容提供模块根据语音分析模块获取的关键信息，给出满足所述权限级别的备选服务内容；按照用户的指示，从备选服务内容中确定服务内容，并提供所确定的服务内容进行展示。

在某些实施例中，所述身份识别模块，还用于响应于视频采集单元采集的视频内容中出现多个人脸或多人的声纹，对所述音频采集单元采集的音频内容进行声纹识别，获取各个人脸对应的声纹信息；附加地基于获取各个人脸对应的声纹信息，确定各个人脸所属的身份类型；所述场景人脸数据集表征人脸的脸部信息和对应的声纹信息与身份类型的关联关系。

在某些实施例中，所述音频采集模块持续采集其接收范围内的音频内容，或者按照用户的指示开始或停止采集其接收范围内的音频内容，或者响应于所述视频采集模块采集的视频内容中出现新的人脸，开始采集其接收范围内的音频内容，并在所述身份识别模块获取到所述新的人脸的脸部信息后停止采集其接收范围内的音频内容；

和/或，

所述视频采集模块持续采集其拍摄范围内的视频内容，或者按照用户的指示开始或停止采集其拍摄范围内的视频内容，或者响应于所述音频采集模块采集的音频内容中出现新的声纹信息，开始采集其拍摄范围内的视频内容，并在所述身份识别模块获取到所述新的声纹信息后停止采集其拍摄范围内的视频内容。

在某些实施例中，如果获取的人脸的脸部信息已经保存在所述场景人脸数据集中，则所述场景人脸数据集中保存的与所述获取的人脸的脸部信息关联的身份类型确定为该人脸所属的身份类型；如果获取的人脸的脸部信息未保存在所述场景人脸数据集中，则通过互联网搜索所述获取的人脸的脸部信息对应的身份类型及相应的更新时间，如果搜索到所述获取的人脸的脸部信息对应的身份类型，并且该更新时间距离当前时间的时间间隔在预设阈值范围内，则将该搜索到的身份类型，确定为所述人脸所属的身份类型；如果搜索到所述获取的人脸的脸部信息对应的身份类型，但该更新时间距离当前时间的时间间隔不在预设阈值范围内，或者未搜索到所述获取的人脸的脸部信息对应的身份类型，则确定所述人脸所属的身份类型为陌生人。

在某些实施例中，所述提供的服务内容中包括需要重新验证身份类型才准予执行的功能，响应于身份类型验证通过，执行所述功能；

和/或，

所述提供的服务内容设置有保密等级，在所述保密等级需要对相关人员进行身份核查时，仅对该相关人员的人脸的脸部信息进行确认。

在本发明的另一方面，提供一种提供辅助服务的方法。该方法包括：

响应于采集的视频内容中出现多个人脸，对所述采集的视频内容进行人脸识别，获取各个人脸的脸部信息；基于获取的各个人脸的脸部信息和预先形成的场景人脸数据集，确定各个人脸所属的身份类型；所述场景人脸数据集表征人脸的脸部信息与身份类型的关联关系；

对采集的音频内容进行语音识别，以及对语音识别单元识别的语音内容进行语义识别，获取关键信息；以及

基于所述确定的各个人脸所属身份类型的组合和所述获取的关键信息，提供服务内容进行展示。

在某些实施例中，所述基于所述确定的各个人脸所属身份类型的组合和所述获取的关键信息，提供服务内容进行展示，包括：

根据身份识别模块确定的各个人脸所属身份类型的组合，确定所述组合拥有的权限级别；根据语音分析模块获取的关键信息和所述权限级别，提供服务内容进行展示。

在某些实施例中，所述方法还包括：

响应于采集的视频内容中出现多个人脸或多人的声纹，对所述采集的音频内容进行声纹识别，获取各个人脸对应的声纹信息；附加地基于获取各个人脸对应的声纹信息，确定各个人脸所属的身份类型；所述场景人脸数据集表征人脸的脸部信息和对应的声纹信息与身份类型的关联关系。

本发明的有益效果：本发明实施例提出的提供辅助服务的装置及方法，针对多人的应用场景，形成多身份类型的组合，并获取多人对话中的关键信息，根据多身份类型的组合和获取的关键信息，提供服务内容，无需用户专门与智能终端进行交互。并且本发明实施例提出的技术方案中的语音识别得到的内容并不需要用于直接与用户发生互动，并不需要与用户通过一问一答的方式来提供服务，本发明实施例提出的技术方案主要基于静默式判定，基于语音识别内容，做关键词摘选分析，摘选出的关键词集合构成关键信息，然后基于关键信息来提供服务内容或者提供备选服务内容由用户确认。另外，本发明实施例提出的技术方案还可以实时调整服务内容的提供顺序，根据关键词出现的频率、关键词出现的时间等，来决定提供服务内容的顺序，甚至筛选服务内容。

附图说明

图1是本发明实施例提出的提供辅助服务的装置的结构示意图；

图2是本发明实施例提出的提供辅助服务的方法的一实施方式的流程图；

图3是本发明实施例提出的提供辅助服务的方法的另一实施方式的流程图；

图4本发明实施例提出的提供辅助服务的装置的一应用场景的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。但本领域技术人员知晓，本发明并不局限于附图和以下实施例。

本发明实施例提出了一种提供辅助服务的装置，如图1所示，包括：信息采集模块、身份识别模块、语音分析模块和服务内容提供模块。

信息采集模块，包括视频采集单元和音频采集单元，所述视频采集单元采集其拍摄范围内的视频内容，所述音频采集单元采集其接收范围内的音频内容。

在一个实施例中，视频采集单元包括摄像头，音频采集单元包括麦克风。本领域技术人员知晓，所述视频采集单元也可以采用其他采集视频内容的设备；音频采集单元也可以采用其他采集音频内容的设备，例如音频采集单元包括拾音器。

身份识别模块，响应于视频采集单元采集的视频内容中出现多个人脸，对所述视频采集单元采集的视频内容进行人脸识别，获取各个人脸的脸部信息；基于获取的各个人脸的脸部信息和预先形成的场景人脸数据集，确定各个人脸所属的身份类型。

在一实施例中，所述身份识别模块包括人脸识别单元和身份类型确定单元，所述人脸识别单元响应于视频采集单元采集的视频内容中出现多个人脸，对所述视频采集单元采集的视频内容进行人脸识别，获取各个人脸的脸部信息；所述身份类型确定单元基于获取的各个人脸的脸部信息和预先形成的场景人脸数据集，确定各个人脸所属的身份类型。

在本实施例中，采用场景人脸数据集表征人脸的脸部信息与身份类型的关联关系。在确定所述识别的人脸所属的身份类型之前，预先形成的场景人脸数据集中已经保存了人脸的脸部信息，并且赋予了人脸所属的身份类型。可以理解，预先形成的场景人脸数据集中保存的人脸的脸部信息，可以从现场拍摄的视频或照片获取，例如通过所述视频采集单元或者其他视频采集单元拍摄的视频内容，或者通过照相机等拍摄的照片；还可以从上传的照片等资料中获取。在一个实施例中，可以从已经采集的视频内容中选取一时间段的视频内容，也可以通过触发起止操作实时采集一时间段的视频内容；识别所述时间段的视频内容中的人脸的脸部信息，并赋予人脸所属的身份类型；将人脸的脸部信息和其所属的身份类型关联地保存在场景人脸数据集中。进一步地，在一实施例中，可以预先上传人脸照片等能够识别人脸的脸部信息的资料，识别上传的资料中的人脸的脸部信息，并赋予人脸所属的身份类型，将人脸的脸部信息和其所属的身份类型关联地保存在场景人脸数据集中。在赋予人脸所属的身份类型时，可以通过查询单位的人员信息表来获取人脸所属的身份类型(例如主要针对单位职工)，也可以通过查询单位的客户信息表来获取人脸所属的身份类型(例如主要针对非单位职工)，还可以通过互联网搜索技术来获取人脸所属的身份类型(例如主要针对非单位职工)。

在本实施例中，所述身份类型用来表示不同工作、职务和/或地位。在一实施例中，所述身份类型包括按照职务划分的身份类型，例如，董事长、总经理、部门经理、普通员工、实习员工、勤杂人员等。在另一实施例中，所述身份类型包括按照工作划分的身份类型，例如，a项目负责人、a项目研发技术人员、a项目测试技术人员、a项目市场开发人员等等。

在一个实施例中，如果获取的人脸的脸部信息已经保存在所述场景人脸数据集中，则所述场景人脸数据集中保存的与所述获取的人脸的脸部信息关联的身份类型确定为所述识别的人脸所属的身份类型；如果获取的人脸的脸部信息未保存在所述场景人脸数据集中，则确定该人脸所属的身份类型为陌生人。

在另一实施例中，如果获取的人脸的脸部信息已经保存在所述场景人脸数据集中，则所述场景人脸数据集中保存的与所述获取的人脸的脸部信息关联的身份类型确定为该人脸所属的身份类型；如果获取的人脸的脸部信息未保存在所述场景人脸数据集中，则通过互联网搜索所述获取的人脸的脸部信息对应的身份类型及相应的更新时间，如果搜索到所述获取的人脸的脸部信息对应的身份类型，并且该更新时间距离当前时间的时间间隔在预设阈值范围内，则将该搜索到的身份类型，确定为所述人脸所属的身份类型；如果搜索到所述获取的人脸的脸部信息对应的身份类型，但该更新时间距离当前时间的时间间隔不在预设阈值范围内，或者未搜索到所述获取的人脸的脸部信息对应的身份类型，则确定所述人脸所属的身份类型为陌生人。

进一步地，在一实施例中，场景人脸数据集包括表示已确定所属身份类型的第一场景人脸子数据集和表示待补充所属身份类型的第二场景人脸子数据集，其中，已赋予人脸所属身份类型的人脸的脸部信息和人脸所属的身份类型相关联地保存在第一场景人脸子数据集中，陌生人的人脸的脸部信息因需要补充所属身份类型，保存在第二场景人脸子数据集中。所述预先形成的场景人脸数据集属于所述第一场景人脸子数据集。

更进一步地，在一实施例中，场景人脸数据集还包括表示待核实身份类型的第三场景人脸子数据集，通过互联网搜索技术获取的人脸所属身份类型及人脸的脸部信息相关联地保存在第三场景人脸子数据集中，提示用户核实互联网搜索技术获取的人脸所属身份类型。

语音分析模块，对音频采集单元采集的音频内容进行语音识别，以及对语音识别单元识别的语音内容进行语义识别，获取关键信息。在一个实施例中，所述语音分析模块包括语音识别单元和语义识别单元，其中，语音识别单元对音频采集单元采集的音频内容进行语音识别，语义识别单元对语音识别单元识别的语音内容进行语义识别，获取关键信息。

服务内容提供模块，基于身份识别模块确定的各个人脸所属身份类型的组合和语音分析模块获取的关键信息，提供服务内容进行展示。

在一个实施例中，所述服务内容提供模块根据身份识别模块确定的各个人脸所属身份类型的组合，确定所述组合拥有的权限级别；根据语音分析模块获取的关键信息和所述权限级别，提供服务内容进行展示。进一步地，所述服务内容提供模块也可以根据语音分析模块获取的关键信息，给出满足所述权限级别的备选服务内容；按照用户的指示，从备选服务内容中确定服务内容，并提供所确定的服务内容进行展示。在一实施例中，所述提供的服务内容为多个时，所述多个服务内容按照对应的关键信息的排序依序展示。可以理解，关键信息的排序可以与该关键信息出现的频率、出现的时间有关，也可以与用户的主动选择有关，或者也可以与多个人脸中的一个人脸所对应的人员的个性化设置有关，所述人员可以是多个人脸对应的多个人员中重要性最高的人，也可以是多个人脸对应的多个人员中作为主持人的人。

在一实施例中，所述提供的服务内容分为需要确认的服务内容和无需确认的服务内容，响应于所述提供的服务内容为需要确认的服务内容，按照用户的指示展示或者不展示所述提供的服务内容；响应于所述提供的服务内容为无需确认的服务内容，直接展示所述提供的服务内容。

在一个实施例中，服务内容提供模块可以包括显示屏，通过显示屏展示所述提供的服务内容。在另一实施例中，服务内容提供模块包括具有输入输出互动功能的电子设备，通过电子设备输出所述提供的服务内容，并且能够接收用户向电子设备输入的信息，按照所述输入的信息对所述输出的服务内容进行操作。所述输入信息例如可以是指示对所述输出的服务内容进行放大、缩小、滑动、旋转等页面操作，也可以是指示对所述输出的服务内容中提供的链接进行点选等激活操作，还可以是指示对所述输出的服务内容中提供的选择或确认问询进行回复的操作等。在又一实施例中，所述备选服务内容通过电子设备输出，提示用户从所述备选服务内容中选择一个服务内容或者按照优先级选择多个服务内容；并按照用户的选择，确定所述提供的服务内容，并将所确定的服务内容通过电子设备输出，从而进行服务内容的展示。这里的优先级可以按照用户选择各个服务内容的时间顺序确定，也可以按照用户对所选择的服务内容给出的排序确定。

在一个实施例中，所述场景人脸数据集中还保存与人脸的脸部信息关联的联系工具的账号。所述联系工具至少可以包括手机、微信或qq。可以理解，所述联系工具还可以包括其他能够实现信息交互的方式。进一步地，在一实施例中，所述提供的服务内容发送给所述联系工具的账号，并提示用户查看，从而进行服务内容的展示。在另一实施例中，所述备选服务内容以主题的形式发送给所述联系工具的账号，并提示用户选择其中一主题，或者按优先级选择多个主题，并将选择的主题连同优先级反馈给所述服务内容提供模块，所述服务内容提供模块按照所述反馈提供服务内容。

在一实施例中，所述服务内容可以从单位的内部服务器获取，也可以通过网络从外部服务器获取。进一步地，在一实施例中，所述服务内容提供模块可以包括存储供选择的服务内容的资料库的内部服务器。所述服务内容提供模块可以自动更新所述内部服务器中的服务内容并标注所述更新的服务内容供用户核实，也可以按照用户的指示更新所述内部服务器中的服务内容。

在一实施例中，所述身份识别模块，还用于响应于视频采集单元采集的视频内容中出现多个人脸或音频采集单元采集的音频内容中出现多人的声纹，对所述音频采集单元采集的音频内容进行声纹识别，获取各个人脸对应的声纹信息；附加地基于获取各个人脸对应的声纹信息，确定各个人脸所属的身份类型。

在一实施例中，如图1所示，所述身份识别模块还包括声纹识别单元，所述声纹识别单元响应于视频采集单元采集的视频内容中出现多个人脸或音频采集单元采集的音频内容中出现多人的声纹，对所述音频采集单元采集的音频内容进行声纹识别，获取各个人脸对应的声纹信息。所述身份类型确定单元基于获取的各个人脸的脸部信息、对应的声纹信息和预先形成的场景人脸数据集，确定各个人脸所属的身份类型。可以理解，所述身份识别模块也可以响应于视频采集单元采集的视频内容中出现多个人脸或音频采集单元采集的音频内容中出现多人的声纹，对所述视频采集单元采集的视频内容进行人脸识别，获取各个人脸的脸部信息。

在本实施例中，采用场景人脸数据集表征人脸的脸部信息和对应的声纹信息与身份类型的关联关系。在确定所述识别的人脸所属的身份类型之前，预先形成的场景声纹数据集中已经保存了人脸的脸部信息和对应的声纹信息。可以理解，预先形成的场景人脸数据集中保存的人脸对应的声纹信息，可以从现场采集的音频内容中获取，例如通过所述音频采集单元或者其他音频采集单元(例如拾音器)采集的音频内容；还可以从上传的音频资料中获取。在一个实施例中，可以从已经采集的音频内容中选取一时间段的音频内容，也可以通过触发起止操作实时采集一时间段的音频内容，通过识别所述时间段的音频内容，获取声纹信息。

在一实施例中，身份识别模块、语音分析模块和服务内容提供模块可以集成在服务终端中。

在某些应用场景中，所述音频采集模块可以持续采集其接收范围内的音频内容，也可以按照用户的指示开始或停止采集其接收范围内的音频内容，还可以响应于所述视频采集模块采集的视频内容中出现新的人脸，开始采集其接收范围内的音频内容，并在所述身份识别模块获取到所述新的人脸的脸部信息后停止采集其接收范围内的音频内容。所述视频采集模块可以持续采集其拍摄范围内的视频内容，也可以按照用户的指示开始或停止采集其拍摄范围内的视频内容，还可以响应于所述音频采集模块采集的音频内容中出现新的声纹信息，开始采集其拍摄范围内的视频内容，并在所述身份识别模块获取到所述新的声纹信息后停止采集其拍摄范围内的视频内容。

另外，在一实施例中，考虑到提供服务内容的方式主要是基于关键信息引发和权限级别筛查的机制，因此可以单独设置关键词接口、权限级别接口、备选服务内容展示接口等，通过后续不断更新数据库来丰富备选服务内容，不断强化本发明实施例的辅助功能。

可以理解的是，所述提供的服务内容可以按照循环播放的方式来呈现，也可以按照预先的设置或外部的指令以自动播放的方式来呈现，还可以按照新的关键信息或者新的身份类型组合，不断更新所呈现的服务内容。在一实施例中，可以在已提供的服务内容中，按照新的关键信息或者新的身份类型组合，插播相关的服务内容。

应当理解，展示的服务内容应该是可以向当前人员播放的内容。

另外，如果展示的服务内容中包括需要特定身份类型才能执行的功能，可以在所述功能执行前，再重新做一次身份类型验证。例如，如果通过展示的服务内容调用出订票服务功能，那么在执行订票服务之前，再次进行人脸识别，并提示相关人员确认其身份类型，必要时，可以要求相关人员提供姓名信息。

再者，在一实施例中，还可以对展示的服务内容设置保密等级，在所述保密等级需要对相关人员进行身份核查时，则重新对该人员的人脸的脸部信息进行确认，而不对其他人员进行确认。例如，如果要展示跟本企业商业秘密有关的企业融资资料时，会给出需要对相关人员进行身份核查的提示，响应于在指定的拍摄范围内采集到了特定人员的人脸，提供对应的服务内容。在所述实施例中，可以理解，可以通过多个摄像头，分别安设在不同位置，例如在一个会议室内，分别在会议室的进出口，角落等地安装摄像头，摄像头采集到的视频内容中所识别出来的人脸，都会归集到同一个场景人脸数据集中；当进行身份核查时，用来身份核查的摄像头是固定位置的摄像头，例如，用来身份核查的摄像头设置在会议室内的会议桌上的特定角度，甚至用来身份核查的摄像头可以设置在会议室外的其他场所，或者可以通过相关人员的移动设备(例如相关人员的手机、笔记本电脑、台式机、平板电脑等)来完成。

本发明实施例还提供一种提供辅助服务的方法，如图2所示，包括：

响应于采集的视频内容中出现多个人脸，对所述采集的视频内容进行人脸识别，获取各个人脸的脸部信息；

基于获取的各个人脸的脸部信息和预先形成的场景人脸数据集，确定各个人脸所属的身份类型；所述场景人脸数据集表征人脸的脸部信息与身份类型的关联关系；

对采集的音频内容进行语音识别获取语音内容，以及对获取的语音内容进行语义识别，获取关键信息；以及

基于所述确定的各个人脸所属身份类型的组合和所述获取的关键信息，提供服务内容进行展示。

在一实施例中，所述响应于采集的视频内容中出现多个人脸，对所述采集的视频内容进行人脸识别，获取各个人脸的脸部信息，可以通过信息采集模块实现；所述基于获取的各个人脸的脸部信息和预先形成的场景人脸数据集，确定各个人脸所属的身份类型，可以通过身份识别模块实现；所述对采集的音频内容进行语音识别获取语音内容，以及对获取的语音内容进行语义识别，获取关键信息，可以通过语音分析模块实现；以及所述基于所述确定的各个人脸所属身份类型的组合和所述获取的关键信息，提供服务内容进行展示，可以通过服务内容提供模块实现。

所述视频内容可以通过视频采集单元进行采集，所述音频内容可以通过音频采集单元进行采集。在一个实施例中，视频采集单元包括摄像头，音频采集单元包括麦克风。本领域技术人员知晓，所述视频采集单元也可以采用其他采集视频内容的设备；音频采集单元也可以采用其他采集音频内容的设备，例如音频采集单元包括拾音器。

所述基于所述确定的各个人脸所属身份类型的组合和所述获取的关键信息，提供服务内容进行展示，包括：根据所述确定的各个人脸所属身份类型的组合，确定所述组合拥有的权限级别；根据所述获取的关键信息和所述权限级别，提供服务内容进行展示。

在一实施例中，可以根据所述获取的关键信息，给出满足所述权限级别的备选服务内容；按照用户的指示，从备选服务内容中确定服务内容，并提供所确定的服务内容进行展示。在一实施例中，所述提供的服务内容为多个时，所述多个服务内容按照对应的关键信息的排序依序展示。可以理解，关键信息的排序可以与该关键信息出现的频率、出现的时间有关，也可以与用户的主动选择有关，或者也可以与多个人脸中的一个人脸所对应的人员的个性化设置有关，所述人员可以是多个人脸对应的多个人员中重要性最高的人，也可以是多个人脸对应的多个人员中作为主持人的人。

在一实施例中，如图3所示，所述提供辅助服务的方法还包括：响应于所述采集的视频内容中出现多个人脸或所述采集的音频内容中出现多人的声纹，对所述采集的音频内容进行声纹识别，获取各个人脸对应的声纹信息；附加地基于获取各个人脸对应的声纹信息，确定各个人脸所属的身份类型。在本实施例中，采用场景人脸数据集表征人脸的脸部信息和对应的声纹信息与身份类型的关联关系。在确定所述识别的人脸所属的身份类型之前，预先形成的场景声纹数据集中已经保存了人脸的脸部信息和对应的声纹信息。可以理解，预先形成的场景人脸数据集中保存的人脸对应的声纹信息，可以从现场采集的音频内容中获取，例如通过音频采集单元采集的音频内容；还可以从上传的音频资料中获取。在一个实施例中，可以从已经采集的音频内容中选取一时间段的音频内容，也可以通过触发起止操作实时采集一时间段的音频内容，通过识别所述时间段的音频内容，获取声纹信息。应当可以理解，也可以响应于采集的视频内容中出现多个人脸或采集的音频内容中出现多人的声纹，对所述采集的视频内容进行人脸识别，获取各个人脸的脸部信息。

在一实施例中，所述响应于所述采集的视频内容中出现多个人脸，对所述采集的音频内容进行声纹识别，获取各个人脸对应的声纹信息；附加地基于获取各个人脸对应的声纹信息，确定各个人脸所属的身份类型，可以通过身份识别模块实现。

在某些应用场景中，可以持续采集接收范围内的音频内容，也可以按照用户的指示开始或停止采集接收范围内的音频内容，还可以响应于所述采集的视频内容中出现新的人脸，开始采集接收范围内的音频内容，并在获取到所述新的人脸的脸部信息后停止采集接收范围内的音频内容。在某些应用场景中，可以持续采集拍摄范围内的视频内容，也可以按照用户的指示开始或停止采集拍摄范围内的视频内容，还可以响应于所述采集的音频内容中出现新的声纹信息，开始采集拍摄范围内的视频内容，并获取取到所述新的声纹信息后停止采集拍摄范围内的视频内容。

本发明实施例涉及的提供辅助服务的方法与提供辅助服务的装置对应的内容，按照前述对提供辅助服务的装置的描述理解，在此不再赘述。

下面结合具体的应用场景，以提供辅助服务的装置为例，对本发明实施例提出的技术方案进行示例性说明。

在本实施例中，服务内容提供模块是设置在某企业公共会议场所的服务终端，该服务终端至少包括一个可触摸式显示屏以备与用户互动。

当该服务终端根据根据确定的各个人脸所属身份类型的组合，获得当前的所属身份类型的组合是本企业员工a、本企业员工b以及陌生人c时，确定该组合的权限级别为一般权限；然后根据获取的关键信息，获得的关键词包括企业名称、企业所从事多项主营业务中的无线通信业务名称、某省地名时，则服务内容提供模块调用数据库中存储的与上述关键词对应的资料作为一备选服务内容，例如，企业对外介绍宣传ppt、企业的公司介绍、企业无线通信业务当年情况总结等服务内容；同时，服务内容提供模块调用数据库中存储的本企业所在地到某省地名的火车班次、飞机航班次查询入口等内容作为另一备选服务内容。

就本企业员工a的体验来看，该场景其实是本企业员工a连同本企业员工b一起向客户c介绍该企业概况，推销本企业业务的场景，在本企业员工a和本企业员工b在所述服务终端前开放式聊天的过程中，该服务终端的主界面上会循环播放一些本企业的展示信息，同时在该服务终端的可操作界面处，随着本企业员工a、本企业员工b和客户c的不断交谈，自然出现了一些可以点击打开的服务内容备选项。比如本企业员工a提到本企业的名称及最近发展的时候，可以很自然的通过在可触摸式显示屏上自动展现出来的企业对外介绍宣传ppt，来加强展示效果，并且当与客户c的交流中，自然提及到了某省地名时，同样可以很自然的通过可触摸式显示屏上自动展现出来的企业在某省分公司介绍，来转入下一个话题的介绍和沟通。并且一旦在判断产生了实际赴某省地名拜访开展业务需求的时候，可以通过所述服务终端自动提供的火车班次、航班班次查询入口来查询确定时间，甚至当场订票。

可以理解，如果采集的视频内容中出现了本企业董事长，则当前的所属身份类型的组合对应的权限级别可以是最高级别。

此外，虽然服务内容的提供主要是基于各个人脸所属身份类型的组合和获取的关键信息来确定的，但是也可以预设个性化服务内容，所述个性化服务内容与人脸或者与人脸所属的身份类型相对应。举例来说，当当前的所属身份类型的组合中包括本企业的cfo(首席财务官)，那么在提供多个备选服务内容时，也可以把跟企业近期财务状况有关的资料设置为备选服务内容之一。

本发明实施例提出了一种提供人机交互的装置为一终端机，如图4所示，包括：壳体、第一视频采集设备、第二视频采集设备、人脸识别设备、身份验证设备和显示设备。

第一视频采集设备安装在壳体正面，采集其拍摄范围内的第一视频内容。所述第一视频采集设备可以为一个或者多个，第一视频采集设备的数量可以视终端机所在的空间大小以及第一视频采集设备的拍摄范围大小而定。

第二视频采集设备安装在壳体背面，采集其拍摄范围内的第二视频内容。

在一个实施例中，第一视频采集设备包括第一摄像头，第二视频采集设备包括第二摄像头。所述第一摄像头可以为半球摄像机或球型摄像机，所述第二摄像头可以为半球摄像机。

人脸识别设备，设置在壳体内部，与第一视频采集设备和第二视频采集设备连接，响应于第一视频采集设备采集的第一视频内容中出现多个人脸，对所述第一视频内容进行人脸识别，获取各个人脸的第一脸部信息；响应于所述第二视频采集设备采集到第二视频内容，对所述第二视频内容进行人脸识别，获取所述第二视频内容中的第二脸部信息。在本实施例中，所述人脸识别的技术属于已有技术，因此不作具体描述。

身份验证设备，设置在壳体内部，与所述人脸识别设备连接，根据所述第二脸部信息进行身份验证。本实施例中，根据脸部信息进行身份验证的技术属于已有技术，因此不作具体描述。

显示设备，设置在壳体正面，与所述人脸识别设备和所述身份验证设备连接，显示与所述第一脸部信息对应的服务内容，并且响应于所述第二脸部信息通过身份验证，显示与所述第一脸部信息和所述第二脸部信息对应的服务内容。

所述显示设备包括显示屏，通过显示屏显示所述服务内容。所述显示屏可以为触摸屏。

在一实施例中，所述显示设备包括具有输入输出互动功能的电子设备，通过电子设备输出(即显示)所述服务内容，并且能够接收用户向电子设备输入的信息，按照所述输入的信息对所述显示的服务内容进行操作。所述输入信息例如可以是指示对所述显示的服务内容进行放大、缩小、滑动、旋转等页面操作，也可以是指示对所述显示的服务内容中提供的链接进行点选等激活操作，还可以是指示对所述显示的服务内容中提供的选择或确认问询进行回复的操作等。

在一实施例中，所述服务内容可以从终端机包括的内部服务器获取，也可以通过网络从外部服务器获取。进一步地，在一实施例中，所述终端机可以包括存储供显示的服务内容的资料库的内部服务器，在所述内部服务器中，所述服务内容与所述第一脸部信息或者与所述第一脸部信息和所述第二脸部信息相关联的存储。在另一实施例中，所述显示设备还包括收发单元，所述收发单元将所述第一脸部信息发送给外部服务器或者在所述第二脸部信息通过身份验证时将所述第一脸部信息和所述第二脸部信息发送给外部服务器，并从外部服务器获取对应的服务内容，在显示设备的显示屏上显示，在所述外部服务器中，所述服务内容与所述第一脸部信息或者与所述第一脸部信息和所述第二脸部信息相关联的存储。

在某些应用场景中，所述第一视频采集设备和所述第二视频采集设备可以持续采集其拍摄范围内的视频内容，也可以按照来自用户或者显示设备的指示开始或停止采集其拍摄范围内的视频内容。

应当理解，显示的服务内容应该具有可以向当前人员播放的播放权限。

在一实施例中，所述显示的服务内容中出现了需要特定身份类型才能执行的功能，可以在所述功能执行前，通过第二视频采集设备、人脸识别设备和身份验证设备进行身份验证。例如，如果显示的服务内容调用出订票服务功能，那么在执行订票服务之前，显示设备通知相关人员前往第二视频采集设备所在的位置，并向第二视频采集设备发送指示，第二视频采集设备接收到该指示，采集第二视频内容，人脸识别设备对所述第二视频内容进行人脸识别，获取所述第二视频内容中的第二脸部信息，身份验证设备对所述第二脸部信息进行身份验证，在身份验证通过后，将所述第二脸部信息发送给显示设备。

在一实施例中，所述终端机还包括音频采集设备(未图示)，所述音频采集设备设置在壳体内部并靠近壳体正面，采集其接收范围内的音频内容，壳体对应于所述音频采集设备的位置开设有多个通孔。所述音频采集设备可以为一个或者多个，具体数量可以视终端机所在的空间大小而定。所述显示设备与所述音频采集设备连接，获取所述音频内容，并将所述音频内容发送给外部服务器，所述外部服务器根据所述第一脸部信息和所述音频内容或者根据所述第一脸部信息、所述第二脸部信息和所述音频内容提供服务内容。在一实施例中，所述通孔周缘设置收音部，所述收音部从所述通孔向所述音频采集设备延伸形成渐缩的锥形结构。

本发明实施例提出的提供人机交互的终端机，不仅能够借助第一视频采集设备进行多人应用场景的视频监控，显示服务内容，并且能够借助第二视频采集设备进行特定人脸采集，从而在不影响正常视频监控的同时能够对特定人脸进行身份验证。另外，还可以通过与外部服务器的通讯，获取更多有针对性的服务内容。

本发明实施例还提出一种计算机可读存储介质，存储有执行前述方法的计算机程序。

本发明实施例还提出一种计算机设备，包括处理器和操作上与所述处理器连接的上述计算机可读存储介质，所述处理器运行执行计算机可读介质中的计算机程序。

本领域技术人员可以理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(ram)，只读存储器(rom)，可擦除可编辑只读存储器(eprom或闪速存储器)，光纤装置，以及便携式光盘只读存储器(cdrom)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(pga)，现场可编程门阵列(fpga)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上，对本发明的实施方式进行了说明。但是，本发明不限定于上述实施方式。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：不公告发明人
技术所有人：武汉恩特拉信息技术有限公司
我是此专利的发明人