一种数字人驱动与交互系统的制作方法

文档序号：33526862发布日期：2023-03-22 07:22阅读：61来源：国知局

1.本发明涉及数字人技术领域，尤其涉及一种数字人驱动与交互系统。

背景技术：

2.数字人为运用数字技术创造出来的、与人类形象接近的数字化人物形象。狭义的是信息科学与生命科学融合的产物，是利用信息科学的方法对人体在不同水平的形态和功能进行虚拟仿真。其包括四个交叉重叠的发展阶段，可视人，物理人，生理人，智能人，最终建立多学科和多层次的数字模型并达到对人体从微观到宏观的精确模拟。广义的数字人是指数字技术在人体解剖、物理、生理及智能各个层次，各个阶段的渗透，需要注意的是，数字人是正在发展阶段的相关领域的统称。
3.当前使用的数字人形象在使用时，一般其语音模块、表情模块和动作模块相互独立工作，在数字人形象展现时，一般通过语音模块、表情模块和动作模块的配合使用，来达到同步的效果，但是这种配合方式使得配合难度较高，且容易会出现数字人表情、动作和语音出现不同步，先语音后表情变化或先表情变化后语音，即数字人音画不同步的情况。

技术实现要素：

4.本发明的目的是为了解决现有技术中数字人容易音画不同步的问题，而提出的一种数字人驱动与交互系统。
5.为了实现上述目的，本发明采用了如下技术方案：
6.一种数字人驱动与交互系统，包括驱动与交互系统，所述驱动与交互系统是由成像模块、语音交互模块、通信模块和计算模块组成，所述成像模块是由表情模块和动作模块组成。
7.所述成像模块：利用数字技术，在场馆大厅的特定区域环境内展现具有场馆特点元素的数字人形象。
8.所述语音交互模块：通过现场设备对指定交流区域进行环境收音，接收到的语音经过系统端源处理并对语音内容进行检索，可将检索到的与信息相关音频输出播放，进行语音的人机交互。
9.所述通信模块：可以对数字号码进行识别，并通过通信系统进行语音拨号，实现在场馆大厅快速寻找人员的需求。
10.所述计算模块：通过设备定位系统的开启识别，提供参观人员目的地的线路选择，介绍线路上的不同的参观点，并根据不同线路的距离计算线路所需要的时间。
11.所述表情模块：通过语音交互模块中的语音输出来驱动表情模块中的表情变化，输出的音频与数字人的嘴唇变化即口型保持一致，语音输出的具有情绪性关键词驱动数字人的表情对应变化，输出相同语音时的不同语气所展现出来的语气上的喜怒哀乐驱动数字人表情上的喜怒哀乐，相互一一对应。
12.所述动作模块：计算模块中的的位置定位和线路选择后，驱动数字人进行线路指
引的动作，方便参观人员快速找到线路，数字人在指引线路时会通过移动与参观人员进行近距离的语音交互，方便参观人员更好的理解，保证线路信息在展现的时候更加精准和明确。
13.优选地，所述成像模块是由光影投射启动，所述语音交互模块是由声音触发启动，所述通信模块是由声音触发启动，所述计算模块是由地点确认触发。
14.优选地，所述语音交互模块是由语音接收模块和语音输出模块组成，所述语音接收模块和语音接收模块通过音频检索单元联通。
15.优选地，所述通信模块是由数字号码识别模块组成，所述计算模块是由开启定位模块和选择线路模块组成。
16.优选地，所述表情模块是由语音输出模块驱动，所述动作模块是由开启定位和线路选择模块共同驱动。
17.优选地，所述表情模块是由输出的语音和数字嘴唇口型对应、输出的语音关键词驱动数字人表情变化和输出相同语音的不同语气和数字人情绪对应单元组成。
18.优选地，所述动作模块是由数字人对线路方向指定和数字人移动与参观人员近距离互动单元组成。
19.相比现有技术，本发明的有益效果为：
20.可以通过数字人的形象实现对参观人员的人机交互，线路指引和人员寻找多项功能，展现了场馆的科技感和亲近感，增强交互生动性，提升了参观人员的参观体验，同时语音系统、表情系统和动作系统的交互可以实现多个系统的联通，用语音驱动数字人的表情变化，使得数字人更具拟人化，避免了不同系统独立工作所产生的配合时间差造成的音画不同步的情况。
附图说明
21.图1为本发明提出的一种数字人驱动与交互系统的结构示意图；
22.图2为本发明提出的一种数字人驱动与交互系统中表情模块的结构示意图；
23.图3为本发明提出的一种数字人驱动与交互系统中动作模块的结构示意图。
具体实施方式
24.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
25.实施例
26.参照图1-3，一种数字人驱动与交互系统，包括驱动与交互系统，驱动与交互系统是由成像模块、语音交互模块、通信模块和计算模块组成；
27.进一步地，成像模块是由光影投射启动，语音交互模块是由声音触发启动，通信模块是由声音触发启动，计算模块是由地点确认触发，语音交互模块是由语音接收模块和语音输出模块组成，语音接收模块和语音接收模块通过音频检索单元联通，通信模块是由数字号码识别模块组成，计算模块是由开启定位模块和选择线路模块组成；
28.需要说明的是：设备控制端源通过数字技术并利用光影投射驱动成像模块，向参观人员展现数字人形象，参观人员在站到场馆大厅的特定区域后，通过声音触发数字人的语音交互模块，则参观人员通过说话和数字人进行互动，数字人对特定区域内的声音进行接收，并处理接收后的音频，提取音频内的关键词信息，并通过语音交互模块内的数据库进行音频检索，将检索后的音频通过语音输出实现对特定区域内说话的回应，这样就可以实现人机的语音交互，提升数字人的智能生动的形象，若场馆内有小孩或者老人与家属走失，在场馆大厅可以在特定区域自主与数字人进行语音对话，并通过寻找同行人员或者寻找管理人员等语音方式触发启动通信模块，启动通信模块后可对数字号码进行识别进行语音拨号，对同行人员或管理人员进行语音通话沟通，当参观人员需要进行路线指引时，通过场馆内的地点确认，数字人开启定位模块，对场馆大厅和目的地进行定位确认，然后进行多条道路的展示，通过语音输出模块与参观人员进行沟通，在告知不同路线所经过的可地点不同时，计算不同线路同速度下的耗时时间；
29.采用上述进一步地好处是：这样可以通过数字人的形象实现对参观人员的人机交互，线路指引和人员寻找多项功能，展现了场馆的科技感和亲近感，提升了参观人员的参观体验。
30.成像模块是由表情模块和动作模块组成；
31.进一步地，表情模块是由语音输出模块驱动，动作模块是由开启定位和线路选择模块共同驱动，表情模块是由输出的语音和数字嘴唇口型对应、输出的语音关键词驱动数字人表情变化和输出相同语音的不同语气和数字人情绪对应单元组成，动作模块是由数字人对线路方向指定和数字人移动与参观人员近距离互动单元组成；
32.需要说明的是：数字人在成像模块的控制下展现后，语音输出系统和参观人员进行人机交互沟通时，音频的输出启动表情模块的运作，即让语音输出模块和表情模块进行交互，实现语音输出时表情模块同步有变化，让语音输出和数字人的嘴唇变化同步，当表情模块提取到表达情绪的预设关键词，会同步进行表情的变化，如提取到“唉”表达叹气的关键词，数字人表情会变化至较低落的表情，同时输出语音时同样的语音其语气变化不同时，也会驱动数字人表情的变化来展示语气中喜怒哀乐的情绪，使得数字人更具拟人化，成像模块中的动作模块在计算模块中定位确认和线路选择确认后，会驱动数字人移动与参观人员在特定区域内的近距离互动，并对参观人员选择线路的方向进行指定，这样既可以提升互动的亲密性，也可以保证线路信息传递的准确性；
33.采用上述进一步地好处是：最终可以实现数字人的语音系统、表情系统和动作系统的交互，实现多个系统的联通，避免了不同系统独立工作所产生的配合时间差造成的音画不同步的情况。
34.成像模块：利用数字技术，在场馆大厅的特定区域环境内展现具有场馆特点元素的数字人形象。
35.语音交互模块：通过现场设备对指定交流区域进行环境收音，接收到的语音经过系统端源处理并对语音内容进行检索，可将检索到的与信息相关音频输出播放，进行语音的人机交互。
36.通信模块：可以对数字号码进行识别，并通过通信系统进行语音拨号，实现在场馆大厅快速寻找人员的需求。
37.计算模块：通过设备定位系统的开启识别，提供参观人员目的地的线路选择，介绍线路上的不同的参观点，并根据不同线路的距离计算线路所需要的时间。
38.表情模块：通过语音交互模块中的语音输出来驱动表情模块中的表情变化，输出的音频与数字人的嘴唇变化即口型保持一致，语音输出的具有情绪性关键词驱动数字人的表情对应变化，输出相同语音时的不同语气所展现出来的语气上的喜怒哀乐驱动数字人表情上的喜怒哀乐，相互一一对应。
39.动作模块：计算模块中的的位置定位和线路选择后，驱动数字人进行线路指引的动作，方便参观人员快速找到线路，数字人在指引线路时会通过移动与参观人员进行近距离的语音交互，方便参观人员更好的理解，保证线路信息在展现的时候更加精准和明确。
40.本发明在使用时，设备控制端源通过数字技术并利用光影投射驱动成像模块，向参观人员展现数字人形象，参观人员在站到场馆大厅的特定区域后，通过声音触发数字人的语音交互模块，则参观人员通过说话和数字人进行互动，数字人对特定区域内的声音进行接收，并处理接收后的音频，提取音频内的关键词信息，并通过语音交互模块内的数据库进行音频检索，将检索后的音频通过语音输出实现对特定区域内说话的回应，这样就可以实现人机的语音交互，提升数字人的智能生动的形象，若场馆内有小孩或者老人与家属走失，在场馆大厅可以在特定区域自主与数字人进行语音对话，并通过寻找同行人员或者寻找管理人员等语音方式触发启动通信模块，启动通信模块后可对数字号码进行识别进行语音拨号，对同行人员或管理人员进行语音通话沟通，当参观人员需要进行路线指引时，通过场馆内的地点确认，数字人开启定位模块，对场馆大厅和目的地进行定位确认，然后进行多条道路的展示，通过语音输出模块与参观人员进行沟通，在告知不同路线所经过的可地点不同时，计算不同线路同速度下的耗时时间，这样可以通过数字人的形象实现对参观人员的人机交互，线路指引和人员寻找多项功能，展现了场馆的科技感和亲近感，提升了参观人员的参观体验；
41.数字人在成像模块的控制下展现后，语音输出系统和参观人员进行人机交互沟通时，音频的输出启动表情模块的运作，即让语音输出模块和表情模块进行交互，实现语音输出时表情模块同步有变化，让语音输出和数字人的嘴唇变化同步，当表情模块提取到表达情绪的预设关键词，会同步进行表情的变化，如提取到“唉”表达叹气的关键词，数字人表情会变化至较低落的表情，同时输出语音时同样的语音其语气变化不同时，也会驱动数字人表情的变化来展示语气中喜怒哀乐的情绪，使得数字人更具拟人化，成像模块中的动作模块在计算模块中定位确认和线路选择确认后，会驱动数字人移动与参观人员在特定区域内的近距离互动，并对参观人员选择线路的方向进行指定，这样既可以提升互动的亲密性，也可以保证线路信息传递的准确性，最终可以实现数字人的语音系统、表情系统和动作系统的交互，实现多个系统的联通，避免了不同系统独立工作所产生的配合时间差造成的音画不同步的情况。
42.以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：左楠葛菲江婷婷王晓磊卢金玲
技术所有人：安徽新华传媒股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。