基于虚拟坐席的双向视频方法及系统、设备及存储介质与流程

文档序号:27683128发布日期:2021-12-01 00:24阅读:95来源:国知局
基于虚拟坐席的双向视频方法及系统、设备及存储介质与流程

1.本发明涉及通信技术领域,尤其涉及一种基于虚拟坐席的双向视频方法及系统、设备及存储介质。


背景技术:

2.目前,随着单向视频开户政策的放开,困扰众多券商数年的双向视频见证问题终于迎来了突破。
3.在单向视频见证下,投资者在开户过程中可以自助进行单向视频录制,不必再等待人工见证。尤其是在开户量集中的时间段,无需在开户过程中进行排队等待。对券商而言,单向视频见证也在一定程度上节约了人力成本。
4.智能语音交互是开户见证中常用的交互方式;在开户前端由系统自动播报需要确认客户开户意愿的问题,客户根据提示回答【是】或【否】,系统进行语音识别确认是否通过。然而,受限于h5前端的处理能力,h5单向视频暂时无法在前端完成开户见证的视频录制和智能语音交互。


技术实现要素:

5.为此,本发明目的在于至少一定程度上解决现有技术中的不足,从而提出一种基于虚拟坐席的双向视频方法及系统、设备及存储介质。
6.第一方面,本发明提供了一种基于虚拟坐席的双向视频方法,所述方法包括:
7.虚拟坐席响应h5前端发送的视频录制指令并获取所述h5前端发送的话术文本,根据所述话术文本得到合成语音;
8.所述虚拟坐席通过双向视频通道将所述合成语音发送给所述h5前端,并通过所述h5前端播放所述合成语音;
9.所述虚拟坐席接收并识别根据所述合成语音得到的语音应答,并获取根据所述语音应答生成的应答文本;
10.所述虚拟坐席将所述应答文本发送给所述h5前端,响应h5前端发送的结束视频录制指令并获取录制视频。
11.第二方面,本发明提供了一种基于虚拟坐席的双向视频系统,所述系统包括:
12.获取模块:用于虚拟坐席获取h5前端发送的话术文本,根据所述话术文本得到合成语音;
13.播放模块:用于所述虚拟坐席通过双向视频通道将所述合成语音发送给所述h5前端,并基于所述h5前端播放所述合成语音;
14.生成模块:用于所述虚拟坐席接收并识别根据所述合成语音得到的语音应答,并获取根据所述语音应答生成的应答文本;
15.发送模块:用于所述虚拟坐席将所述应答文本发送给所述h5前端。
16.第三方面,本发明还提供了一种基于虚拟坐席的双向视频设备,包括存储器、处理
器、以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如第一方面所述的基于虚拟坐席的双向视频方法中的各个步骤。
17.第四方面,本发明还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被执行时,实现如第一方面所述的基于虚拟坐席的双向视频方法中的各个步骤。
18.本发明提供了一种基于虚拟坐席的双向视频方法,该方法包括:虚拟坐席响应h5前端发送的视频录制指令并获取h5前端发送的话术文本,根据话术文本得到合成语音;虚拟坐席通过双向视频通道将合成语音发送给h5前端,并通过h5前端播放合成语音;虚拟坐席接收并识别根据合成语音得到的语音应答,并获取根据语音应答生成的应答文本;虚拟坐席将应答文本发送给h5前端,响应h5前端发送的结束视频录制指令并获取录制视频。通过本发明提供的方法,基于虚拟坐席与h5前端进行智能语音的交互,通过h5前端录制虚拟坐席与h5前端进行智能语音交互的音视频,使得虚拟坐席获取h5前端录制的音视频,从而解决了h5前端无法在前端完成开户见证的视频录制和智能语音交互的问题。
附图说明
19.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
20.图1为本发明的基于虚拟坐席的双向视频方法的流程示意图;
21.图2为本发明的基于虚拟坐席的双向视频方法的子流程示意图;
22.图3为本发明的基于虚拟坐席的双向视频方法的另一子流程示意图;
23.图4为本发明的基于虚拟坐席的双向视频方法的又一子流程示意图;
24.图5为本发明的基于虚拟坐席的双向视频系统的程序模块示意图。
具体实施方式
25.为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
26.请参照图1,图1是本技术实施例的基于虚拟坐席的双向视频方法的流程示意图,在本实施例中,上述基于虚拟坐席的双向视频方法包括:
27.步骤101、虚拟坐席响应h5前端发送的视频录制指令并获取所述h5前端发送的话术文本,根据所述话术文本得到合成语音。
28.在本实施例中,虚拟坐席与h5前端建立连接之后,h5前端向虚拟坐席发送视频录制的指令,虚拟坐席响应视频录制指令后,录制开始,h5前端再向虚拟坐席发送话术文本,虚拟坐席接收h5前端发送的话术文本,其中h5前端的处理能力有限,在投资者开户的过程中无法在前端完成开户见证的视频录制和智能语音交互,所以将h5前端采集的音视频传输到后端,由虚拟坐席完成相关功能,所以h5前端将话术文本发送给虚拟坐席。其中,h5前端是一种技术的集合,它包括了html5、css3、js等技术;虚拟坐席为联络中心的一项功能,是
通过计算机生成、动画和人工智能获得的一个虚拟角色,通过聊天机器人功能为客户提供服务,智能虚拟坐席能够回答客户提出的问题,并提供有关公司产品和服务的信息。
29.在本实施例中,虚拟坐席接收到h5前端发送的话术文本之后,虚拟坐席对话术文本进行处理,最终得到处理完成后的话术文本。
30.步骤102、所述虚拟坐席通过双向视频通道将所述合成语音发送给所述h5前端,并通过所述h5前端播放所述合成语音。
31.在本实施例中,虚拟坐席接收到智能语音端返回的合成语音之后,虚拟坐席通过双向视频通道将合成语音发送给h5前端,h5前端接收到合成语音后,并通过h5前端播放合成语音,其中,双向视频通道起到相互沟通交流的作用,使得虚拟坐席与h5前端进行一个交互。
32.步骤103、所述虚拟坐席接收并识别根据所述合成语音得到的语音应答,并获取根据所述语音应答生成的应答文本。
33.在本实施例中,在步骤102中,h5前端播放合成语音之后,用户在与h5前端交互的过程中,得知h5前端播放的合成语音之后,用户根据合成语音发出了语音应答,h5前端采集用户的语音应答,并将语音应答发送给虚拟坐席,虚拟坐席接收语音应答后,并对语音应答进行识别,并根据语音应答生成一个应答文本。
34.步骤104、所述虚拟坐席将所述应答文本发送给所述h5前端,响应所述h5前端发送的结束视频录制指令并获取录制视频。
35.在本实施例中,虚拟坐席将在步骤103中得到的应答文本发送给h5前端,从而使得虚拟坐席与h5前端形成一个交互,用户发送语音应答,虚拟坐席根据该语音应答得到一个应答文本,并将应答文本发送给h5前端,h5前端将应答文本的信息传递给用户。
36.在本实施例中,h5前端向虚拟坐席发送结束视频录制指令,虚拟坐席响应h5前端发送的结束视频录制指令,并获取h5前端录制完成的视频,通过获取到用户与虚拟坐席智能语音交互的视频文件,有效的验证了视频的见证主体是客户,并留存该录制视频。
37.本技术实施例提供了一种基于虚拟坐席的双向视频方法,所述方法包括:虚拟坐席响应h5前端发送的视频录制指令并获取h5前端发送的话术文本,根据话术文本得到合成语音;虚拟坐席通过双向视频通道将合成语音发送给h5前端,并通过h5前端播放合成语音;虚拟坐席接收并识别根据合成语音得到的语音应答,并获取根据语音应答生成的应答文本;虚拟坐席将应答文本发送给h5前端,响应h5前端发送的结束视频录制指令并获取录制视频。通过本发明提供的方法,基于虚拟坐席与h5前端进行智能语音的交互,通过h5前端录制虚拟坐席与h5前端进行智能语音交互的音视频,使得虚拟坐席获取h5前端录制的音视频,从而解决了h5前端无法在前端完成开户见证的视频录制和智能语音交互的问题。
38.进一步地,虚拟坐席将所述应答文本发送给所述h5前端之后还包括:
39.基于所述h5前端对所述应答文本进行逻辑处理。
40.在本实施例中,虚拟坐席将应答文本发送给h5前端之后,h5前端还会对应答文本做一个逻辑处理,h5前端对应答成本进行逻辑处理之后,再将逻辑处理完成后的应答文本传递给用户,其中传递方式可采用语音、文字等,对此不作限定。
41.进一步地,虚拟坐席通过所述webrtc的c++音视频导出接口获取所述h5前端录制的所述录制视频。
42.在本实施例中,视频录制就是混合用户与虚拟坐席之间进行智能语音交互的音频,并将混合音频与用户视频融合成视频文件,即是h5前端录制完成的视频文件。其中,虚拟坐席通过注册音视频回调的方法,从而实现内部音视频数据的获取;虚拟坐席通过替换媒体流中音视频轨道对应的采集源的方式,从而实现外部音视频数据的采集。
43.进一步地,虚拟坐席基于所述webrtc与所述h5前端建立所述双向视频通道和所述双向信令通道,所述虚拟坐席将所述应答文本发送给所述h5前端具体包括:
44.所述虚拟坐席通过所述双向信令通道将所述应答文本发送给所述h5前端。
45.在本实施例中,虚拟坐席基于webrtc(web real

time communication,网页即时通信)与h5前端实现双向视频,虚拟坐席与h5前端实现一个音视频交互的过程,其中h5前端可应用于移动端,如具有苹果系统的移动端和具有安卓系统的移动端,且移动端均使用支持webrtc的浏览器,推荐具有苹果系统的移动端使用safari浏览器,具有安卓系统的移动端则使用qq、微信等。虚拟坐席基于webrtc源码的c++版本,实现了一套peerconnection(对等连接)流程。此流程下,虚拟坐席具备与h5前端进行双向视频通信的能力,其中webrtc是一个支持网页浏览器进行实时语音对话或视频对话的api(application programming interface,应用程序接口)。
46.进一步地,虚拟坐席通过双向视频通道将所述合成语音发送给所述h5前端具体包括:
47.所述虚拟坐席将得到的所述合成语音实时发送给所述h5前端。
48.在本实施例中,虚拟坐席通过调用智能语音端的接口处理话术文本之后,不会等待智能语音端针对话术文本全部处理,再将处理后的合成语音发送h5前端,而是当虚拟坐席接收到智能语音端发送的合成语音数据时,马上同步发送给h5前端,规避因话术文本较长引发的合成语音过程中的等待问题。
49.进一步地,参照图2,图2是本技术实施例中基于虚拟坐席的双向视频方法的子流程示意图,在本实施例中,虚拟坐席响应h5前端发送的视频录制指令并获取所述h5前端发送的话术文本,根据所述话术文本得到合成语音具体包括:
50.步骤201、所述虚拟坐席获取所述h5前端发送的所述话术文本;
51.步骤202、所述虚拟坐席调用智能语音端的接口对所述话术文本进行处理,得到所述合成语音。
52.在本实施例中,h5前端发送话术文本给虚拟坐席,虚拟坐席接收到话术文本之后,调用智能语音端的接口对话术文本进行处理,智能语音端得到合成语音之后,将得到的合成语音返回给虚拟坐席,即智能语音端将针对话术文本进行的一个回答发送给虚拟坐席,最终虚拟坐席得到了智能语音端处理之后的合成语音。
53.进一步地,参照图3,图3是本技术实施例中基于虚拟坐席的双向视频方法的另一子流程示意图,在本实施例中,所述虚拟坐席接收并识别根据所述合成语音得到的语音应答,并获取根据所述语音应答生成的应答文本具体包括:
54.步骤301、所述虚拟坐席接收所述h5前端根据所述合成语音得到的语音应答;
55.步骤302、所述虚拟坐席调用所述智能语音端的接口对所述语音应答进行识别,得到所述应答文本。
56.在本实施例中,h5前端播放合成语音之后,用户针对播放的合成语音,形成一个语
音应答,h5前端再采集用户的语音应答,并将用户的语音应答发送给虚拟坐席,虚拟坐席接收到用户的语音应答之后,调用智能语音端的接口对用户的语音应答进行识别,智能语音端通过对语音应答的识别之后,得到一个应答文本,并将应答文本返回给虚拟坐席,最终虚拟坐席得到应答文本。
57.进一步地,参照图4,图4为本技术实施例中基于虚拟坐席的双向视频方法的又一子流程示意图,在本实施例中,所述虚拟坐席接收并识别根据所述合成语音得到的语音应答,并获取根据所述语音应答生成的应答文本还包括:
58.步骤401、所述虚拟坐席接收并识别所述h5前端发送的固定话术;
59.步骤402、所述虚拟坐席根据所述固定话术发送预设的录音至所述h5前端。
60.在本实施例中,虚拟坐席提前针对用户所提出的固定话术,调用智能语音端的接口合成录音,智能语音端合成录音之后,将录音发送给虚拟坐席,当虚拟坐席遇到用户提出固定话术时,直接发送提前所预设的录音,从而可减少不必要的合成请求。
61.进一步地,本技术实施例的具体实施步骤包括:
62.1、h5前端进行视频录制,虚拟坐席提前对固定话术进行处理,通过智能语音端的接口对固定话术进行处理,智能语音端处理固定话术之后,得到录音,并将录音返回给虚拟坐席;
63.2、h5前端向虚拟坐席发送话术文本,虚拟坐席接收话术文本之后,调用智能语音端的接口针对话术文本进行处理,得到合成语音,智能语音端将处理过后得到的合成语音返回给虚拟坐席,若虚拟坐席接收到固定话术之后,虚拟坐席直接向h5前端发送录音;
64.3、虚拟坐席接收到智能语音端返回的合成语音后,通过虚拟坐席与h5前端间的双向视频通道实时发送给h5前端,并通过h5前端播放合成语音;
65.4、h5前端播放合成语音之后,用户根据得到的合成语音,用户向h5前端传递语音应答,h5前端采集到用户传递的语音应答之后,将语音应答发送给虚拟坐席,虚拟坐席接收到语音应答之后,调用智能语音端的接口对语音应答进行语音识别,智能语音端对语音应答进行处理之后得到一应答文本,并将应答文本返回给虚拟坐席;
66.5、虚拟坐席接收到智能语音端返回的应答文本之后,通过双向信令通道发送给h5前端,h5前端对应答文本进行逻辑处理,并将逻辑处理之后的应答文本传递给用户,h5前端结束视频的录制,虚拟坐席获取h5前端录制的音视频。
67.进一步地,在本技术实施例中,录制视频之前还包括:
68.1、活体检测;
69.通过活检动作来验证视频见证的主体是真人而不是照片,同时,输出用户正面照、活体关键帧;
70.2、人脸对比;
71.通过比较用户正面照、活体关键帧、身份证照片来验证视频中见证的主体是本人。
72.进一步地,在本技术实施例中,单向视频的逻辑架构包括:
73.1、用户层
74.移动端(安卓h5前端和苹果h5前端)使用支持webrtc的浏览器接入,推荐安卓使用qq、微信;苹果使用safari浏览器。
75.2、应用层
76.提供视频基础能力(视频通信、视频录制),语音基础能力(语音合成、语音识别),人脸基础能力(活体检测、人脸比对)。
77.3、服务层
78.为应用层提供对应的服务支持;包括:视频基础服务、语音基础服务、人脸基础服务。
79.4、存储层
80.提供图片存储,视频存储能力。
81.进一步地,本技术实施例还提供了一种基于虚拟坐席的双向视频系统500,图5为本技术实施例中基于虚拟坐席的双向视频系统的程序模块示意图,本实施例中,上述基于虚拟坐席的双向视频系统500包括:
82.获取模块501:用于虚拟坐席响应h5前端发送的视频录制指令并获取所述h5前端发送的话术文本,根据所述话术文本得到合成语音;
83.播放模块502:用于所述虚拟坐席通过双向视频通道将所述合成语音发送给所述h5前端,并基于所述h5前端播放所述合成语音;
84.生成模块503:用于所述虚拟坐席接收并识别根据所述合成语音得到的语音应答,并获取根据所述语音应答生成的应答文本;
85.发送模块504:用于所述虚拟坐席将所述应答文本发送给所述h5前端,响应所述h5前端发送的结束视频录制指令并获取录制视频。
86.本技术实施例提供了一种基于虚拟坐席的双向视频系统500,可以实现:虚拟坐席响应h5前端发送的视频录制指令并获取h5前端发送的话术文本,根据话术文本得到合成语音;虚拟坐席通过双向视频通道将合成语音发送给h5前端,并通过h5前端播放合成语音;虚拟坐席接收并识别根据合成语音得到的语音应答,并获取根据语音应答生成的应答文本;虚拟坐席将应答文本发送给h5前端,响应h5前端发送的结束视频录制指令并获取录制视频。通过本发明提供的方法,基于虚拟坐席与h5前端进行智能语音的交互,通过h5前端录制虚拟坐席与h5前端进行智能语音交互的音视频,使得虚拟坐席获取h5前端录制的音视频,从而解决了h5前端无法在前端完成开户见证的视频录制和智能语音交互的问题。
87.进一步地,本技术还提供了一种基于虚拟坐席的双向视频设备,包括存储器、处理器、以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述的基于虚拟坐席的双向视频方法中的各个步骤。
88.进一步地,本技术还提供了一种存储介质,其上存储有计算机程序,所述计算机被处理器执行时,实现如上述的基于虚拟坐席的双向视频方法中的各个步骤。
89.在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
90.基于这样的理解,本发明的说明书技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务
器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
91.需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
92.对于本领域的技术人员,依据本技术实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1