一种多功能智能电子坐席牌装置、系统、设备及存储介质

文档序号:25170664发布日期:2021-05-25 14:40阅读:50来源:国知局
一种多功能智能电子坐席牌装置、系统、设备及存储介质

本发明涉及坐席牌的研究领域,特别涉及一种多功能智能电子坐席牌装置、系统、设备及存储介质。



背景技术:

现有的坐席系统常用于会议、银行等场景。传统的会议坐席牌通过提前打印参会者的信息到固定大小的纸张上,然后插入到塑料的展示牌中,这种坐席牌用完后就作废,既不环保,也不方便。为应对该问题,很多类型的电子坐席系统被研发出来。现有的电子坐席系统虽然解决了纸张浪费的问题,添加了电子显示、扩音等功能,但仍还有很多问题需要改进,如电子显示屏信息如何更方便获取,后台功能如何更便利实现等,还有很大的发展空间。

而在银行坐席系统中,电子坐席系统方便了工作人员于用户的交互,还可以通过摄像头拍摄视频来判断工作人员是否在席,或是对用户人脸识别进行身份验证。

现实中企业或其他组织召开会议时所用的电子坐席系统可以通过后台统一控制显示参会人的基本信息。

现有的电子坐席还基本具备了音视频采集的功能。通过坐席系统的内置的麦克风以及微型摄像头等设备收集发言人音频以及参会人的音频、视频数据。其中麦克风功能可使用其本身内置的音频放大电路或外置的多通道音频功率放大器实现扩音。

现有的电子坐席系统通过无线通讯的方式实现终端与后台之间的通讯、数据传输等。无线通讯技术是利用电磁波信号可以在自由空间中传播的特性进行信息交换的一种通信方式。现有的电子坐席系统通过无线通讯的方式实现后台与终端之间数据传输功能,其中包括了wi-fi、wlan、edge等技术。各终端的音频、视频等数据进行转换后通过无线通讯的方式传送到后台总线进行存储或进行其他方式的处理。有些电子坐席系统会在底座上设置投票或服务按键,按键事件的响应同样也是运用了无线通讯的原理。

当前,电子坐席系统很少有镜头设备,而有拍摄功能的,仅仅是通过拍摄视频来判断参会人在席或离席状态,或者用人脸识别对用户进行身份验证。

现有技术的客观缺点:

现有的电子坐席牌系统功能具有局限性,这些显示屏虽然可由后台统一输入、修改显示内容,就造成了以下几种情况的出现:位置提前固定,用户不能自行决定座位;当姓名等信息出现错误等情况时,用户无法自行输入或修改等。

现有的音频模块只有扩音功能。本专利音频模块除了上述功能之外,还设有录音功能,并且由管理员决定是否公开来决定是否使用录音功能。若用到坐席系统是公开场合,需要使用后重复利用音频时可以使用录音功能;如果用到坐席系统是会涉及到个人隐私、商业或其他领域机密的场景,则不可以使用录音功能。

现有的坐席系统需要通过底座上的按键来实现部分与后台交互的功能,如投票按键、服务叫茶水按键等,按键所占空间大,影响美观。

现有电子坐席系统对用户进行视频拍摄,仅用于判断用户处于在席或离席状态,是否处于疲惫状态,对坐姿的分析,没有利用拍摄的视频对用户的具体情绪状态进行进一步的分析。

现有的语音识别算法还未应用到会议、心理咨询、智能课堂场景的电子坐席系统上;现有的面部表情识别算法尚未结合脸部的肌肉活动单元来生成训练模型;现有电子坐席系统并不支持文件下载,文件仅可传送到后台存储模块管理,但终端用户不可以在终端直接进行文件下载。



技术实现要素:

本发明的主要目的在于克服现有技术的缺点与不足,提供一种多功能智能电子坐席牌装置、系统、设备及存储介质,可用于会议,心理咨询、智能课堂的集表情识别、语音识别、扩音、实时下载会议文件等功能于一体的智能电子坐席牌,可通过手机app获取用户信息,当发生人员变动时,能够及时修改坐席系统的显示内容;此外,本发明不仅可以作为坐席系统来展示用户信息,还可以替代麦克风、笔记本等设备,坐席系统内置麦克风可进行扩音,语音识别可转换语音为文字记录会议内容,并提供了会议记录下载的功能;同时,本发明还增加了面部表情识别功能,可监测用户的参会情绪状态,防止意外发生。

本发明的第一目的在于提供一种多功能智能电子坐席牌装置。

本发明的第二目的在于提供一种多功能智能电子坐席牌系统。

本发明的第三目的在于提供一种设备。

本发明的第四目的在于提供一种存储介质。

本发明的第一目的通过以下的技术方案实现:

一种多功能智能电子坐席牌装置,其特征在于,包括:

数据采集模块,用于获取用户的相关信息,包括个人信息、文字信息、声音信息、视频信息;

后台控制模块,用于实现对终端的控制、对数据的处理与传输和不同终端的通信控制;

存储模块,用于保存使用过程中产生的记录文件、音频文件、视频文件及表情分析结果文件;

输出模块,用于输出用户的身份信息和声音信息。

进一步地,所述数据采集模块包括文字采集模块、声音采集模块、视频采集模块、坐席终端,文字采集模块获取用户终端上传的文字信息,所述文字信息包含身份信息、会议记录;声音采集模块用于获取用户的声音信息,视频采集模块用于获取用户的视频信息。

进一步地,所述后台控制模块包括控制模块、传输模块、表情识别模块、语音识别模块;所述表情识别模块用于识别视频信息中的人脸表情信息,并得到表情分析结果;所述语音识别模块用于识别声音信息,并将声音信息转换为文字记录文件;所述控制模块用于控制坐席牌系统以及对其他模块进行控制指令的发送;所述传输模块用于数据的传输。

进一步地,所述表情识别模块接受来自传输模块的视频后,首先对视频图像进行预处理,采用人工神经网络进行人脸检测,根据人脸检测出人脸定位点进行人脸对齐,数据增强后,对图像进行灰度和几何归一化,预处理过后进行帧聚合,提取特征,联合多帧,将面部图像作为输入数据,经过识别后输出某一类表情的分类结果;并使用在深度网络中集成特权信息以进行面部表情识别的通用体系结构,在训练模型时增加基本面部动作单元信息的输入,在原有面部图像的基础上增加了特权信息,作为辅助输出来监督特征学习,获取人脸表情信息,并得到表情分析结果。

进一步地,所述语音识别模块,对输入语音进行预处理,所述预处理包括分帧,加窗,预加重;进而进行特征提取,在进行实际识别时,对测试语音按训练过程产生模板,最后根据失真判决准则进行识别。

进一步地,所述输出模块包括信息显示模块、扩音模块;所述信息显示模块用于显示用户信息,所述扩音模块用于对用户声音进行扩音。

进一步地,还包括投票模块和服务按钮模块,所述投票模块用于会议中投票,所述服务按钮模块用于呼叫服务。

本发明的第二目的通过以下的技术方案实现:

一种多功能智能电子坐席牌系统,包括管理端、用户终端和多功能智能电子坐席牌装置,用户通过用户终端与坐席牌装置进行通信,并根据自身权限获取信息文件,管理端用于管理坐席牌装置和用户终端。

本发明的第三目的通过以下的技术方案实现:

一种设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现多功能智能电子坐席牌的表情识别和语音识别。

本发明的第四目的通过以下的技术方案实现:

一种存储介质,存储有程序,程序被处理器执行时,实现多功能智能电子坐席牌的表情识别和语音识别。

本发明的工作流程如下:

1.本专利设备放置于用户正前方。使用前管理人员通过后台打开所有设备,设置性质,即公开还是私密,控制是否使用录音功能。

2.在使用坐席系统前,后台通过统一控制让显示屏显示用户姓名,或用户自行通过手机app输入身份信息,后台收到传输的数据后,并将信息传输到显示屏显示。

3.后台控制摄像头开关,当摄像头打开时,坐席系统使用过程中摄像头持续采集用户面部视频图像数据,通过后台中的表情识别算法,监控用户情绪,将视频和情感分析的结果传输到存储模块。

4.后台通过控制麦克风来让指定的发言人在规定时间内发言,或用户控制麦克风开关,当需要发言时,按下发言按钮打开麦克风开关进行扩音。若是音频可公开,对发言内容进行录音,音频数据将保存到存储模块中。

5.后台通过终端编号对应不同用户的发言进行语音识别,转换成文字后记录,并将记录保存到存储模块中。

6.会议结束后,普通用户通过手机app下载本人的录音、表情识别视频和结果、会议整体记录数据,管理员可以在后台查看坐席系统使用过程中产生的所有文件。

本发明与现有技术相比,具有如下优点和有益效果:

1、本发明提出了一种可用于会议,心理咨询、智能课堂的集表情识别、语音识别、扩音、实时下载会议文件等功能于一体的智能电子坐席牌。本发明集多种功能于一体,能够满足多种场合的需求。本发明可通过手机app获取用户信息,当发生人员变动时,能够及时修改坐席系统的显示内容;此外,本发明不仅可以作为坐席系统来展示用户信息,还可以替代麦克风、笔记本等设备,坐席系统内置麦克风可进行扩音,语音识别可转换语音为文字记录会议内容,并提供了会议记录下载的功能;同时,本发明还增加了面部表情识别功能,可监测用户的参会情绪状态,防止意外发生。

2、本发明可通过摄像头拍摄人体的面部图像,识别面部表情并分析使用者的情绪状态。实时在线评估测试用户的精神状态,适用于会议、面试、心理咨询、智能课堂等,可分析用户的精神状态,也能够对有紧急的情况采取预防措施。

3、本发明使用在深度网络中集成特权信息以进行面部表情识别的通用体系结构,人脸识别算法将脸部肌肉活动单元作为特权信息加以学习训练。改进了算法,集成特权信息来进行面部表情识别,提高了表情识别的准确性,更准确的获取用户的情绪变化,减少因不正确的情绪分析带来的不便。

4、本发明运用语音识别功能将用户说话内容转化成文字文件并进行存储。改后台根据终端部编号按照发言顺序记录不同用户的发言,整理成坐席系统使用过程中的记录,将记录内容自动生成文字文件后保存到存储模块,用户可在手机app上下载。

5、本发明利用手机app获取当前用户的信息,管理员可通过app直接对系统进行控制。用户可自主选择座位,并且用户仅需在手机上输入自己的名字,内容将传送到显示屏上,减少会议、课堂开始前繁重的准备,以及不必要的浪费。管理员可以直接通过移动端app的使用来控制坐席系统的各种参数配置。

6、本发明数据处理和相应的算法模块均为可执行的程序代码进行描述再通过后台读出并执行。无需复杂硬件设备处理数据,节省产品所占空间,保证桌面简洁,提高用户使用体验。

7、本发明的用户分为管理员和普通用户,对产品的使用有不同的权限。由管理员控制产品的统一开关,显示器的显示,性质的设置,麦克风摄像头的使用等,方便产品使用的管理。同时对使用过程中产生的各种文字、音频、视频文件不同用户可以进行不同操作,既方便文件管理,又尊重了用户的隐私权,比较人性化。

8、本专利将投票及服务按钮设计于手机app中。改变现有电子坐席牌按键置于底座的设计,节省坐席牌空间。

9、整个设备支持无线通信,可将数据无线传输到存储模块,方便实现数据存储、处理和数据分析操作。数据保存快,不会丢失,增强了数据存储的安全性和可靠性。可后续对数据进行修改,处理等操作

10、用户可在终端app上下载所需文件。会议结束后即可获取文件,无需去后台下载查看。下载到手机上更加方便查看。

附图说明

图1是本发明所述一种多功能智能电子坐席牌装置结构框图;

图2是本发明所述实施例1中坐席牌装置正面图;

图3是本发明所述实施例1中坐席牌装置背面图;

图4是本发明所述实施例1中数据采集模块图;

图5是本发明所述实施例1中后台控制模块图;

图6是本发明所述实施例1中传输模块的传输图;

图7是本发明所述实施例1中语音识别模块识别流程图;

图8是本发明所述实施例1中表情识别模块识别流程图;

图9是本发明所述实施例1中aoau算法实现步骤图;

图10是本发明所述实施例2中坐席牌系统框图;

图11是本发明所述实施例2中坐席牌系统整体功能结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

实施例1:

一种多功能智能电子坐席牌装置,如图1所示,包括:

数据采集模块,用于获取用户的相关信息,包括个人信息、文字信息、声音信息、视频信息;

后台控制模块,用于实现对终端的控制、对数据的处理与传输和不同终端的通信控制;

存储模块,用于保存使用过程中产生的记录文件、音频文件、视频文件及表情分析结果文件;

输出模块,用于输出用户的身份信息和声音信息;坐席牌装置正面如图2所示,坐席牌装置背面如图3所示。

所述数据采集模块如图4所示,包括文字采集模块、声音采集模块、视频采集模块、坐席终端,文字采集模块获取用户终端上传的文字进行,声音采集模块用于获取用户的声音信息,视频采集模块用于获取用户的视频信息,即数据采集模块是用来采集用户的身份、精神状态、声音等数据信息,方便后台对这些数据进行分析处理。具体为:数据采集模块的装置由摄像头、坐席终端、用户手机及隐藏在内的微型麦克风组成。声音采集模块的麦克风置于坐席系统终端的内部。后台可以控制该模块来控制用户发言的顺序、时间等,用户也通过按下发言按钮打开麦克风开关进行扩音,结束后还原按钮。后台控制模块也可针对使用场合决定是否采取录音。用户通过在手机app上输入自己的名字等信息,获得文字信息数据;通过按下发言按钮后开启终端设备内置的微型麦克风采集用户的音频数据;通过微型摄像头采集面部视频图像。微型麦克风置于终端内部,摄像头位于终端背面的左上角。

后台控制模块实现对终端的控制、各种数据的处理与传输以及与不同终端的信息交流传递。

存储模块保存在本专利使用过程中产生的记录文件、音频文件、视频文件及表情分析结果文件。

输出模块的设备是由麦克风和显示屏组成。麦克风其本身内置的音频放大电路放大发言人声音,处于无扩音设备的环境下也可实现扩音功能。显示屏则是接收来自app输入的用户身份信息后,进行展示。电子显示屏可受后台的统一调配,接收后台传输的数据并显示,既可以是后台直接发送的参会人身份信息,也可是通过手机app输入的用户姓名等身份信息。电子显示屏优选电子墨水屏来显示。

存储模块:

存储模块接收后台语音识别,面部表情识别后生成的各类文件、文字文件及录音文件,以便后续处理。

文字文件

用户在使用坐席系统期间发言后,音频文件通过传输到后台进行语音识别后,产生的记录文件。这类文件仅可被用户本人、管理员读取、修改、下载等。

音频文件

会议如果运用了录音功能,那么被录下的音频文件将被保存到存储模块,这类文件可被所有用户读取、下载。

视频及其分析文件

摄像头拍摄会议全过程中用户的面部图像以及经过面部表情识别后的分析文件会被一起保存。这类文件仅可由用户本人以及上层管理者读取,其他人员没有权限阅读,并且任何人不能修改分析文件。

后台控制模块如图5所示,包括控制模块、传输模块、表情识别模块、语音识别模块;

后台通过控制模块控制电子坐席系统的开关。在整个终端开启后,后台还控制摄像头、麦克风工作。后台可统一调配显示屏显示内容,也可修改单个坐席牌的显示。后台通过控制麦克风来实现指定对象发言,并可控制发言时间。后台根据属性控制录音器是否使用。仅有管理员可以使用手机app来调控控制模块完成上述功能。

传输模块接收来自手机app输入的身份信息,传送到传输模块,以便进一步传输到显示屏上显示;接收麦克风采集的音频数据,传送至语音识别模块,将识别后产生的文字文件传输到存储模块,如果有需要将音频文件也传输到存储模块;接收摄像头拍摄的用户面部视频,将视频传输到面部表情识别模块,经过识别分析后,接收分析结果,将视频与分析结果一起传送到存储模块,如图6所示。

语音识别模块如图7所示,首先对输入语音进行预处理,其中预处理包括分帧,加窗,预加重等。其次是特征提取,因此选择合适的特征参数尤为重要。常用的特征参数包括:基音周期,共振峰,短时平均能量或幅度,线性预测系数(lpc),感知加权预测系数(plp),短时平均过零率,线性预测倒谱系数(lpcc),自相关函数,梅尔倒谱系数(mfcc),小波变换系数,经验模态分解系数(emd),伽马通滤波器系数(gfcc)等。在进行实际识别时,要对测试语音按训练过程产生模板,最后根据失真判决准则进行识别。

表情识别模块如图8所示,面部表情识别模块接受来自传输模块的视频后,首先对视频图像进行预处理,采用人工神经网络进行人脸检测,根据人脸检测出人脸定位点(landmark)进行人脸对齐,数据增强后,对图像进行灰度和几何归一化。预处理过后进行帧聚合,提取特征,联合多帧,将面部图像输入表情识别网络,输出某一类表情的分类结果。

这里使用在深度网络中集成特权信息以进行面部表情识别的通用体系结构。该方法的面部表情识别的算法与其他算法不同的是在训练模型时增加基本面部识别模型的输入,在原有面部图像的基础上增加了特权信息,作为辅助输出来监督特征学习。这里使用aoau(auxiliaryintermediateoutputofactionunit)作为特权信息,如图9所示。

训练模型时,输入脸部图像、上半部分脸的真实au标签向量、下半部分脸的真实au标签向量、真实的情绪标签。然后分别对整个脸部面部表情特征提取、对上半部分和下半部分的脸进行脸部进行au识别,然后再提取特征,然后用一层网络级联三种特征后,再来预测得到情绪。

aoau的损失函数就包括面部表情分类损失、上下半部分脸部活动单元识别损失。通过反向传递来更新损失函数中的参数,得到训练模型。

最后用训练好的aoau网络来预测情绪,该网络预测情绪的准确率现在比最新技术derl、alfw等的准确率要更高。

实施例2

一种多功能智能电子坐席牌系统,如图10所示,包括管理端、用户终端和多功能智能电子坐席牌装置,用户通过用户终端与坐席牌装置进行通信,并根据自身权限获取信息文件,管理端用于管理坐席牌装置和用户终端。普通用户通过用户终端登录,管理员通过管理端登录。具体如下:

数据采集模块,用于获取用户的相关信息,包括个人信息、文字信息、声音信息、视频信息;

后台控制模块,用于实现对终端的控制、对数据的处理与传输和不同终端的通信控制;

存储模块,用于保存使用过程中产生的记录文件、音频文件、视频文件及表情分析结果文件;

输出模块,用于输出用户的身份信息和声音信息;具体通信如图11所示。

实施例3

一种设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现多功能智能电子坐席牌的表情识别和语音识别。

其中,表情识别如下:

面部表情识别模块接受来自传输模块的视频后,首先对视频图像进行预处理,采用人工神经网络进行人脸检测,根据人脸检测出人脸定位点(landmark)进行人脸对齐,数据增强后,对图像进行灰度和几何归一化。预处理过后进行帧聚合,提取特征,联合多帧,将面部图像输入表情识别网络,输出某一类表情的分类结果。

这里使用在深度网络中集成特权信息以进行面部表情识别的通用体系结构。该方法的面部表情识别的算法与其他算法不同的是在训练模型时增加基本面部识别模型的输入,在学习原有面部图像的基础上增加了特权信息,作为辅助输出来监督特征学习。本专利使用aoau(auxiliaryintermediateoutputofactionunit)作为特权信息。

训练模型时,输入脸部图像、上半部分脸的真实au标签向量、下半部分脸的真实au标签向量、真实的情绪标签。然后分别对整个脸部面部表情特征提取、对上半部分和下半部分的脸进行脸部进行au识别,然后再提取特征,然后用一层网络级联三种特征后,再来预测得到情绪。

aoau的损失函数就包括面部表情分类损失、上下半部分脸部活动单元识别损失。通过反向传递来更新损失函数中的参数,得到训练模型。

最后用训练好的aoau网络来预测情绪,该网络预测情绪的准确率现在比最新技术derl、alfw等的准确率要更高。

语音识别如下:

首先对输入语音进行预处理,其中预处理包括分帧,加窗,预加重等。其次是特征提取,因此选择合适的特征参数尤为重要。常用的特征参数包括:基音周期,共振峰,短时平均能量或幅度,线性预测系数(lpc),感知加权预测系数(plp),短时平均过零率,线性预测倒谱系数(lpcc),自相关函数,梅尔倒谱系数(mfcc),小波变换系数,经验模态分解系数(emd),伽马通滤波器系数(gfcc)等。在进行实际识别时,要对测试语音按训练过程产生模板,最后根据失真判决准则进行识别。

实施例4:

一种存储介质,存储有程序,程序被处理器执行时,实现多功能智能电子坐席牌的表情识别和语音识别。如下:所述表情识别为识别视频信息中的人脸表情信息,并得到表情分析结果;所述语音识别为识别声音信息,并将声音信息转换为文字记录文件;

需要说明的是,本实施例的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1