一种基于声纹的会议自动记录方法、电子设备及存储介质与流程

文档序号：17933508发布日期：2019-06-15 01:07阅读：334来源：国知局

本发明涉及一种会议记录技术领域，尤其涉及一种基于声纹的会议自动记录方法、存储介质及存储介质。

背景技术：

目前，常规的会议是采用专门的记录人员进行会议记录；较为先进的是现有的会议中报告及记录的方法，通常是利用摄像机、麦克风、录音笔等设备对会议过程中各人员的发言进行录音及录像。会后做会议记录的人员可以查看、回放录音及录像以整理会议记录。然而，通过人工对语音数据进行标注和提取，对使用者来说，费时且极为不便。

故而本领域技术人员针对于会议记录有不断的新的想法的提出，如申请号为cn201810328377.8的发明专利申请，其属于会议音频处理技术领域，公开了一种自动会议记录方法，包括：数据采集、降噪处理、语气识别、语音识别、关键内容标注和自动排版。本发明能够自动标注会议记录的重点，突出会议主题，自动化排版形成整理后的会议记录，节约二次整理的时间。其在一定程度上提升了会议记录的效率。

技术实现要素：

为了克服现有技术的不足，本发明的目的之一在于基于位置的会议自动记录方法，其能解决基于参与者身份进行会议记录的技术问题。

本发明的目的之二在于提供一种电子设备，其能解决基于参与者身份进行会议记录的技术问题。

本发明的目的之三在于提供一种计算机可读存储介质，其能解决基于参与者身份进行会议记录的技术问题。

本发明的目的之一采用如下技术方案实现：

一种基于声纹的会议自动记录方法，包括以下步骤：

获取步骤：通过声音采集设备获取当前用户的语音信息；

提取步骤：提取语音信息中的声音信息和声纹特征信息；

判断步骤：判断所述声纹特征信息是否存储在服务器的声纹识别模型库中，如果是，则通过语音识别模块将声音信息转化为文字信息并记录下来。

进一步地，在获取步骤之前还包括唤醒步骤：当接收到预设唤醒词时，启动声音采集设备。

进一步地，所述唤醒步骤具体为：当接收到的预设唤醒词时，判断与预设唤醒词对应的声纹信息是否存储在服务器中，如果是，则启动声音采集设备。

进一步地，在所述获取步骤中具体为：通过环形麦克风阵列获取当前用户的声音信息。

进一步地，所述判断步骤中的声纹识别模型库通过如下步骤构建：

获取所有待注册用户的语音信息；

提取所有待注册用户的语音信息中的声纹特征信息；

对所有的声纹信息进行存储以完成声纹识别模型库的构建。

进一步地，所述声纹特征信息采用经典的梅尔倒谱系数mfcc或者感知线性预测系数plp或者深度特征deepfeature或者能量规整谱系数pncc表示。

进一步地，在判断步骤之后还包括结束判断步骤：当声音采集设备在预设时间内没有接收到声音信息时，则发送提示信息以判断会议是否结束，如果是，则输出完整会议文档。

进一步地，在结束判断步骤之后还包括文档发送步骤：将完整会议文档发送至打印机进行打印或者将完整会议文档发送至预存的用户信息中。

本发明的目的之二采用如下技术方案实现：

一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明目的之一中任意一项所述的一种基于声纹的会议自动记录方法。

本发明的目的之三采用如下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明目的之一中任意一项所述的一种基于声纹的会议自动记录方法。

相比现有技术，本发明的有益效果在于：

本发明的基于声纹的会议自动记录方法通过区分声纹特征信息来进一步判断是否对其讲话内容进行记录，其能够更为高效的对会议进行记录，使得后期进行会议内容查阅的时候更为的方便。

附图说明

图1为实施例一的基于声纹的会议自动记录方法的流程图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一

如图1所示，本实施例提供了一种基于声纹的会议自动记录方法，包括以下步骤：

s0：当接收到预设唤醒词时，启动声音采集设备；在进行声音获取之前，首先得判断是否启动声音采集设备，开启的方式有很多种，比如可以直接通过电源按键来实现语音识别系统的开关，这种是最为原始的，也不够智能；在本实施例中其作为一种可以替代的方式可以进行选择，还可以设置语音识别系统处于常开的状态，只是这样会比较耗费电量，并且很容易形成很多不必要的“会议文档”，但是其也可以作为一种方式来进行实施，只是不属于本发明中所要着重描述的最为优选的方式。

在本实施例中最为优选地，是可以采用关键词唤醒的方式来进行语音识别系统的唤醒，比如将唤醒关键词设置为“会议开始”，当声音采集设备采集到这样的信息的时候，则将处于待机状态下的语音识别系统唤醒以进行工作，从而实现真正的自动化处理。使得会议可以进行的更为的顺畅。由于并非是所有人都可以来控制会议的进行，故而需要设置一个或者多个用户来进行统筹，将这些用户的声纹信息预先存储在服务器中，只有他们说出来的预设唤醒词才具备启动的功能。所谓声纹(voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变。实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不相同。所以采用声纹这种识别方式，识别更为的高效。

当接收到的预设唤醒词时，判断与预设唤醒词对应的声纹信息是否存储在服务器中，如果是，则启动声音采集设备。这里进行预设唤醒词的设置的时候，可以依照用户的习惯来进行设置，比如通常的可以设置“会议开始”，这样的常规性词句，对应的企业也可以依据自己的企业文化，设定不同的唤醒词。比如阿里巴巴公司的唤醒词可以设置“12大盗已经聚齐，会议开始”这样的更个性，更具备特色的唤醒方式，使得该系统能够具备更高的用户黏性。

在进行唤醒词设置的时候，可以设置为以下方式，“请大家安静，会议准备开始。”当这样设置的时候，具备更高的抗干扰性。因为，当用户进行一间会议室的时候，这时候各会议成员之间会交谈，有时候会不经意间触发语音识别系统，这样就会造成一定的启动失误，会从一定程度上降低用户对系统稳定性的信任。因此设置相对较长的话语，可以使得其唤醒难度加大。更为重要的是，当说完“请大家安静”的时候，可以通过检测环境噪声这样的信息来确认，是否是会议主持者发出的明确指令，如果说完之后，环境噪声明显降低，那么说明确实是要正式进入会议模式，此时，启动语音识别系统。在启动之后，该语音识别系统，还可以进一步发出询问，以确认会议是否开始，当该信息为肯定回答时，则完全启动。

s1：过声音采集设备获取当前用户的声音信息；所述声音采集设备最为优选的，采用环形麦克风阵列以采集当前用户的声音信息；这一步主要是为了获取到对应用户的声音信息，这也是下面所有步骤的基础。通过环形麦克风可以更为高效准确的获取圆桌四周的声音信息，获取到的声音源信息越清晰，那么后期进行语音翻译也就会使得其越准确。

s2：提取语音信息中的声音信息和声纹特征信息；所述声纹特征信息采用经典的梅尔倒谱系数mfcc或者感知线性预测系数plp或者深度特征deepfeature或者能量规整谱系数pncc表示。

对于声纹识别系统而言，如果从用户所说语音内容的角度出发，则可以分为内容相关和内容无关两大类技术。顾名思义，“内容相关”就是指系统假定用户只说系统提示内容或者小范围内允许的内容，而“内容无关”则并不限定用户所说内容。前者只需要识别系统能够在较小的范围内处理不同用户之间的声音特性的差异就可以，由于内容大致类似，只需要考虑声音本身的差异，难度相对较小；而后者由于不限定内容，识别系统不仅需要考虑用户声音之间的特定差异，还需要处理内容不同而引起的语音差异，难度较大。

目前有一种介于两者之间的技术，可以称之为“有限内容相关”，系统会随机搭配一些数字或符号，用户需正确念出对应的内容才可识别声纹，这种随机性的引入使得文本相关识别中每一次采集到的声纹都有内容时序上的差异，这种特性正好与互联网上广泛存在的短随机数字串(如数字验证码)相契合，可以用来校验身份，或者和其他人脸等生物特征结合起来组成多因子认证手段。在本实施例中采用的是内容无关方面的技术，因为在这里只需要识别到对应的用户是谁即可，而不必进行进一步的验证。因为这个声音识别系统的搭建是处于一个密闭环境中，而不是处于一种开放环境中。但是在进行设计的时候可以设置为有限内容相关或者是内容相关，这样通过在每句话中加入特定的词语，使得记录更为精确。上述只是简单的从大致技术方向进行阐述，接下来对具体设计的声纹识别算法的技术细节进行描述。

具体到声纹识别算法的技术细节，在特征层面，经典的梅尔倒谱系数mfcc，感知线性预测系数plp、深度特征deepfeature、以及能量规整谱系数pncc等，都可以作为优秀的声学特征用于模型学习的输入，但使用最多的还是mfcc特征，也可以将多种特征在特征层面或者模型层面进行组合使用。在机器学习模型层面，还有一种方式是采用ivector框架来进行学习。由于深度学习目前处于正研究的热门，在声纹领域也难免被其影响，因此在传统的ubm-ivector框架下衍化出了dnn-ivector，也仅仅是使用dnn(或者bn)提取特征代替mfcc或者作为mfcc的补充，后端学习框架依然是ivector。这些都是具体进行声纹特征信息提取的方式，由于本发明不针对于具体方式的改进，在此仅仅列举出对应的方式，本领域技术人员根据对应的方式以及实际需求可以搭建出比较合适的识别模块。

s3：判断所述声纹特征信息是否存储在服务器的声纹识别模型库中，如果是，则将声音信息转化为文字信息并记录下来。所述判断步骤中的声纹识别模型库通过如下步骤构建：

获取所有待注册用户的语音信息；提取所有待注册用户的语音信息中的声纹特征信息；对所有的声纹信息进行存储以完成声纹识别模型库的构建。本发明的最主要的方式是针对于特定的人员进行会议记录，而不是针对于所有人。当需要对这些会议参与者进行会议记录的时候，最开始需要获取到其对应的声纹信息，比如在举办会议中，必然是需要获取部门领导以及项目负责人的说话的关键信息；这些用户需要提前将其声音录入进该系统中，作为一个判别条件从而能够完成对应的判断。在进行信息注册的时候，其说话可以是任何的话语，比如“我要注册成为会员”这样的话语，然后通过提取该用户的声纹特征信息来作为其一个身份信息进行存储。这样设置有一个好处是不会限定用户的位置，而是根据用户独有的声音特征来进行识别的。并且由于设置的环形麦克风来拾取用户的声音信息，那么在无论用户移动到那个地方，均可以通过环形麦克风阵列完成对其声音的定位。

采用声源定位技术定位声音所在位置后，关闭除了与声音信息所在位置最近的麦克风外的其余麦克风。当定位到具体的位置的时候，最好的是只开启其面前的麦克风，而将其余的麦克风关闭，这样能够更为有效的获取当前说话者的声音信息，而屏蔽掉一部分说话者的低语，不会因为产生多处声源而造成声音获取处于一种比较混乱的状态。因为如果当说话的人不是一个的时候，而此时又同时开启有多个麦克风，那么就无法判断他们的来源强弱，而会将所有的声音信息都录入，从而会产生一定的混乱，而只开启说话者面前的麦克风的话，其可以通过声音强弱，声音方向等来定位是否需要记录对应的信息，并且判断是否需要进行录音更换等。所述声源定位技术为基于时延估计的算法或者基于高分辨率谱估计的算法或者基于稀疏表示的算法。所述声源定位技术其是基于tde的算法核心在于对传播时延的准确估计，一般通过对麦克风间信号做互相关处理得到。进一步获得声源位置信息，可以通过简单的延时求和、几何计算或是直接利用互相关结果进行可控功率响应搜索等方法。这种类型的算法实现相对简单，运算量小，便于实时处理，因此在实际中运用最广。

在进行声纹识别模型库构建的时候，其可以设置两部分，一部分是永久有效的注册用户，一种是临时有效的注册用户。永久有效的注册用时即是其比较重要，也是通常会议的主导者，他的声音是必须被记录的，临时有效的注册用户，是因为会存在这样的情况是，在一次会议中，虽然其级别较低，但是由于其提出一个有效的想法，所以需要针对其这个想法进行进一步讨论，这时候，该用户就会成为会议记录中比较重要的一部分，所以给予其临时有效的身份，使得其可以在整个会议中说出的话被有效记录。

s4：当声音采集设备在预设时间内没有接收到声音信息时，则发送提示信息以判断会议是否结束，如果是，则输出完整会议文档。会议的开始有唤醒词来确认，会议的结束的判断也可以这样设置。比如当该语音识别系统，采集到“今天的会议就到这里”或者是“会议结束”等等类似的句子的时候，就可以判断当前会议结束了。通过结束词来关闭语音识别系统是一种方式，还有一种方式是可以当在5分钟内没有接收到语音识别信息的时候，可以判定会议已经结束。因为在一场会议中，一般不可能有这么长的思考等待时间，会议中精神相对高度集中，并且人员集中，所以不会出现长达五分钟的停滞；因此，当出现有超过五分钟的空白的时候则控制关闭该系统。有些系统在进行设计的时候，可以从更为稳妥的角度来设计考虑，还可以设置语音提醒以进一步判断会议是否结束，如果接收到的信息是肯定的，或者是在一段时间内没有接收到任何信息，则判断没有人处于会议中，从而关闭语音识别系统。

s5：将完整会议文档发送至打印机进行打印或者将完整会议文档发送至预存的用户信息中。会议结束后，就会导出会议的记录文档。如果之前就已经录入座位所坐的人的信息，就可以根据直接输出之前记录的信息。如果预先没有录入座位的信息，在文档导出来之前，还要先录入每个座位所坐的人的信息，最后再导出会议记录文档。会议记录文档是按照标准的会议模板进行输入的，在最开始的时候，每个公司可以设置自己的会议模板，在进行模板填写的时候，通过该系统可以直接将所有对应的文字的内容信息导入至对应的模板模块内，从而使得会议记录内容更为的标准化。最后是将所有的内容进行输入，其可以进行电子存档，还可以直接连接打印系统从而输出纸质文档进行存储。更为优选地方式是，在进行输出之前可以将所有的内容形成完整的会议文档发送至对应的人员进行审核。因为，在语音识别过程中，有可能会有一些地方存在有疏漏或者不准确的地方，所以需要通过进一步的审核来使得最终的会议文档出现更少的错误。

实施例二

实施例二公开了一种电子设备，该电子设备包括处理器、存储器以及程序，其中处理器和存储器均可采用一个或多个，程序被存储在存储器中，并且被配置成由处理器执行，处理器执行该程序时，实现实施例一的一种基于声纹的会议自动记录方法。该电子设备可以是手机、电脑、平板电脑等等一系列的电子设备。

实施例三

实施例三公开了一种计算机可读存储介质，该存储介质用于存储程序，并且该程序被处理器执行时，实现实施例一的一种基于声纹的会议自动记录方法。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、闪存(flash)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述基于内容更新通知装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：傅峰峰
技术所有人：广州富港万嘉智能科技有限公司
我是此专利的发明人