一种基于位置的会议自动记录方法、电子设备及存储介质与流程

文档序号：17779542发布日期：2019-05-28 20:44阅读：214来源：国知局

本发明涉及一种会议记录技术领域，尤其涉及一种基于位置的会议自动记录方法、电子设备及存储介质。

背景技术：

目前，常规的会议是采用专门的记录人员进行会议记录；较为先进的是现有的会议中报告及记录的方法，通常是利用摄像机、麦克风、录音笔等设备对会议过程中各人员的发言进行录音及录像。会后做会议记录的人员可以查看、回放录音及录像以整理会议记录。然而，通过人工对语音数据进行标注和提取，对使用者来说，费时且极为不便。

故而本领域技术人员针对于会议记录有不断的新的想法的提出，如申请号为cn201810328377.8的发明专利申请，其属于会议音频处理技术领域，公开了一种自动会议记录方法，包括：数据采集、降噪处理、语气识别、语音识别、关键内容标注和自动排版。本发明能够自动标注会议记录的重点，突出会议主题，自动化排版形成整理后的会议记录，节约二次整理的时间。其在一定程度上提升了会议记录的效率。

技术实现要素：

为了克服现有技术的不足，本发明的目的之一在于提供一种基于位置的会议自动记录方法，其能解决基于参与者位置进行会议记录的技术问题。

本发明的目的之二在于提供一种电子设备，其能解决基于参与者位置进行会议记录的技术问题。

本发明的目的之三在于提供一种计算机可读存储介质，其能解决基于参与者位置进行会议记录的技术问题。

本发明的目的之一采用如下技术方案实现：

一种基于位置的会议自动记录方法，包括以下步骤：

获取步骤：通过声音采集设备获取当前用户的声音信息；

定位步骤：采用声源定位技术以定位声音信息所在位置；

判断步骤：判断所述声音信息所在位置是否存储在服务器中，如果是，则将声音信息转化为文字信息并记录下来。

进一步地，在获取步骤之前还包括唤醒步骤：当接收到预设唤醒词时，启动声音采集设备。

进一步地，所述唤醒步骤具体为：当接收到的预设唤醒词时，判断与预设唤醒词对应的声纹信息是否存储在服务器中，如果是，则启动声音采集设备。

进一步地，在所述获取步骤中具体为：通过环形麦克风阵列获取当前用户的声音信息。

进一步地，所述定位步骤中，所述声源定位技术为基于时延估计的算法或者基于高分辨率谱估计的算法或者基于稀疏表示的算法，且所述定位步骤具体为：当采用声源定位技术定位声音所在位置后，关闭除了与声音信息所在位置最近的麦克风外的其余麦克风。

进一步地，在判断步骤之后还包括位置变换步骤：当获取到的声音信息所在位置改变时，则返回定位步骤以对声音信息进行重新定位；且所述声音信息所在位置与用户信息相关联。

进一步地，在判断步骤之后还包括结束判断步骤：当声音采集设备在预设时间内没有接收到声音信息时，则发送提示信息以判断会议是否结束，如果是，则输出完整会议文档。

进一步地，在结束判断步骤之后还包括文档发送步骤：将完整会议文档发送至打印机进行打印或者将完整会议文档发送至预存的用户信息中。

本发明的目的之二采用如下技术方案实现：

一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明目的之一中任意一项所述的一种基于位置的会议自动记录方法。

本发明的目的之三采用如下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明目的之一中任意一项所述的一种基于位置的会议自动记录方法。

相比现有技术，本发明的有益效果在于：

本发明的基于位置的会议自动记录方法通过区分声音信息所在位置来进一步判断是否对其讲话内容进行记录，其能够更为高效的对会议进行记录，使得后期进行会议内容查阅的时候更为的方便。

附图说明

图1为实施例一的基于位置的会议自动记录方法的流程图；

图2为实施例一的基于位置的会议自动记录方法的具体实施流程图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一

如图1和图2所示，本实施例提供了一种基于位置的会议自动记录方法，包括以下步骤：

s0：当接收到预设唤醒词时，启动声音采集设备；在进行声音获取之前，首先得判断是否启动声音采集设备，开启的方式有很多种，比如可以直接通过电源按键来实现语音识别系统的开关，这种是最为原始的，也不够智能；在本实施例中其作为一种可以替代的方式可以进行选择，还可以设置语音识别系统处于常开的状态，只是这样会比较耗费电量，并且很容易形成很多不必要的“会议文档”，但是其也可以作为一种方式来进行实施，只是不属于本发明中所要着重描述的最为优选的方式。

在本实施例中最为优选地，是可以采用关键词唤醒的方式来进行语音识别系统的唤醒，比如将唤醒关键词设置为“会议开始”，当声音采集设备采集到这样的信息的时候，则将处于待机状态下的语音识别系统唤醒以进行工作，从而实现真正的自动化处理。使得会议可以进行的更为的顺畅。由于并非是所有人都可以来控制会议的进行，故而需要设置一个或者多个用户来进行统筹，将这些用户的声纹信息预先存储在服务器中，只有他们说出来的预设唤醒词才具备启动的功能。所谓声纹(voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变。实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不相同。所以采用声纹这种识别方式，识别更为的高效。

当接收到的预设唤醒词时，判断与预设唤醒词对应的声纹信息是否存储在服务器中，如果是，则启动声音采集设备。这里进行预设唤醒词的设置的时候，可以依照用户的习惯来进行设置，比如通常的可以设置“会议开始”，这样的常规性词句，对应的企业也可以依据自己的企业文化，设定不同的唤醒词。比如阿里巴巴公司的唤醒词可以设置“12大盗已经聚齐，会议开始”这样的更个性，更具备特色的唤醒方式，使得该系统能够具备更高的用户黏性。

在进行唤醒词设置的时候，可以设置为以下方式，“请大家安静，会议准备开始。”当这样设置的时候，具备更高的抗干扰性。因为，当用户进行一间会议室的时候，这时候各会议成员之间会交谈，有时候会不经意间触发语音识别系统，这样就会造成一定的启动失误，会从一定程度上降低用户对系统稳定性的信任。因此设置相对较长的话语，可以使得其唤醒难度加大。更为重要的是，当说完“请大家安静”的时候，可以通过检测环境噪声这样的信息来确认，是否是会议主持者发出的明确指令，如果说完之后，环境噪声明显降低，那么说明确实是要正式进入会议模式，此时，启动语音识别系统。在启动之后，该语音识别系统，还可以进一步发出询问，以确认会议是否开始，当该信息为肯定回答时，则完全启动。

s1：通过声音采集设备获取当前用户的声音信息；所述声音采集设备最为优选的，采用环形麦克风阵列以采集当前用户的声音信息；这一步主要是为了获取到对应用户的声音信息，这也是下面所有步骤的基础。通过环形麦克风可以更为高效准确的获取圆桌四周的声音信息，获取到的声音源信息越清晰，那么后期进行语音翻译也就会使得其越准确。

s2：采用声源定位技术以定位声音信息所在位置；所述声源定位技术为基于时延估计的算法或者基于高分辨率谱估计的算法或者基于稀疏表示的算法，且所述定位步骤具体为：当采用声源定位技术定位声音所在位置后，关闭除了与声音信息所在位置最近的麦克风外的其余麦克风。当定位到具体的位置的时候，最好的是只开启其面前的麦克风，而将其余的麦克风关闭，这样能够更为有效的获取当前说话者的声音信息，而屏蔽掉一部分说话者的低语，不会因为产生多处声源而造成声音获取处于一种比较混乱的状态。因为如果当说话的人不是一个的时候，而此时又同时开启有多个麦克风，那么就无法判断他们的来源强弱，而会将所有的声音信息都录入，从而会产生一定的混乱，而只开启说话者面前的麦克风的话，其可以通过声音强弱，声音方向等来定位是否需要记录对应的信息，并且判断是否需要进行录音更换等。

所述声源定位技术其是基于tde的算法核心在于对传播时延的准确估计，一般通过对麦克风间信号做互相关处理得到。进一步获得声源位置信息，可以通过简单的延时求和、几何计算或是直接利用互相关结果进行可控功率响应搜索等方法。这种类型的算法实现相对简单，运算量小，便于实时处理，因此在实际中运用最广。

基于广义互相关函数的时延估计算法引入了一个加权函数，对互功率谱密度进行调整，从而优化时延估计的性能。根据加权函数的不同，广义互相关函数有多种不同的变形，在本实施例中采用广义互相关-相位变换方法(generalizedcrosscorrelationphasetransformation，gcc-phat)。gcc-phat方法本身具有一定的抗噪声和抗混响能力，但是在信噪比降低和混响增强时，该算法性能急剧下降。

通过长时间实践发现麦克风对gcc-phat函数的最大值越大则该对麦克风的接收信号越可靠，也就是接收信号质量越高。广义互相关函数时延估计算法根据两个麦克风信号的互相关函数峰值来估计时延值。在声源定位系统中，麦克风阵列的每个阵元接收到的目标信号都来自于同一个声源。因此，各通道信号之间具有较强的相关性。理想情况下，通过计算每两路信号之间的相关函数，就可以确定两个麦克风观测信号之间的时延。从而完成声源的定位。

srp-phat(steeredresponsepower-phasetransform)基于相位变换加权的可控响应功率的声源定位算法。虽然基于麦克风阵列的声源定位方法很多，但是相位变换加权的可控响应功率srp-phat声源定位算法在混响环境中有较强的鲁棒性，可实现真实环境中的声源定位，因此该算法也可以作为本实施例中的一种实施方式来进行实施。srp-phat对麦克风的阵型没有特定要求，因此也适用于分布式阵列，因此当铺设为基于分布式阵列的定位系统，其可以采用该算法。

srp-phat算法的基本原理是在假想声源位置计算所有麦克风对接收信号的相位变换加权的广义互相关gcc-phat函数之和，在整个声源空间寻找使srp值最大的点即为声源位置估计。srp-phat对混响有较强的鲁棒性，但是在低信噪比snr(signal-to-noiseratio)环境中其定位性能较差。上述几种为具体的声源定位技术，但是其仅仅是其中三种，在具体的信息采集的时候，该声源定位技术不限于上述三种，用户可以根据实际情况来进行设计。

s3：判断所述声音信息所在位置是否存储在服务器中，如果是，则将声音信息转化为文字信息并记录下来。获取到语音之后，通过语音识别技术对语音进行识别，把语音转换成文字。在录音的同时也会对语音进行识别，并不是完全录音结束之后再识别的。在识别的过程中，不断将识别的结果对应的座位的信息。

定位到声源的位置之后，就开始从后台获取该位置的所坐的人的信息。如果预先没有设置该座位的人的信息，会暂时记录座位号，等待会议结束后再补充相应的信息。在声源位置没有改变之前，所识别的语音结果都会对应这个位置。因为本实施例是通过位置来判断是否记录该说话者的声音信息的，所以在最开始进行会议之前就要分配好对应的位置，比如在一个环形会议桌前，有8个座位，其编号分别是1、2、3、4、5、6、7和8，并且规定单数号码的声音信息可以被录制并记录，而双数号码的声音不可以，这个时候，在进行会议安排的时候，需要将比较重要的人物安排在单数号从而实现声音的记录。由于会议中不能够单单只记录号码，这样在后期进行查阅会议记录的时候，还需要找到当时的座位排次从而大大降低了用户的使用体验，所以在最开始的时候，还需要设置与座号信息相关联的用户信息，这样当通过定位座号来输入声音信息后，也可以通过调用录入的用户信息来直接进行对应，使得其记录更为的准确。这个信息的录入不一定是固定的时间，其可以是在开始会议之前，也可以是在会议结束后；只要是在最终导出数据之前就可以了，使得导出的数据中显示出具体的人物信息即可。

s4：当获取到的声音信息所在位置改变时，则返回步骤s2以对声音信息进行重新定位；且所述声音信息所在位置与用户信息相关联。在会议开始之前，需要预先录入每个座位要坐人的信息，在此之前系统已经录入每个座位的方向，这里只需要记录座位对应的人的信息就可以了。如果开始之前没有录入人的信息的话也有没有关系，在输出最好的文档之前，再录入座位对应的人的信息。

当语音的方向改变之后，要重新对语音的方向进行定位，回到步骤s2，重新获取声源位置和对应的人的信息。如果是原来讲话的人已经停止说话了，需要判断整个会议是否结束了，如果没有结束，就等待之后讲话的人，接着步骤三开始。如果会议结束了，提示询问会议是否结束，会议结束了就停止录音，准备导出文档。因为在整个会议的过程中，声音的方位是不断的改变的，如果只能够记录单一的信息，那么会使得记录很不完整；所以在整个会议记录的过程中，除了能够识别到当前的声音，当声音的方位变换的时候，该系统也可以根据实际的情况来重新的定位从而完成对声音信息的采集。

在进行位置设计的时候，由于会议过程中，并非是所有人都处于静态的，有可能会有人演示ppt，或者进行演讲，所以还需要在特定位置进行特殊的许可；比如在画板或者电脑那个方位设置一个可以为声音信息获取的方位；从而使得处于特定位置的人也可以将其声音信息录入，并且这些部分内容的演讲有时候还是相对重要的，其是处于会议的议题中心的，所以可以单独设计一个方位进行会议内容的获取。

s5：当声音采集设备在预设时间内没有接收到声音信息时，则发送提示信息以判断会议是否结束，如果是，则输出完整会议文档。会议的开始有唤醒词来确认，会议的结束的判断也可以这样设置。比如当该语音识别系统，采集到“今天的会议就到这里”或者是“会议结束”等等类似的句子的时候，就可以判断当前会议结束了。通过结束词来关闭语音识别系统是一种方式，还有一种方式是可以当在5分钟内没有接收到语音识别信息的时候，可以判定会议已经结束。因为在一场会议中，一般不可能有这么长的思考等待时间，会议中精神相对高度集中，并且人员集中，所以不会出现长达五分钟的停滞；因此，当出现有超过五分钟的空白的时候则控制关闭该系统。有些系统在进行设计的时候，可以从更为稳妥的角度来设计考虑，还可以设置语音提醒以进一步判断会议是否结束，如果接收到的信息是肯定的，或者是在一段时间内没有接收到任何信息，则判断没有人处于会议中，从而关闭语音识别系统。

s6：将完整会议文档发送至打印机进行打印或者将完整会议文档发送至预存的用户信息中。会议结束后，就会导出会议的记录文档。如果之前就已经录入座位所坐的人的信息，就可以根据直接输出之前记录的信息。如果预先没有录入座位的信息，在文档导出来之前，还要先录入每个座位所坐的人的信息，最后再导出会议记录文档。会议记录文档是按照标准的会议模板进行输入的，在最开始的时候，每个公司可以设置自己的会议模板，在进行模板填写的时候，通过该系统可以直接将所有对应的文字的内容信息导入至对应的模板模块内，从而使得会议记录内容更为的标准化。最后是将所有的内容进行输入，其可以进行电子存档，还可以直接连接打印系统从而输出纸质文档进行存储。更为优选地方式是，在进行输出之前可以将所有的内容形成完整的会议文档发送至对应的人员进行审核。因为，在语音识别过程中，有可能会有一些地方存在有疏漏或者不准确的地方，所以需要通过进一步的审核来使得最终的会议文档出现更少的错误。

实施例二

实施例二公开了一种电子设备，该电子设备包括处理器、存储器以及程序，其中处理器和存储器均可采用一个或多个，程序被存储在存储器中，并且被配置成由处理器执行，处理器执行该程序时，实现实施例一的一种基于位置的会议自动记录方法。该电子设备可以是手机、电脑、平板电脑等等一系列的电子设备。

实施例三

实施例三公开了一种计算机可读存储介质，该存储介质用于存储程序，并且该程序被处理器执行时，实现实施例一的一种基于位置的会议自动记录方法。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、闪存(flash)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述基于内容更新通知装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：傅峰峰
技术所有人：广州富港万嘉智能科技有限公司
我是此专利的发明人

上一篇：一种压电致动器辅助施压的电阻焊接方法与流程
上一篇：一种衣柜的顶底板安装结构的制作方法