一种通过移动终端实现声音录制的方法及装置与流程

文档序号：17735277发布日期：2019-05-22 03:08阅读：277来源：国知局

本发明涉及一种会议记录技术领域，尤其涉及一种通过移动终端实现声音录制的方法及装置。

背景技术：

目前，常规的会议是采用专门的记录人员进行会议记录；较为先进的是现有的会议中报告及记录的方法，通常是利用摄像机、麦克风、录音笔等设备对会议过程中各人员的发言进行录音及录像。会后做会议记录的人员可以查看、回放录音及录像以整理会议记录。然而，通过人工对语音数据进行标注和提取，对使用者来说，费时且极为不便。

但是通过摄像机、麦克风、录音笔等设备对会议进行记录需要比较大的成本，并且在使用过程中也需要专门为其位置摆放进行设置，从而会消耗一定的物力财力，因此，设计一种更方便对会议进行记录的系统成为本领域技术人员亟待解决的技术问题。

技术实现要素：

为了克服现有技术的不足，本发明的目的之一在于一种通过移动终端实现声音录制的方法，其能解决降低声音录制铺设成本的问题。

本发明的目的之二在于提供一种电子设备，其能解决降低声音录制铺设成本的问题。

本发明的目的之三在于提供一种计算机可读存储介质，其能解决降低声音录制铺设成本的问题。

本发明的目的之一采用如下技术方案实现：

一种通过移动终端实现声音录制的方法，包括以下步骤：

接收步骤：接收移动终端的连接请求；

阵列构建步骤：根据所有接收到的移动终端信息构建声音采集阵列；

获取步骤：通过声音采集阵列获取当前用户的声音信息；

记录步骤：通过语音识别模块将声音信息转换为文字信息并记录下来或者生成点餐指令。

进一步地，所述接收步骤中，所述移动终端通过扫描二维码来发送连接请求。

进一步地，在获取步骤之前还包括唤醒步骤：当接收到预设唤醒词时，启动声音采集设备。

进一步地，在获取步骤与记录步骤之间还包括定位步骤：采用声源定位技术以定位声音信息所在位置。

进一步地，所述定位步骤中，所述声源定位技术为基于时延估计的算法或者基于高分辨率谱估计的算法或者基于稀疏表示的算法，且所述定位步骤具体为：当采用声源定位技术定位声音所在位置后，关闭除了与声音信息所在位置最近的移动终端外的其余移动终端。

进一步地，在记录步骤之后还包括结束判断步骤：当声音采集阵列在预设时间内没有接收到声音信息时，则发送提示信息以判断会议是否结束，如果是，则输出完整会议文档。

进一步地，在结束判断步骤之后还包括文档发送步骤：将完整会议文档发送至打印机进行打印或者将完整会议文档发送至预存的用户信息中。

本发明的目的之二采用如下技术方案实现：

一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如本发明目的之一中任意一项所述的一种通过移动终端实现声音录制的方法。

本发明的目的之三采用如下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如本发明目的之一中任意一项所述的一种通过移动终端实现声音录制的方法。

相比现有技术，本发明的有益效果在于：

本发明的通过移动终端实现声音录制的方法通过将各个参与者的移动终端连接到语音系统中，并将所有的移动终端形成声音采集阵列来实现对声音的采集；大大降低了设备铺设成本，使得该系统使用也更为高效。

附图说明

图1为实施例一的通过移动终端实现声音录制的方法的流程图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例一

本实施例的通过移动终端实现声音录制的方法不仅可以应用于点餐或者会议，还可以应用于其他的需要进行构建麦克风阵列的环境中，在本实施例中针对于会议情况中的阵列构建进行详细的说明，其他的方式与本实施例中会议中的阵列构建方式相类似。

如图1所示，本实施例提供了一种通过移动终端实现声音录制的方法，包括以下步骤：

s1：接收移动终端的连接请求；所述移动终端通过扫描二维码来发送连接请求。这一步主要是为了让所有的用户的移动终端都连接上该系统以便于进行会议记录，这里的移动终端最为主要是所有用户的手机，也可以是其他的智能移动设备，如ipad或者ipod这类型的设备，其主要目的是为了将其作为一个声音采集终端来使用。在进行连接的时候，可以是采用多种方式连接，可以采用蓝牙或者wifi或者nfc或者rfid等无线通信的方式进行连接授权，还可以是通过设置二维码的形式来进行连接；在本实施例中，最为优选地采用二维码的形式来进行识别连接授权，因为通过二维码的设置方式更为的轻便，也更为的有效，其可以直接通过印刷或者是通过显示屏来显示，从而让所有的与会者可以比较轻易的接触并解读到这些信息。

s2：根据所有接收到的移动终端信息构建声音采集阵列；当所有的手机连接到该会议系统的时候，就可以针对所有移动终端来进行采集阵列构建，进行构建的时候，可以直接将其与对应的用户信息进行关联，比如：当扫码完成的时候，可以弹出输入姓名的页面，这时候直接将连接的设备与姓名相关联，这样后期在进行数据导出的时候，可以直接将对应的声音信息与名称相对应。

采用手机作为采集设备除了可以节约系统搭建成本之外，由于目前大部分手机都是智能手机，且很多手机都具有ai智能降噪的功能，所以这个从一定程度上还能够达到更好的声音采集的效果。

s21：当接收到的预设唤醒词时，判断与预设唤醒词对应的声纹信息是否存储在服务器中，如果是，则启动声音采集阵列。在进行声音获取之前，首先得判断是否启动声音采集阵列，开启的方式有很多种，比如可以直接通过电源按键来实现语音识别系统的开关，这种是最为原始的，也不够智能；在本实施例中其作为一种可以替代的方式可以进行选择，还可以设置语音识别系统处于常开的状态，只是这样会比较耗费电量，并且很容易形成很多不必要的“会议文档”，但是其也可以作为一种方式来进行实施，只是不属于本发明中所要着重描述的最为优选的方式。

在本实施例中最为优选地，是可以采用关键词唤醒的方式来进行语音识别系统的唤醒，比如将唤醒关键词设置为“会议开始”，当声音采集阵列采集到这样的信息的时候，则将处于待机状态下的语音识别系统唤醒以进行工作，从而实现真正的自动化处理。使得会议可以进行的更为的顺畅。由于并非是所有人都可以来控制会议的进行，故而需要设置一个或者多个用户来进行统筹，将这些用户的声纹信息预先存储在服务器中，只有他们说出来的预设唤醒词才具备启动的功能。所谓声纹(voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点。成年以后，人的声音可保持长期相对稳定不变。实验证明，无论讲话者是故意模仿他人声音和语气，还是耳语轻声讲话，即使模仿得惟妙惟肖，其声纹却始终不相同。所以采用声纹这种识别方式，识别更为的高效。

当接收到的预设唤醒词时，判断与预设唤醒词对应的声纹信息是否存储在服务器中，如果是，则启动声音采集设备。这里进行预设唤醒词的设置的时候，可以依照用户的习惯来进行设置，比如通常的可以设置“会议开始”，这样的常规性词句，对应的企业也可以依据自己的企业文化，设定不同的唤醒词。比如阿里巴巴公司的唤醒词可以设置“12大盗已经聚齐，会议开始”这样的更个性，更具备特色的唤醒方式，使得该系统能够具备更高的用户黏性。

在进行唤醒词设置的时候，可以设置为以下方式，“请大家安静，会议准备开始。”当这样设置的时候，具备更高的抗干扰性。因为，当用户进行一间会议室的时候，这时候各会议成员之间会交谈，有时候会不经意间触发语音识别系统，这样就会造成一定的启动失误，会从一定程度上降低用户对系统稳定性的信任。因此设置相对较长的话语，可以使得其唤醒难度加大。更为重要的是，当说完“请大家安静”的时候，可以通过检测环境噪声这样的信息来确认，是否是会议主持者发出的明确指令，如果说完之后，环境噪声明显降低，那么说明确实是要正式进入会议模式，此时，启动语音识别系统。在启动之后，该语音识别系统，还可以进一步发出询问，以确认会议是否开始，当该信息为肯定回答时，则完全启动。

s3：通过声音采集阵列获取当前用户的声音信息；这一步主要是为了获取到对应用户的声音信息，这也是下面所有步骤的基础。通过移动终端可以更为高效准确的获取圆桌四周的声音信息，获取到的声音源信息越清晰，那么后期进行语音翻译也就会使得其越准确。并且由于所有与会者均采用自己的手机，所以其可以通过识别特定的声纹来判断，从而使得识别更为的准确高效。

s31：采用声源定位技术以定位声音信息所在位置。所述声源定位技术为基于时延估计的算法或者基于高分辨率谱估计的算法或者基于稀疏表示的算法，且所述定位步骤具体为：当采用声源定位技术定位声音所在位置后，关闭除了与声音信息所在位置最近的手机外的其余手机。采用声源定位还是为了更高效的获取到对应的声音信息，由于并非所有的手机都具备降噪功能，所以为了更准确获取对应的声音信息，就采用这样的定位来进行智能终端的麦克风的开启与待机方式。

这样能够更为有效的获取当前说话者的声音信息，而屏蔽掉一部分说话者的低语，不会因为产生多处声源而造成声音获取处于一种比较混乱的状态。因为如果当说话的人不是一个的时候，而此时又同时开启有多个麦克风，那么就无法判断他们的来源强弱，而会将所有的声音信息都录入，从而会产生一定的混乱，而只开启说话者面前的麦克风的话，其可以通过声音强弱，声音方向等来定位是否需要记录对应的信息，并且判断是否需要进行录音更换等。

所述声源定位技术其是基于tde的算法核心在于对传播时延的准确估计，一般通过对麦克风间信号做互相关处理得到。进一步获得声源位置信息，可以通过简单的延时求和、几何计算或是直接利用互相关结果进行可控功率响应搜索等方法。这种类型的算法实现相对简单，运算量小，便于实时处理，因此在实际中运用最广。

基于广义互相关函数的时延估计算法引入了一个加权函数，对互功率谱密度进行调整，从而优化时延估计的性能。根据加权函数的不同，广义互相关函数有多种不同的变形，在本实施例中采用广义互相关-相位变换方法(generalizedcrosscorrelationphasetransformation，gcc-phat)。gcc-phat方法本身具有一定的抗噪声和抗混响能力，但是在信噪比降低和混响增强时，该算法性能急剧下降。

通过长时间实践发现麦克风对gcc-phat函数的最大值越大则该对麦克风的接收信号越可靠，也就是接收信号质量越高。广义互相关函数时延估计算法根据两个麦克风信号的互相关函数峰值来估计时延值。在声源定位系统中，麦克风阵列的每个阵元接收到的目标信号都来自于同一个声源。因此，各通道信号之间具有较强的相关性。理想情况下，通过计算每两路信号之间的相关函数，就可以确定两个麦克风观测信号之间的时延。从而完成声源的定位。

srp-phat(steeredresponsepower-phasetransform)基于相位变换加权的可控响应功率的声源定位算法。虽然基于麦克风阵列的声源定位方法很多，但是相位变换加权的可控响应功率srp-phat声源定位算法在混响环境中有较强的鲁棒性，可实现真实环境中的声源定位，因此该算法也可以作为本实施例中的一种实施方式来进行实施。srp-phat对麦克风的阵型没有特定要求，因此也适用于分布式阵列，因此当铺设为基于分布式阵列的定位系统，其可以采用该算法。

srp-phat算法的基本原理是在假想声源位置计算所有麦克风对接收信号的相位变换加权的广义互相关gcc-phat函数之和，在整个声源空间寻找使srp值最大的点即为声源位置估计。srp-phat对混响有较强的鲁棒性，但是在低信噪比snr(signal-to-noiseratio)环境中其定位性能较差。上述几种为具体的声源定位技术，但是其仅仅是其中三种，在具体的信息采集的时候，该声源定位技术不限于上述三种，用户可以根据实际情况来进行设计。

s4：通过语音识别模块将声音信息转换为文字信息并记录下来。获取到语音之后，通过语音识别技术对语音进行识别，把语音转换成文字。在录音的同时也会对语音进行识别，并不是完全录音结束之后再识别的。在识别的过程中，不断将识别的结果对应的座位的信息。

当语音的方向改变之后，要重新对语音的方向进行定位，回到步骤s2，重新获取声源位置和对应的人的信息。如果是原来讲话的人已经停止说话了，需要判断整个会议是否结束了，如果没有结束，就等待之后讲话的人，接着步骤s3开始。如果会议结束了，提示询问会议是否结束，会议结束了就停止录音，准备导出文档。因为在整个会议的过程中，声音的方位是不断的改变的，如果只能够记录单一的信息，那么会使得记录很不完整；所以在整个会议记录的过程中，除了能够识别到当前的声音，当声音的方位变换的时候，该系统也可以根据实际的情况来重新的定位从而完成对声音信息的采集。

s5：当声音采集阵列在预设时间内没有接收到声音信息时，则发送提示信息以判断会议是否结束，如果是，则输出完整会议文档。会议的开始有唤醒词来确认，会议的结束的判断也可以这样设置。比如当该语音识别系统，采集到“今天的会议就到这里”或者是“会议结束”等等类似的句子的时候，就可以判断当前会议结束了。通过结束词来关闭语音识别系统是一种方式，还有一种方式是可以当在5分钟内没有接收到语音识别信息的时候，可以判定会议已经结束。因为在一场会议中，一般不可能有这么长的思考等待时间，会议中精神相对高度集中，并且人员集中，所以不会出现长达五分钟的停滞；因此，当出现有超过五分钟的空白的时候则控制关闭该系统。有些系统在进行设计的时候，可以从更为稳妥的角度来设计考虑，还可以设置语音提醒以进一步判断会议是否结束，如果接收到的信息是肯定的，或者是在一段时间内没有接收到任何信息，则判断没有人处于会议中，从而关闭语音识别系统。

s6：将完整会议文档发送至打印机进行打印或者将完整会议文档发送至预存的用户信息中。如果之前就已经录入座位所坐的人的信息，就可以根据直接输出之前记录的信息。如果预先没有录入座位的信息，在文档导出来之前，还要先录入每个座位所坐的人的信息，最后再导出会议记录文档。会议记录文档是按照标准的会议模板进行输入的，在最开始的时候，每个公司可以设置自己的会议模板，在进行模板填写的时候，通过该系统可以直接将所有对应的文字的内容信息导入至对应的模板模块内，从而使得会议记录内容更为的标准化。最后是将所有的内容进行输入，其可以进行电子存档，还可以直接连接打印系统从而输出纸质文档进行存储。更为优选地方式是，在进行输出之前可以将所有的内容形成完整的会议文档发送至对应的人员进行审核。因为，在语音识别过程中，有可能会有一些地方存在有疏漏或者不准确的地方，所以需要通过进一步的审核来使得最终的会议文档出现更少的错误。

本发明的通过移动终端实现声音录制的方法通过将各个与会参与者的移动终端连接到语音系统中，并将所有的移动终端形成声音采集阵列来实现对声音的采集；大大降低了设备铺设成本，使得该系统使用也更为高效。

实施例二

实施例二公开了一种电子设备，该电子设备包括处理器、存储器以及程序，其中处理器和存储器均可采用一个或多个，程序被存储在存储器中，并且被配置成由处理器执行，处理器执行该程序时，实现实施例一的一种通过移动终端实现声音录制的方法。该电子设备可以是手机、电脑、平板电脑等等一系列的电子设备。

实施例三

实施例三公开了一种计算机可读存储介质，该存储介质用于存储程序，并且该程序被处理器执行时，实现实施例一的一种通过移动终端实现声音录制的方法。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、闪存(flash)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述基于内容更新通知装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：傅峰峰
技术所有人：广州富港万嘉智能科技有限公司
我是此专利的发明人

上一篇：一种电子机械设备用干燥剂及其制备方法与流程
上一篇：一种水中和空气中均能使用的胶黏剂及其制备方法与流程