会议记录装置及利用该装置对会议进行记录的方法

文档序号：2835974阅读：213来源：国知局

专利名称：会议记录装置及利用该装置对会议进行记录的方法
会议记录装置及利用该装置对会议进行记录的方法
技术领域：
本发明涉及一种会议记录装置及利用该装置对会议进行记录的方法，属于会议记录及语音自动识别领域。
背景技术：
目前常用的会议记录辅助装置是录音笔或者录像，如需对会议进行文字转换，则需要记录人员重新收听或者收看录像并将会议进行事后整理记录，此种方式效率较低并且造成记录人员劳心劳力。随着集成电路技术的发展，目前的手机和笔记本电脑的处理能力越来越强，人工智能技术逐渐被应用在各个领域，目前已经有语音输入法可以直接将音频转换成文字，但该设备需要事先进行语音文字转换训练，并且仅是针对某个人，无法应用于具有多人的会议系统。

发明内容本发明的目的在于提供一种会议记录装置及利用该装置对会议进行记录的方法，使其能够对多人参与的会议内容自动进行记录。本发明装置包括语音采集模块、语音分类模块、语音文字转换模块、会议文字记录模块。语音采集模块采集语音数据，并将其送给语音分类模块；语音分类模块提取特征参数并依据该特征参数对输入的音频数据进行分类，即根据语音特性判断该段语音的主体；语音文字转换模块将一段语音转换成文字，会议文字记录模块将转换后的文字按照预定的格式存储下来，形成会议记录。进一步地，所述音频数据是通过语音采集模块实时采集得到的；或者来自于事先录制的音频文件。进一步地，所述会议文字记录存储模块采用预先规定的存储格式形成会议记录，其中该存储格式包括该段语音所属人物的标示、该段文字对应语音的起始时间及对应的文
子fe息。进一步地，该装置还可以设置一个分类参数调整模块，在进行语音分类的时候，可以在控制窗口上显示每个音频段的分类结果，允许用户修改分类结果，并且根据用户修改结果重新训练分类参数，以提高后继的分类准确率。进一步地，该装置还可以设置一个语音文字转换参数调整模块，在语音文字转换的时候，可以在控制窗口上显示每次语音文字转换的结果，允许用户修改转换后的文字，并且根据用户修改结果重新训练语音文字转换参数，以提高后继的分类准确率。进一步地，该装置还支持分类参数和语音文字转换参数的存储；支持从已有的参数文件中配置装置目前所使用的分类参数和语音文字转换参数。进一步地，该装置还可以设置一个会议声音和文字回放模块，以支持会议声音和文字的同步回放；在回放时，还可以配置过滤器，只回放指定人物的声音和文字。进一步地，该装置还可以设置一个会议检索及定位播放模块，以支持通过特定的文字对会议进行检索，定位到相关的播放点。利用本发明的装置对会议进行记录的方法包括如下步骤步骤一，利用语音采集模块采集音频数据；步骤二，语音分类模块提取采集的音频数据的取特征参数并依据该特征参数对输入的音频数据进行分类；步骤三，语音文字转换处理模块根据离线提取的语音主体的语音自动转换参数对输入的音频数据进行文字转换；步骤四，会议文字记录存储模块接收语音文字转换处理模块输出的转换后的数据并进行存储形成会议记录。进一步地，所述语音分类模块提取特征参数并对音频进行分类的具体步骤如下步骤一接收一段音频数据；步骤二对采集来的音频数据进行处理，提取特征参数；步骤三根据提取的特征参数，对该段音频数据进行分类；步骤四判断是否存在长时间停顿，如是，则执行步骤八；步骤五判断目前存储在缓存的音频数据是否为同一个人的声音，如否，则执行步骤八；步骤六将当前的音频数据加入到缓存中；步骤七判断缓存的音频数据是否大于一指定的阈值，如是，则执行步骤八；步骤八将存储在缓存中的音频数据送给语音文字转换处理模块处理，清空缓存，进入步骤一。进一步地，该音频数据是通过语音采集模块采集实时音频得到。进一步地，该音频数据是通过语音采集模块采集事先录制的音频文件得到。进一步地，所述会议文字记录存储模块采用预先规定存储格式对会议进行记录，其中该存储格式包括该段话所属人物的标示、该段文字对应语音的起始时间及对应的文字 fn息；进一步地，语音文字转换处理模块离线提取语音主体的语音自动转换参数是通过先输入一段对应的文字已知的语音，之后通过迭代运算得到的。进一步地，语音分类模块进行语音分类的步骤中还包括接收用户分类结果所做的修改，并且根据用户修改的结果重新训练分类参数的步骤。进一步地，语音文字转换处理模块在语音文字转换的步骤还包括接收用户修改转换后的文字，之后语音文字转换处理模块根据修改后的结果重新训练语音文字转换参数的步骤。与现有技术相比，本发明通过语音采集模块提取采集的音频数据的取特征参数并依据该特征参数对输入的音频数据进行分类，之后通过语音字转换处理模块根据离线提取的语音主体的语音自动转换参数对输入的音频数据进行文字转换，其后会议文字记录存储模块将转换后的文字按照给定的格式存储下来，如此能够对多人参与的会议自动进行语音的分类与识别并形成会议记录。

图1为实施本发明的会议记录装置的系统架构图。图2为采用本发明的会议记录装置进行会议记录的方法的流程图。图3为语音分类模块提取特征参数并对音频进行分类的流程图。
具体实施方式
以下结合附图对本发明具体实施方式
进行说明。请参阅图1所示，为实施本发明的会议记录装置的系统架构图，该会议记录装置包括语音采集模块101，用来采集语音数据。语音分类模块102，用来提取特征参数并依据该特征参数对输入的音频数据进行分类，即根据语音特性判断该段语音的主体。其中用于分类的特征参数可以预先训练得到，比如，离线在PC机上训练得到一组参数，直接配置到语音分类模块；或者在会议开始之初，语音分类根据采集到的语音直接训练得到；或者建议与会者在进入会议室之后，采集语音样本进行训练得到分类参数。语音文字转换处理模块103，用以根据输入音频数据的信息，选择对应人的语音自动转换参数配置，并对采用所选的参数对该段语音进行文字转换，之后将转换后的数据送给会议文字记录格式化存储模块。其中语音文字转换参数可以预先训练得到的，这是目前常用的基本方法，其过程是首先输入一段对应文字已知的语音，之后训练算法会通过一定的迭代运算得到相关的模型参数，语音识别算法和工具有很多，例如剑桥大学开发的专门用于建立和处理HMM (Hidden Markov Model)的试验工具包HTK (HMM Tools Kit)。语音文字转换参数可以有多种方法获得，比如，离线在PC机上训练得到一组参数，直接配置到语音文字转换模块；或者在会议开始之初，语音文字转换模块根据采集到的语音直接训练得到；或者建议与会者在进入会议室之后，采集语音样本进行训练得到转换参数。会议文字记录存储模块104按照选取的存储模板，对语音文字转换处理模块输出的转换后的数据进行存储形成会议记录；会议文字记录可预先自行规定一个有利于资料查找、检索和过滤的存储格式，记录以下内容a)该段话所属人物的标示；b)该段文字对应语音的起始时间；c)文字信息。该装置既支持现场实时处理，即音频数据来自于语音采集模块；又支持离线处理，即音频数据来自于事先录制好的音频文件。该装置还可以设置一个分类参数调整模块105，在进行语音分类的时候，可以在控制窗口上显示每个音频段的分类结果，允许用户修改分类结果，并且根据用户修改结果重新训练分类参数，以提高后继的分类准确率。该装置还可以设置一个语音文字转换参数调整模块106，在语音文字转换的时候，可以在控制窗口上显示每次语音文字转换的结果，允许用户修改转换后的文字，并且根据用户修改结果重新训练语音文字转换参数，以提高后继的分类准确率。该装置还支持分类参数和语音文字转换参数的存储；支持从已有的参数文件中配置装置目前所使用的分类参数和语音文字转换参数。CN 102436812 A
说明书
4/5页该装置还可以设置一个会议声音和文字回放模块107，以支持会议声音和文字的同步回放；在回放时，还可以配置过滤器，只回放指定人物的声音和文字。该装置还可以设置一个会议检索及定位播放模块108，以支持通过特定的文字对会议进行检索，定位到相关的播放点。请参阅图2所示，为采用本发明的会议记录装置进行会议记录的方法流程图，该方法包括如下步骤步骤201，利用语音采集模块采集音频数据；步骤202，语音分类模块提取采集的音频数据的取特征参数并依据该特征参数对输入的音频数据进行分类；所述语音分类模块进行语音分类的步骤中还包括接收用户分类结果所做的修改，并且根据用户修改的结果重新训练分类参数的步骤。请参阅图3所示，步骤202中语音分类模块提取特征参数并对音频进行分类的流程图，接收到一段音频数据之后的具体处理步骤如下步骤301 接收一段音频数据；该音频数据可通过语音采集模块采集实时音频得到；也可通过语音采集模块采集事先录制的音频文件得到。步骤302 对采集来的音频数据进行处理，提取特征参数。步骤303 根据提取的特征参数，对该段音频数据进行分类。步骤304 判断是否存在长时间停顿，如是，则执行步骤308。步骤305 判断目前存储在缓存的音频数据是否为同一个人的声音，如否，则执行步骤308。步骤306 将当前的音频数据加入到缓存中。步骤307 判断缓存的音频数据是否大于一指定的阈值，如是，则执行步骤308。步骤308 将存储在缓存中的音频数据送给语音文字转换处理模块处理，清空缓存。步骤203，语音文字转换处理模块根据预先提取的语音主体的语音自动转换参数对输入的音频数据进行文字转换。所述语音文字转换处理模块预先提取语音主体的语音自动转换参数是通过先输入一段对应的文字已知的语音，之后通过迭代运算得到的。语音文字转换参数可以有多种方法获得，比如，离线训练一组参数，直接配置到语音文字转换模块；或者在会议开始之初，语音文字转换模块根据采集到的语音直接训练得到；或者建议与会者在进入会议室之后，说一段话作为样本进行训练得到转换参数。语音识别算法和工具有很多，例如剑桥大学开发的专门用于建立和处理HMM(Hidden Markov Model)的试验工具包HTK(HMM Tools Kit)。所述语音文字转换处理模块在语音文字转换的步骤中还包括接收用户修改转换后的文字，之后语音文字转换处理模块根据修改后的结果重新训练语音文字转换参数的步马聚ο步骤204，会议文字记录存储模块接收语音文字转换处理模块输出的转换后的数据并进行存储形成会议记录。所述会议文字记录存储模块采用预先规定的存储格式对会议进行记录，其中该存储格式包括该段话所属人物的标示、该段文字对应语音的起始时间及对应的文字信息。
与现有技术相比，本发明通过语音采集模块将采集到的语音数据送给语音分类模块；语音分类模块根据语音特性判断该段语音属于谁；语音文字转换模块将一段语音转换成文字，会议文字记录模块将转换后的文字按照给定的格式存储下来。能在会议期间自动或者人工进行会议记录，及时、准确地保存会议内容。可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
权利要求
1.一种会议记录装置，其特征在于该会议记录装置包括语音采集模块，用来采集音频数据；语音分类模块，用来提取特征参数并依据该特征参数使用预先训练得到的语音分类参数对输入的音频数据进行分类；语音文字转换处理模块，用以根据预先提取的语音主体的语音自动转换参数对输入的音频数据进行文字转换；会议文字记录存储模块，接收语音文字转换处理模块输出的转换后的数据并进行存储形成会议记录。
2.如权利要求1所述的会议记录装置，其特征在于，所述音频数据是通过语音采集模块实时采集得到的。
3.如权利要求1所述的会议记录装置，其特征在于，所述音频数据来自于事先录制的音频文件。
4.如权利要求1所述的会议记录装置，其特征在于，所述会议文字记录存储模块采用预先规定的存储格式形成会议记录，其中该存储格式包括该段语音所属人物的标示、该段文字对应语音的起始时间及对应的文字信息。
5.如权利要求1所述的会议记录装置，其特征在于，所述会议记录装置还设置一个分类参数调整模块，与语音分类模块连接，用以在进行语音分类的时候，允许用户修改语音分类模块的分类结果，并且根据用户修改结果重新训练分类参数。
6.如权利要求1所述的会议记录装置，其特征在于，语音文字转换处理模块离线提取语音主体的语音自动转换参数是通过先输入一段对应的文字已知的语音，之后通过迭代运算得到的。
7.如权利要求1所述的会议记录装置，其特征在于，所述会议记录装置还设置一个语音文字转换参数调整模块，与语音文字转换处理模块连接，在语音文字转换的时候，允许用户修改转换后的文字，语音文字转换参数调整模块根据修改后的结果重新训练语音文字转换参数。
8.如权利要求1所述的会议记录装置，其特征在于，所述会议记录装置还设置一个会议声音和文字回放模块，支持会议声音和文字的同步回放。
9.如权利要求8所述的会议记录装置，其特征在于，所述会议记录装置配置有过滤器，在回放时通过过滤器选择只回放指定人物的声音和文字。
10.如权利要求1所述的会议记录装置，其特征在于，所述会议记录装置还设置一个会议检索及定位播放模块，支持通过特定的文字对会议进行检索，定位到相关的播放点。
11.一种利用权利要求1所述的会议记录装置对会议进行记录的方法，其特征在于该方法包括如下步骤步骤一，利用语音采集模块采集音频数据；步骤二，语音分类模块提取采集的音频数据的取特征参数并依据该特征参数对输入的音频数据进行分类；步骤三，语音文字转换处理模块根据离线提取的语音主体的语音自动转换参数对输入的音频数据进行文字转换；步骤四，会议文字记录存储模块接收语音文字转换处理模块输出的转换后的数据并进行存储形成会议记录。
12.如权利要求11所述的方法，其特征在于，所述语音分类模块提取特征参数并对音频进行分类的具体步骤如下步骤一接收一段音频数据；步骤二对采集来的音频数据进行处理，提取特征参数；步骤三根据提取的特征参数，对该段音频数据进行分类；步骤四判断是否存在长时间停顿，如是，则执行步骤八；步骤五判断目前存储在缓存的音频数据是否为同一个人的声音，如否，则执行步骤八；步骤六将当前的音频数据加入到缓存中；步骤七判断缓存的音频数据是否大于一指定的阈值，如是，则执行步骤八；步骤八将存储在缓存中的音频数据送给语音文字转换处理模块处理，清空缓存，进入步骤"‘ ο
13.如权利要求12所述的方法，其特征在于，所述音频数据是通过语音采集模块采集实时音频得到。
14.如权利要求12所述的方法，其特征在于，所述音频数据是通过语音采集模块采集事先录制的音频文件得到。
15.如权利要求11所述的方法，其特征在于，所述会议文字记录存储模块采用预先规定的存储格式对会议进行记录，其中该存储格式包括该段语音所属人物的标示、该段文字对应语音的起始时间及对应的文字信息；
16.如权利要求11所述的方法，其特征在于，语音文字转换处理模块离线提取语音主体的语音自动转换参数是通过先输入一段对应的文字已知的语音，之后通过迭代运算得到的。
17.如权利要求11所述的方法，其特征在于，语音分类模块进行语音分类的步骤中还包括接收用户分类结果所做的修改，并且根据用户修改的结果重新训练分类参数的步骤。
18.如权利要求11所述的方法，其特征在于，语音文字转换处理模块在语音文字转换的步骤中还包括接收用户修改转换后的文字，之后语音文字转换处理模块根据修改后的结果重新训练语音文字转换参数的步骤。
全文摘要
一种会议记录装置，包括语音采集模块、语音分类模块、语音文字转换模块及会议文字记录存储模块，其中语音采集模块采集语音数据，并将其送给语音分类模块；语音分类模块提取特征参数并依据该特征参数对输入的音频数据进行分类，即根据语音特性判断该段语音的主体；语音文字转换模块将语音转换成文字，会议文字记录存储模块将转换后的文字按照预定的格式存储形成记录，从而可以自动并及时、准确地进行会议记录。
文档编号G10L15/02GK102436812SQ20111034045
公开日2012年5月2日申请日期2011年11月1日优先权日2011年11月1日
发明者林哲民申请人:展讯通信(上海)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林哲民
技术所有人：展讯通信（上海）有限公司
我是此专利的发明人