基于云平台的演讲内容提取方法及装置的制造方法

文档序号:10595526阅读:518来源:国知局
基于云平台的演讲内容提取方法及装置的制造方法
【专利摘要】一种基于云平台的演讲内容提取方法及装置,包括:采集演讲的音视频,将采集到的音视频缓存到PC中,并进行预处理;发送预处理后的音视频及相关资料包括演讲幻灯片、相关阅读材料等到服务器;服务器对接收的音频进行语音切分、把音频按说话人分割;进行自动语音识别把分割后的音频转换为文字,语音识别使用声学自适应和语言模型自适应;从语音识别的文本中提取关键字和生成内容笔记。该方法通过语音识别把音频识别成能反复阅读的文本形式,使用语言模型自适应和声学模型自适应提高识别准确率。并进行知识整合,避免把时间花在阅读冗余信息上。本发明还公开了一种基于云平台的演讲内容提取装置,包括演讲录制模块、材料发送模块、语音分割模块、语音识别模块和关键字和内容笔记提取模块。
【专利说明】
基于云平台的演讲内容提取方法及装置
技术领域
[0001] 本发明设及的是一种文字处理领域的技术,具体是一种基于云平台的演讲内容提 取方法及装置。
【背景技术】
[0002] 在信息时代,技术的发展和进步使得我们每天能得到来自世界各地、古往今来的 信息,运些信息的数量远超过人们可W联听消化的范围。为了帮助人们更高效的获取信息, 语音信号处理和自然语言处理技术能有效自动处理海量信息,并提取出其中的关键信息和 内容W供人们快速阅览。
[0003] 在生活中,每个人每天都通过媒体、课堂等渠道联听着大量的信息,把运些信息提 取成能反复阅读的文本形式变得至关重要,它使得人们能快速的阅读学习,语言模型自适 应和声学模型自适应方法提高了语音识别的准确率。并进行知识整合,避免把时间花在阅 读冗余信息上。
[0004] 经过现有的技术检索发现,中国专利文献CN102292766B,公开了一种"用于语音处 理的方法和装置",该方法和装置设及用于提供用于语音识别自适应的复合模型的架构的 方法、装置和计算机程序产品,基于特定发音者的语音特征选择模型来提高识别准确率。但 该方法不设及对于语言模型自适应来提高对于专业词汇的准确率。
[0005] 进一步检索发现,中国专利文献号CN102122506A,公开了 一种"语音识别的方法", 该系统利用捜索引擎检索相关的文本训练语言模型,能够提高语音识别率,降低人工校对 的工作量。但是该方法需利用外部捜索引擎,耗时较长,不利于处理大量语音。

【发明内容】

[0006] 本发明针对现有技术存在的上述不足,提出一种基于云平台的演讲内容提取方法 及装置,通过语音识别把音频识别成能反复阅读的文本形式,使用语言模型自适应和声学 模型自适应提高识别准确率。并进行知识整合,避免把时间花在阅读冗余信息上。
[0007] 本发明是通过W下技术方案实现的:
[000引本发明设及一种基于云平台的演讲内容提取方法,包括:
[0009] 步骤1)采集演讲的音视频,将采集到的音视频缓存到PC中,并进行预处理;
[0010] 步骤2)发送预处理后的音视频及相关资料包括演讲幻灯片、相关阅读材料等到服 务器;
[0011] 步骤3)服务器对接收的音频进行语音切分、把音频按说话人分割;
[0012] 步骤4)进行自动语音识别把分割后的音频转换为文字,语音识别使用声学自适应 和语言模型自适应;
[0013] 步骤5)从语音识别的文本中提取关键字和生成内容笔记。
[0014] 所述的采集,优选使用麦克风、摄像头等设备采集演讲的音视频,利用有线或无线 网络同时缓存到PC中;
[0015] 使用PC对音频进行语音增强去除噪音,并对音视频进行压缩处理。
[0016] 所述的语音切分的方式为服务器对接收的音频进行语音活动检测,按照语音的停 顿进行切分;所述的按说话人分割语音的方式为识别每段语音的说话人,按说话人分割音 频。
[0017] 所述的声学自适应包括对录音环境、噪音类型、说话人类型等的适应;
[0018] 所述的语言模型自适应包括对课件和相关阅读材料中专业词汇的适应。
[0019] 所述的提取包括:提取语音识别的文本中跟演讲内容相关的关键字,并根据文本 中每句与演讲内容的相关度提取与演讲相关的笔记。
[0020] 本发明设及一种实现上述方法的演讲内容提取装置,包括:用于采集演讲音视频, 将采集到的音视频缓存到教室的PC机中,并进行预处理的演讲录制模块、用于发送预处理 后的音视频及相关资料包括演讲幻灯片、相关阅读材料等到服务器的材料发送模块、用于 对接收的音频进行语音切分、把音频按说话人分割的语音分割模块、用于进行自动语音识 别把分割后的音频转换为文字,语音识别使用声学自适应和语言模型自适应的语音识别模 块W及用于服务器从文字中提取关键字和生成内容笔记的关键字和内容笔记提取模块。
[0021] 所述的演讲录制模块用于使用麦克风、摄像头等设备采集演讲的音视频,利用有 线或无线网络同时缓存到PC中,使用PC对音频进行语音增强去除噪音,并对音视频进行压 缩处理。
[0022] 所述的语音切分用于对接收的音频进行语音活动检测,按照语音的停顿进行切 分;所述的按说话人分割语音用于识别每段语音的说话人,按说话人分割音频。
[0023] 所述的语音识别模块用于使用自动语音识别得到每句音频对应的文本,所述的声 学自适应用于对录音环境、噪音类型、说话人类型等的适应;所述的语言模型自适应用于对 演讲幻灯片和相关阅读材料中专业词汇的适应。
[0024] 所述的关键字和内容笔记提取模块用于提取语音识别的文本中跟演讲内容相关 的关键字,并根据文本中每句与演讲内容的相关度提取与演讲相关的笔记。 技术效果
[0025] 与现有技术相比,本发明通过语音识别把音频识别成能反复阅读的文本形式,使 用语言模型自适应和声学模型自适应提高识别准确率。并进行知识整合,避免把时间花在 阅读冗余信息上。
【附图说明】
[0026] 图1为本发明方法流程图;
[0027] 图2是本发明装置结构示意图。
【具体实施方式】 实施例1
[002引本实施例包括W下步骤:
[0029] 101、采集演讲的音视频,将采集到的音视频缓存到PC中,并进行预处理;
[0030] 在本发明实例中,采集演讲的音视频,将采集到的音视频缓存到PC中,并进行预处 理包括使用麦克风、摄像头等设备采集演讲的音视频,利用有线或无线网络同时缓存到PC 中;使用PC对音频进行语音增强去除噪音,并对音视频进行压缩处理。
[0031] 102、发送预处理后的音视频及相关资料包括演讲幻灯片、相关阅读材料等到服务 器;
[0032] 103、服务器对接收的音频进行语音切分、把音频按说话人分割;
[0033] 在本发明实例中,所述的语音切分的方式为服务器对接收的音频进行语音活动检 测,按照语音的停顿进行切分;所述的按说话人分割语音的方式为识别每段语音的说话人, 按说话人分割音频。
[0034] 104、进行自动语音识别把分割后的音频转换为文字,语音识别使用声学自适应和 语言模型自适应;
[0035] 在本发明实例中,所述的声学自适应包括对录音环境、噪音类型、说话人类型等的 适应;所述的语言模型自适应包括对演讲幻灯片和相关阅读材料中专业词汇的适应。
[0036] 105、从语音识别的文本中提取关键字和生成内容笔记。
[0037] 在本发明实例中从语音识别的文本中从语音识别的文本中提取关键字和生成内 容笔记包括:提取语音识别的文本中跟演讲内容相关的关键字,并根据文本中每句与演讲 内容的相关度提取与演讲相关的笔记。 实施例2
[0038] 如图2所示,为本发明实施例提供的基于交互式输入的数据捜索装置结构示意图, 该装置包括:演讲录制模块21材料发送模块22语音分割模块23语音识别模块24和关键字和 内容笔记提取模块25。
[0039] 所述的演讲录制模块21,用于采集演讲音视频,将采集到的音视频缓存到教室的 PC机中,并进行预处理;
[0040] 所述的演讲录制模块21用于使用麦克风、摄像头等设备采集演讲的音视频,利用 有线或无线网络同时缓存到PC中,使用PC对音频进行语音增强去除噪音,并对音视频进行 压缩处理。
[0041] 例如使用摄像机对一堂深度学习课程进行录制,教师佩戴领夹式麦克风,回答问 题的学生使用无线话筒,缓存录制的视频和音频至教室的PC中,使用滤波法如自适应抵消 法去除背景音如空调噪音、施工噪音等,压缩音视频使得文件大小适合网络传输。
[0042] 所述的材料发送模块22,用于发送预处理后的音视频及相关资料包括演讲幻灯 片、相关阅读材料等到服务器。
[0043] 具体地,传输语音增强、压缩后的音视频、深度学习幻灯片和深度学习阅读材料等 到HTTP服务器。
[0044] 所述的语音分割模块23,用于对接收的音频进行语音切分、把音频按说话人分割。
[0045] 所述的语音分割模块23中语音切分用于对接收的音频进行语音活动检测,按照语 音的停顿进行切分;按说话人分割语音用于识别每段语音的说话人,按说话人分割音频。
[0046] 具体地,根据短时能量和过零率检测切分出有语音的部分,并提取每段语音的i- vector识别说话人为老师和不同的学生。
[0047] 所述的语音识别模块24,用于进行自动语音识别把分割后的音频转换为文字,语 音识别使用声学自适应和语言模型自适应。
[0048] 所述的语音识别模块24用于使用自动语音识别得到每句音频对应的文本,所述的 声学自适应用于对录音环境、噪音类型、说话人类型等的适应;所述的语言模型自适应用于 对演讲幻灯片和相关阅读材料中专业词汇的适应。
[0049] 具体地,训练声学模型时把音频按i-vector进行聚类,对每个聚类的音频训练一 个基于深度神经网络的声学模型,识别音频时找到其i-vector最近的聚类,并使用此聚类 的声学模型。
[0050] 使用海量文本提取每个词的逆向文件频率,使用TF-IDF统计深度学习课件和扩展 阅读中的关键词。如对于扩展阅读"梯度下降(GD)是最小化风险函数、损失函数的一种常用 方法,随机梯度下降和批量梯度下降是两种迭代求解思路。批量梯度下降---最小化所有训 练样本的损失函数,使得最终求解的是全局的最优解,即求解的参数是使得风险函数最小。 随机梯度下降---最小化每条样本的损失函数,虽然不是每次迭代得到的损失函数都向着 全局最优方向,但是大的整体的方向是向全局最优解的,最终的结果往往是在全局最优解 附近。",可W提取出出扩展阅读中的关键字"梯度下降","随机梯度下降","批量梯度下 降","损失函数"等,而一些常用的词如"常用方法',"一种","最小化"等则会因为TF-IDF权 值太低而不被列为关键词。
[0051] 使用基于递归神经网络的语言模型计算一句话的复杂度(perplexity)时,假设模 型参数是9,则复杂度perplexity的原计算公式为;
其中:N 为此句子的长度,对于此领域内的关键字,则复杂度perplexity可写为: ....-
<j.
[0052] 当Wi为此领域的关键字,则q(wi)为1,否则为0。^为超参数。使用此方法可W提高对 于专业词汇的识别率。
[0053] 关键字和内容笔记提取模块25,用于服务器从文字中提取关键字和生成内容笔 记。
[0054] 所述的关键字和内容笔记提取模块25用于提取语音识别的文本中跟演讲内容相 关的关键字,并根据文本中每句与演讲内容的相关度提取与演讲相关的笔记。
[0055] 在此例中,比如经过语音识别W后的文本是"对于很多机器学习算法,包括线性回 归、逻辑回归、神经网络等等,算法的实现都是通过得出某个代价函数或者某个最优化的目 标来实现的,然后使用梯度下降运样的方法来作为优化算法求得代价函数的最小值。当我 们的训练集较大时,批量梯度下降算法则显得计算量非常大。假设你有一千万张猫的图片, 进行一次批量梯度下降算法相当于看一遍运一千万张照片,而我们需要找一些耗时更短的 方法找到大多数猫的特性。在本次课程中,我想介绍一种跟批量梯度下降不同的方法:随机 梯度下降。"
[0056] 类似的,通过TF-IDF分析,我们可W得出在日常文本中出现很少而在此段语音识 别结果中出现较多的词"梯度下降","随机梯度下降","神经网络"作为关键词,并得到他们 的TF-IDF权值。
[0057] 之后计算句子的权值为句子中每个词TF-IDF权值的平均值,并输出权值最高的句 子作为内容笔记,"对于很多机器学习算法,包括线性回归、逻辑回归、神经网络等等,算法 的实现都是通过得出某个代价函数或者某个最优化的目标来实现的,然后使用梯度下降运 样的方法来作为优化算法求得代价函数的最小值。当我们的训练集较大时,批量梯度下降 算法则显得计算量非常大。在本次课程中,我想介绍一种跟批量梯度下降不同的方法:随机 梯度下降。"
[0058] 本发明实施例提供的装置,通过语音识别把音频识别成能反复阅读的文本形式, 使用语言模型自适应和声学模型自适应提高识别准确率。并进行知识整合,避免把时间花 在阅读冗余信息上。
[0059] 本领域普通技术人员可W理解实现上述实施例的全部或部分步骤可W通过硬件 来完成,也可W通过程序来指令相关的硬件完成,该程序可W存储于一种计算机可读存储 介质中,上述提到的存储介质可W是只读存储器,磁盘或光盘等。
[0060] 上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下W不同 的方式对其进行局部调整,本发明的保护范围W权利要求书为准且不由上述具体实施所 限,在其范围内的各个实现方案均受本发明之约束。
【主权项】
1. 一种基于云平台的演讲内容提取方法,其特征在于,包括: 步骤1)采集演讲的音视频,将采集到的音视频缓存到PC中,并进行预处理; 步骤2)发送预处理后的音视频及相关资料包括演讲幻灯片、相关阅读材料等到服务 器; 步骤3)服务器对接收的音频进行语音切分、把音频按说话人分割; 步骤4)进行自动语音识别把分割后的音频转换为文字,语音识别使用声学自适应和语 目模型自适应; 步骤5)从语音识别的文本中提取关键字和生成内容笔记。2. 根据权利要求1所述的方法,其特征是,所述的采集包括:使用麦克风、摄像头等设备 采集演讲的音视频,利用有线或无线网络同时缓存到PC中;使用PC对音频进行语音增强去 除噪音,并对音视频进行压缩处理。3. 根据权利要求1所述的方法,其特征是,所述的语音切分的方式为服务器对接收的音 频进行语音活动检测,按照语音的停顿进行切分;所述的按说话人分割语音的方式为识别 每段语音的说话人,按说话人分割音频。4. 根据权利要求1所述的方法,其特征是,所述的声学自适应包括对录音环境、噪音类 型、说话人类型等的适应;所述的语言模型自适应包括对演讲幻灯片和相关阅读材料中专 业词汇的适应。5. 根据权利要求1所述的方法,其特征是,所述的提取包括:提取语音识别的文本中跟 演讲内容相关的关键字,并根据文本中每句与演讲内容的相关度提取与演讲相关的笔记。6. -种实现上述任一权利要求所述方法的演讲内容提取装置,其特征在于,包括: 演讲录制模块,用于采集演讲音视频,将采集到的音视频缓存到教室的PC机中,并进行 预处理、 材料发送模块,用于发送预处理后的音视频及演讲幻灯片、相关阅读材料到服务器、 语音分割模块,用于对接收的音频进行语音切分、把音频按说话人分割、 语音识别模块,用于进行自动语音识别把分割后的音频转换为文字,语音识别使用声 学自适应和语言模型自适应、 关键字和内容笔记提取模块,用于服务器从文字中提取关键字和生成内容笔记。7. 根据权利要求6所述的装置,其特征是,所述的演讲录制模块通过麦克风、摄像头采 集演讲的音视频,利用有线或无线网络同时缓存到PC中,使用PC对音频进行语音增强去除 噪音,并对音视频进行压缩处理。8. 根据权利要求6所述的装置,其特征是,所述的语音切分对接收的音频进行语音活动 检测,按照语音的停顿进行切分;所述的按说话人分割语音用于识别每段语音的说话人,按 说话人分割音频。9. 根据权利要求6所述的装置,其特征是,所述的语音识别模块用于使用自动语音识别 得到每句音频对应的文本,所述的声学自适应用于对录音环境、噪音类型、说话人类型的适 应;所述的语言模型自适应用于对演讲幻灯片和相关阅读材料中专业词汇的适应。10. 根据权利要求6所述的装置,其特征是,所述的关键字和内容笔记提取模块用于提 取语音识别的文本中跟演讲内容相关的关键字,并根据文本中每句与演讲内容的相关度提 取与演讲相关的笔记。
【文档编号】G10L15/30GK105957531SQ201610260647
【公开日】2016年9月21日
【申请日】2016年4月25日
【发明人】俞凯, 谢其哲, 吴学阳, 李文博, 郭运奇
【申请人】上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1