一种多媒体转写方法和系统的制作方法

文档序号：10536386阅读：502来源：国知局

一种多媒体转写方法和系统的制作方法
【专利摘要】本发明提供一种多媒体转写方法，应用于多媒体转写系统中，包括以下步骤：S1、接收演示文稿，并构建所述演示文稿的关键信息树；S2、接收语音数据，并对所述语音数据进行语音识别，得到所述语音数据的转写文本；S3、通过所述关键信息树将所述语音数据和所述转写文本与所述演示文稿进行同步；S4、将同步后带有所述语音数据和所述转写文本的演示文稿显示给用户。用户在看演示文稿时可以同时听到演讲人的声音，看到演讲人声音转写的文本；进一步地，根据每页演示文稿包含的子主题对转写文本分段，同一个子主题的转写文本作为一段，不同子主题的转写文本作为不同的段，可以方便用户理解转写文本，进一步提高了用户体验。
【专利说明】
一种多媒体转写方法和系统
技术领域
[0001]本发明涉及语音信号处理领域，特别是涉及一种多媒体转写方法和系统。
【背景技术】
[0002]近年来，随着语音识别技术的快速发展，自动语音识别相关产品已广泛应用于各行各业，将语音转成文本，大大方便了人们的生活需求，如将会议录音转成相应文本，方便会议秘书后续查询会议信息或辅助其撰写会议纪要;或者将采访录音转成相应文本，在此基础上编辑成稿等。然而，上述应用都仅仅是将录音转成文本，并不能同步看到语音数据对应的演示文稿，尤其是演示文稿中存在重要信息，而所述重要信息不存在转写结果中时，用户必须根据语音数据或转写文本查找相应的演示文稿，如果演示文稿量较多时，很难快速查找到与转写文本对应的演示文稿，从而降低了用户体验;如录制的语音数据是老师的课堂教学录音，老师在课堂上经常会给出各种参考资料或其相应链接，或知识点讲解时的演示操作，这些内容在语音数据或转写文本数据中经常无法找到，学生必须要到转写文本对应的演示文稿中才可查看。
[0003]现有的转写系统一般将录制的语音数据直接转写成文本数据显示给用户，当用户在查看转写文本时，看不到相应的演示文稿，当有些重要的信息只存在演示文稿时，如图片中包含的重要链接；用户必须要根据录制的语音数据或转写文本自己查找相应的演示文稿，用户体验较差，同时也不能做到，随时查看转写文本的同时查看相应演示文稿，尤其是当演示文稿较多时，很难快速找到与转写文本对应的演示文稿。

【发明内容】

[0004]鉴于以上所述现有技术的缺点，本发明的目的在于提供一种多媒体转写方法，应用于多媒体转写系统中，包括以下步骤:S1、接收演示文稿，并构建所述演示文稿的关键信息树;S2、接收语音数据，并对所述语音数据进行语音识别，得到所述语音数据的转写文本；
S3、通过所述关键信息树将所述语音数据和所述转写文本与所述演示文稿进行同步;S4、将同步后带有所述语音数据和所述转写文本的演示文稿显示给用户。
[0005]于本发明的一实施例中，所述步骤S2还包括步骤:S21、对所述语音数据进行端点检测，得到所述语音数据有效语音段的起始点和结束点；S22、对所述语音段的特征进行提取;S23、根据所述特征和预先训练的声学模型及语言模型进行解码操作；S24、根据解码结果获取所述语音数据对应的所述转写文本和所述转写文本置信度。
[0006]于本发明的一实施例中，所述步骤SI包括步骤:S11、提取每一页所述演示文稿中包含的关键信息;S12、根据所述关键信息构建所述演示文稿关键信息树。
[0007]于本发明的一实施例中，所述步骤S12中还包括步骤:S121、获取所述演示文稿的提纲信息，得到整个所述演示文稿之间的链接关系;S122、将每页所述演示文稿作为所述关键信息树的一个节点，所述演示文稿之间的链接关系作为所述节点之间的边，形成所述演示文稿的树结构;S123、将所述关键信息分别添加到相应的所述节点上，得到所述演示文稿的关键信息树。
[0008]于本发明的一实施例中，所述步骤S3还包括步骤:S31、获取所述演示文稿的翻页时间点；S32、将所述关键信息树转换成关键信息图；S33、根据所述翻页时间点和所述关键信息图对所述转写文本进行分页调整和分段显示。
[0009]于本发明的一实施例中，所述步骤S32还包括步骤:S321、构建所述节点中的父节点与子节点之间的翻页出弧；S322、构建相同所述父节点的所有所述子节点之间的翻页出弧；S323、构建相邻所述父节点之间的翻页出弧；S324、构建终止节点以及所述终止节点与开始节点之间的翻页出弧。
[0010]于本发明的一实施例中，所述步骤S33还包括步骤:S331、将所述关键信息图中的根节点激活，并将所述激活节点保存为当前活动节点；S332、接收当前页的所述演示文稿的翻页时间点和对应的每个所述有效语音段的所述转写文本;S333、遍历当前活动节点对应的出弧，并将接收的所述转写文本与所述出弧上的关键信息进行匹配，并判断匹配是否成功;若成功，则将对应的节点激活并记录为当前活动节点，并进入步骤S334;若失败，则进入步骤S335;S334、根据匹配结果，对所述转写文本进行分段显示，与同一关键信息相匹配的转写文本放入同一段中，与不同关键信息相匹配的转写文本放入不同段中中，并进入步骤S335;S335、判断当前所述转写文本的对应时间点是否到达当前页的所述演示文稿的翻页时间点；若是，则进入步骤S336;若否，则返回步骤S332; S336、判断当前活动节点是否包含翻页出弧;若不包含，则进入步骤S337 ；若包含，则进入步骤S338 ； S337、判断当前活动节点的出弧是否指向终止节点；若是，则所有所述演示文稿与所述转写文本的同步完成;若否，则进入步骤S338; S338、判断当前接收的所述转写文本的语义是否完整;若是，则将当前的所述转写文本作为当前页最后一个所述有效语音段的转写文本，当前页演示文稿与转写文本的同步完成，进入S339;若否，则对所述转写文本进行调整，调整后当前页演示文稿与转写文本的同步完成，进入S339;S339、将下一页演示文稿作为当前页，返回步骤S332。
[0011]本发明还提供了一种多媒体转写系统，包括:构建模块，用于接收演示文稿，并构建所述演示文稿的关键信息树;转写模块，用于接收语音数据，并对所述语音数据进行语音识别，得到所述语音数据的转写文本；同步模块，用于通过所述关键信息树将所述语音数据和所述转写文本与所述演示文稿进行同步；显示模块，用于将所述同步模块同步后带有所述语音数据和所述转写文本的演示文稿显示给用户。
[0012]于本发明的一实施例中，所述转写模块还包括:检测单元，用于对所述语音数据进行端点检测，得到所述语音数据有效语音段的起始点和结束点;特征提取单元，用于对所述语音段的特征进行提取;解码单元，用于根据所述特征和预先训练的声学模型及语言模型进行解码操作;转写结果获取单元，用于根据解码结果获取所述语音数据对应的所述转写文本和所述转写文本置信度。
[0013]于本发明的一实施例中，所述构建模块还包括:提取单元，用于提取每一页所述演示文稿中包含的关键信息；构建单元，用于根据所述关键信息构建所述演示文稿关键信息树。
[0014]于本发明的一实施例中，所述构建单元还包括:获取子单元，用于获取所述演示文稿的提纲信息，得到整个所述演示文稿之间的链接关系;构建子单元，用于将每页所述演示文稿作为所述关键信息树的一个节点，所述演示文稿之间的链接关系作为所述节点之间的边，形成所述演示文稿的树结构;还用于将所述关键信息分别添加到相应的所述节点上，得到所述演示文稿的关键信息树。
[0015]于本发明的一实施例中，所述同步模块还包括:时间点获取单元，用于获取所述演示文稿的翻页时间点；转换单元，用于将所述关键信息树转换成关键信息图；同步单元，用于根据所述翻页时间点和所述关键信息图对所述转写文本进行分页调整和分段显示。
[0016]于本发明的一实施例中，所述转换单元还用于构建所述节点中的父节点与子节点之间的翻页出弧、相同所述父节点的所有所述子节点之间的翻页出弧、相邻所述父节点之间的翻页出弧，还用于构建终止节点以及所述终止节点与开始节点之间的翻页出弧。
[0017]于本发明的一实施例中，所述同步单元包括:节点激活子单元，用于将所述关键信息图中的根节点激活，并将所述激活节点保存为当前活动节点;接收子单元，用于接收当前页的所述演示文稿的翻页时间点和对应的每个所述有效语音段的所述转写文本;匹配子单元，用于遍历当前活动节点对应的出弧，并将接收的所述转写文本与所述出弧上的关键信息进行匹配，并判断匹配是否成功;若成功，则将对应的节点激活并记录为当前活动节点；分段显示子单元，用于根据匹配结果，对所述转写文本进行分段显示，与同一关键信息相匹配的转写文本放入同一段中，与不同关键信息相匹配的转写文本放入不同段中；时间点判断子单元，用于判断当前所述转写文本的对应时间点是否到达当前页的所述演示文稿的翻页时间点；翻页出弧判断子单元，用于判断当前活动节点是否包含翻页出弧;终止节点判断子单元，用于判断当前活动节点的出弧是否指向终止节点;若是，则所有所述演示文稿与所述转写文本的同步完成;语义判断子单元，用于判断当前接收的所述转写文本的语义是否完整;若是，则将当前的所述转写文本作为当前页最后一个所述有效语音段的转写文本，当前页演示文稿与转写文本的同步完成;若否，则对所述转写文本的语义进行调整，调整后当前页演示文稿与转写文本的同步完成；同步子单元，用于将下一页演示文稿作为当前页，并开始下一页演示文稿的同步。
[0018]如上所述，本发明的一种多媒体转写方法和系统，具有以下有益效果:
[0019]用户在看演示文稿时可以同时听到演讲人的声音，看到演讲人声音转写的文本；进一步地，根据每页演示文稿包含的子主题对转写文本分段，同一个子主题的转写文本作为一段，不同子主题的转写文本作为不同的段，可以方便用户理解转写文本，进一步提高了用户体验。
【附图说明】
[0020]图1显示为本发明多媒体转写方法一实施例的系统流程示意图。
[0021]图2显示为本发明多媒体转写系统一实施例的系统框架示意图。
[0022]图3显示为本发明中关键信息树的一实施例的示意图。
[0023]图4显示为本发明中关键信息图的一实施例的示意图。
【具体实施方式】
[0024]以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的【具体实施方式】加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。
[0025]需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。
[0026]参见图1，图1显示为本发明多媒体转写方法一实施例的系统流程示意图。本发明提供了一种多媒体转写方法，应用于多媒体转写系统中，多媒体转写系统指包含演示文稿、演讲人的语音数据及语音数据转写文本的系统，多媒体转写系统可以将演讲人的语音数据、演讲人语音数据的转写文本及演示文稿进行同步，方便用户在查看转写文本的同时，查看相应演示文稿。演示文稿指用于各种演示的文稿，可以为纸质文稿，也可以为电子文稿，纸质文稿一般可以通过拍照显示到屏幕上，如老师上课时的演示课本，电子文稿如PPT、各种演示图片等；当然，系统不仅可以用于演讲结束后，用户对演讲内容的查询，也可以用于允许短时延时的演讲直播中，用户可以现场或远程以接近直播的形式看到演讲内容、听到演讲语音数据，看到演讲语音数据的转写结果。
[0027]本发明提供的多媒体转写方法包括以下步骤:
[0028]S1、接收演示文稿，并构建演示文稿的关键信息树；具体地在开始时接收演示文稿，构建演示文稿的关键信息树，关键信息树包含了演示文稿的关键信息，关键信息可以是每页演示文稿的子主题和相应子主题的关键词。在本发明的一实施例中，步骤SI包括步骤:
511、提取每一页演示文稿中包含的关键信息。具体提取时，可以根据演示文稿包含的文本信息进行语义理解，提取关键信息，关键信息包含每页演示文稿的子主题及子主题对应的关键词，每个子主题可以提取一到多个关键词。例如一页演示文稿的文本内容包括的主题为“‘十二五’先进制造领域整体布局”；子主题为“3+2个专项”和“5个主题”；子主题“3+2个专项”包括项目“智能制造”、“绿色制造”、“服务机器人”和“+数控一代”、“制造业信息化”；子主题“5个主题”包括项目“重大装备与工艺”、“系统控制”、“制造服务”、“微机电系统”和“智能机器人”。例如对每个子主题提取的关键词信息如下:子主题“3+2个专项”的关键词:3+2，服务机器人，制造业信息化;子主题“5个主题”的关键词:重大装备与工艺，智能机器人。
512、根据关键信息构建演示文稿关键信息树。优选地，步骤S12中还包括步骤:S121、获取演示文稿的提纲信息，得到整个演示文稿之间的链接关系；提纲信息一般根据演示文稿的结构得到，如演示文稿为PPT时，则可以直接根据PPT的结构得到，演示文稿为书本时，可以根据目录得到。S122、将每页演示文稿作为关键信息树的一个节点，演示文稿之间的链接关系作为节点之间的边，形成演示文稿的树结构；S123、将关键信息分别添加到相应的节点上，得到演示文稿的关键信息树。例如，图3显示为本发明中关键信息树的一实施例的示意图。图中显示了主题为“机器人”的演示文稿形成的关键信息树。如图3所示，根据上例机器人演示文稿得到的关键信息树，每个节点均设置有对应的关键信息节点。
[0029]S2、接收语音数据，并对语音数据进行语音识别，得到语音数据的转写文本;在本发明的一实施例中，步骤S2还包括步骤:S21、对语音数据进行端点检测，得到语音数据有效语音段的起始点和结束点；S22、对语音段的特征进行提取；如MFCC(Mel FrequencyCepstrum Coefficient，MFCC)特征。S23、根据特征和预先训练的声学模型及语言模型进行解码操作;S24、根据解码结果获取语音数据对应的转写文本和转写文本置信度。
[0030]S3、通过关键信息树将语音数据和转写文本与演示文稿进行同步;演讲语音数据、转写文本与演示文稿的同步过程即将演讲人演讲的语音数据、转写文本与每页演示文稿进行对齐，当演讲人对演示文稿翻页时，演讲语音数据和转写文本进行相应的分页。具体同步时，先采用介入式或非介入式的方法获取演讲人的翻页时间点信息，根据时间点信息及构建的演示文稿关键信息树，对语音数据、转写文本及演示文稿进行同步，同时将转写文本根据每页演示文稿的子主题进行分段。在本发明的一实施例中，步骤S3还包括步骤:
[0031]S31、获取演示文稿的翻页时间点；翻页时间点即当前演示文稿讲解结束后，翻到下一页的时间点，利用时间点信息对演示文稿和演讲语音数据及相应转写文本进行同步后，需要根据关键信息树及翻页时间点对演示文稿与转写文本的同步结果进行调整，利用调整后的时间点对演示文稿与演讲语音数据进行再次同步。翻页时间点的获取可以采用介入式或非介入式两种方法，由于翻页时间点直接影响同步的结果，所以也可以采用两种方法的结合来获取翻页时间点，具体如下:介入式获取方法需要在演讲人演讲时使用的计算机上安装系统事件捕捉程序，用于捕捉演示文稿的翻页事件，每次触发翻页事件时，保存当前的翻页时间点;非介入式获取方法指无法在演讲人演讲时使用的计算机上安装系统事件捕捉程序时使用的方法，具体可以通过在演示文稿前面设置相应的摄像机来捕捉翻页事件，当演示文稿翻页时，保存当前的翻页时间点。获取到演示文稿的翻页时间点后，将时间点对应到演讲语音数据上，从而得到每页演示文稿对应的演讲语音数据及相应语音数据的转写文本。
[0032]S32、将关键信息树转换成关键信息图；关键信息图主要用于演示文稿与转写文本的同步调整，及每页演示文稿对应转写文本的分段显示，关键信息图包含了演示文稿的关键信息，即演示文稿的子主题及子主题相应的关键词；在同步时，根据演示文稿的子主题分段显示转写文本。如图4所示，图4显示为本发明中关键信息图的一实施例的示意图。图中显示了主题为“机器人”的演示文稿中的关键信息树转换后形成的关键信息图，其中“[翻页]”表示翻页出弧。具体地，步骤S32还包括步骤:S321、构建节点中的父节点与子节点之间的翻页出弧;将关键信息树中每个节点的关键信息节点包含的关键词信息放到每个节点的入弧上；同时，将每个父节点到其第一个子节点的边标识为翻页出弧，如图4中“机器人介绍”节点到其第一个子节点“机器人的发展史”的边被标识为翻页出弧。S322、构建相同父节点的所有子节点之间的翻页出弧；即将关键信息树中相同的父节点的子节点之间增加一翻页出弧，并将子节点的关键词信息放到翻页出弧上。S323、构建相邻父节点之间的翻页出弧;在对应同一个父节点的所有子节点中最后一个子节点与下一个父节点之间设置一个翻页出弧，并将对应两个父节点的关键词信息放在此翻页出弧上。具体地，找到关键信息树中所有的叶子节点，在属于同一个父节点的叶子节点中的最后一个叶子节点上分别增加该叶子节点到其父节点的下一个兄弟节点的出弧，如图4中，增加“第三代机器人”节点到“现代机器人的发展”节点的出弧，并将父节点兄弟节点的关键词信息放到新增加的弧上，同时标识该弧为翻页出弧。如果父节点后面没有兄弟节点，则不需要增加出弧，如图4中“机器人的发展方向”节点后面没有兄弟节点了，则该节点下的最后一个叶子节点不需要增加出弧。S324、构建终止节点以及终止节点与开始节点之间的翻页出弧。首先增加终止节点，终止节点可以使用end节点标示，在所有子节点增加一条出弧指向终止节点，并在终止节点增加一条翻页出弧指向开始节点。即，所有叶子节点增加一条出弧，指向end节点，end节点增加一条弧指向start节点，start节点为关键信息树的根节点，标识end节点增加一条弧指向start节点的弧为翻页出弧。
[0033]S33、根据翻页时间点和关键信息图对转写文本进行分页调整和分段显示。为了保持每页转写文本语义的完整性，需要对根据演示文稿翻页时间点得到的转写文本进行分页调整，同时为了方便用户理解，需要对对调整后的转写文本进行分段显示。具体地，步骤S33还包括步骤:S331、将关键信息图中的根节点激活，即将图4中的start节点激活，并将激活节点保存为当前活动节点。S332、接收当前页的演示文稿的翻页时间点和对应的每个有效语音段的转写文本;通常以有效语音段为单位，依次接收当前页演示文稿对应的每个有效语音的转写文本，及当前页演示文稿翻页时间点。S333、遍历当前活动节点对应的出弧，并将接收的转写文本与出弧上的关键信息进行匹配，并判断匹配是否成功;若成功，则将对应的节点激活并记录为当前活动节点，并进入步骤S334;若失败，则进入步骤S335; S334、根据匹配结果，对转写文本进行分段显示，与同一关键信息相匹配的转写文本放入同一段中，与不同关键信息相匹配的转写文本放入不同段中，并进入步骤S335;S335、判断当前转写文本的对应时间点是否到达当前页的演示文稿的翻页时间点；若是，则进入步骤S336;若否，则返回步骤S332;S336、判断当前活动节点是否包含翻页出弧;若不包含，则进入步骤S337;若包含，则进入步骤S338; S337、判断当前活动节点的出弧是否指向终止节点;若是，则所有演示文稿与转写文本的同步完成；同时，将关键信息图保存的记录清空，将所有转写文本分页分段与演示文稿同步显示出来;若否，则进入步骤S338;S338、判断当前接收的转写文本的语义是否完整;若是，则将当前的转写文本作为当前页最后一个有效语音段的转写文本，当前页演示文稿与转写文本的同步完成，进入步骤S339;若否，则对转写文本的语义进行调整，调整后即当前页的演示文稿与转写文本的同步完成，进入步骤S339;S339、将下一页演示文稿作为当前页，返回步骤S332，开始下一页演示文稿的同步。判断转写文本语义是否完整主要判断当前演示文稿翻页时间点位置是否是转写文本整句结束位置，即当前转写文本是否是在句子中间被切断。在本发明的一优选实施例中，具体判断时，可以根据当前转写文本的置信度得分判断，分别计算当前转写文本的置信度得分，及将翻页时间点后一个有效语音段的转写文本与当前转写文本一起的置信度得分，如果后者置信度得分较低，则认为当前转写文本语义完整;如果后者得分较高，并且得分超过阈值，则认为当前转写文本语义不完整，需要调整，具体调整时，可以根据翻页时间点后一有效语音段转写文本与当前转写文本的置信度，将当前页的翻页时间点调整为当前转写文本后一有效语音段的转写文本结束位置，同时调整转写文本对应语音数据的翻页时间点。当然，也可以采用其它方法进行判断，如根据当前转写文本对应的语音数据上判断，判断语音数据翻页时间点前后的声学变化，或连续性，再结合转写文本的置信度来判断语义的完整性。
[0034]S4、将同步后带有语音数据和转写文本的演示文稿显示给用户。同步显示后，使用户在看演示文稿时可以同时听到演讲人的声音，看到演讲人声音转写的文本，大大提高了用户体验;进一步地，为了方便用户理解转写文本，本发明的多媒体转写方法根据每页演示文稿包含的子主题对转写文本分段，同一个子主题的转写文本作为一段，不同子主题的转写文本作为不同的段，进一步提高了用户体验。
[0035]如图2所示，图2显示为本发明多媒体转写系统一实施例的系统框架示意图。本发明还提供了一种多媒体转写系统，包括:
[0036]构建模块，用于接收演示文稿，并构建演示文稿的关键信息树;具体地在开始时构建模块接收演示文稿，构建演示文稿的关键信息树，关键信息树包含了演示文稿的关键信息，关键信息可以是每页演示文稿的子主题和相应子主题的关键词。在本发明的一实施例中，构建模块还包括:提取单元，用于提取每一页演示文稿中包含的关键信息;构建单元，用于根据关键信息构建演示文稿关键信息树。具体提取时，提取单元可以根据演示文稿包含的文本信息进行语义理解，提取关键信息，关键信息包含每页演示文稿的子主题及子主题对应的关键词，每个子主题可以提取一到多个关键词。例如一页演示文稿的文本内容包括的主题为“‘十二五’先进制造领域整体布局”；子主题为“3+2个专项”和“5个主题”；子主题“3+2个专项”包括项目“智能制造”、“绿色制造”、“服务机器人”和“+数控一代”、“制造业信息化”；子主题“5个主题”包括项目“重大装备与工艺”、“系统控制”、“制造服务”、“微机电系统”和“智能机器人”。例如对每个子主题提取的关键词信息如下:子主题“3+2个专项”的关键词:3+2，服务机器人，制造业信息化;子主题“5个主题”的关键词:重大装备与工艺，智能机器人。优选地，构建单元还包括:获取子单元，用于获取演示文稿的提纲信息，得到整个演示文稿之间的链接关系;构建子单元，用于将每页演示文稿作为关键信息树的一个节点，演示文稿之间的链接关系作为节点之间的边，形成演示文稿的树结构;还用于将关键信息分别添加到相应的节点上，得到演示文稿的关键信息树。例如，图3显示为本发明中关键信息树的一实施例的示意图。图中显示了主题为“机器人”的演示文稿形成的关键信息树。如图3所示，根据上例机器人演示文稿得到的关键信息树，每个节点均设置有对应的关键信息节点。
[0037]转写模块，用于接收语音数据，并对语音数据进行语音识别，得到语音数据的转写文本;在本发明的一实施例中，转写模块还包括:检测单元，用于对语音数据进行端点检测，得到语音数据有效语音段的起始点和结束点；特征提取单元，用于对语音段的特征进行提取；如MFCC(Mel Frequency Cepstrum Coefficient，MFCC)特征。解码单元，用于根据特征和预先训练的声学模型及语言模型进行解码操作;转写结果获取单元，用于根据解码结果获取语音数据对应的转写文本和转写文本置信度。
[0038]同步模块，用于通过关键信息树将语音数据和转写文本与演示文稿进行同步;演讲语音数据、转写文本与演示文稿的同步过程即将演讲人演讲的语音数据、转写文本与每页演示文稿进行对齐，当演讲人对演示文稿翻页时，演讲语音数据和转写文本进行相应的分页。具体同步时，先采用介入式或非介入式的方法获取演讲人的翻页时间点信息，根据时间点信息及构建的演示文稿关键信息树，对语音数据、转写文本及演示文稿进行同步，同时将转写文本根据每页演示文稿的子主题进行分段。在本发明的一实施例中，同步模块还包括:时间点获取单元，用于获取演示文稿的翻页时间点；转换单元，用于将关键信息树转换成关键信息图；同步单元，用于根据翻页时间点和关键信息图对转写文本进行分页调整和分段显示。翻页时间点即当前演示文稿讲解结束后，翻到下一页的时间点，利用时间点信息对演示文稿和演讲语音数据及相应转写文本进行同步后，需要根据关键信息树及翻页时间点对演示文稿与转写文本的同步结果进行调整，利用调整后的时间点对演示文稿与演讲语音数据进行再次同步。翻页时间点的获取可以采用介入式或非介入式两种方法，由于翻页时间点直接影响同步的结果，所以也可以采用两种方法的结合来获取翻页时间点，具体如下:介入式获取方法需要在演讲人演讲时使用的计算机上安装系统事件捕捉程序，用于捕捉演示文稿的翻页事件，每次触发翻页事件时，保存当前的翻页时间点;非介入式获取方法指无法在演讲人演讲时使用的计算机上安装系统事件捕捉程序时使用的方法，具体可以通过在演示文稿前面设置相应的摄像机来捕捉翻页事件，当演示文稿翻页时，保存当前的翻页时间点。获取到演示文稿的翻页时间点后，将时间点对应到演讲语音数据上，从而得到每页演示文稿对应的演讲语音数据及相应语音数据的转写文本。关键信息图主要用于演示文稿与转写文本的同步调整，及每页演示文稿对应转写文本的分段显示，关键信息图包含了演示文稿的关键信息，即演示文稿的子主题及子主题相应的关键词;在同步时，根据演示文稿的子主题分段显示转写文本。如图4所示，图4显示为本发明中关键信息图的一实施例的示意图。图中显示了主题为“机器人”的演示文稿中的关键信息树转换后形成的关键信息图，其中“[翻页]”表示翻页出弧。具体地，转换单元还用于构建节点中的父节点与子节点之间的翻页出弧，如图4中“机器人介绍”节点到其第一个子节点“机器人的发展史”的边被标识为翻页出弧。转换单元还用于构建相同父节点的所有子节点之间的翻页出弧，即将关键信息树中相同的父节点的子节点之间增加一翻页出弧，并将子节点的关键词信息放到翻页出弧上。转换单元还用于构建相邻父节点之间的翻页出弧，在对应同一个父节点的所有子节点中最后一个子节点与下一个父节点之间设置一个翻页出弧，并将对应两个父节点的关键词信息放在此翻页出弧上。具体地，找到关键信息树中所有的叶子节点，在属于同一个父节点的叶子节点中的最后一个叶子节点上分别增加该叶子节点到其父节点的下一个兄弟节点的出弧，如图4中，增加“第三代机器人”节点到“现代机器人的发展”节点的出弧，并将父节点兄弟节点的关键词信息放到新增加的弧上，同时标识该弧为翻页出弧。如果父节点后面没有兄弟节点，则不需要增加出弧，如图4中“机器人的发展方向”节点后面没有兄弟节点了，则该节点下的最后一个叶子节点不需要增加出弧。转换单元还用于构建终止节点以及终止节点与开始节点之间的翻页出弧。首先增加终止节点，终止节点可以使用end节点标示，在所有子节点增加一条出弧指向终止节点，并在终止节点增加一条翻页出弧指向开始节点。即，所有叶子节点增加一条出弧，指向end节点，end节点增加一条弧指向start节点，start节点为关键信息树的根节点，标识end节点增加一条弧指向start节点的弧为翻页出弧。同步单元在进行同步时，为了保持每页转写文本语义的完整性，需要对根据演示文稿翻页时间点得到的转写文本进行分页调整，同时为了方便用户理解，需要对调整后的转写文本进行分段显示。具体地，同步单元包括:节点激活子单元，用于将关键信息图中的根节点激活，并将激活节点保存为当前活动节点；即将图4中的节点激活，并将激活节点保存为当前活动节点。接收子单元，用于接收当前页的演示文稿的翻页时间点和对应的每个有效语音段的转写文本;通常以有效语音段为单位，依次接收当前页演示文稿对应的每个有效语音的转写文本，及当前页演示文稿翻页时间点。匹配子单元，用于遍历当前活动节点对应的出弧，并将接收的转写文本与出弧上的关键信息进行匹配，并判断匹配是否成功;若成功，则将对应的节点激活并记录为当前活动节点；分段显示子单元，用于根据匹配结果，对转写文本进行分段显示，与同一关键信息相匹配的转写文本放入同一段中，与不同关键信息相匹配的转写文本放入不同段中；时间点判断子单元，用于判断当前转写文本的对应时间点是否到达当前页的演示文稿的翻页时间点；翻页出弧判断子单元，用于判断当前活动节点是否包含翻页出弧;终止节点判断子单元，用于判断当前活动节点的出弧是否指向终止节点;若是，则所有演示文稿与转写文本的同步完成；同时，将关键信息图保存的记录清空，将所有转写文本分页分段与演示文稿同步显示出来。语义判断子单元，用于判断当前接收的所述转写文本的语义是否完整;若是，则将当前的所述转写文本作为当前页最后一个所述有效语音段的转写文本，当前页演示文稿与转写文本的同步完成;若否，则对所述转写文本的语义进行调整，调整后当前页演示文稿与转写文本的同步完成；同步子单元，用于将下一页演示文稿作为当前页，并开始下一页演示文稿的同步。判断转写文本语义是否完整主要判断当前演示文稿翻页时间点位置是否是转写文本整句结束位置，即当前转写文本是否是在句子中间被切断。在本发明的一优选实施例中，具体判断时，可以根据当前转写文本的置信度得分判断，分别计算当前转写文本的置信度得分，及将翻页时间点后一个有效语音段的转写文本与当前转写文本一起的置信度得分，如果后者置信度得分较低，则认为当前转写文本语义完整；如果后者得分较高，并且得分超过阈值，则认为当前转写文本语义不完整，需要调整，具体调整时，可以根据翻页时间点后一有效语音段转写文本与当前转写文本的置信度，将当前页的翻页时间点调整为当前转写文本后一有效语音段的转写文本结束位置，同时调整转写文本对应语音数据的翻页时间点。当然，也可以采用其它方法进行判断，如根据当前转写文本对应的语音数据上判断，判断语音数据翻页时间点前后的声学变化，或连续性，再结合转写文本的置信度来判断语义的完整性。
[0039]显示模块，用于将同步模块同步后带有语音数据和转写文本的演示文稿显示给用户。同步显示后，使用户在看演示文稿时可以同时听到演讲人的声音，看到演讲人声音转写的文本，大大提高了用户体验;进一步地，为了方便用户理解转写文本，本发明的多媒体转写方法根据每页演示文稿包含的子主题对转写文本分段，同一个子主题的转写文本作为一段，不同子主题的转写文本作为不同的段，进一步提高了用户体验。
[0040]综上所述，本发明的一种多媒体转写方法和系统，使用户在看演示文稿时可以同时听到演讲人的声音，看到演讲人声音转写的文本，大大提高了用户体验;进一步地，为了方便用户理解转写文本，本发明的多媒体转写方法根据每页演示文稿包含的子主题对转写文本分段，同一个子主题的转写文本作为一段，不同子主题的转写文本作为不同的段，进一步提高了用户体验。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
[0041]上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。
【主权项】
1.一种多媒体转写方法，应用于多媒体转写系统中，其特征在于，包括以下步骤: 51、接收演示文稿，并构建所述演示文稿的关键信息树； 52、接收语音数据，并对所述语音数据进行语音识别，得到所述语音数据的转写文本； 53、通过所述关键信息树将所述语音数据和所述转写文本与所述演示文稿进行同步； 54、将同步后带有所述语音数据和所述转写文本的演示文稿显示给用户。2.根据权利要求1所述的多媒体转写方法，其特征在于，所述步骤S2还包括步骤: 521、对所述语音数据进行端点检测，得到所述语音数据有效语音段的起始点和结束占.V ， 522、对所述语音段的特征进行提取； 523、根据所述特征和预先训练的声学模型及语言模型进行解码操作； 524、根据解码结果获取所述语音数据对应的所述转写文本和所述转写文本置信度。3.根据权利要求2所述的多媒体转写方法，其特征在于，所述步骤SI包括步骤: 511、提取每一页所述演示文稿中包含的关键信息； 512、根据所述关键信息构建所述演示文稿关键信息树。4.根据权利要求3所述的多媒体转写方法，其特征在于，所述步骤S12中还包括步骤: 5121、获取所述演示文稿的提纲信息，得到整个所述演示文稿之间的链接关系； 5122、将每页所述演示文稿作为所述关键信息树的一个节点，所述演示文稿之间的链接关系作为所述节点之间的边，形成所述演示文稿的树结构； 5123、将所述关键信息分别添加到相应的所述节点上，得到所述演示文稿的关键信息树。5.根据权利要求4所述的多媒体转写方法，其特征在于，所述步骤S3还包括步骤: 531、获取所述演示文稿的翻页时间点； 532、将所述关键信息树转换成关键信息图； 533、根据所述翻页时间点和所述关键信息图对所述转写文本进行分页调整和分段显不O6.根据权利要求5所述的多媒体转写方法，其特征在于，所述步骤S32还包括步骤: 5321、构建所述节点中的父节点与子节点之间的翻页出弧； 5322、构建相同所述父节点的所有所述子节点之间的翻页出弧； 5323、构建相邻所述父节点之间的翻页出弧； 5324、构建终止节点以及所述终止节点与开始节点之间的翻页出弧。7.根据权利要求6所述的多媒体转写方法，其特征在于，所述步骤S33还包括步骤: 5331、将所述关键信息图中的根节点激活，并将所述激活节点保存为当前活动节点； 5332、接收当前页的所述演示文稿的翻页时间点和对应的每个所述有效语音段的所述转写文本； 5333、遍历当前活动节点对应的出弧，并将接收的所述转写文本与所述出弧上的关键信息进行匹配，并判断匹配是否成功；若成功，则将对应的节点激活并记录为当前活动节点，并进入步骤S334 ；若失败，则进入步骤S335 ； 5334、根据匹配结果，对所述转写文本进行分段显示，与同一关键信息相匹配的转写文本放入同一段中，与不同关键信息相匹配的转写文本放入不同段中，并进入步骤S335; 5335、判断当前所述转写文本的对应时间点是否到达当前页的所述演示文稿的翻页时间点;若是，则进入步骤S336 ；若否，则返回步骤S332 ； 5336、判断当前活动节点是否包含翻页出弧;若不包含，则进入步骤S337;若包含，则进入步骤S338; 5337、判断当前活动节点的出弧是否指向终止节点;若是，则所有所述演示文稿与所述转写文本的同步完成;若否，则进入步骤S338; 5338、判断当前接收的所述转写文本的语义是否完整;若是，则将当前的所述转写文本作为当前页最后一个所述有效语音段的转写文本，当前页演示文稿与转写文本的同步完成，进入S339;若否，则对所述转写文本进行调整，调整后当前页演示文稿与转写文本的同步完成，进入S339; 5339、将下一页演示文稿作为当前页，返回步骤S332。8.一种多媒体转写系统，其特征在于，包括: 构建模块，用于接收演示文稿，并构建所述演示文稿的关键信息树；转写模块，用于接收语音数据，并对所述语音数据进行语音识别，得到所述语音数据的转写文本；同步模块，用于通过所述关键信息树将所述语音数据和所述转写文本与所述演示文稿进行同步；显示模块，用于将所述同步模块同步后带有所述语音数据和所述转写文本的演示文稿显示给用户。9.根据权利要求8所述的多媒体转写系统，其特征在于，所述转写模块还包括: 检测单元，用于对所述语音数据进行端点检测，得到所述语音数据有效语音段的起始点和结束点；特征提取单元，用于对所述语音段的特征进行提取；解码单元，用于根据所述特征和预先训练的声学模型及语言模型进行解码操作；转写结果获取单元，用于根据解码结果获取所述语音数据对应的所述转写文本和所述转写文本置信度。10.根据权利要求9所述的多媒体转写系统，其特征在于，所述构建模块还包括: 提取单元，用于提取每一页所述演示文稿中包含的关键信息；构建单元，用于根据所述关键信息构建所述演示文稿关键信息树。11.根据权利要求10所述的多媒体转写系统，其特征在于，所述构建单元还包括: 获取子单元，用于获取所述演示文稿的提纲信息，得到整个所述演示文稿之间的链接关系; 构建子单元，用于将每页所述演示文稿作为所述关键信息树的一个节点，所述演示文稿之间的链接关系作为所述节点之间的边，形成所述演示文稿的树结构;还用于将所述关键信息分别添加到相应的所述节点上，得到所述演示文稿的关键信息树。12.根据权利要求11所述的多媒体转写系统，其特征在于，所述同步模块还包括: 时间点获取单元，用于获取所述演示文稿的翻页时间点；转换单元，用于将所述关键信息树转换成关键信息图；同步单元，用于根据所述翻页时间点和所述关键信息图对所述转写文本进行分页调整和分段显示。13.根据权利要求12所述的多媒体转写系统，其特征在于，所述转换单元还用于构建所述节点中的父节点与子节点之间的翻页出弧、相同所述父节点的所有所述子节点之间的翻页出弧、相邻所述父节点之间的翻页出弧，还用于构建终止节点以及所述终止节点与开始节点之间的翻页出弧。14.根据权利要求13所述的多媒体转写系统，其特征在于，所述同步单元包括: 节点激活子单元，用于将所述关键信息图中的根节点激活，并将所述激活节点保存为当前活动节点；接收子单元，用于接收当前页的所述演示文稿的翻页时间点和对应的每个所述有效语音段的所述转写文本；匹配子单元，用于遍历当前活动节点对应的出弧，并将接收的所述转写文本与所述出弧上的关键信息进行匹配，并判断匹配是否成功;若成功，则将对应的节点激活并记录为当前活动节点；分段显示子单元，用于根据匹配结果，对所述转写文本进行分段显示，与同一关键信息相匹配的转写文本放入同一段中，与不同关键信息相匹配的转写文本放入不同段中；时间点判断子单元，用于判断当前所述转写文本的对应时间点是否到达当前页的所述演示文稿的翻页时间点；翻页出弧判断子单元，用于判断当前活动节点是否包含翻页出弧；终止节点判断子单元，用于判断当前活动节点的出弧是否指向终止节点；若是，则所有所述演示文稿与所述转写文本的同步完成；语义判断子单元，用于判断当前接收的所述转写文本的语义是否完整;若是，则将当前的所述转写文本作为当前页最后一个所述有效语音段的转写文本，当前页演示文稿与转写文本的同步完成;若否，则对所述转写文本的语义进行调整，调整后当前页演示文稿与转写文本的同步完成；同步子单元，用于将下一页演示文稿作为当前页，并开始下一页演示文稿的同步。
【文档编号】G10L15/26GK105895085SQ201610200600
【公开日】2016年8月24日
【申请日】2016年3月30日
【发明人】王金钖, 胡尹, 潘青华, 胡国平, 胡郁, 刘庆峰
【申请人】科大讯飞股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王金钖;胡尹;潘青华;胡国平;胡郁;刘庆峰;
技术所有人：科大讯飞股份有限公司;
我是此专利的发明人

上一篇：元数据保留的音频对象聚类的制作方法
上一篇：一种应用于语音识别的信号增益方法和装置的制造方法