音视频字幕生成方法及装置的制造方法_2

文档序号：9490323阅读：来源：国知局

过滤后文本数据进行匹配的流程图；
[0060] 图3是本发明实施例中对各文本数据段与其对应的语音数据段进行精确同步的流程图；
[0061]图4是本发明实施例音视频字幕生成装置的一种结构示意图；
[0062] 图5是本发明实施例中文本数据切分模块的一种结构示意图；
[0063]图6是本发明实施例音视频字幕生成装置的另一种结构示意图；
[0064]图7是本发明实施例中精确同步模块的一种结构示意图。
【具体实施方式】
[0065] 为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。
[0066] 如图1所示，是本发明实施例音视频字幕生成方法的一种流程图，包括以下步骤：
[0067] 步骤101，接收待生成字幕的语音数据及文本数据。
[0068] 所述语音数据一般为大段语音数据且时长较长，所述文本数据一般为未切分的大段文本数据。如有声小说的语音数据和文本数据，一般都较长。
[0069] 步骤102,根据发音人韵律对所述语音数据进行切分，得到符合说话人习惯的各语音数据段。
[0070] 根据发音人的韵律对语音数据进行切分，主要表现在语音数据中静寂段的分布，所述静寂段在语音数据中主要表现为无声的语音段。根据静寂段对语音数据进行切分时，需要考虑切分后语音数据段语义的完整性；如果语音数据含多个静寂段，需要在语义完整的静寂段处切分。
[0071] 例如：语音数据"这时候，即使曾经统领数十万大军（sil#2)征战疆场的将军，（sil#3)也会由于激动和恐惧（sil#4)而双腿战栗。（sil#5)"，其中（sil#)表示该处是静寂段，数字为静寂段编号。考虑到语义的完整性，不应该在（sil#2)和（sil#4)处切分语音数据。
[0072] 为了描述方便，将（sil#2)和（sil#4)称为韵律短语停顿；（sil#l)、（sil#3)和 (sil#5)称为语调短语停顿。所述韵律短语停顿是指发生在句子内部的停顿，它通常预示说话时的间歇或过渡；而语调短语停顿是发生在句子之间的停顿，它预示了一个完整语义段的结束。这两类停顿具有不同的声学表现形式，如语调短语停顿的时长一般要大于韵律短语停顿的时长；语调短语停顿边界处的基频重置程度要大于韵律短语停顿边界处的基频重置程度，所述基频重置程度表示不同音节之间的基频差异。如上例中，（sil#3)处前后音节的基频重置程度，即"军"和"也"的基频差异，大于（sil#2)处前后音节的基频重置程度，即 "军"和"征"的基频差异。这是由于在韵律短语停顿处语义未完整，边界前后要保持音势相连；而在语调短语停顿处由于语义完整，则无需保持音势相连。
[0073] 因此，在本发明实施例中，可以根据韵律短语停顿和语调短语停顿在声学上的不同表现，预先收集发音人语音数据，提取相应声学特征，构建韵律切分模型，所述声学特征如停顿时长、边界前后的基频重置值等；然后利用所述韵律切分模型对接收语音数据静寂段类型进行预测，根据预测结果对语音数据进行切分。为了保证切分后的语音数据段语义的完整性，在本发明实施例中，仅在语调短语停顿处对语音数据进行切分，得到与发音人韵律相关的语音数据段。
[0074] 步骤103,根据所述语音数据段对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段。具体过程如下：
[0075]a)对各语音数据段进行语音识别，得到与各语音数据段对应的识别文本段，并依序形成识别文本段序列。
[0076] 对各语音数据段的语音识别可采用现有技术，在此不再详细描述。
[0077]b)滤除所述文本数据中的特殊字符及标点，得到过滤后文本数据，并在所述过滤后文本数据中对应标点的位置设置标记点。
[0078] 也就是说，对所述文本数据过滤后得到纯文本数据。如文本数据为"最后，轰隆一声，黑色魔墙龟裂，而后炸开。伴着血雨，它彻底解体，被击毁了。"，过滤掉特殊字符及标点符号后的纯文本为"最后#轰隆一声#黑色魔墙龟裂#而后炸开#伴着血雨#它彻底解体 #被击毁了 #"。其中，"#"表示标记点符号，当然在实际应用中不限于该符号，也可使用其它符号标记。另外，也可将标记点信息存储在其它文件中，在这种情况下，还需要记录各标记点在过滤后文本中的位置。
[0079]c)采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据，以确定所述过滤后文本数据中的锚点位置。
[0080] 所述锚点匹配方法，即在文本匹配时，设置锚点，计算匹配文本的匹配度，当匹配度大于匹配度阈值时，重新设置锚点进行文本匹配，所述匹配度如可以使用匹配文本的最小编辑距离来表示。
[0081] 具体到本发明实施例，首先从所述过滤后文本数据的起始位置开始设置锚点，并获取当前识别文本段，然后执行匹配过程：依次截取锚点位置至锚点位置后的标记点之间的文本作为待匹配数据段，如果当前标记点不是过滤后文本数据的结束位置，则计算待匹配文本段与当前识别文本段的匹配度，直至所述匹配度大于设定阈值后，将所述待匹配文本段对应的标记点作为新的锚点，继续所述匹配过程。详细的匹配过程还将在后面结合附图做进一步说明。
[0082]d)根据确定的锚点位置对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段。
[0083] 由于每个人说话韵律不同，如有的人语速较快，有的人语速较慢；因此，在字幕生成时，根据发音人韵律对语音数据及文本数据进行同步，即根据说话人的断句习惯对语音数据进行分句，并将文本数据与分句后的语音数据段进行同步，从而可以得到符合说话人习惯的语音数据段及与其同步的文本数据段。
[0084] 步骤104,根据各语音数据段的时间信息获取与所述语音数据段对应的文本数据段的开始时间和结束时间。
[0085] 也就是说，得到各文本数据段在语音数据上的开始时间与结束时间。
[0086] 具体地，可以根据语音数据与文本数据的同步结果，生成时间标签文件。所述时间标签文件如：
[0087][Begintime]文本段 1[Endtime]
[0088][Begintime]文本段 2[Endtime]
[0089] ......
[0090] 这样，在进行字幕显示时，可以根据时间标签文件，实现待生成字幕的文本数据与语音数据的同步显示。
[0091] 如图2所示，是本发明实施例中采用锚点匹配方法对识别文本段与过滤后文本数据进行匹配的流程图，包括以下步骤：
[0092] 步骤201，在过滤后文本数据的起始位置设置锚点。
[0093] 步骤202,截取锚点位置与锚点位置后的首个标记点之间的文本，作为待匹配文本段。
[0094] 步骤203,判断当前标记点是否为过滤后文本数据的结束位置；如果是，执行步骤 208;否则，执行步骤204。
[0095] 步骤204,计算待匹配文本段与当前识别文本段的匹配度。
[0096] 所述匹配度用来衡量两段文本之间的相似程度，匹配度越大，两段文本越相似，匹配度的计算主要基于两段文本之间的最小编辑距离计算得到，如式（1)所示：
[0098] 其中，MDeg(A，B)为文本A与文本B的匹配度，Edit(A，B)为文本A与文本B之间的最小编辑距离，即将文本A转换成文本B需要的最小编辑操作次数，所述编辑操作为删除、替换和插入。MaxL(A，B)为文本A和文本B的最大长度。
[0099] 如文本A为"在位于世界东方庞大的大清帝国里"，文本B为"在位于世界东方的庞大的中华帝国里"，将待匹配文本A转换为待匹配文本B需要的编辑操作为1次插入操作，艮P"东方"后插入"的"，2次替换操作，S卩"大"替换为"中"，"清"替换为"华"，即可将文本A 转换成与文本B相同的文本，将文本A转换成文本B共经过了 3次操作，因此，文本A与文本B的匹配度根据式（1)计算得到
，按照百分制的方式可以写为8L25%。
[0100] 步骤205,判断当前识别文本段与待匹配文本段的匹配度是否大于预先设定的匹配度阈值；如果是，执行步骤206;否则，执行步骤207。
[0101] 步骤206,在过滤后文本数据中找到当前标记点，在当前标记点处设置新的锚点，将下一段识别文本段作为当前识别文本段，然后执行步骤202。
[0102] 步骤207,找到过滤后文本数据中当前标记点的下一个标记点，截取锚点位置到下一个标记点之间的文本作为待匹配文本段，然后执行步骤203。
[0103] 步骤208,结束匹配过程。
[0104] 例如：当前识别文本段为"多德福和他的翻译看见一片结了薄冰的水面"，过滤后文本数据为"懵懵懂懂的多德福和他的翻译#看见了一片已经结了薄冰的水面#穿过一条跨越水面的小石桥#多德福知道自己已经到达那个叫做南海瀛台的小岛了#孤独的小宫殿就

完整全部详细技术资料下载

当前第2页1 2 3 4