视频与字幕的匹配方法和装置与流程

文档序号：11263904阅读：503来源：国知局

本发明实施例涉及多媒体技术领域，尤其涉及一种视频与字幕的匹配方法和装置。

背景技术：

随着互联网技术和多媒体技术的不断发展，富有表现力及观赏性的视频作为信息的载体之一，受到众多用户的青睐。为了更好地展示视频内容，在用户观看视频的时候，通常会同步显示与视频所对应的字幕，便于用户理解视频内容，提升用户观看视频的体验。

现有技术的视频与字幕匹配采用的是文件名匹配的方法，即提取出目标视频的文件名，然后在字幕文件的集合中，将目标视频的文件名和各个字幕文件的文件名进行匹配，找到文件名最匹配的字幕文件，选取这个字幕文件作为视频的字幕文件来播放。但是如果字幕文件名命名不准确或者命名错误，将会直接影响字幕文件的选取，导致所选取的字幕文件的准确性十分的不稳定，而且字幕的文件名是十分容易被修改的，如果随意一个字幕文件被改成了视频相关的名字，就可能造成错误的匹配，为用户的视频观看造成困扰。

技术实现要素：

本发明提供一种视频与字幕的匹配方法和装置，以解决视频与字幕易匹配错误的问题，实现视频与字幕的准确匹配。

第一方面，本发明实施例提供了一种视频与字幕的匹配方法，该方法包括：

获取待匹配的视频片段和待匹配的一个或多个字幕文件；

从所获取的视频片段中提取出各个语音片段的关联语音时间信息以及从所述待匹配的一个或多个字幕文件中提取出字幕时间信息；

分别基于相同的规则，根据所提取的关联语音时间信息以及字幕时间信息生成所述视频片段的视频特征向量以及所述一个或多个字幕文件的字幕特征向量；

基于所生成的视频特征向量和字幕特征向量，确定与所述视频片段匹配的字幕文件。

第二方面，本发明实施例还提供了视频与字幕的匹配装置，该装置包括：

获取单元，用于获取待匹配的视频片段和待匹配的一个或多个字幕文件；

视频特征提取单元，用于从所获取的视频片段中提取出各个语音片段的关联语音时间信息；

字幕特征提取单元，用于从所述待匹配的一个或多个字幕文件中提取出字幕时间信息；

特征向量生成单元，用于分别基于相同的规则，根据所提取的关联语音时间信息以及字幕时间信息生成所述视频片段的视频特征向量以及所述一个或多个字幕文件的字幕特征向量；

确定单元，用于基于所生成的视频特征向量和字幕特征向量，确定与所述视频片段匹配的字幕文件。

本发明所采用的技术方案，从所获取的视频片段中提取出各个语音片段的关联语音时间信息，根据所述关联语音时间信息生成视频片段的视频特征向量，从所获取的一个或多个字幕文件中提取出字幕时间信息，根据所述字幕时间信息生成所述一个或多个字幕文件的字幕特征向量，进而基于所述视频特征向量与所述字幕特征向量，确定与视频片段匹配的字幕文件，解决了因视频字幕匹配错误给用户造成的困扰，从根本上保证了视频中字幕匹配的正确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例一提供的视频与字幕的匹配方法的流程图；

图2是本发明实施例二提供的视频与字幕的匹配方法的流程图；

图3是本发明实施例三提供的视频与字幕的匹配方法的流程图；

图4是本发明实施例四提供的视频与字幕的匹配方法的流程图；

图5是本发明实施例五提供的视频与字幕的匹配装置的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明具体实施例作进一步地详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的视频与字幕的匹配方法的流程图，本实施例的方法可以由视频与字幕的匹配装置来执行，该装置可通过硬件和/或软件的方式实现，并一般可以集成于需要获取匹配的字幕文件的客户端中，与用于提供字幕文件和/或视频片段的服务器配合使用。

本实施例的方法具体包括：

s110、获取待匹配的视频片段和待匹配的一个或多个字幕文件。

在本操作中，视频片段可以是一个完整的电影、动画片、综艺节目、培训课程等等，也可以是视频中的任一片段，或者视频中任意几个片段剪辑拼接后生成的片段；所述视频片段中的语音信息通常是人的声音，或者是处理后可以识别为人声的声音，包括动画片中的配音或合成的声音，可以是说话的声音、唱歌的声音等。

通常，待匹配的视频片段为用户选择播放的目标视频片段，要确定与目标视频片段所匹配的字幕文件，往往需要从本地或在线的字幕文件库中查找，所述字幕文件库中往往包括一个或多个待匹配的字幕文件。

考虑到视频片段的长度及内容的差异性，可以理解的是，与所述待匹配的视频片段匹配的字幕文件可能为一个或多个。例如，一个内容较长或者拼接的视频片段，可能会对应于多个待匹配的字幕文件。

s120、从所获取的视频片段中提取出各个语音片段的关联语音时间信息以及从所述待匹配的一个或多个字幕文件中提取出字幕时间信息。

在本操作中，各个语音片段的关联语音时间信息可以为与各个语音片段相关联的时间节点信息或时间段信息，具体地，可以包括各个语音片段的起始时间节点信息和终止时间节点信息、各个相邻语音片段之间的时间间隔信息以及各个语音片段的时长信息等。类似地，字幕时间信息可以为字幕文件中的与字幕内容相关联的时间节点信息或时间段信息。

考虑到获取视频片段中各个语音片段的关联语音时间信息，相比较于通过语音识别技术识别出视频片段的语音内容，提取出各个语音片段的关联语音时间信息相对简单，而且字幕文件中通常仅包含字幕内容及对应的字幕时间信息，因此，优选是从所获取的视频片段中提取出各个语音片段的关联语音时间信息以及从所述待匹配的一个或多个字幕文件中提取出字幕时间信息，以表征视频片段以及字幕文件的特征。

s130、分别基于相同的规则，根据所提取的关联语音时间信息以及字幕时间信息生成所述视频片段的视频特征向量以及所述一个或多个字幕文件的字幕特征向量。

在本操作中，根据所提取的关联语音时间信息生成所述视频片段的视频特征向量，可根据所提取出的全部关联语音时间信息生成所述视频片段的视频特征向量，使得视频片段的特征信息表征地更加详尽、丰富；也可根据所提取出的部分关联语音时间信息生成所述视频片段的视频特征向量，降低视频特征向量的维度，可以在保证准确性的同时，更加快速地确定与所述视频片段匹配的字幕文件。可以理解的是，所述一个或多个字幕文件的字幕特征向量，基于相同的规则，可根据所提取的全部或部分字幕时间信息生成。而且基于相同的规则所生成的所述字幕特征向量，通常与所述视频特征向量的元素个数相同，维度相同。

分别基于相同的规则，根据所提取的关联语音时间信息生成所述视频片段的视频特征向量，以及根据所提取字幕时间信息生成所述一个或多个字幕文件的字幕特征向量，这样设置的好处在于，可以从根本上保证视频特征向量与字幕特征向量匹配的准确性。

s140、基于所生成的视频特征向量和字幕特征向量，确定与所述视频片段匹配的字幕文件。

在本操作中，可以将所述字幕特征向量与所述视频特征向量的进行比对，并基于所生成的视频特征向量和字幕特征向量的比对结果，确定与所述视频片段匹配的字幕文件，在本实施例的一个优选实施方式中，基于所生成的视频特征向量和字幕特征向量，确定与所述视频片段匹配的字幕文件具体可以包括：计算所生成的视频特征向量和字幕特征向量之间的空间相似度；以及根据所计算出的空间相似度，确定与所述视频片段对应的目标字幕文件。

其中，向量空间上的相似度可以用来表示字幕文件与视频片段在时间特征上的相似程度或紧密程度。示例性地，空间相似度可以根据所述字幕特征向量与所述视频特征向量之间的余弦距离、欧几里得算法、皮尔逊相关系数等数值来进行判断。优选地，可以根据与所述视频特征向量的空间相似度最高的所述字幕特征向量，确定与所述视频片段对应的目标字幕文件。

实施例二

图2是本发明实施例二提供的一种视频与字幕的匹配方法的流程图。本实施例以上述实施例一为基础进行进一步地优化，在本实施例中，将从所获取的视频片段中提取出各个语音片段的关联语音时间信息优化为：

从所获取的视频片段中提取出音频数据；对所提取出的音频数据进行频谱分析，将符合语音频谱特性的音频数据作为语音数据；基于所得到的语音数据，获取各个语音片段及对应的关联语音时间信息。

相应的，本实施例的方法具体包括：

s110、获取待匹配的视频片段和待匹配的一个或多个字幕文件。

s220、从所获取的视频片段中提取出音频数据。

在视频片段中，视频内容通常会借助场景来表现，而在作为辅助视频理解的字幕文件中，通常不会有相应的内容一一体现这些场景，字幕文件中的内容一般对应于所述视频片段的音频数据，因此可以从所获取的视频片段中提取出音频数据，用于表征视频片段的特征，以实现字幕文件与视频片段匹配的目的。

s230、对所提取出的音频数据进行频谱分析，将符合语音频谱特性的音频数据作为语音数据。

为了使得视频片段的表现力更强，视频片段中通常还会有各种音效的配合，如马路上车来车往的声音、渲染氛围的轻音乐、自然界的声音，如风雨声等等，而字幕文件中通常包含的是角色的对白内容或歌词等，因此，可以进一步地提取所述音频数据中的语音数据，以便于视频片段与字幕文件进行更好地匹配。

通常，提取音频数据中的语音数据，需要对提取出的音频数据进行分析，可采用时域和/或频域的分析，获取音频数据所包含的音频特性。一般来说，频域分析是把音频数据以频率轴为坐标表示出来进行分析，分析过程更为简练，剖析问题更为深刻和方便。因此，在本实施例中，优选是对所提取出的音频数据进行频谱分析。具体地，所提取出的音频数据优选是包括频率分布信息，以实现对所述音频数据进行频谱分析，获取语音数据。对音频数据进行频谱分析可以获得音频数据中的各个频率成分和频率分布范围，进而获得各个频率成分的幅值分布和能量分布，还可得到主要幅值分布和能量分布的对应的频率值等，根据频谱分析的结果，可将符合语音频谱特性的音频数据作为语音数据。其中，语音频谱特性包括语音的频率成分以及语音的频率分布范围等。

在上述操作中，将符合语音频谱特性的音频数据作为语音数据具体可以是，根据频谱分析结果，将所述音频数据按频谱特性进行聚类，将符合语音频谱特性的音频数据作为语音数据。例如，可根据音频数据中不同音频类型的频率分布的差异性，如幅值分布和能量分布的不同，将所述音频数据按频谱特性进行聚类，加以区分，进而将聚类结果中符合语音频谱特性的音频数据作为语音数据。

s240、基于所得到的语音数据，获取各个语音片段及对应的关联语音时间信息。

在获取到语音数据之后，可以基于所得到的语音数据，更为准确地从音频数据中获取各个语音片段以及各个语音片段所对应的关联语音时间信息。由于字幕文件中的字幕内容，通常对应于视频片段中的语音信息所对应的内容，如角色的对话或旁白等，提取语音数据所对应的关联语音时间信息作为生成所述视频片段的视频特征向量的依据，使得与字幕文件进行匹配更为准确。

s250、从所述待匹配的一个或多个字幕文件中提取出字幕时间信息。

本实施例中，可采用现有的字幕时间提取方法，根据时间数据的特点，从所述待匹配的一个或多个字幕文件中提取出字幕时间信息。

s140、基于所生成的视频特征向量和字幕特征向量，确定与所述视频片段匹配的字幕文件。

本实施例所提供的技术方案，将从视频片段中所提取出的音频数据中，符合语音频谱特性的音频数据作为语音数据，基于所得到的所述语音数据所获取到的各个语音片段及对应的关联语音时间信息，能够更加准确地表征视频片段的特征，进而对所提取的关联语音时间信息以及字幕时间信息所生成的视频特征向量及字幕特征向量进行分析，能够更为准确地确定出与视频片段匹配的字幕文件。

实施例三

图3是本发明实施例三提供的一种视频与字幕的匹配方法的流程图。本实施例以上述实施例二为基础进行优化，在本实施例中，将“所述关联语音时间信息”优化为：所述关联语音时间信息是各个相邻语音片段之间的时间间隔信息，将“所述字幕时间信息”优化为：所述字幕时间信息是各个相邻字幕片段之间的时间间隔信息，以及将“所述分别基于相同的规则，根据所提取的关联语音时间信息以及字幕时间信息生成所述视频片段的视频特征向量以及所述一个或多个字幕文件的字幕特征向量”优化为：

分别基于相同的规则，根据各个相邻语音片段之间的时间间隔信息生成视频片段的视频特征向量，以及根据各个相邻字幕片段之间的时间间隔信息，生成所述一个或多个字幕文件的字幕特征向量。

相应的，本实施例的方法具体包括：

s110、获取待匹配的视频片段和待匹配的一个或多个字幕文件。

s220、从所获取的视频片段中提取出音频数据。

s230、对所提取出的音频数据进行频谱分析，将符合语音频谱特性的音频数据作为语音数据。

s340、基于所得到的语音数据，获取各个语音片段及对应的各个相邻语音片段之间的时间间隔信息。

具体地，可以是基于所得到的语音数据，获取各个语音片段，以及根据所述各个语音片段的起始时间节点信息和终止时间节点信息，计算出各个相邻语音片段之间的时间间隔信息，例如，可以将当前语音片段的起始时间节点值与相邻的上一语音片段的终止时间节点值做差，获取当前语音片段与相邻的上一语音片段的时间间隔。

s350、从所述待匹配的一个或多个字幕文件中提取出各个相邻字幕片段之间的时间间隔信息。

类似地，可以是根据所述各个字幕片段的起始时间节点信息和终止时间节点信息，计算出各个相邻字幕片段之间的时间间隔信息，根据各个相邻字幕片段之间的时间间隔信息，生成所述一个或多个字幕文件的字幕特征向量。

s360、分别基于相同的规则，根据各个相邻语音片段之间的时间间隔信息生成视频片段的视频特征向量，以及根据各个相邻字幕片段之间的时间间隔信息，生成所述一个或多个字幕文件的字幕特征向量。

在本操作中，根据各个相邻语音片段之间的时间间隔信息生成视频片段的视频特征向量，可以是获取视频片段中提取出的各个相邻语音片段之间的时间间隔信息，将获取到的每一个语音片段与相邻语音片段之间的时间间隔信息，作为视频片段的视频特征向量的元素，生成视频片段的视频特征向量。类似地，根据各个相邻字幕片段之间的时间间隔信息，可以是获取视频片段中提取出的每一个字幕片段与相邻字幕片段之间的时间间隔信息，作为字幕文件的字幕特征向量的元素，生成所述一个或多个字幕文件的字幕特征向量。

进一步地，为了降低视频特征向量的维度，实现视频片段与字幕文件的快速匹配，也可以分别基于相同的选取规则，选取所获取到的所述相邻语音片段之间的时间间隔中的一部分数值，根据所选取的部分相邻语音片段之间的时间间隔的数值，生成所述视频片段的视频特征向量，以及根据所选取的所述相邻字幕片段的时间间隔中的一部分数值，生成所述一个或多个字幕文件的字幕特征向量。例如，可以选取获取到的设定个数的所述相邻语音片段的时间间隔，作为视频特征向量的元素，相应的，基于相同的选取规则，选取获取到的设定个数的所述相邻字幕片段的时间间隔，作为字幕特征向量的元素。

s140、基于所生成的视频特征向量和字幕特征向量，确定与所述视频片段匹配的字幕文件。

本实施例所提供的技术方案，根据所述各个相邻语音片段之间的时间间隔生成视频特征向量，根据所述各个相邻字幕片段之间的时间间隔生成字幕特征向量，进而基于所述视频特征向量与所述字幕特征向量，确定与所述视频片段匹配的字幕文件，可以有效降低所述视频特征向量与所述字幕特征向量的维度，还能够有效解决因字幕文件与视频片段的整体时间偏移，所造成的字幕与时间匹配不准确的问题，大大提高了视频片段与字幕文件的匹配效率和准确率。

这里要说明的是，在本实施例的优选示例中，也可以将图3中的步骤s220和s230替换为下述步骤：从所获取的视频片段中提取出音频数据，作为语音数据，即，在该优选示例中，可以不进行频谱分析。

实施例四

图4是本发明实施例四提供的一种视频与字幕的匹配方法的流程图。本实施例以上述实施例二为基础进行优化，在本实施例中，将“所述关联语音时间信息”优化为：所述关联语音时间信息是各个语音片段的时长信息，将“所述字幕时间信息”优化为：所述字幕时间信息是各个字幕片段的时长信息，以及将“所述分别基于相同的规则，根据所提取的关联语音时间信息以及字幕时间信息生成所述视频片段的视频特征向量以及所述一个或多个字幕文件的字幕特征向量”优化为：

分别基于相同的规则，根据各个语音片段的时长信息生成视频片段的视频特征向量，以及根据各个字幕片段的时长信息生成所述一个或多个字幕文件的字幕特征向量。

相应的，本实施例的方法具体包括：

s110、获取待匹配的视频片段和待匹配的一个或多个字幕文件。

s220、从所获取的视频片段中提取出音频数据。

s230、对所提取出的音频数据进行频谱分析，将符合语音频谱特性的音频数据作为语音数据。

s440、基于所得到的语音数据，获取各个语音片段及对应的各个语音片段的时长信息。

具体地，可以基于所得到的语音数据，从所获取的视频片段中提取出各个语音片段的时长信息，可以是根据所述各个语音片段的节点时间信息，计算出各个语音片段的时长信息，例如，可以将当前语音片段的终止时间节点值与起始时间节点值做差，获取当前语音片段的时长信息。

s450、从所述待匹配的一个或多个字幕文件中提取出各个字幕片段的时长信息。

类似地，从所述待匹配的一个或多个字幕文件中提取出各个字幕片段的时长信息，可以是根据所述各个字幕片段的起始时间节点信息和终止时间节点信息，计算出各个字幕片段的时长信息。

s460、分别基于相同的规则，根据各个语音片段的时长信息生成视频片段的视频特征向量，以及根据各个字幕片段的时长信息生成所述一个或多个字幕文件的字幕特征向量。

在本操作中，根据各个语音片段的时长信息生成视频片段的视频特征向量，可以是获取视频片段中提取出的各个语音片段的时长信息，将获取到的所有的语音片段的时长信息，作为视频片段的视频特征向量的元素，生成视频片段的视频特征向量。类似地，根据各个字幕片段的时长信息生成所述一个或多个字幕文件的字幕特征向量，可以是获取字幕片段中提取出各个字幕片段的时长信息，将所有的字幕片段的时长信息作为字幕片段的字幕特征向量的元素，，生成所述一个或多个字幕文件的字幕特征向量。

进一步地，为了降低视频特征向量的维度，实现视频片段与字幕文件的快速匹配，也可以分别基于相同的选取规则，选取所获取到的所述语音片段的时长信息中的一部分数值，并根据所选取的部分所述语音片段的时长信息的数值，生成所述视频片段的视频特征向量，以及选取所获取到的所述字幕片段的时长信息中的一部分数值，根据所选取的部分所述字幕片段的时长信息的数值，生成所述一个或多个字幕文件的字幕特征向量。例如可以选取获取到的设定个数的所述语音片段的时长信息作为视频特征向量的元素，相应的，基于相同的选取规则，选取获取到的设定个数的所述字幕片段的时长信息作为字幕特征向量的元素。

s440、基于所生成的视频特征向量和字幕特征向量，确定与所述视频片段匹配的字幕文件。

本实施例所提供的技术方案，根据所述各个语音片段的时长信息生成视频特征向量，根据所述各个字幕片段的时长信息生成字幕特征向量，进而基于所述视频特征向量与所述字幕特征向量，确定与所述视频片段匹配的字幕文件，可以有效解决因字幕文件与视频片段的整体时间偏移所造成的字幕与时间匹配不准确的问题，同时能够有效降低所述视频特征向量与所述字幕特征向量的维度，能够大大提高视频片段与字幕文件的匹配效率和准确率。

这里要说明的是，在本实施例的优选示例中，也可以将图4中的步骤s220和s230替换为下述步骤：从所获取的视频片段中提取出音频数据，作为语音数据，即，在该优选示例中，可以不进行频谱分析。

在上述各实施例的基础上，从所获取的视频片段中提取出各个语音片段的关联语音时间信息，具体可包括：从所获取的视频片段中提取出各个语音片段，以及获取所述各个语音片段对应的关联语音时间信息。

通常，视频片段中包含丰富的语音信息，可根据视频片段中的语音信息，从获取的视频片段中提取出各个语音片段。根据设定时间间隔阈值，语音信息可划分为音节、词语和/或句子等。示例性地，根据所述语音信息，从所获取的视频片段中提取出各个语音片段具体可以是，判断视频片段中当前音节与下一音节之间的时间间隔是否超过设定的静默时长阈值，若是，则确定当前音节所对应的时间信息为当前语音片段的终止时间节点信息，所述下一音节所对应的时间信息为所述下一语音片段的起始时间节点信息；若否，则重复上述操作。其中，所述静默时长阈值可以结合待匹配的视频片段的长度，根据实际需求进行设定，例如：30毫秒、1秒、2秒、5秒或5分钟等等，本发明并不做限定。

例如，视频片段中设定静默时长阈值为2秒时，依次比较所述视频片段中音节与音节之间的时间间隔，也就是说，检测当前音节之后的2秒是否有音节出现，若是，则重复此步骤，若否，则说明当前音节与下一音节之间的时间间隔大于2秒，则将当前音节所对应的时间信息作为当前语音片段的终止时间节点信息，在下一音节出现时记录所述下一音节所对应的时间作为所述下一语音片段的起始时间节点信息，并重复上述步骤，从所获取的视频片段中提取出各个语音片段。

采用上述技术方案，可以有效提取视频片段中的语音片段，进而更加准确有效地从所获取的视频片段中提取出各个语音片段的关联语音时间信息，以实现视频片段与字幕文件的准确匹配。

实施例五

在图5中示出了本发明实施例五提供的一种视频与字幕匹配装置的结构图，如图5所示，所述装置包括：获取单元510、视频特征提取单元520、字幕特征提取单元530、特征向量生成单元540和确定单元550。

其中，获取单元510，用于获取待匹配的视频片段和待匹配的一个或多个字幕文件；视频特征提取单元520，用于从所获取的视频片段中提取出各个语音片段的关联语音时间信息；字幕特征提取单元530，用于从所述待匹配的一个或多个字幕文件中提取出字幕时间信息；特征向量生成单元540，用于分别基于相同的规则，根据所提取的关联语音时间信息以及字幕时间信息生成所述视频片段的视频特征向量以及所述一个或多个字幕文件的字幕特征向量；确定单元550，用于基于所生成的视频特征向量和字幕特征向量，确定与所述视频片段匹配的字幕文件。

在上述各实施例的基础上，所述视频特征提取单元可以包括：音频数据提取模块、语音数据获取模块和关联语音时间信息获取模块。

其中，音频数据提取模块，用于从所获取的视频片段中提取出音频数据；语音数据获取模块，用于对所提取出的音频数据进行频谱分析，将符合语音频谱特性的音频数据作为语音数据；关联语音时间信息获取模块，用于基于所得到的语音数据，获取各个语音片段及对应的关联语音时间信息。

在上述各实施例的基础上，所述关联语音时间信息可以是各个相邻语音片段之间的时间间隔信息，所述字幕时间信息可以是各个相邻字幕片段之间的时间间隔信息，以及所述特征向量生成单元可具体用于：分别基于相同的规则，根据各个相邻语音片段之间的时间间隔信息生成视频片段的视频特征向量，以及根据各个相邻字幕片段之间的时间间隔信息，生成所述一个或多个字幕文件的字幕特征向量。

在上述各实施例的基础上，所述关联语音时间信息还可以是各个相邻语音片段的时长信息，所述字幕时间信息还可以是各个字幕片段的时长信息，以及所述特征向量生成单元还可具体用于：分别基于相同的规则，根据各个语音片段的时长信息生成视频片段的视频特征向量，以及根据各个字幕片段的时长信息生成所述一个或多个字幕文件的字幕特征向量。

在上述各实施例的基础上，所述确定单元可以包括：计算模块和确定模块。

其中，计算模块，用于计算所生成的视频特征向量和字幕特征向量之间的空间相似度；以及确定模块，用于根据所计算出的空间相似度，确定与所述视频片段对应的目标字幕文件。

实施例六

本发明实施例六提供了一种终端设备，该终端设备集成了本发明实施例中的视频与字幕匹配装置，可通过执行视频与字幕匹配方法来进行视频与字幕的匹配。

示例性地，本实施例中的终端设备具体可为手机、平板电脑以等配置有视频播放装置的终端设备。

本实施例提供的视频与字幕匹配装置，与本发明任意实施例所提供的视频与字幕匹配方法属于同一发明构思，可执行本发明任意实施例所提供的视频与字幕匹配方法，具备执行视频与字幕匹配方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的视频与字幕匹配方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘青;谢涛
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

上一篇：一种建筑工程用多功能对讲系统的制造方法与工艺
上一篇：显示设备及其操作方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。