视频剪辑方法、装置、计算机设备及存储介质与流程

文档序号：31707052发布日期：2022-10-01 12:03阅读：53来源：国知局

1.本技术涉及音视频处理技术领域，尤其涉及一种视频剪辑方法、视频剪辑装置、计算机设备及存储介质。

背景技术：

2.视频剪辑是使用软件对视频源进行非线性编辑，加入的图片、背景音乐、特效、场景等素材与视频进行重混合，对视频源进行切割、合并，通过二次编码，生成具有不同表现力的新视频。
3.在现有的很多企业中，由于不具备视频剪辑的相关技术人员，需要预先将视频源文件进行整理后输出为短视频剧本，再提交给供应商，供应商根据短视频剧本进行视频剪辑，过程繁琐，且对于像培训类的视频源文件，若企业人员对培训内容理解不透彻，那么整理出的短视频文本容易出现不清楚的问题，进而影响视频剪辑的效果，综上可知，现有的视频剪辑方案剪辑效率较低。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种视频剪辑方法，以解决现有的视频剪辑方案中视频剪辑效率较低的问题。
5.本技术实施例的第一方面提供了一种视频剪辑方法，包括：
6.响应于第一目标账户发送的视频剪辑指令，读取目标视频源文件；
7.从所述目标视频源文件中提取目标音频信息，并采用预设语音识别模型对所述目标音频信息进行文本转换，得到目标视频文本；
8.基于预设词典从所述目标视频文本中匹配出至少一个知识点文本；其中，所述预设词典包括与所述知识点文本匹配的关键词；
9.根据各个所述知识点文本在所述目标视频源文件对应时间轴上的位置，确定出每个所述知识点文本对应的视频片段；
10.按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装，输出各个不同知识点文本对应的短视频；其中，同种知识点文本是指匹配到的同一所述关键词的知识点文本；不同知识点文本是指匹配到不同的所述关键词的文本。
11.本技术实施例的第二方面提供了一种视频剪辑装置，包括：
12.响应模块：用于响应于第一目标账户发送的视频剪辑指令，读取目标视频源文件；
13.转换模块：用于从所述目标视频源文件中提取目标音频信息，并采用预设语音识别模型对所述目标音频信息进行文本转换，得到目标视频文本；
14.匹配模块：用于基于预设词典从所述目标视频文本中匹配出至少一个知识点文本；其中，所述预设词典包括与所述知识点文本匹配的关键词；
15.确定模块：用于根据各个所述知识点文本在所述目标视频源文件对应时间轴上的位置，确定出每个所述知识点文本对应的视频片段；
16.输出模块：用于按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装，输出各个不同知识点文本对应的短视频；其中，同种知识点文本是指匹配到的同一所述关键词的知识点文本；不同知识点文本是指匹配到不同的所述关键词的文本。
17.本技术实施例的第三方面提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述视频剪辑方法。
18.本技术实施例的第四方面提供了一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如上述视频剪辑方法。
19.实施本技术实施例提供的一种视频剪辑方法、视频剪辑装置、计算机设备及存储介质，具有以下有益效果：
20.本技术提供一种视频剪辑方法，当接收到第一目标账户发送的视频剪辑指令时，根据视频剪辑指令读取目标视频源文件，为了能够更精确地按照目标视频源文件中的知识点对目标视频源文件进行剪辑，首先从目标视频源文件中提取目标音频信息，通过文本转换，得到目标视频源文件对应的目标视频文本。由于预设词典包括与知识点文本匹配的关键词，因此基于预设词典能够从目标视频文本中确定出至少一个知识点文本，然后根据各个知识点文本在目标视频源文件对应时间轴上的位置，确定出各个知识点文本对应的视频片段，按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装，输出各个不同知识点文本对应的短视频。本方案通过在接收到视频剪辑指令后，根据视频剪辑指令获取目标视频源文件，并基于知识点文本对目标视频源文件进行视频剪辑，无需供应商干预且能够更精确的对目标视频源文件进行知识点分类，提高了视频剪辑的效率。
附图说明
21.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
22.图1是本技术实施例中视频剪辑方法的应用环境示意图；
23.图2是本技术实施例中视频剪辑方法的实现流程示意图；
24.图3是本技术实施例中视频剪辑装置的结构示意图；
25.图4是本技术实施例中计算机设备的一示意图。
具体实施方式
26.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
27.请参阅图1，图1示出了本技术实施例中视频剪辑方法的一应用环境示意图，如图1所示，第一目标账户通过客户端发送视频剪辑指令，服务器接收并响应该视频剪辑指令，读
取目标视频源文件，将目标视频源文件剪辑为不同知识点文本对应的短视频，将短视频返回至客户端。其中，客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。不同业务系统的用户终端可以同时与服务器，或者与服务器集群中的某个特定服务器之间进行交互。
28.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
29.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
30.在具体实现时，服务器响应于第一目标账户发送的视频剪辑指令，根据该视频剪辑指令，读取目标原视频文件。然后服务器采用预设语音识别模型，对目标视频源文件对应的目标音频信息进行文本转换，得到目标视频文本。基于根据目标视频源文件配置得到的预设词典，服务器从目标视频文本中匹配出至少一个知识点文本后，再根据各个知识点文本在目标视频源文件对应时间轴上的位置，确定出每个知识点文本对应的视频片段，按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装，输出各个不同知识点文本对应的短视频。本方案通过在接收到视频剪辑指令后，根据视频剪辑指令获取目标视频源文件，并基于知识点文本对目标视频源文件进行视频剪辑，无需供应商干预且能够更精确的对目标视频源文件进行知识点分类，提高了视频剪辑的效率。
31.请参阅图2，图2所示为本技术实施例中视频剪辑方法的实现流程图，以该方法应用在图1中的服务端的服务器为例进行说明，包括如下步骤：
32.s11：响应于第一目标账户发送的视频剪辑指令，读取目标视频源文件。
33.在步骤s11中，第一目标账户是指在企业客户端完成注册的账户，通过第一目标账户可以上传视频，上传视频源文件的地址，观看视频、评价视频，发送视频剪辑指令等等。视频剪辑指令包含视频源文件的地址信息。目标视频源文件是指视频剪辑指令对应的待剪辑的视频源文件。
34.在本实施例中，考虑到视频来源较多，可能来自外部的网站，也可能是由企业线下同步录制的视频。因此不适合直接通过接口形式做视频对接方案，获取视频源文件。可以由企业员工在用户终端上传目标视频源文件的地址信息，用户终端将改地址信息封装至视频剪辑指令中，并将该视频剪辑指令发送至服务器。服务器接收到视频剪辑指令，通过对其进行解析获取到目标视频源文件。
35.s12：从所述目标视频源文件中提取目标音频信息，并采用预设语音识别模型对所述目标音频信息进行文本转换，得到目标视频文本。
36.在步骤s12中，目标视频源文件包括目标音频信息、图像等信息。预设语音识别模
型可以是asr(automatic speech recognition，自动语音识别技术)模型、wav2vec模型等等，用于将音频转化为文本。
37.在本实施例中，为了能够根据目标视频源文件的内容对目标视频源文件进行剪辑，需要学习目标视频源文件的具体内容，因此本方案采用预设语音识别模型对目标视频源文件对应的目标音频信息进行文本转换，得到目标视频文本，并转换后的目标视频文本以向量表示，使得服务器能够识别。作为一种实施方式，在实际应用场景中，考虑到文本转换过程中可能会存在一些噪音对转化的目标音视频文本造成一定的影响，可以通过lms(least mean square，最小均方算法)对预设语音识别模型进行优化，实现对文本转换过程中其他环境噪音的去除，以提高文本识别的效率和准确性。其中，lms算法是自适应滤波器中常用的一种算法，具有计算复杂程度低、在信号为平稳信号的环境中收敛性好、其期望值无偏地收敛到维纳解和利用有限精度实现算法时的平稳性等特性，能够用于去噪等等。
38.s13：基于预设词典从所述目标视频文本中匹配出至少一个知识点文本。
39.在步骤s13中，预设词典是根据目标视频源文件配置得到的；预设词典包括与知识点文本匹配的关键词。
40.在本实施例中，目标视频源文件对应的有ppt、word等格式的电子版的视频资料，可由企业内相关人员预先对该视频资料中的知识框架、专业术语等进行关键词标注，并将标注的关键词作为目标视频源文件对应的视频中可能出现的知识点，基于关键词构建预设词典。在获取到目标视频文本后，通过将目标视频文本与预设词典中的各个关键词进行相似度匹配，可从目标视频文本中确定出至少一个知识点文本。需要说明的是，预设词典中的各个关键词均以向量标识。
41.作为一示例，请参阅下表1，表1所示为根据一目标视频源文件配置的预设词典，该预设词典中包括不同的主题关键词以及各个主题下对应的内容关键词，其中，主题关键词和内容关键词均用于知识点文本匹配。
[0042][0043][0044]
表1
[0045]
作为本技术一实施例，所述基于预设词典从所述目标视频文本中匹配出至少一个知识点文本，包括：通过预设自然语言处理模型对所述目标视频文本进行预处理，得到至少一个名词文本；计算每一所述名词文本与所述预设词典中各个所述关键词的关联度分值；
当所述关联度分值大于预设阈值时，将所述关联度分值对应的名词文本判定为所述知识点文本。
[0046]
在本实施例中，可采用预设自然语言处理模型进行相似度计算。其中，预设自然语言处理模型可以是one-hot编码、bow(bag of words，词袋模型)、n-gram语言模型等等。在nlp(natural language processing，自然语言处理)模型中，常用的相似度计算方法。一类是统计指标，比如余弦相似度、person相关系数、欧氏距离等；一类是基于文本距离的计算方法，比如编辑距离、wmd、bm25等；还有一类是基于深度匹配的相似度计算，比如dssm(deep structured semantic models)。
[0047]
由于目标视频文本是通过语音识别模型进行文本转换得到连续的文本，包括有许多与知识点文本匹配无关的词汇，因此需要先通过预设自然语言处理模型对目标视频文本进行预处理，提取出目标视频文本中的所有名词文本。然后计算每一名词文本与预设词典的关联度分值，也即，在判断名词文本是否为知识点文本时，将该名词文本与预设词典中的每一个关键词进行相似度计算，例如可以计算该名词文本与预设词典中的每一个关键词之间的欧氏距离、余弦相似度等，然后取相似度的最高值作为该名词文本与预设词典的关联度分值。若识别到某一名词文本与预设词典的关联度分值大于预设阈值，则可判定预设词典中存在一关键词与该名词文本匹配，将该名词文本判定为知识点文本，其中关联度分值大于等于0分且小于等于10分，预设阈值可以取6、7等等。
[0048]
需要说明的是，上述所有名词文本及预设词典中各个关键词均以向量表示。
[0049]
作为本技术一实施例，所述通过预设自然语言处理模型对所述目标视频文本进行预处理，得到至少一个名词文本，包括：利用预设自然语言处理模型对所述目标视频文本进行切词处理，得到至少一个文本词汇；对所有所述文本词汇进行词性标注，得到标注文本词汇；从所述标注文本词汇中提取标注为名词词性的文本，得到至少一个名词文本。
[0050]
在本实施例中，由于在目标视频文本中可能存在较多的语气词，例如嗯，啊等等，这些语气词与后续的知识点文本匹配无关，因此需要先对目标视频文本进行切词处理，得到至少一个文本词汇，例如采用正向最大匹配算法对目标视频进行切词。完成切词后，根据语法规则，对每一个文本词汇进行词性标注，得到标注文本词汇，其中，标注文本词汇包括形容词文本、副词文本、名词文本等等。将所有名词文本从标注文本词汇中提取出来，用于后续进行知识点文本匹配。
[0051]
s14：根据各个所述知识点文本在所述目标视频源文件对应时间轴上的位置，确定出每个所述知识点文本对应的视频片段。
[0052]
在步骤s14中，目标视频源文件对应的时间轴，也即目标视频源文件对应视频的播放时间轴。
[0053]
在本实施例中，在通过预设语音识别模型对目标视频源文件进行文本转换时会同步标识目标视频文本的时间点，从而可以确定出目标视频文本中各个知识点文本在时间轴上的各个时间点，根据各个知识点文本对应时间点，确定出每个知识点文本对应的视频片段。需要说明的是相同的知识点可能在不同的时间段出现，两个不同的知识点对应的视频片段也可能存在重叠。
[0054]
作为本技术一实施例，所述根据各个所述知识点文本在所述目标视频源文件对应时间轴上的位置，确定出每个所述知识点文本对应的视频片段，包括：识别各个所述知识点
文本在所述目标视频文本中的时间戳；所述时间戳包括开始时间戳和结束时间戳；根据每个所述知识点文本对应的所述开始时间戳和结束时间戳，确定出每个所述知识点文本对应的视频片段。
[0055]
在本实施例中，沿着时间轴出现第一个知识点文本的时间点即第一个知识点文本的开始时间戳，当在第一个知识点文本出现的某个随机时间点之后的预设时间内第一个知识点文本不再出现则将这个随机时间点作为第一个知识点文本的结束时间戳，其中预设时间可以自定义，例如3分钟、5分钟等等。同理，出现第二个知识点文本的时间点即第二个知识点文本的开始时间戳，当在第二个知识点文本出现的某个随机时间点之后的预设时间内第二个知识点文本不再出现则将这个随机时间点作为第二个知识点文本的结束时间戳，以此类推，确定出各个知识点文本的开始时间戳和结束时间戳，每个知识点文本的开始时间戳和结束时间戳之间的视频片段即该知识点文本对应的视频片段。
[0056]
需要说明的是两个不同的知识点文本对应的视频片段可能存在重叠，相同的知识点文本也可能在不同的时间段上出现。作为一示例，请参阅下表2，表2展示了同一主题下4个知识点文本的开始时间戳、结束时间戳，如表2所示，第一个“客户名单”对应的视频片段与“目标人群”知识点文本对应的视频片段有重叠，相同的两个知识点文本“客户名单”在不同的时间段出现。
[0057][0058]
表2
[0059]
s15：按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装，输出各个不同知识点文本对应的短视频。
[0060]
在步骤s15中，同种知识点文本是指匹配到的同一关键词的知识点文本；不同知识点文本是指匹配到不同的关键词的文本。例如两个知识点文本，客户名单和客户清单，均与预设词典中的关键词“客户名单”匹配，则将这两个知识点文本判定为同种知识点文本。预设视频拼装策略用于表征知识点文本对应视频片段的拼装规则。
[0061]
在本实施例中，由于获取到的各个知识点文本对应的视频片段比较散乱，因此需要将同种知识点文本对应的视频片段按照预设视频拼装策略进行拼装，以便于第一目标账户能够按照知识点进行分段学习。
[0062]
作为本技术一实施例，所述按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装，输出各个不同知识点文本对应的短视频，包括：根据各个知识点文本对应的关键词对所述视频片段进行分类，得到至少一组视频片段集合；其中，每组所述视频片段集合对应一种知识点文本；基于所述视频片段集合中各个子视频片段的时间顺序，对所述子视频片段进行顺序标识，得到标识后的子视频片段；按照所述标识后的子视频片段的顺序，对所述标识后的子视频片段进行拼装，得到各个不同知识点文本对应的短视频。
[0063]
在本实施例中，按照预设词典中与各个知识点文本匹配的关键词，将匹配到同一关键词的知识点文本划分为同种知识点文本，并将同种知识点文本对应的各个视频片段放到一个视频片段集合中。由于每组视频片段集合中，各个子视频片段在时间轴上的时间顺序不同，为了使得输出的该知识点文本对应的短视频能够连贯，可基于视频片段集合中各个子视频片段的时间顺序，对各个子视频片段进行顺序标识，作为一种实施方式，可以根据各个子视频片段的开始时间戳或结束时间戳的大小，确定各个子视频片段的时间先后顺序。例如视频片段集合中包括两个子视频片段，两个子视频片段的开始时间戳分别为第10分钟和第30分钟，则将开始时间戳为第10分钟的子视频片段标识为1，开始时间戳为第30分钟的子视频片段标识为2。作为其他实施方式，还可以以视频片段集合对应的关键词加上各个子视频片段的时间顺序来标识该视频片段集合中的各个子视频片段。最后，按照所述标识后的子视频片段的标识，将标识后的子视频片段拼装成一个完整的短视频，该短视频对应一种知识点文本。
[0064]
作为一种实施方式，若目标视频源文件包含由不同的主题，可以按照上述方法先划分出各个主题对应的主题短视频，再根据每个主题下细分的知识点文本对每个子主题对应的主题短视频进行进一步的划分。
[0065]
本技术提供一种视频剪辑方法，当接收到第一目标账户发送的视频剪辑指令时，根据视频剪辑指令读取目标视频源文件，为了能够更精确地按照目标视频源文件中的知识点对目标视频源文件进行剪辑，首先从目标视频源文件中提取目标音频信息，通过文本转换，得到目标视频源文件对应的目标视频文本。由于预设词典是根据所述目标视频源文件配置得到的，且预设词典包括与知识点文本匹配的关键词，因此基于预设词典能够从目标视频文本中确定出至少一个知识点文本，然后根据各个知识点文本在目标视频源文件对应时间轴上的位置，确定出各个知识点文本对应的视频片段，按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装，输出各个不同知识点文本对应的短视频。本方案通过在接收到视频剪辑指令后，根据视频剪辑指令获取目标视频源文件，并基于知识点文本对目标视频源文件进行视频剪辑，无需供应商干预且能够更精确的对目标视频源文件进行知识点分类，提高了视频剪辑的效率。
[0066]
作为本技术另一实施例，在所述按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装，输出各个不同知识点文本对应的短视频的步骤之后，还包括：接收第二目标账户对各个所述短视频的评价结果，根据所述评价结果更新各个所述短视频对应知识点文本的关联度分值；所述第二目标账户包括所述第一目标账户；对所述关联度分值处于下降状态的短视频进行删减操作，得到删减后的短视频。
[0067]
在本实施例中，第二目标账户也是指在企业客户端完成注册的账户，其包括第一目标账户和不具有发送视频剪辑指令权限的其他目标账户。第二目标账户在观看各个知识点文本对应的短视频后，可对各个短视频进行评价，服务器根据第二目标账户对各个短视频的评价结果，更新各个短视频对应知识点文本的关联度分值。
[0068]
具体地，若第二目标账户对短视频的评价结果为赞同，则提高短视频对应知识点文本的关联度分值；若第二目标账户对目标短视频的评价结果为反对，则降低短视频对应知识点文本的关联度分值。对于知识点文本的关联度分值降低的短视频，第一目标账户会不定期的对其进行视频片段抽取，并判断该视频片段对应知识点文本是否与该视频片段所
属的短视频对应的知识点文本一致，若不一致，则将该视频片段标记为废弃内容，服务器根据该标记，将该视频片段从其所属的短视频中删除，得到删减后的短视频，并将删减后的短视频发送至企业客户端，第二目标账户可继续观看、评价删减后的短视频。
[0069]
应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。
[0070]
在一个实施例中，提供一种视频剪辑装置300，该视频剪辑装置与上述实施例中视频剪辑方法一一对应。如图3所示，该视频剪辑装置包括响应模块301、转换模块302、匹配模块303、确定模块304以及输出模块305。各功能模块详细说明如下：
[0071]
响应模块301：用于响应于第一目标账户发送的视频剪辑指令，读取目标视频源文件；
[0072]
转换模块302：用于从所述目标视频源文件中提取目标音频信息，并采用预设语音识别模型对所述目标音频信息进行文本转换，得到目标视频文本；
[0073]
匹配模块303：用于基于预设词典从所述目标视频文本中匹配出至少一个知识点文本；其中，所述预设词典是根据所述目标视频源文件配置得到的；所述预设词典包括与所述知识点文本匹配的关键词；
[0074]
确定模块304：用于根据各个所述知识点文本在所述目标视频源文件对应时间轴上的位置，确定出每个所述知识点文本对应的视频片段；
[0075]
输出模块305：用于按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装，输出各个不同知识点文本对应的短视频；其中，同种知识点文本是指匹配到的同一所述关键词的知识点文本；不同知识点文本是指匹配到不同的所述关键词的文本。
[0076]
关于视频剪辑装置的具体限定可以参见上文中对于视频剪辑方法的限定，在此不再赘述。上述视频剪辑装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0077]
在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储视频剪辑方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种视频剪辑方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
[0078]
在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机可读指令被处理器执行
时以实现一种视频剪辑方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
[0079]
在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：
[0080]
响应于第一目标账户发送的视频剪辑指令，读取目标视频源文件；
[0081]
从所述目标视频源文件中提取目标音频信息，并采用预设语音识别模型对所述目标音频信息进行文本转换，得到目标视频文本；
[0082]
基于预设词典从所述目标视频文本中匹配出至少一个知识点文本；其中，所述预设词典是根据所述目标视频源文件配置得到的；所述预设词典包括与所述知识点文本匹配的关键词；
[0083]
根据各个所述知识点文本在所述目标视频源文件对应时间轴上的位置，确定出每个所述知识点文本对应的视频片段；
[0084]
按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装，输出各个不同知识点文本对应的短视频；其中，同种知识点文本是指匹配到的同一所述关键词的知识点文本；不同知识点文本是指匹配到不同的所述关键词的文本。
[0085]
在一个实施例中，提供了一个或多个存储有计算机可读指令的计算机可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时实现以下步骤：
[0086]
响应于第一目标账户发送的视频剪辑指令，读取目标视频源文件；
[0087]
从所述目标视频源文件中提取目标音频信息，并采用预设语音识别模型对所述目标音频信息进行文本转换，得到目标视频文本；
[0088]
基于预设词典从所述目标视频文本中匹配出至少一个知识点文本；其中，所述预设词典是根据所述目标视频源文件配置得到的；所述预设词典包括与所述知识点文本匹配的关键词；
[0089]
根据各个所述知识点文本在所述目标视频源文件对应时间轴上的位置，确定出每个所述知识点文本对应的视频片段；
[0090]
按照预设视频拼装策略将同种知识点文本对应的视频片段进行拼装，输出各个不同知识点文本对应的短视频；其中，同种知识点文本是指匹配到的同一所述关键词的知识点文本；不同知识点文本是指匹配到不同的所述关键词的文本。
[0091]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储
器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0092]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。
[0093]
以上所述实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围，均应包含在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马亿凯
技术所有人：中国平安人寿保险股份有限公司
我是此专利的发明人

上一篇：一种脑肿瘤图像特征提取方法及系统
上一篇：一种自结晶膨胀型地基加固料及地基加固方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。