视频生成方法、系统、电子设备及计算机存储介质与流程

文档序号：19688528发布日期：2020-01-14 18:33阅读：192来源：国知局

本发明实施例涉及视频及媒体数据技术领域，特别涉及一种视频生成方法、系统、电子设备及计算机存储介质。

背景技术：

随着移动终端设备性能的提升和4g技术的发展，基于移动互联网的视频业务正处于迅猛发展的时期。媒体数据收入是互联网视频网站的最主要收入来源之一，这一点在移动互联网时代依旧没有改变，也就是说，视频媒体数据是在数字化进程中伴随着网络视频的成长而成长的，同时它的市场也在以惊人的速度增长。视频媒体数据采用先进多媒体技术，融合视频、音频、图像、动画及文本于一体，比传统网络媒体数据的动画和文本的简单表现形式多，表现力更生动。现有技术中在视频内容中插播媒体数据的方式主要为：在视频内容的片头或片尾播放媒体数据，而且以片头播放媒体数据为主。

然而，发明人发现现有技术中至少存在如下问题：仅在片头或片尾播放媒体数据的形式较为单一，且使得媒体数据位的数量较少，从而导致媒体数据位运营商难以运营媒体数据。

技术实现要素：

本发明实施方式的目的在于提供一种视频生成方法、系统、网络设备及计算机可读存储介质，使其能够生成大量的媒体数据位，从而有利于媒体数据位运营商的媒体数据运营。

为解决上述技术问题，本发明的实施方式提供了一种视频生成方法，包括：

对视频文件进行内容识别；根据所述内容识别的结果，生成相对应的在所述视频文件内的媒体数据位置信息；根据所述媒体数据位置信息生成具有多个媒体数据的视频。

本发明的实施方式还提供了一种视频生成方法，包括：接收视频播放列表描述文件，其中，所述视频播放列表描述文件中插入有多个媒体数据标识，所述媒体数据标识的插入位置由媒体数据位置信息确定，所述媒体数据位置信息根据对所述视频播放列表描述文件的视频文件进行内容识别的结果生成；根据所述媒体数据标识生成具有多个媒体数据的视频。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的视频生成方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的视频生成方法。

本发明的实施方式还提供了一种视频生成系统，包括：设置服务器、运营服务器和会话服务器；所述设置服务器用于对原始的视频文件进行内容识别，并根据所述内容识别的结果，生成与识别到的内容相对应的在所述视频文件内的媒体数据位置信息；所述运营服务器用于存储所述设置服务器生成的所述媒体数据位置信息；所述会话服务器用于响应客户端对所述视频文件的请求，并根据所述运营服务器存储的所述媒体数据位置信息，对所述视频文件的视频播放列表描述文件进行修改，将视频生成所述视频文件中。

本发明的实施方式还提供了一种视频生成系统，包括：服务器和客户端；所述服务器用于对视频文件进行内容识别，并根据所述内容识别的结果，生成相对应的在所述视频文件内的媒体数据位置信息，还用于根据所述媒体数据位置信息确定媒体数据标识的插入位置，并将所述媒体数据标识插入视频文件的视频播放列表描述文件；所述客户端用于获取视频播放列表描述文件，并根据所述媒体数据标识生成具有多个媒体数据的视频。

本发明实施方式相对于现有技术而言，通过对原始的视频文件进行内容识别，从而能够得知视频文件的播放内容；再根据所述内容识别的结果，生成与识别到的内容相对应的在所述视频文件内的媒体数据位置信息，使得能够在视频文件中增加与识别到的播放内容对应的媒体数据位，由于媒体数据位是直接根据视频文件中的播放内容生成的，因此生成的媒体数据位的数量，可以不受原始视频的限制，也即达到了在视频中生成大量的媒体数据位，从而有利于媒体数据位运营商的媒体数据运营的目的；最后，根据媒体数据位置信息生成具有多个媒体数据的视频，使得可以根据视频文件播放内容的不同插入不同的媒体数据位，避免了“仅在片头或片尾播放媒体数据的形式较为单一，且使得媒体数据位的数量较少，从而导致媒体数据位运营商难以运营媒体数据”的情况的发生。

另外，所述媒体数据位置信息至少包括：起始时间、结束时间和媒体数据类型。

另外，所述对原始的视频文件进行内容识别，具体包括：根据预先设置的n个识别模型分别对所述视频文件的内容进行识别；其中，所述n为大于或等于1的自然数，所述n个识别模型分别根据n种类型的训练数据训练得到，用于识别n种类型的内容；所述生成与识别到的内容相对应的在所述视频文件内的媒体数据位置信息，具体包括：根据所述识别模型识别到的内容在所述视频文件中的位置，确定与识别到的内容相对应的媒体数据位置的所述起始时间和结束时间，并将所述识别模型所对应的训练数据的类型，作为所述媒体数据类型。通过将识别模型所对应的训练数据的类型作为媒体数据类型，避免了“增加与播放内容关联性较弱的媒体数据”的情况的发生，从而在不影响视频文件相形的同时提高了用户的体验。

另外，所述n种类型包括以下类型之一或其任意组合：人物类型、物品类型、场景类型、情绪类型。

另外，所述请求中包括所述客户端的用户信息；所述根据所述媒体数据位置信息对所述视频文件的视频播放列表描述文件进行修改，将媒体数据插入所述视频文件中，具体包括：根据所述用户信息和预设的媒体数据插入策略，确定待插入的媒体数据位置信息；根据所述待插入的媒体数据位置信息，修改所述视频文件的视频播放列表描述文件。

另外，所述媒体数据插入策略包括以下之一或其任意组合：根据所述生成的媒体数据位置信息的竞价排序结果，确定待插入的媒体数据位置信息；根据所述用户信息和所述生成的媒体数据位置信息所属的媒体数据主信息，确定待插入的媒体数据位置信息。

另外，在所述响应于所述视频文件的请求之前，还包括：识别所述原始的视频文件中导播放入的原始媒体数据位置；所述根据所述媒体数据位置信息对所述视频文件的视频播放列表描述文件进行的修改，还包括：将处于所述原始媒体数据位置的视频内容，替换为待插入的媒体数据。通过此种方式，使得原始媒体数据位置会直接替换为待插入的媒体数据，从而避免了“将媒体数据插入视频文件中时，若该媒体数据在视频文件中的前一个或后一个位置为原始媒体数据位置，则会导致视频会连续播放两则媒体数据，用户的体验不佳”的情况的发生，提高了用户的观看体验。

另外，在所述根据所述媒体数据标识生成具有多个媒体数据的视频之前，还包括：接收媒体数据描述信息；所述根据所述媒体数据标识生成具有多个媒体数据的视频，具体包括：根据所述媒体数据标识确定相对应的待插入的媒体数据描述信息；将所述待插入的媒体数据描述信息插入所述视频播放列表描述文件中，生成所述视频。

另外，所述根据所述媒体数据标识生成具有多个媒体数据的视频，具体包括：根据所述媒体数据标识，发送媒体数据请求；接收所述媒体数据请求的响应消息，所述响应消息携带与所述媒体数据标识对应的媒体数据描述信息，根据所述媒体数据描述信息对所述视频播放列表描述文件进行修改，生成所述视频。

另外，所述媒体数据标识至少包括媒体数据类型；所述媒体数据标识的插入位置对应的视频描述文件内容与所述媒体数据类型匹配。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式的视频生成方法中的流程示意图；

图2是根据本发明第二实施方式的视频生成方法中的流程示意图；

图3是根据本发明第三实施方式的视频生成方法中的流程示意图；

图4是根据本发明第四实施方式的视频生成方法中的流程示意图；

图5是根据本发明第五实施方式的视频生成方法中的流程示意图；

图6是根据本发明第六实施方式的视频生成系统的结构示意图；

图7是根据本发明第七实施方式的视频生成系统的结构示意图；

图8是根据本发明第八实施方式的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种视频生成方法，本实施方式应用于网络侧的服务器，其核心在于通过网络侧的服务器对视频文件的内容进行识别，从而生成与识别到的内容对应的媒体数据位，在客户端请求播放视频时，网络侧的服务器根据媒体数据位置信息生成具有多个媒体数据的视频。下面对本实施方式的视频生成方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施方式中的视频生成方法的具体流程如图1所示，包括：

s101：对视频文件进行内容识别。

关于步骤s101，具体地说，由于频文件具有多种内容，因此，本实施方式中对原始的视频文件进行内容识别可以为：根据预先设置的n个识别模型分别对视频文件的内容进行识别。需要说明的是，n为大于或等于1的自然数，所述n个识别模型分别根据n种类型的训练数据训练得到，用于识别n种类型的内容。进一步的，n种类型包括以下类型之一或其任意组合：人物类型、物品类型、场景类型、情绪类型。也就是说，通过大量的人物类型的训练数据可以得到人脸识别模型，从而能够识别出原始的视频文件中的人物，物品类型、场景类型以及情绪类型同理。为了便于理解，下面对本实施方式中视频文件的内容识别过程进行详细说明：

在接收到原始的视频文件后，若视频的内容与人物(如明星等)相关，则采用深度学习人脸识别模型做相关明星识别，本实施方式中的人脸识别模型可以为facenet；若视频的内容与物体(如汽车等)相关，则采用深度学习物体识别模型识别，本实施方式中的物体识别模型可以为yolo；若视频的内容与场景(如激烈的斗争场景等)相关，则通过深度学习i3d模型结合场景切换的频次来识别；若视频的内容与情绪(如紧张、开心等)，则通过视频配乐的声音情感模型来识别，使用提取梅尔声谱，用cnn(卷积神经网络)模型来实现。

在实际应用中，本实施方式中的n种类型并不局限于上述四种类型，还可以为精彩程度、动作等；通过各种识别模型识别出来的结果也并不仅限于原始的视频文件的内容，还可以为明星出场的时间、场景标志物出现的时间、精彩动作场景开始结束时间等。

值得一提的是，本实施方式中通过n个识别模型分别对视频文件进行内容识别时，可能会出现多个识别模型均识别到同一视频内容的情况，此时即表明该视频内容所在的视频文件中的位置，可以插入的媒体数据类型为多种，且可插入的多种媒体数据类型即为与所述多个识别模型所对应的多个训练数据的类型。为了便于理解，下面对上述情形进行具体的举例说明：

假设通过人物类型识别模型、物品类型识别模型、场景类型识别模型和情绪类型识别模型分别对某一视频文件进行内容识别，该视频的某部分内容为明星在开车，也就是说，人物类型识别模型和场景类型识别模型均会识别到该部分内容，在“明星在开车”这个视频内容后面既可插入媒体数据类型为人物类型的广告，也可以插入媒体数据类型为场景类型的广告。

s102：根据内容识别的结果，生成与识别到的内容相对应的在视频文件内的媒体数据位置信息。

关于步骤s102，具体地说，本实施方式中的媒体数据可以为图像、广告及视频等，下面以媒体数据为广告为例，对本实施方式中如何生成广告位置信息进行详细说明：

广告位置信息至少包括：起始时间、结束时间和广告类型，生成与识别到的内容相对应的在所述视频文件内的广告位置信息，可以为：根据所述识别模型成功识别到的内容在所述视频文件中的位置，确定与成功识别到的内容相对应的广告位置的所述起始时间和结束时间，并将所述识别模型所对应的训练数据的类型，作为所述广告类型，需要说明的是，本实施方式广告类型包括但不限于：明星、汽车、建筑物、物品、精彩等。通过此种方式，使得广告位置信息采用的是时间范围的表示方法(起始时间至结束时间)而不是时间点，也就是说，该时间范围内均可插入广告，从而使得广告的运营更加灵活。

为了便于理解，下面对本实施方式中如何生成广告位置信息进行举例说明：

s103：存储生成的媒体数据位置信息。

关于步骤s103，具体地说，将生成的媒体数据位置信息存储在网络侧的服务器，使得在需要利用媒体数据位置信息时，直接从网络侧的服务器获取即可，从而使视频生成方法在实施过程中更加有序。

s104：响应于视频文件的请求。

关于步骤s104，具体地说，在所述响应于所述视频文件的请求之前，还包括：识别所述视频文件中的原始媒体数据位置。以原始媒体数据位置为原始广告位置为例，由于原始的视频文件中是含有导播放入的原始广告的，这类广告位处理是按广告替换的方式来处理，而不是一般的插入，因此需要识别出原始广告位置。

s105：根据媒体数据位置信息对视频文件的视频播放列表描述文件进行修改。

关于步骤s105，具体的说，对视频文件的视频播放列表描述文件进行修改即将媒体数据插入视频播放列表描述文件中。值得一提的是，根据所述媒体数据位置信息对所述视频文件的视频播放列表描述文件进行的修改，还包括：将处于所述原始媒体数据位置的视频内容，替换为待插入的媒体数据，也就是说，本实施方式中视频播放列表描述文件的修改方式并不仅限于将媒体数据插入视频播放列表描述文件，还包括将媒体数据与原始广告位置直接替换。通过此种方式，使得原始广告位置会直接替换为待插入的广告，从而避免了“将广告插入视频文件中时，若该广告在视频文件中的前一个或后一个位置为原始广告位置，则会导致视频会连续播放两则广告，用户的体验不佳”的情况的发生，提高了用户的观看体验。可以理解的是，在将媒体数据插入视频文件中之后，网络侧的服务器会将修改后的视频文件返回给客户端，客户端根据该修改后的视频文件进行播放。

本发明实施方式相对于现有技术而言，通过对视频文件进行内容识别，从而能够得知视频文件的播放内容；再根据所述内容识别的结果，生成与识别到的内容相对应的在所述视频文件内的媒体数据位置信息，使得能够在视频文件中增加与识别到的播放内容对应的媒体数据位，由于媒体数据位是直接根据视频文件中的播放内容生成的，因此生成的媒体数据位的数量，可以不受原始视频的限制，也即达到了在视频中生成大量的媒体数据位，从而有利于媒体数据位运营商的媒体数据运营的目的；此外，还会存储生成的所述媒体数据位置信息，使得在需要利用该媒体数据位置信息时，直接从存储该媒体数据位置信息的服务器获取即可，从而使得本实施方式中的媒体数据插入方法更加有序；最后，响应于客户端对所述视频文件的请求，根据所述媒体数据位置信息对所述视频文件的视频播放列表描述文件进行修改，将媒体数据插入所述视频文件中，使得可以根据视频文件播放内容的不同插入不同的媒体数据位，避免了“仅在片头或片尾播放媒体数据的形式较为单一，且使得媒体数据位的数量较少，从而导致媒体数据位运营商难以运营媒体数据”的情况的发生。

本发明的第二实施方式涉及一种视频生成方法，第二实施方式是第一施方式的进一步改进，主要改进之处在于：在第二实施方式中，所述媒体数据位置信息还包括：媒体数据特征；所述存储生成的所述媒体数据位置信息，具体为：根据所述媒体数据位置信息的媒体数据类型或媒体数据特征，将生成的所述媒体数据位置信息进行分类存储；所述根据所述媒体数据位置信息对所述视频文件的视频播放列表描述文件进行修改，将媒体数据插入所述视频文件中，具体为：根据所述用户信息和预设的媒体数据插入策略，确定待插入的媒体数据位置信息；根据所述待插入的媒体数据位置信息，修改所述视频文件的视频播放列表描述文件，在所述视频文件中插入媒体数据。通过对媒体数据位置信息进行分类存储，使得在需要利用媒体数据位置信息时，直接按照类别从存储媒体数据位置信息的服务器获取即可，从而使得本实施方式中的视频生成方法更加有序；通过设置媒体数据插入策略，在提高了视频媒体数据营收的同时，不影响用户的观看体验。

本实施方式中的具体流程如图2所示，具体包括：

s201：对视频文件进行内容识别。

s202；根据内容识别的结果，生成与识别到的内容相对应的在视频文件内的媒体数据位置信息。

本实施方式中的步骤s201至步骤s202与第一实施方式中的步骤s101至步骤s102类似，为了避免重复，此处不再赘述。

s203：根据媒体数据位置信息的媒体数据类型或媒体数据特征，将生成的媒体数据位置信息进行分类存储。

关于步骤s203，具体的说，本实施方式中的媒体数据特征包括但不限于：明星的名字、汽车的品牌、建筑物的名称、精彩程度等。

较佳的，媒体数据位置信息还可以包括置信度，置信度是由视频识别的算法本身所产生的，用于表征识别模型识别出来的内容的准确程度，也就是说，在实际应用过程中，识别模型识别出来的内容相比于原始的视频文件的内容可能会存在偏差，通过计算置信度，便可直观的看出识别模型识别出来的内容的准确程度，如计算出识别内容是明星的置信度为90％，则代表原始的视频文件有90％的可能播放的内容也是明星。

s204：响应于客户端对视频文件的请求。

本实施方式的步骤s201至步骤s202、步骤s204与第一实施方式的步骤s101至步骤s102、步骤s104类似，为了避免重复，此处不再赘述。

s205：根据用户信息和预设的媒体数据插入策略，确定待插入的媒体数据位置信息；根据待插入的媒体数据位置信息，修改视频文件的视频播放列表描述文件。

关于步骤s205，具体的说，本实施方式中的媒体数据插入策略可以包括以下之一或其任意组合：在所述视频文件内允许插入的媒体数据数量小于预设门限；根据所述生成的媒体数据位置信息的竞价排序结果，确定待插入的媒体数据位置信息；根据所述用户信息和所述生成的媒体数据位置信息所属的媒体数据主信息，确定待插入的媒体数据位置信息。

值得一提的是，以媒体数据位置信息为广告位置信息为例，所述生成的广告位置信息的竞价排序结果即为广告主支付的广告费的高低排序，也就是广告主与广告主之间的博弈，本实施方式中可以通过如下公式计算广告的展示价值：ecpi＝ctr*cpc，其中，ecpi为广告价值，ctr为点击率，cpc是点击单价。针对视频领域，可以通过用户观看视频广告的时长来做对应的折算：根据时间的长短折算成1/4，1/2，3/4，1次点击率等，如观看时长为10秒，按照每秒算1次点击率来计算的话，10秒的点击率即为10次。然后可以通过ctr预估算法，如逻辑回归算法完成ctr预估计算(用户观看视频广告的时长通常是通过用户跳过广告的反馈来获得的)。通过此种方式，广告主便能够根据自己的需要支付不同的费用竞价购买不同的广告位置。

更优的，本实施方式还可以设置广告主与观众之间的博弈：

(1)广告主可以设置一定级别或者支付了一定阈值费用的用户可以跳过广告。

(2)广告主的竞价提升后，证明视频的热度提升了(比如连续剧的热度会不断提升的)，原先可以跳过广告的用户不一定可以跳过广告。

(3)这时用户可以支付更多的费用来跳过该广告。

(4)同时，博弈算法不会让用户与广告主无底线的博弈下去。如果广告主支付的广告费，超过一定的阈值范围(最大值，最小值)，博弈结束。

(5)如果广告主支付的价格跌回到最小值以下，触发博弈算法。同时最小值，会根据广告主的最高支付金额来做增加或者衰减。

(6)博弈算法还可以设置其他触发条件，比如用户数量的阈值等。

为了便于理解，下面对上述用户与广告主之间的博弈进行举例说明：

首先，广告主可以设置等级为vip1及以上或支付了10元及以上的用户可以直接跳过广告；在广告主支付的广告费提升后，广告主可以设置更高的vip用户或支付更多费用的用户才可以直接跳过广告，如原先vip1就能跳过广告，现在需要vip2才能跳过广告，原先支付10元就能跳过广告，现在支付20元才能跳过广告；广告主支付的广告费有一个预设的阈值范围，如阈值范围为十万至一百万，则当广告主支付的广告费超过一百万时，无论什么等级及支付多少金额的用户，均不能跳过该广告主的广告，当广告主支付的广告费小于十万时，无论什么等级及支付多少金额的用户，均能跳过该广告主的广告。

值得一提的是，本实施方式中所述生成的媒体数据位置信息所属的媒体数据主信息，可以为媒体数据主的媒体数据中出现的明星身份等。

为了便于理解，下面以视频生成策略为上述三种策略的组合为例，进行举例说明：

首先确定视频中可以出现的媒体数据次数，在此假设视频有15个媒体数据位，而预设门限位4个，则该视频最多有3个媒体数据位可以使用，即最多出现三次媒体数据；再根据用户信息确定插入的媒体数据类型及数量，如该用户在上海使用第一播放器，且该用户平时观看的媒体数据类型有明星代言、汽车，则筛选出与明星代言及汽车相关的媒体数据；再将这些媒体数据中，被与封杀的明星有关的媒体数据筛除；从剩余媒体数据从选择两个媒体数据费用支付最多的媒体数据插入该用户将要播放的视频文件中。

更优的，本实施方式中还可以有其他的媒体数据插入策略：可以设置一个时间点，比如在某个明星出现几秒之后插入媒体数据；可以设置规则过滤部分媒体数据位，比如时间范围小的，置信度低的；可以加入特定固定的媒体数据位，如在一个时间播放到中间部分(比如这个视频有40分钟，播放到20分钟时即为中间部分)插入媒体数据。

本发明实施方式相对于现有技术而言，通过对原始的视频文件进行内容识别，从而能够得知视频文件的播放内容；再根据所述内容识别的结果，生成与识别到的内容相对应的在所述视频文件内的媒体数据位置信息，使得能够在视频文件中增加与识别到的播放内容对应的媒体数据位，由于媒体数据位是直接根据视频文件中的播放内容生成的，因此生成的媒体数据位的数量，可以不受原始视频的限制，也即达到了在视频中生成大量的媒体数据位，从而有利于媒体数据位运营商的媒体数据运营的目的；此外，还会存储生成的所述媒体数据位置信息，使得在需要利用该媒体数据位置信息时，直接从存储该媒体数据位置信息的服务器获取即可，从而使得本实施方式中的视频生成方法更加有序；最后，响应于客户端对所述视频文件的请求，根据所述媒体数据位置信息对所述视频文件的视频播放列表描述文件进行修改，将媒体数据插入所述视频文件中，使得可以根据视频文件播放内容的不同插入不同的媒体数据位，避免了“仅在片头或片尾播放媒体数据的形式较为单一，且使得媒体数据位的数量较少，从而导致媒体数据位运营商难以运营媒体数据”的情况的发生。

本发明的第三实施方式涉及一种视频生成方法，第三实施方式与第一施方式大致相同，主要区别之处在于：在第一实施方式中，并不限制各步骤是同一个服务器做的，还是由不同的服务器执行的，各步骤的执行主体可以均为网络侧的服务器，而在本实施方式中，对步骤的执行主体做了进一步细化，即各步骤是由不同服务器执行的。

本实施方式中，将原始视频发送至设置服务器，设置服务器对原始视频的内容识别，如识别出原始视频的内容中依次出现明星、汽车等，再生成与识别到的内容对应的媒体数据位，如识别到明星，则增加媒体数据类型为明星的媒体数据位；运营服务器对设置服务器生成的媒体数据位进行存储；会话服务器响应客户端对视频文件的请求，即得知用户想要观看的视频文件，再根据存储的媒体数据位，对视频文件的视频播放列表描述文件进行修改，将视频生成视频文件中，最后将修改后的文件发送给客户端，客户端根据修改后的视频文件进行视频播放。

本实施方式中的具体流程如图3所示，具体包括：

s301：设置服务器对原始的视频文件进行内容识别。

s302：设置服务器根据内容识别的结果，生成与识别到的内容相对应的在视频文件内的媒体数据位置信息。

s303：运营服务器存储生成的媒体数据位置信息。

本实施方式的步骤s301至步骤s303与第一实施方式的步骤s101至步骤s103类似，区别之处仅在于第一实施方式中并未限制各步骤的执行主体，而本实施方式中对各步骤的执行主体进行了进一步的细化，为了避免重复，此处不再赘述。

s304：会话服务器响应客户端对视频文件的请求，并根据存储的媒体数据位置信息，对视频文件的视频播放列表描述文件进行修改，将视频生成视频文件中。

关于步骤s304，具体的说，所述请求中包括所述客户端的用户信息，本实施方式中的用户信息为ip地址、播放器类型、地理位置等对媒体数据计算有用的信息。可以理解的是，不同用户信息的用户在播放同一视频时，看到的媒体数据可能是不相同的，如在北京使用第一播放器的用户在观看视频时看到了三条媒体数据，而在上海使用第二播放器的用户在观看同一视频时会看到四条媒体数据，且媒体数据也可能会不相同(即不同用户可能看到相同类型但内容不同的媒体数据，如上海的用户看到的是明星a代言的媒体数据，北京的用户看到的是明星b代言的媒体数据)。

值得一提的是，用户信息还可以来自于其他系统的用户信息平台或者dmp(数据管理平台)，比如在其他平台上得知某一用户在观看视频时观看媒体数据的类型，则当该用户在请求视频文件时，就会向该视频文件插入与该用户之前观看的媒体数据类型类似或相同的媒体数据，在提高用户观看体验的同时，能够让插入的媒体数据更有价值，从而实现用户与媒体数据主的双赢。

更优的，用户信息中还包括视频播放列表描述文件的格式(hls或者dash格式，不限于hls或dash，dash也不限于mpeg-dash)，也就是说，若客户端请求的格式为hls，则获取hls格式的视频播放列表描述文件，并对其进行修改(即将媒体数据插入hls格式的视频播放列表描述文件中)；若客户端请求的格式为dash，则获取dash格式的视频播放列表描述文件，并对其进行修改(即将媒体数据插入dash格式的视频播放列表描述文件中)。通过此种方式，能够使插入的媒体数据不受客户端针对媒体数据标识(hls或者dash相关或者自定义的)的兼容性的影响。

需要说明的是，在本实施方式中，还可以将原始的视频文件传入编码器中，编码器将原始的视频文件转换为mpeg4或者mpeg2，这是因为原始的视频文件是没有进过压缩和编码的，而视频文件的编码格式一般是mpeg4、mpeg2或者其他格式。

具体的说，本实施方式中的编码器还会解析原视频中的媒体数据标识，因为原始的视频文件来自于广电或者有线电视提供商，原始的视频文件中有原始的节目播放前或者后的媒体数据位置信息，编码器会将原有的媒体数据位置信息发送给运营服务器。

可以理解的是，编码器还会将编码之后的视频文件发送给打包机，打包机在接收到编码器发送的视频文件后，会对其进行编码打包，打包的方式可以是hls或者dash(不限于hls或dash，dash也不限于mpeg-dash)，并存放至源服务器。会话服务器响应客户端对视频的请求后，根据客户请求去源服务器获取视频播放列表描述文件，可以是hls或者dash(如果客户端请求的是hls，则获取hls，如果客户端请求的是dash，则获取dash)。

值得一提的是，运营服务器还用于根据媒体数据位置信息给媒体数据主出售媒体数据位置，也可以通过客户端对所述视频文件的请求去查询跟本视频相关的媒体数据位置做初选，按照运营规则决定可以插视频媒体数据的候选媒体数据位置。运营规则可以是：(1)设置一个媒体数据播放的时间点，比如明星出现几秒之后(2)设置规则过滤部分媒体数据位，比如时间范围小的，置信度低的(3)过滤掉不允许插入媒体数据的时间点的媒体数据位置，比如明星被封杀后(4)加入特定固定的媒体数据位(5)每个视频可以出现媒体数据的次数，比如视频有15个媒体数据位，但是只能使用3个，等等。

换句话说，运营服务器包括两个模块，一个模块解析原始视频中的原始媒体数据位置信息，按原始媒体数据位类别存放；另一个模块解析设置服务器发送的媒体数据位置信息，并根据媒体数据的类别分类存放，还可以根据媒体数据特征来分类存放。

本发明实施方式相对于现有技术而言，通过对原始的视频文件进行内容识别，从而能够得知视频文件的播放内容；再根据所述内容识别的结果，生成与识别到的内容相对应的在所述视频文件内的媒体数据位置信息，使得能够在视频文件中增加与识别到的播放内容对应的媒体数据位，由于媒体数据位是直接根据视频文件中的播放内容生成的，因此生成的媒体数据位的数量，可以不受原始视频的限制，也即达到了在视频中生成大量的媒体数据位，从而有利于媒体数据位运营商的媒体数据运营的目的；此外，还会存储生成的所述媒体数据位置信息，使得在需要利用该媒体数据位置信息时，直接从存储该媒体数据位置信息的服务器获取即可，从而使得本实施方式中的视频生成方法更加有序；最后，响应于客户端对所述视频文件的请求，根据所述媒体数据位置信息对所述视频文件的视频播放列表描述文件进行修改，将视频生成所述视频文件中，使得可以根据视频文件播放内容的不同插入不同的媒体数据位，避免了“仅在片头或片尾播放媒体数据的形式较为单一，且使得媒体数据位的数量较少，从而导致媒体数据位运营商难以运营媒体数据”的情况的发生。

本发明的第四实施方式涉及一种视频生成方法，本实施方式应用于客户端，其核心在于接收网络侧的服务器发送的视频播放列表描述文件，该视频播放列表描述文件中插入有多个媒体数据标识，所述媒体数据标识的插入位置由媒体数据位置信息确定，所述媒体数据位置信息根据对所述视频播放列表描述文件的视频文件进行内容识别的结果生成，再根据所述媒体数据标识生成具有多个媒体数据的视频。下面对本实施方式的视频生成方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施方式中的视频生成方法的具体流程如图4所示，包括：

s401：接收视频播放列表描述文件。

关于步骤s401，具体的说，客户端接收的视频播放列表描述文件是网络侧的服务器发送的，所述视频播放列表描述文件中插入有多个媒体数据标识，所述媒体数据标识的插入位置由媒体数据位置信息确定，所述媒体数据位置信息根据对所述视频播放列表描述文件的视频文件进行内容识别的结果生成。也就是说，网络侧的服务器会先对视频文件进行内容识别，识别的方法可以与前述实施方式的识别方法相同，然后网络侧的服务器根据内容识别的结果，生成相对应的在视频文件内的媒体数据位置信息，再根据媒体数据位置信息得到媒体数据标识的插入位置。为了便于理解，下面以媒体数据为广告为例，对本实施方式中如何得到媒体数据标识的插入位置进行具体的举例说明：

假设识别出来的视频文件的内容依次为明星、汽车、激烈的争斗场景，则可在明星与汽车之间生成一个广告类型为明星的第一广告位、在汽车与激烈的争斗场景之间生成一个广告类型为汽车的第二广告位、在激烈的争斗场景之后生成一个广告类型为精彩的第三广告位，在生成了上述三个广告位之后，还会对应生成这三个广告位的起始时间与结束时间，如生成第一广告位的起始时间与结束时间为视频的第10分10秒至第10分20秒、第二广告位的起始时间与结束时间为视频的第20分10秒至第20分20秒、第三广告位的起始时间与结束时间为视频的第30分10秒至第30分20秒，则可以分别在上述三个时间段内插入广告，可以理解的是，上述的广告类型以及广告位的起始时间与结束时间即为媒体数据位置信息，根据媒体数据位置信息，在第10分10秒、第20分10秒和第30分10秒插入广告标识。需要说明的是，本实施方式中的媒体数据标识至少包括媒体数据类型，媒体数据标识的插入位置对应的视频描述文件内容与所述媒体数据类型匹配，如广告标识中至少包括广告的类型，也可以包括待插入的广告的时间等。

s402：接收媒体数据描述信息。

关于步骤s402，具体的说，本实施方式的客户端除了接收网络侧的服务器发送的视频播放列表描述文件外，还会接收媒体数据描述信息，媒体数据描述信息即可插入的媒体数据内容，通过此种方式，使得后续步骤中客户端在确定待插入的媒体数据描述信息后，无须向网络侧的服务器请求待插入的媒体数据描述信息，简化了客户端的操作流程，使得客户端能够更快的得到具有多个媒体数据的视频。

s403：根据媒体数据标识确定相对应的待插入的媒体数据描述信息。

关于步骤s403，具体的说，客户端解析视频播放列表描述文件中的媒体数据标识，得到与媒体数据标识对应的媒体数据描述信息，也就是说，客户端通过媒体数据标识得到媒体数据内容，如媒体数据标识为明星，就会得到与明星相关的媒体数据内容。

s404：将待插入的媒体数据描述信息插入视频播放列表描述文件中，生成视频。

关于步骤s404，具体的说，通过此种方式，实现了在客户端插入媒体数据，从而使得媒体数据的插入方式多样化，并不局限于在服务器端。

本发明实施方式相对于现有技术而言，通过接收视频播放列表描述文件，由于视频播放列表描述文件中插入有多个媒体数据标识，所述媒体数据标识的插入位置由媒体数据位置信息确定，所述媒体数据位置信息根据对所述视频播放列表描述文件的视频文件进行内容识别的结果生成，因此插入的媒体数据标识的数量，可以不受原始视频的限制，也即达到了在视频中生成大量的媒体数据位，从而有利于媒体数据位运营商的媒体数据运营的目的；最后，根据所述媒体数据标识生成具有多个媒体数据的视频，使得可以根据视频文件播放内容的不同插入不同的媒体数据位，避免了“仅在片头或片尾播放媒体数据的形式较为单一，且使得媒体数据位的数量较少，从而导致媒体数据位运营商难以运营媒体数据”的情况的发生。

本发明的第五实施方式涉及一种视频生成方法，本实施方式与第四实施方式大致相同，主要区别之处在于，在本实施方式中，所述根据所述媒体数据标识生成具有多个媒体数据的视频，具体包括：根据所述媒体数据标识，发送媒体数据请求；接收所述媒体数据请求的响应消息，所述响应消息携带与所述媒体数据标识对应的媒体数据描述信息，根据所述媒体数据描述信息对所述视频播放列表描述文件进行修改，生成所述视频。

本实施方式中的视频生成方法的具体流程如图5所示，包括：

s501：接收视频播放列表描述文件。

s502：根据媒体数据标识，发送媒体数据请求。

关于步骤s502，具体的说，本实施方式中的媒体数据标识还包括文件格式(hls或者dash格式，不限于hls或dash，dash也不限于mpeg-dash)；所述根据所述媒体数据标识，发送媒体数据请求，可以为：根据所述文件格式确定所述媒体数据请求的发送地址；将所述媒体数据请求发送至所述发送地址。如果是hls格式的视频描述文件，则需要扩展定义一个hls标识(因为hls协议本身没有广告标识的定义)。例如，定义一个hls扩展标识：ext-x-ad：duration＝60.0s，url＝“adserv.com/ad”，adid＝“daiaaaaaaaaaaaqaaz”，desc＝..。其中属性duration表示可以插入的广告的时间；url表示‘广告运营服务器’地址；adid属性是广告位的身份信息(根据adid，可以广告运营服务器查到对应的广告位更多特征信息)，属性decs是其他描述属性，可以为空。

s503：接收媒体数据请求的响应消息。

关于步骤s503，具体的说，客户端向服务器发送媒体数据请求，服务器根据该媒体数据请求确定返给客户端的媒体数据内容，即响应消息携带与所述媒体数据标识对应的媒体数据描述信息，具体的确定方式与上述实施方式中的媒体数据插入策略相同，为了避免重复，此种不再赘述。

s504：根据媒体数据描述信息对视频播放列表描述文件进行修改，生成视频。

本实施方式中的步骤s501、步骤s504与第四实施方式中的步骤s401、步骤s404类似，为了避免重复，此处不再赘述。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明的第六实施方式提供了一种视频生成系统100，如图6所示，包括设置服务器10、运营服务器11和会话服务器12；设置服务器10用于对视频文件进行内容识别，并根据所述内容识别的结果，生成与识别到的内容相对应的在所述视频文件内的媒体数据位置信息；运营服务器11用于存储设置服务器10生成的所述媒体数据位置信息；会话服务器12用于响应客户端对所述视频文件的请求，并根据运营服务器11存储的所述媒体数据位置信息，对所述视频文件的视频播放列表描述文件进行修改，将视频生成所述视频文件中。

可以理解的是，视频生成系统100还包括编码器13、打包机14及源服务器15，编码器13用于将原始的视频文件转换为mpeg4或者mpeg2、还用于解析原视频中的媒体数据标识；打包机14用于接收编码器23发送的编码之后的视频文件，并对编码之后的视频文件切片打包，并存放到源服务器15；会话服务器12响应客户端对视频文件的请求后，根据客户请求去源服务器15获取视频播放列表描述文件，可以是hls或者dash。

不难发现，本实施方式为与第三实施方式相对应的系统实施例，本实施方式可与第三实施方式互相配合实施。第三实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第三实施方式中。

本发明的第七实施方式提供了一种视频生成系统200，如图7所示，包括：服务器20，用于对视频文件进行内容识别，并根据所述内容识别的结果，生成相对应的在所述视频文件内的媒体数据位置信息，还用于根据所述媒体数据位置信息确定媒体数据标识的插入位置，并将所述媒体数据标识插入视频文件的视频播放列表描述文件；客户端21，用于获取视频播放列表描述文件，并根据所述媒体数据标识生成具有多个媒体数据的视频。本领域技术人员可以理解，本实施方式可以达到与上述方法实施例相同的技术效果。

值得一提的是，本实施方式中的服务器20可以为一个服务器，也可以为多个服务器，也就是说，服务器20做的各个步骤可以由同一个服务器执行，也可以由不同服务器执行，如服务器20包括设置服务器201、运营服务器202和会话服务器203；设置服务器201用于对视频文件进行内容识别，并根据所述内容识别的结果，生成与识别到的内容相对应的在所述视频文件内的媒体数据位置信息；运营服务器202用于存储设置服务器201生成的所述媒体数据位置信息；会话服务器203用于根据所述媒体数据位置信息确定媒体数据标识的插入位置，并将所述媒体数据标识插入视频文件的视频播放列表描述文件。

可以理解的是，视频生成系统200还包括编码器22、打包机23及源服务器24，编码器22用于将原始的视频文件转换为mpeg4或者mpeg2、还用于解析原视频中的媒体数据标识；打包机23用于接收编码器22发送的编码之后的视频文件，并对编码之后的视频文件切片打包，并存放到源服务器24；客户端21解析媒体数据标识后向运营服务器202发送媒体数据请求，运营服务器202根据该请求将媒体数据内容返回给客户端21，文件格式可以是hls或者dash，客户端21将接收到的媒体数据内容插入到视频播放列表描述文件，然后按修改后的视频描述文件去源服务器24请求相应的视频内容播放。

不难发现，本实施方式为与第五实施方式相对应的系统实施例，本实施方式可与第五实施方式互相配合实施。第五实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第五实施方式中。

本发明第八实施方式涉及一种电子设备，如图8所示，包括至少一个处理器801；以及，与至少一个处理器801通信连接的存储器802；其中，存储器802存储有可被至少一个处理器801执行的指令，指令被至少一个处理器801执行，以使至少一个处理器801能够执行上述的视频生成方法。

其中，存储器802和处理器801采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器801和存储器802的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器801处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器801。

处理器801负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器802可以被用于存储处理器801在执行操作时所使用的数据。

本发明的第九实施方式提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述视频生成方法。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：莫东松;刘昕;张健;钟宜峰;赵璐;张进;马丹;马晓琳;杜欧杰
技术所有人：咪咕文化科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。