多媒体数据交互方法、通信设备及计算机可读存储介质与流程

文档序号：19688532发布日期：2020-01-14 18:34阅读：190来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本发明涉及数据处理技术领域，尤其涉及一种多媒体数据交互方法、通信设备及计算机可读存储介质。

背景技术：

现有技术中，针对视频播放过程中显示的广告，主要涉及的处理方案有：通过对广告位点击事件的监测，改变当前视频播放内容，或者进行页面跳转。

但是，以上处理方案存在以下缺陷：

广告代入感缺陷：现有的投放广告被选中(与用户互动)后只是以跳出当前页面进入广告页面、弹窗形式显示广告等方式进行独立呈现，而无法与当前播放的视频画面进行结合。

也就是说，现有技术中在视频播放的过程中，被选中的广告等交互素材无法与当前播放的视频等多媒体数据进行结合，导致交互素材的显示效果较差。

技术实现要素：

本发明的目的在于提供一种多媒体数据交互方法、通信设备及计算机可读存储介质，解决现有技术中视频播放过程中呈现的交互素材的显示效果较差的问题。

为了解决上述技术问题，本发明实施例提供多媒体数据交互方法，应用于终端，包括：

在播放接收到的多媒体数据的过程中，若检测到触发操作，则根据预设时间段内接收到的交互素材数据，将预设时间段内接收到的多媒体数据进行更新处理；

播放更新处理后的多媒体数据；

其中，所述预设时间段为检测到所述触发操作的时刻之后的时间段。

可选的，所述交互素材数据包括：待替换对象信息以及目标对象信息；

所述根据预设时间段内接收到的交互素材数据，将预设时间段内接收到的多媒体数据进行更新处理，包括：

将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据。

可选的，所述交互素材数据还包括：与所述目标对象对应的文本信息；

在将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据之后，还包括：

将所述目标视频数据与所述文本信息相匹配；

所述播放更新处理后的多媒体数据，包括：

在所述目标视频数据的播放画面中，以预设形式显示所述文本信息。

可选的，所述交互素材数据还包括：与所述目标对象对应的语音信息的音频数据；

在将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据之后，还包括：

将所述多媒体数据中存在所述待替换对象的画面对应的音频数据替换为所述语音信息的音频数据。

可选的，在播放接收到的多媒体数据之前，还包括：

接收服务器下发的第一音频数据以及对应的时间戳信息；所述第一音频数据包括与所述目标对象对应的语音信息的音频数据；

在将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据之后，还包括：

获取检测到所述触发操作时的播放时间点；

根据所述播放时间点和所述时间戳信息，从所述第一音频数据中获取与所述目标视频数据对应的目标音频数据；

将所述多媒体数据中的音频数据替换为所述目标音频数据。

可选的，在根据预设时间段内接收到的交互素材数据，将预设时间段内接收到的多媒体数据进行更新处理之前，还包括：

获取检测到所述触发操作时的播放时间点；

根据所述播放时间点，向服务器发送交互请求；

接收所述服务器根据所述交互请求反馈的目标音频数据；所述目标音频数据包括与所述目标对象对应的语音信息的音频数据；

在将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据之后，还包括：

将所述多媒体数据中的音频数据替换为所述目标音频数据。

本发明实施例还提供了一种多媒体数据交互方法，应用于服务器，包括：

向终端实时推送多媒体数据及对应的交互素材数据。

可选的，所述交互素材数据包括：待替换对象信息以及目标对象信息。

可选的，所述交互素材数据还包括：与所述目标对象对应的文本信息；和/或，与所述目标对象对应的语音信息的音频数据。

可选的，在向终端实时推送多媒体数据及对应的交互素材数据之前，还包括：

向所述终端发送第一音频数据以及对应的时间戳信息；所述第一音频数据包括与所述目标对象对应的语音信息的音频数据。

可选的，在向终端实时推送多媒体数据及对应的交互素材数据之后，还包括：

接收所述终端发送的交互请求；

根据所述交互请求中的播放时间点，获取目标音频数据；所述目标音频数据包括与所述目标对象对应的语音信息的音频数据；

根据所述交互请求，向所述终端反馈所述目标音频数据。

可选的，在向终端实时推送多媒体数据及对应的交互素材数据之前，还包括：

获取所述目标对象的特征参数；

根据所述特征参数，获取所述目标对象与预设画面中各个对象之间的匹配度；所述预设画面包括与所述多媒体数据对应的第一视频数据构成的各个画面；

根据所述匹配度，从所述各个画面中获取满足预设条件的至少一组目标画面；

根据所述目标画面，得到所述目标对象的至少一个视频片段。

可选的，在所述交互素材数据包括与所述目标对象对应的语音信息的音频数据的情况下，在向终端实时推送多媒体数据及对应的交互素材数据之前，还包括：

获取所述视频片段中的目标人物的动作信息；

从所述动作信息中，获取所述目标对象适配的目标动作信息；

针对所述目标动作信息，匹配所述目标动作信息对应的文本信息；

根据所述目标动作信息对应的文本信息，配置针对所述目标对象的语音信息。

可选的，所述针对所述目标动作信息，匹配所述目标动作信息对应的文本信息，包括：

根据所述目标动作信息中的动作类型信息以及各个动作类型对应的数量信息，得到所述目标动作信息对应的内容类别；

根据所述目标动作信息对应的内容类别，匹配所述目标动作信息对应的文本信息。

可选的，在所述根据所述目标动作信息对应的文本信息，配置针对所述目标对象的语音信息之前，还包括：

从第二音频数据中获取所述目标人物的语音数据；

根据所述语音数据，得到所述目标人物的语音特征信息；

所述根据所述目标动作信息对应的文本信息，配置针对所述目标对象的语音信息，包括：

根据所述语音特征信息和目标动作信息对应的文本信息，配置针对所述目标对象的语音信息；

其中，所述第二音频数据包括所述第一视频数据对应的音频数据。

本发明实施例还提供了一种多媒体数据交互装置，应用于终端，包括：

第一处理模块，用于在播放接收到的多媒体数据的过程中，若检测到触发操作，则根据预设时间段内接收到的交互素材数据，将预设时间段内接收到的多媒体数据进行更新处理；

第一播放模块，用于播放更新处理后的多媒体数据；

其中，所述预设时间段为检测到所述触发操作的时刻之后的时间段。

可选的，所述交互素材数据包括：待替换对象信息以及目标对象信息；

所述第一处理模块，包括：

第一处理子模块，用于将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据。

可选的，所述交互素材数据还包括：与所述目标对象对应的文本信息；

所述第一处理模块还包括：

第一匹配子模块，用于在将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据之后，将所述目标视频数据与所述文本信息相匹配；

所述第一播放模块，包括：

第一显示子模块，用于在所述目标视频数据的播放画面中，以预设形式显示所述文本信息。

可选的，所述交互素材数据还包括：与所述目标对象对应的语音信息的音频数据；

所述第一处理模块还包括：

第二处理子模块，用于在将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据之后，将所述多媒体数据中存在所述待替换对象的画面对应的音频数据替换为所述语音信息的音频数据。

可选的，还包括：

第一接收模块，用于在播放接收到的多媒体数据之前，接收服务器下发的第一音频数据以及对应的时间戳信息；所述第一音频数据包括与所述目标对象对应的语音信息的音频数据；

所述第一处理模块还包括：

第一获取子模块，用于在将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据之后，获取检测到所述触发操作时的播放时间点；

第二获取子模块，用于根据所述播放时间点和所述时间戳信息，从所述第一音频数据中获取与所述目标视频数据对应的目标音频数据；

第三处理子模块，用于将所述多媒体数据中的音频数据替换为所述目标音频数据。

可选的，还包括：

第一获取模块，用于在根据预设时间段内接收到的交互素材数据，将预设时间段内接收到的多媒体数据进行更新处理之前，获取检测到所述触发操作时的播放时间点；

第一发送模块，用于根据所述播放时间点，向服务器发送交互请求；

第二接收模块，用于接收所述服务器根据所述交互请求反馈的目标音频数据；所述目标音频数据包括与所述目标对象对应的语音信息的音频数据；

所述第一处理模块还包括：

第四处理子模块，用于在将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据之后，将所述多媒体数据中的音频数据替换为所述目标音频数据。

本发明实施例还提供了一种多媒体数据交互装置，应用于服务器，包括：

第一推送模块，应用于向终端实时推送多媒体数据及对应的交互素材数据。

可选的，所述交互素材数据包括：待替换对象信息以及目标对象信息。

可选的，所述交互素材数据还包括：与所述目标对象对应的文本信息；和/或，与所述目标对象对应的语音信息的音频数据。

可选的，还包括：

第二发送模块，用于在向终端实时推送多媒体数据及对应的交互素材数据之前，向所述终端发送第一音频数据以及对应的时间戳信息；所述第一音频数据包括与所述目标对象对应的语音信息的音频数据。

可选的，还包括：

第三接收模块，用于在向终端实时推送多媒体数据及对应的交互素材数据之后，接收所述终端发送的交互请求；

第二获取模块，用于根据所述交互请求中的播放时间点，获取目标音频数据；所述目标音频数据包括与所述目标对象对应的语音信息的音频数据；

第一反馈模块，用于根据所述交互请求，向所述终端反馈所述目标音频数据。

可选的，还包括：

第三获取模块，用于在向终端实时推送多媒体数据及对应的交互素材数据之前，获取所述目标对象的特征参数；

第四获取模块，用于根据所述特征参数，获取所述目标对象与预设画面中各个对象之间的匹配度；所述预设画面包括与所述多媒体数据对应的第一视频数据构成的各个画面；

第五获取模块，用于根据所述匹配度，从所述各个画面中获取满足预设条件的至少一组目标画面；

第二处理模块，用于根据所述目标画面，得到所述目标对象的至少一个视频片段。

可选的，在所述交互素材数据包括与所述目标对象对应的语音信息的音频数据的情况下，还包括：

第六获取模块，用于在向终端实时推送多媒体数据及对应的交互素材数据之前，获取所述视频片段中的目标人物的动作信息；

第七获取模块，用于从所述动作信息中，获取所述目标对象适配的目标动作信息；

第一匹配模块，用于针对所述目标动作信息，匹配所述目标动作信息对应的文本信息；

第一配置模块，用于根据所述目标动作信息对应的文本信息，配置针对所述目标对象的语音信息。

可选的，所述第一匹配模块，包括：

第五处理子模块，用于根据所述目标动作信息中的动作类型信息以及各个动作类型对应的数量信息，得到所述目标动作信息对应的内容类别；

第二匹配子模块，用于根据所述目标动作信息对应的内容类别，匹配所述目标动作信息对应的文本信息。

可选的，还包括：

第八获取模块，用于在所述根据所述目标动作信息对应的文本信息，配置针对所述目标对象的语音信息之前，从第二音频数据中获取所述目标人物的语音数据；

第三处理模块，用于根据所述语音数据，得到所述目标人物的语音特征信息；

所述第一配置模块，包括：

第一配置子模块，用于根据所述语音特征信息和目标动作信息对应的文本信息，配置针对所述目标对象的语音信息；

其中，所述第二音频数据包括所述第一视频数据对应的音频数据。

本发明实施例还提供了一种通信设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器执行所述程序时实现上述终端侧或服务器侧的多媒体数据交互方法。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述终端侧或服务器侧的多媒体数据交互方法中的步骤。

本发明的上述技术方案的有益效果如下：

上述方案中，所述多媒体数据交互方法通过在播放接收到的多媒体数据的过程中，若检测到触发操作，则根据预设时间段内接收到的交互素材数据，将预设时间段内接收到的多媒体数据进行更新处理；播放更新处理后的多媒体数据；其中，所述预设时间段为检测到所述触发操作的时刻之后的时间段；能够实现交互素材数据与播放的多媒体数据相结合后再呈现给用户，提升了多媒体数据播放过程中交互素材数据的交互方式的代入感以及交互素材数据的表现力，提高了交互素材的显示效果；很好的解决了现有技术中视频播放过程中呈现的交互素材的显示效果较差的问题。

附图说明

图1为本发明实施例的多媒体数据交互方法流程示意图一；

图2为本发明实施例的多媒体数据交互方法流程示意图二；

图3为本发明实施例的视频播放示意图一；

图4为本发明实施例的视频播放示意图二；

图5为本发明实施例的视频播放示意图三；

图6为本发明实施例的视频播放示意图四；

图7为本发明实施例的多媒体数据交互装置结构示意图一；

图8为本发明实施例的多媒体数据交互装置结构示意图二。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的技术中视频播放过程中呈现的交互素材的显示效果较差的问题，提供一种多媒体数据交互方法，应用于终端，如图1所示，包括：

步骤11：在播放接收到的多媒体数据的过程中，若检测到触发操作，则根据预设时间段内接收到的交互素材数据，将预设时间段内接收到的多媒体数据进行更新处理；

步骤12：播放更新处理后的多媒体数据；

其中，所述预设时间段为检测到所述触发操作的时刻之后的时间段(也可理解为所述预设时间段为检测到所述触发操作的播放时间点之后的时间段)。

具体的，预设时间段可为已接收的多媒体数据对应的播放时刻构成的时间段；或者，预设时间段可包括：已接收的多媒体数据对应的播放时刻构成的第一时间段，以及待接收的多媒体数据对应的播放时刻构成的第二时间段；或者，预设时间段可包括：待接收的多媒体数据对应的播放时刻构成的时间段；在此不限定。

触发操作可以包括针对预设位置的选中、预设信息的选中等，在此不做限定。

本发明实施例提供的所述多媒体数据交互方法通过在播放接收到的多媒体数据的过程中，若检测到触发操作，则根据预设时间段内接收到的交互素材数据，将预设时间段内接收到的多媒体数据进行更新处理；播放更新处理后的多媒体数据；其中，所述预设时间段为检测到所述触发操作的时刻之后的时间段；能够实现交互素材数据与播放的多媒体数据相结合后再呈现给用户，提升了多媒体数据播放过程中交互素材数据的交互方式的代入感以及交互素材数据的表现力，提高了交互素材的显示效果；很好的解决了现有技术中视频播放过程中呈现的交互素材的显示效果较差的问题。

本发明实施例中，可在播放接收到的多媒体数据之前，还包括：向服务器发送多媒体数据获取请求；接收所述服务器根据所述多媒体数据获取请求实时推送的多媒体数据以及交互素材数据。进一步还可以包括：对接收到的多媒体数据以及交互素材数据进行缓存。

其中，所述交互素材数据包括：待替换对象信息以及目标对象信息；所述根据预设时间段内接收到的交互素材数据，将预设时间段内接收到的多媒体数据进行更新处理，包括：将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据。

具体比如，待替换对象信息为奶茶杯信息，目标对象信息为咖啡杯信息；在多媒体数据中将奶茶杯图像替换为咖啡杯图像。

为了进一步提升目标对象的表现力，本发明实施例中还提供了所述目标对象的宣传词，关于宣传词的具体体现形式，本发明实施例提供两种示例，示例一为文本形式，示例二为语音形式：

针对示例一，所述交互素材数据还包括：与所述目标对象对应的文本信息；在将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据之后，还包括(也可理解为：所述根据预设时间段内接收到的交互素材数据，将预设时间段内接收到的多媒体数据进行更新处理，还包括)：将所述目标视频数据与所述文本信息相匹配；所述播放更新处理后的多媒体数据，包括：在所述目标视频数据的播放画面中，以预设形式显示所述文本信息。

具体比如：文本信息包括咖啡杯的广告词，在播放将奶茶杯图像替换为咖啡杯图像的目标视频的过程中，在播放画面中显示咖啡杯的广告词。

预设形式不限于播放器悬浮广告、banner广告等形式。

针对示例二，本发明实施例提供以下三种具体实现方式：

第一种实现方式，所述交互素材数据还包括：与所述目标对象对应的语音信息的音频数据；在将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据之后，还包括(也可理解为：所述根据预设时间段内接收到的交互素材数据，将预设时间段内接收到的多媒体数据进行更新处理，还包括)：将所述多媒体数据中存在所述待替换对象的画面对应的音频数据替换为所述语音信息的音频数据。

具体比如：针对将奶茶杯图像替换为咖啡杯图像的视频画面，将该视频画面对应的语音数据替换为咖啡杯对应的语音数据，也可理解为咖啡杯的语音广告词；该实现方式中的语音广告词可以是随着多媒体数据实时推送给终端的。

第二种实现方式，在播放接收到的多媒体数据之前，还包括：接收服务器下发的第一音频数据以及对应的时间戳信息；所述第一音频数据包括与所述目标对象对应的语音信息的音频数据；在将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据之后，还包括(也可理解为：所述根据预设时间段内接收到的交互素材数据，将预设时间段内接收到的多媒体数据进行更新处理，还包括)：获取检测到所述触发操作时的播放时间点；根据所述播放时间点和所述时间戳信息，从所述第一音频数据中获取与所述目标视频数据对应的目标音频数据；将所述多媒体数据中的音频数据替换为所述目标音频数据。

具体比如：针对将奶茶杯图像替换为咖啡杯图像的视频画面，将该视频画面对应的语音数据替换为咖啡杯对应的语音数据，也可理解为咖啡杯的语音广告词；该实现方式中的语音广告词可以是提前下载在终端的。

第三种实现方式，在根据预设时间段内接收到的交互素材数据，将预设时间段内接收到的多媒体数据进行更新处理之前，还包括：获取检测到所述触发操作时的播放时间点；根据所述播放时间点，向服务器发送交互请求；接收所述服务器根据所述交互请求反馈的目标音频数据；所述目标音频数据包括与所述目标对象对应的语音信息的音频数据；在将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据之后，还包括(也可理解为：所述根据预设时间段内接收到的交互素材数据，将预设时间段内接收到的多媒体数据进行更新处理，还包括)：将所述多媒体数据中的音频数据替换为所述目标音频数据。

具体比如：针对将奶茶杯图像替换为咖啡杯图像的视频画面，将该视频画面对应的语音数据替换为咖啡杯对应的语音数据，也可理解为咖啡杯的语音广告词；该实现方式中的语音广告词可以是终端实时请求服务器推送的。

本发明实施例还提供了一种多媒体数据交互方法，应用于服务器，如图2所示，包括：

步骤21：向终端实时推送多媒体数据及对应的交互素材数据。

本发明实施例提供的所述多媒体数据交互方法通过向终端实时推送多媒体数据及对应的交互素材数据；能够支撑终端实现交互素材数据与播放的多媒体数据相结合后再呈现给用户，提升了多媒体数据播放过程中交互素材数据的交互方式的代入感以及交互素材数据的表现力，提高了交互素材的显示效果；在交互素材数据涉及广告内容的情况下，同样提升了多媒体数据播放过程中的广告内容交互方式的代入感，很好的解决了现有技术中视频播放过程中呈现的交互素材无法与当前播放的多媒体数据进行结合而导致的交互素材显示效果较差的问题。

具体的，所述向终端实时推送多媒体数据及对应的交互素材数据，可包括：接收终端发送的多媒体数据获取请求；根据所述多媒体数据获取请求，向所述终端实时推送对应的多媒体数据及交互素材数据。

其中，所述交互素材数据包括：待替换对象信息以及目标对象信息。

这样能够使得终端将相关视频画面中的待替换对象替换为目标对象，具体比如，待替换对象信息为奶茶杯信息，目标对象信息为咖啡杯信息；在多媒体数据中将奶茶杯图像替换为咖啡杯图像。

对应的，所述交互素材数据还包括：与所述目标对象对应的文本信息；和/或，与所述目标对象对应的语音信息的音频数据。

具体的，针对示例一，所述交互素材数据还包括：与所述目标对象对应的文本信息。

在该示例下，服务器还可以将该文本信息的显示形式信息(上述预设形式)发送给终端；还可以将该文本信息的显示位置信息发送给终端；这些信息可以与所述文本信息一起发给终端，也可以分别单独发送，在此不做限定。当然，也可以由终端自身决定所述文本信息的显示形式、显示位置等，在此不做限定。

针对示例二，本发明实施例提供以下三种具体实现方式：

第一种实现方式，所述交互素材数据还包括：与所述目标对象对应的语音信息的音频数据。

该实现方式中的音频数据可以是随着多媒体数据实时推送给终端的。

第二种实现方式，在向终端实时推送多媒体数据及对应的交互素材数据之前，还包括：向所述终端发送第一音频数据以及对应的时间戳信息；所述第一音频数据包括与所述目标对象对应的语音信息的音频数据。

该实现方式中的第一音频数据可理解为是提前(在终端对多媒体数据进行处理之前)发送给终端的。

第三种实现方式，在向终端实时推送多媒体数据及对应的交互素材数据之后，还包括(还可为：在接收终端发送的多媒体数据获取请求之后，还包括)：接收所述终端发送的交互请求；根据所述交互请求中的播放时间点，获取目标音频数据；所述目标音频数据包括与所述目标对象对应的语音信息的音频数据；根据所述交互请求，向所述终端反馈所述目标音频数据。

该实现方式中的目标音频数据可以是终端实时请求服务器推送的。

关于服务器获取目标音频数据，具体可以包括：从已存储的语音数据中选取对应时段(可包含所述播放时间点)的音频数据，作为目标音频数据。

进一步的，在向终端实时推送多媒体数据及对应的交互素材数据之前，还包括(还可为：在接收终端发送的多媒体数据获取请求之前，还包括)：获取所述目标对象的特征参数；根据所述特征参数，获取所述目标对象与预设画面中各个对象之间的匹配度；所述预设画面包括与所述多媒体数据对应(也可理解为与所述多媒体数据获取请求对应)的第一视频数据构成的各个画面；根据所述匹配度，从所述各个画面中获取满足预设条件的至少一组目标画面；根据所述目标画面，得到所述目标对象的至少一个视频片段。

本发明实施例中可以根据得到的视频片段进行目标对象的广告投放。

关于“根据所述目标画面，得到所述目标对象的至少一个视频片段”，可以具体为：获取符合要求的各个待替换物在视频中持续出现的各个时长；将大于阈值的时长对应的视频片段作为目标对象的视频片段。阈值可为5s，但并不以此为限。在待替换物出现的两个视频画面分别对应的播放时刻之间的时差小于或等于预设值的情况下，确认所述两个视频画面是属于所述待替换物持续出现的情况。预设值可以为2s，但并不以此为限。

本发明实施例中，得到目标画面后，可获取各个目标画面中与目标物体对应的待替换物体的位置信息以及形状信息等后续执行替换操作(即将多媒体数据中的待替换对象图像更新为目标对象图像)时所需的信息。

更进一步的，为了得到上述目标对象对应的语音信息的音频数据(具体可理解为配置语音广告词)，在所述交互素材数据包括与所述目标对象对应的语音信息的音频数据的情况下，在向终端实时推送多媒体数据及对应的交互素材数据之前，还包括(还可为：在接收终端发送的多媒体数据获取请求之前，还包括)：获取所述视频片段中的目标人物的动作信息；从所述动作信息中，获取所述目标对象适配的目标动作信息；针对所述目标动作信息，匹配所述目标动作信息对应的文本信息；根据所述目标动作信息对应的文本信息，配置针对所述目标对象的语音信息。

其中，所述目标动作信息对应的文本信息可以理解为剧情信息。目标人物可以包括手持所述目标对象的人物，还可以包括面向所述目标对象的人物，还可以包括身体部分指向所述目标对象的人物，在此不作限定。

具体的，所述针对所述目标动作信息，匹配所述目标动作信息对应的文本信息，包括：根据所述目标动作信息中的动作类型信息以及各个动作类型对应的数量信息，得到所述目标动作信息对应的内容类别；根据所述目标动作信息对应的内容类别，匹配所述目标动作信息对应的文本信息。

其中，内容类别可以理解为剧情类别。

进一步的，在所述根据所述目标动作信息对应的文本信息，配置针对所述目标对象的语音信息之前，还包括：从第二音频数据中获取所述目标人物的语音数据；根据所述语音数据，得到所述目标人物的语音特征信息；所述根据所述目标动作信息对应的文本信息，配置针对所述目标对象的语音信息，包括：根据所述语音特征信息和目标动作信息对应的文本信息，配置针对所述目标对象的语音信息；其中，所述第二音频数据包括所述第一视频数据对应的音频数据。

也就是提前提取目标人物的语音特征，然后利用提取的语音特征针对目标对象进行配音。

本发明实施例中关于终端将待替换对象替换为目标对象的操作，还可以包括增加特效的操作，比如对目标对象增加目标特效等，在此不作限定。

下面结合终端和服务器等多侧对本发明实施例提供的所述多媒体数据交互方法进行进一步说明，触发操作以点击视频播放界面上的广告信息为例，目标物体以广告物为例，终端以手机为例。

针对上述技术问题，本发明实施例提供了一种多媒体数据交互方法，可具体包含以下部分：

部分1、广告特征标签化

a.广告物特征标签化，方式示例如下：

1)建立标签库，按照标签库中的标签，为广告物打上标签。标签库主要是为了同一个广告物，打出来的标签保持一致；

2)可使用物体识别能力，对广告素材(广告信息)进行识别，统一打上识别后的标签。

b.标签可包括广告物的如下特征信息中的至少一种：

名称信息、形状信息、宽高比信息、品类信息以及品牌信息。

部分2、服务器按广告物的特征信息进行广告投放

a.可使用ai(人工智能)物体识别、人脸识别能力，对需要投放广告的视频片段进行分析，识别出与广告物相似或相同的物体(可根据广告物的特征信息的综合匹配度进行识别)。

b.投放广告，按照既定规则或者匹配度进行投放。匹配度计算方法可如下：

最高匹配度是根据各维度对结果的影响定义出的最高值，可以根据实际业务需求调整；

综合匹配度＝名称匹配度+品类匹配度类+形状匹配度+宽高比匹配度+品牌匹配度。

c.广告投放方法：

1)按照投放广告物与视频内容(视频画面中的各个对象)的匹配度，由高至低选择视频画面投放的广告物；

2)按照出现时长，过滤(排除)持续出现时间小于5s的视频内容(同一视频内容出现的视频画面之间相隔小于2s，视为是持续出现，在一个出现时长内)；

3)按照规定的广告物出现的时长，优先按照上述1)进行投放。

部分3、服务器可使用ai能力对视频片段进行分析处理

视频理解：

a.获取广告物投放的视频片段(可对已有视频进行分段，分析)后，使用ai视频理解能力进行分析，以特定文本结构输出该视频内容，比如：

人物+时间(非必须)+地点(非必须)+干什么(动作+目标对象)。

b.对输出的内容科按照动作类型及动作数量进行分类；

比如：人物a在喝奶茶；人物b在喝咖啡；人物c拿起了奶茶，人物c放下了奶茶，人物c拿起了茶水；人物d倒牛奶；

上述中：“人物a在喝奶茶”、“人物b在喝咖啡”归为一类。

“人物c拿起了奶茶，人物c放下了奶茶，人物c拿起了茶水”为一类；

“人物d倒牛奶”为一类；

c.为b中的每一种分类设定广告剧本。

如，“xxx拿起了饮料a，xxx放下了饮料a，xxx拿起了饮料b”这类动作，对应的剧本是：

把饮料b，替换为广告物；

xxx在把饮料a放回后，说句台词“还是饮料b对我口味”；

上述中，xxx表示人物；饮料a，饮料b，表示同一品类，但不是同一种物体。

进一步的，本发明实施例中还包括语音特征获取：

a.获取广告投放的视频片段后，使用人物识别检测该画面中是否有人物存在；

b.当画面中存在人物时，检测该人物在本视频中所有片段中的语音信息，并对其语音提取音频信息；

这样能够便于后续针对该人物对于广告物配置语音广告词。

部分4、广告交互

在执行广告交互之前，本发明实施例提供的方案可包括以下内容：

(1)服务器可针对视频内容与广告物进行分析，分别识别出视频内容中与广告物相关的人、物、动作、标识logo等，以及广告物的品牌、品类等(见部分2)；

(2)服务器可针对识别结果，将视频内容与广告物分别以特定格式进行保存。该格式可以是json、xml格式文件，或是mango等数据库类型。

针对视频内容部分，至少包含以下信息：识别对象名称、动作、位置、在该视频中出现的时间段、品类、大小、形状、宽高比、品牌(可选)等信息。该信息可保存在服务器或者媒资库。

针对广告物部分，至少包含以下信息：名称、品类、品牌、形状、宽高比。该信息可保存在服务器，或者广告平台。

(3)服务器(可为ai服务端或其它服务端)从广告平台获取该视频需要投放的广告物，并用该广告物与需要投放的视频内容进行匹配。按照匹配规则，匹配度由高至低，把匹配结果返回给广告平台。广告平台可以按照默认业务规则进行投放(广告优先出现在匹配度较高的视频画面中)，也可以人工进行调整。广告平台可以将投放结果发送给服务器。

当然，关于上述匹配操作也可以由服务器完成。

广告交互示例方案1：广告信息与广告物交互

a.可使用app监听广告信息的点击事件；

b.用户使用手机观看视频时，手机从服务器获取需要待替换物体的信息(上述操作(2)中，可以获取待替换对象的形状、位置等信息)，以及从服务器或广告平台获取广告物(目标对象)的相关信息等交互素材(进行缓冲，临时保存)。

c.当用户点击广告信息后，手机端可根据视频片段中待替换对象的形状等信息，把广告物的图像进行局部变形处理，使之与视频画面中待替换对象的形状保持一致，然后进行替换；也可以先改变广告物图像的大小，使两者形状保持接近，再以视频画面中待替换对象的图片作为蒙版，对广告物图像多余部分进行裁剪，然后进行替换；还可以采用视频扣图技术，把视频画面中待替换对象图像扣除，再使用广告物图像进行替换。

本操作中的视频片段可以包括：视频画面包含被点击的广告信息对应的广告物的、预设时间段内的视频片段；预设时间段可以是满足第一条件的时间段，时间段可以是满足第一条件的第一个时间段，也可以是满足第一条件的第一个时间段等多个时间段，甚至是整个视频内容中未被播放的剩余视频内容中所有符合第一条件的时间段。第一条件可以具体包括：广告信息被点击时刻起视频画面持续包含广告信息对应的广告物。

d.视频片段中的待替换对象图像被替换成广告物图像后，被点击的广告信息同时变化为针对该广告物的另一种形式的广告信息。如图3和图4所示，原有的广告信息：x咖啡的优惠券，更换为了广告信息“xxx都爱喝的咖啡，你不来一杯吗”。

具体的，图3中，是人物a在喝奶茶，当前投放的是x咖啡的优惠券；

当用户点击该优惠券后，ai替换掉奶茶，变为x咖啡，同时，原来的广告词(被点击的广告信息)变更为：“人物a都爱喝的咖啡，你不来一杯吗”。

关于变化后的广告信息(图4中的广告信息)的显示位置，不限于播放器悬浮广告，也可以是banner广告等形式；其中，变化后的广告信息和广告物所在的视频画面可在同一个页面中。

终端可以在本示例的操作b中一并获取图4中的广告信息。

广告交互示例方案2：广告信息根据视频内容变换

在本示例执行之前，本发明实施例提供的方案还可包括以下内容：

(4)服务器获取预设视频内容的各个播放时间点，可调用ai能力对各个播放时间点起的视频片段进行分析，获取对应的动作分类(参见部分3)；

(5)服务器获取视频片段的动作分类后，可以按照剧本匹配度(剧本匹配中可包含对象的品类匹配，剧本匹配度可包含动作以及对象的匹配等)为各个视频片段分配一个剧本；还可以是：

服务器把动作分类上传给广告平台，借由广告平台按照剧本匹配度，为各个视频片段分配一个剧本，并将分配结果反馈给服务器；在此不作限定。

(6)服务器获取剧本后，按照剧本对各个视频片段对应的音频进行处理，并存储，如：改变目标人物的台词，增加配音等(可事先离线处理好，达到实时改变的目的)。

本示例方案可具体包括(以上述第三种实现方式为例)：

a.可使用app监听广告信息的点击事件；

c.当用户点击广告信息后，手机端可记录用户点击广告信息时的播放时间点(以选择广告物对应的音频，终端侧关闭当前视频内容的原音频)；并将播放时间点发送给服务器；以及，

手机端可根据视频片段中待替换对象的形状等信息，把广告物的图像进行局部变形处理，使之与视频画面中待替换对象的形状保持一致，然后进行替换；也可以先改变广告物图像的大小，使两者形状保持接近，再以视频画面中待替换对象的图片作为蒙版，对广告物图像多余部分进行裁剪，然后进行替换；还可以采用视频扣图技术，把视频画面中待替换对象图像扣除，再使用广告物图像进行替换。

本操作中的视频片段可参见上一示例中的相关解释，在此不再赘述。

d.服务器根据手机端发送的播放时间点，获取对应的音频，并发送给手机端。

e.手机端收到服务器发送的音频后，根据音频的时间戳信息以及操作c中处理后的视频片段的时间戳信息，将该音频以及操作c中处理后的视频片段进行匹配播放。

f.当操作d中服务器发送的音频以及操作c中处理后的视频片段播放完成后，继续按照原有的视频进度进行播放(播放后续的原视频以及音频)；

也就是，操作c中处理的视频片段替换掉了原视频的相关视频片段，操作d中服务器发送的音频替换掉了对应时间段的原音频。

本示例的方案具体可如图5和图6所示，图5中是人物a喝着奶茶，看向远方说道“那边那个人是谁”。当用户点击x咖啡广告信息后，视频变成了：人物a喝着x咖啡，音频变成了用人物a的声音说出的“喝杯x咖啡压压惊”。

由上可知，本发明实施例提供的方案：

(1)可以让广告物与视频内容进行交互，让广告物具备更多表现形态，增加广告物的表现力，同时让广告物针对视频内容进行自适应，达到最优效果；

(2)可以让广告物更有代入感，增加用户对于广告物的认同感。

本发明实施例还提供了一种多媒体数据交互装置，应用于终端，如图7所示，包括：

第一处理模块71，用于在播放接收到的多媒体数据的过程中，若检测到触发操作，则根据预设时间段内接收到的交互素材数据，将预设时间段内接收到的多媒体数据进行更新处理；

第一播放模块72，用于播放更新处理后的多媒体数据；

其中，所述预设时间段为检测到所述触发操作的时刻之后的时间段。

本发明实施例提供的所述多媒体数据交互装置通过在播放接收到的多媒体数据的过程中，若检测到触发操作，则根据预设时间段内接收到的交互素材数据，将预设时间段内接收到的多媒体数据进行更新处理；播放更新处理后的多媒体数据；其中，所述预设时间段为检测到所述触发操作的时刻之后的时间段；能够实现交互素材数据与播放的多媒体数据相结合后再呈现给用户，提升了多媒体数据播放过程中交互素材数据的交互方式的代入感以及交互素材数据的表现力，提高了交互素材的显示效果；很好的解决了现有技术中视频播放过程中呈现的交互素材的显示效果较差的问题。

其中，所述交互素材数据包括：待替换对象信息以及目标对象信息；所述第一处理模块，包括：第一处理子模块，用于将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据。

针对示例一，所述交互素材数据还包括：与所述目标对象对应的文本信息；所述第一处理模块还包括：第一匹配子模块，用于在将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据之后，将所述目标视频数据与所述文本信息相匹配；所述第一播放模块，包括：第一显示子模块，用于在所述目标视频数据的播放画面中，以预设形式显示所述文本信息。

针对示例二，本发明实施例提供以下三种具体实现方式：

第一种实现方式，所述交互素材数据还包括：与所述目标对象对应的语音信息的音频数据；所述第一处理模块还包括：第二处理子模块，用于在将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据之后，将所述多媒体数据中存在所述待替换对象的画面对应的音频数据替换为所述语音信息的音频数据。

第二种实现方式，所述的多媒体数据交互装置，还包括：第一接收模块，用于在播放接收到的多媒体数据之前，接收服务器下发的第一音频数据以及对应的时间戳信息；所述第一音频数据包括与所述目标对象对应的语音信息的音频数据；所述第一处理模块还包括：第一获取子模块，用于在将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据之后，获取检测到所述触发操作时的播放时间点；第二获取子模块，用于根据所述播放时间点和所述时间戳信息，从所述第一音频数据中获取与所述目标视频数据对应的目标音频数据；第三处理子模块，用于将所述多媒体数据中的音频数据替换为所述目标音频数据。

第三种实现方式，所述的多媒体数据交互装置，还包括：第一获取模块，用于在根据预设时间段内接收到的交互素材数据，将预设时间段内接收到的多媒体数据进行更新处理之前，获取检测到所述触发操作时的播放时间点；第一发送模块，用于根据所述播放时间点，向服务器发送交互请求；第二接收模块，用于接收所述服务器根据所述交互请求反馈的目标音频数据；所述目标音频数据包括与所述目标对象对应的语音信息的音频数据；所述第一处理模块还包括：第四处理子模块，用于在将所述多媒体数据中的待替换对象的图像数据更新为目标对象的图像数据，得到目标视频数据之后，将所述多媒体数据中的音频数据替换为所述目标音频数据。

其中，上述终端侧多媒体数据交互方法的所述实现实施例均适用于该多媒体数据交互装置的实施例中，也能达到相同的技术效果。

本发明实施例还提供了一种多媒体数据交互装置，应用于服务器，如图8所示，包括：

第一推送模块81，应用于向终端实时推送多媒体数据及对应的交互素材数据。

本发明实施例提供的所述多媒体数据交互装置通过向终端实时推送多媒体数据及对应的交互素材数据；能够支撑终端实现交互素材数据与播放的多媒体数据相结合后再呈现给用户，提升了多媒体数据播放过程中交互素材数据的交互方式的代入感以及交互素材数据的表现力，提高了交互素材的显示效果；在交互素材数据涉及广告内容的情况下，同样提升了多媒体数据播放过程中的广告内容交互方式的代入感，很好的解决了现有技术中视频播放过程中呈现的交互素材无法与当前播放的多媒体数据进行结合而导致的交互素材显示效果较差的问题。

其中，所述交互素材数据包括：待替换对象信息以及目标对象信息。

对应的，所述交互素材数据还包括：与所述目标对象对应的文本信息；和/或，与所述目标对象对应的语音信息的音频数据。

具体的，针对示例一，所述交互素材数据还包括：与所述目标对象对应的文本信息。

针对示例二，本发明实施例提供以下三种具体实现方式：

第一种实现方式，所述交互素材数据还包括：与所述目标对象对应的语音信息的音频数据。

第二种实现方式，所述的多媒体数据交互装置，还包括：第二发送模块，用于在向终端实时推送多媒体数据及对应的交互素材数据之前，向所述终端发送第一音频数据以及对应的时间戳信息；所述第一音频数据包括与所述目标对象对应的语音信息的音频数据。

第三种实现方式，所述的多媒体数据交互装置，还包括：第三接收模块，用于在向终端实时推送多媒体数据及对应的交互素材数据之后，接收所述终端发送的交互请求；第二获取模块，用于根据所述交互请求中的播放时间点，获取目标音频数据；所述目标音频数据包括与所述目标对象对应的语音信息的音频数据；第一反馈模块，用于根据所述交互请求，向所述终端反馈所述目标音频数据。

进一步的，所述的多媒体数据交互装置，还包括：第三获取模块，用于在向终端实时推送多媒体数据及对应的交互素材数据之前，获取所述目标对象的特征参数；第四获取模块，用于根据所述特征参数，获取所述目标对象与预设画面中各个对象之间的匹配度；所述预设画面包括与所述多媒体数据对应的第一视频数据构成的各个画面；第五获取模块，用于根据所述匹配度，从所述各个画面中获取满足预设条件的至少一组目标画面；第二处理模块，用于根据所述目标画面，得到所述目标对象的至少一个视频片段。

更进一步的，在所述交互素材数据包括与所述目标对象对应的语音信息的音频数据的情况下，所述的多媒体数据交互装置，还包括：第六获取模块，用于在向终端实时推送多媒体数据及对应的交互素材数据之前，获取所述视频片段中的目标人物的动作信息；第七获取模块，用于从所述动作信息中，获取所述目标对象适配的目标动作信息；第一匹配模块，用于针对所述目标动作信息，匹配所述目标动作信息对应的文本信息；第一配置模块，用于根据所述目标动作信息对应的文本信息，配置针对所述目标对象的语音信息。

具体的，所述第一匹配模块，包括：第五处理子模块，用于根据所述目标动作信息中的动作类型信息以及各个动作类型对应的数量信息，得到所述目标动作信息对应的内容类别；第二匹配子模块，用于根据所述目标动作信息对应的内容类别，匹配所述目标动作信息对应的文本信息。

进一步的，所述的多媒体数据交互装置，还包括：第八获取模块，用于在所述根据所述目标动作信息对应的文本信息，配置针对所述目标对象的语音信息之前，从第二音频数据中获取所述目标人物的语音数据；第三处理模块，用于根据所述语音数据，得到所述目标人物的语音特征信息；所述第一配置模块，包括：第一配置子模块，用于根据所述语音特征信息和目标动作信息对应的文本信息，配置针对所述目标对象的语音信息；其中，所述第二音频数据包括所述第一视频数据对应的音频数据。

其中，上述服务器侧多媒体数据交互方法的所述实现实施例均适用于该多媒体数据交互装置的实施例中，也能达到相同的技术效果。

其中，上述终端侧或服务器侧的多媒体数据交互方法的所述实现实施例均适用于该通信设备的实施例中，也能达到对应相同的技术效果。

其中，上述终端侧或服务器侧的多媒体数据交互方法的所述实现实施例均适用于该计算机可读存储介质的实施例中，也能达到对应相同的技术效果。

需要说明的是，此说明书中所描述的许多功能部件都被称为模块/子模块，以便更加特别地强调其实现方式的独立性。

本发明实施例中，模块/子模块可以用软件实现，以便由各种类型的处理器执行。举例来说，一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块，举例来说，其可以被构建为对象、过程或函数。尽管如此，所标识模块的可执行代码无需物理地位于一起，而是可以包括存储在不同位里上的不同的指令，当这些指令逻辑上结合在一起时，其构成模块并且实现该模块的规定目的。

实际上，可执行代码模块可以是单条指令或者是许多条指令，并且甚至可以分布在多个不同的代码段上，分布在不同程序当中，以及跨越多个存储器设备分布。同样地，操作数据可以在模块内被识别，并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集，或者可以分布在不同位置上(包括在不同存储设备上)，并且至少部分地可以仅作为电子信号存在于系统或网络上。

在模块可以利用软件实现时，考虑到现有硬件工艺的水平，所以可以以软件实现的模块，在不考虑成本的情况下，本领域技术人员都可以搭建对应的硬件电路来实现对应的功能，所述硬件电路包括常规的超大规模集成(vlsi)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备，诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述原理前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李立锋;刘昕;颜忠伟;叶军;吴嘉旭;颜伟婷;王斌
技术所有人：咪咕视讯科技有限公司;咪咕文化科技有限公司
我是此专利的发明人

上一篇：IPTV企业用户双网管理系统及方法与流程
上一篇：IPTV多分屏编码播放控制方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。