一种具备交互功能的音视频创建、播放方法及装置与流程

文档序号：17926331发布日期：2019-06-15 00:26阅读：206来源：国知局

本发明实施例涉及信息处理技术领域，特别涉及一种具备交互功能的音视频创建、播放方法及装置。

背景技术：

现有技术中，电视节目和语音节目播放时，通常只能实现视频或音频的播放功能，支持快进、快退、播放、暂停等通用操作。随着计算机技术的发展和普及，人机交互等智能技术在人们生活的各个方面提供方便快捷的服务。当用户在观看电影或者电视节目的过程中，对播放的内容会产生很多相关的问题，需要针对该问题的相关互动。目前针对音视频的互动，都局限于复杂的转录或者画面元素的解析。例如当背景在播放某一歌曲时，而用户需要了解该歌曲信息时，通常需要借助其他设备，如通过手机摇一摇搜索歌曲，或者，通过本设备内录后联网搜索，这些方式通常都比较繁琐，如何便捷地在播放过程中对播放内容的相关知识点和用户进行快速互动成为一个亟待解决的问题。

技术实现要素：

针对现有技术中的问题，本发明提供一种具备交互功能的音视频创建、播放方法及装置。

本发明提供一种具备交互功能的音视频创建方法，其特征在于，所述方法包括：

步骤101，获取待处理的音视频资源；

步骤102，将所述音视频资源转换为内容数据以及与内容数据对应的播放时间；

步骤103，创建多个时间标签，所述时间标签与音视频播放时间相关联；

步骤104，根据时间标签，对内容数据进行切分，提取一个或多个关键内容数据，关联所述时间标签与所述一个或多个关键内容数据；

步骤105，创建对应于所述一个或多个关键内容数据的交互组件；

步骤106，将属于同一时间标签的关键内容数据及其对应的交互组件与音视频资源片段绑定。

进一步地，所述步骤102具体包括

对音视频资源进行语音识别以及图像识别，输出识别结果，所述识别结果包括内容数据以及与内容数据对应的播放时间；

以播放时间为索引，存储播放时间及内容数据。

进一步地，步骤104具体包括

对内容数据进行分析，将所述内容数据拆分为一个或多个语义段落；

基于所述语义段落，确定段落内分词内容关键度，提取关键内容数据；

关联所述时间标签与所述一个或多个关键内容数据。

进一步地，所述交互组件包括针对关键内容数据的解释，或者与关键内容数据相关联的应用、插件或配置文件。

进一步地，所述方法还包括

步骤107，对绑定关键内容标签以及关键内容数据交互组件的音视频资源片段进行封装，构建可交互的音视频资源；

步骤108，存储可交互的音视频资源。

本发明还提供一种具备交互功能的音视频播放方法，其特征在于，所述具备交互功能的音视频是根据在前的具备交互功能的音视频创建方法创建；所述播放方法进一步包括：

步骤201，判断是否接收用户指令，若是，确定接收用户指令时的音视频资源的播放时间；

步骤202，提取所述播放时间对应的时间标签及关键内容数据；

步骤203，判断用户指令是否符合第一触发条件，若符合第一触发条件，暂停播放；

步骤204，根据所述用户指令和所述关键内容数据，向用户提供与用户指令相关的交互服务。

进一步地，所述用户指令可以包括：语音交互指令，和/或体感交互指令，和/或触控交互指令。

进一步地，所述步骤201还包括

步骤2011，若未接收用户指令，判断当前播放时间对应的时间标签是否存在关键内容数据；

步骤2012，若存在关键内容数据，进一步判断关键内容数据属性；

步骤2013，若标签属性为主动展示，调用关键内容数据交互组件与用户交互。

进一步地，所述判断用户指令是否符合第一触发条件具体还包括

步骤2031，解析用户指令，转换用户指令为第一文本数据；

步骤2032，判断所述第一文本数据是否符合所述第一触发条件，其中所述第一触发条件包括所述第一文本数据与关键内容数据相似度大于第一预设阈值。

进一步地，所述向用户提供与用户指令相关的交互服务包括以下之一种或几种：

提供关键内容数据的解释；

调用与关键内容数据相关联的应用、插件或配置文件，通过语音交互或gui交互的形式与用户交流。

本发明还提供一种具备交互功能的音视频创建装置，其特征在于，所述装置包括：

获取模块，用于获取待处理的音视频资源；

转换模块，用于将所述音视频资源转换为内容数据以及与内容数据对应的播放时间；

时间处理模块，用于创建多个时间标签，所述时间标签包括音视频播放时间，或者音视频播放时间区间；

内容处理模块，用于根据时间标签，对内容数据进行切分，提取一个或多个关键内容数据，关联所述时间标签与所述一个或多个关键内容数据；

组件创建模块，用于创建对应于所述一个或多个关键内容数据的交互组件；

绑定模块，用于将属于同一时间标签的关键内容数据及其对应的交互组件与音视频资源片段绑定。

进一步地，所述转换模块具体用于

对音视频资源进行语音识别以及图像识别，输出识别结果，所述识别结果包括内容数据以及与内容数据对应的播放时间；

以播放时间为索引，存储播放时间及内容数据。

进一步地，所述内容处理模块具体用于

对内容数据进行分析，将所述内容数据拆分为一个或多个语义段落；

基于所述语义段落，确定段落内分词内容关键度，提取关键内容数据；

关联所述时间标签与所述一个或多个关键内容数据。

进一步地，所述交互组件包括针对关键内容数据的解释，或者与关键内容数据相关联的应用、插件或配置文件。

进一步地，所述装置还包括

封装模块，用于对绑定关键内容标签以及关键内容数据交互组件的音视频资源片段进行封装，构建可交互的音视频资源；

存储模块，用于存储可交互的音视频资源。

本发明还提供一种具备交互功能的音视频播放装置，其特征在于，所述具备交互功能的音视频是根据在前的具备交互功能的音视频创建方法创建；所述装置包括：

接收模块，用于判断是否接收用户指令，若是，确定接收用户指令时的音视频资源的播放时间；

提取模块，用于提取所述播放时间对应的时间标签及关键内容数据；

判断模块，用于判断用户指令是否符合第一触发条件，若符合第一触发条件，暂停播放；

交互模块，用于根据所述用户指令和所述关键内容数据，向用户提供与用户指令相关的交互服务。

进一步地，所述用户指令可以包括：语音交互指令，和/或体感交互指令，和/或触控交互指令。

进一步地，所述装置进一步包括

内容判断模块，若未接收用户指令，判断当前播放时间对应的时间标签是否存在关键内容数据；

所述标签判断模块还用于若存在关键内容数据，进一步判断关键内容数据属性；

调用模块，若标签属性为主动展示，调用关键内容数据交互组件与用户交互。

进一步地，所述判断用户指令是否符合第一触发条件具体还包括

解析用户指令，转换用户指令为第一文本数据；

判断所述第一文本数据是否符合所述第一触发条件，其中所述第一触发条件包括所述第一文本数据与关键内容数据相似度大于第一预设阈值。

进一步地，所述向用户提供与用户指令相关的交互服务包括以下之一种或几种：

提供关键内容数据的解释；

调用与关键内容数据相关联的应用、插件或配置文件，通过语音交互或gui交互的形式与用户交流。

本发明还提供一种终端设备，其特征在于，所述终端设备包括处理器和存储器，所述存储器中存储有可在处理器上运行的计算机程序，所述计算机程序在被所述处理器执行时实现如上所述的方法。

本发明还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。

通过本发明的方法，能够更便捷地构建基于时间点的内容交互服务关联，从而和用户进行快速互动，从而更加贴合用户的需求，提升了用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中具备交互功能的音视频创建方法。

图2是本发明一个实施例中具备交互功能的音视频播放方法。

图3是本发明一个实施例中具备交互功能的音视频创建装置。

图4是本发明一个实施例中具备交互功能的音视频播放装置。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明，而非对本发明说明书技术方案的限定，在不冲突的情况下，本发明的实施例以及实施例的技术特征可以相互结合。

本发明的方法可以应用于任何具有处理和/或播放功能的装置或设备，如计算机、移动终端、车载设备、tv等。

实施例一

以下对本发明的具备交互功能的音视频创建方法进行说明，参见图1，所述方法包括：

步骤101，获取待处理的音视频资源；

步骤102，将所述音视频资源转换为内容数据以及与内容数据对应的播放时间；

步骤103，创建多个时间标签，所述时间标签与音视频播放时间相关联；

步骤104，根据时间标签，对内容数据进行切分，提取一个或多个关键内容数据，关联所述时间标签与所述一个或多个关键内容数据；

步骤105，创建对应于所述一个或多个关键内容数据的交互组件；

步骤106，将属于同一时间标签的关键内容数据及其对应的交互组件与音视频资源片段绑定。

优选的，所述步骤102具体包括

对音视频资源进行语音识别以及图像识别，输出识别结果，所述识别结果包括内容数据以及与内容数据对应的播放时间；

以播放时间为索引，存储播放时间及内容数据。

所述的内容数据优选地为文本内容数据。

具体地，对于音视频类节目a，节目总时长为30分钟，对音视频资源的视频和音频分别进行分析，对于视频，可以根据播放时间顺序，逐帧对视频帧图像进行特征检测，提取视频帧图像中的信息元素，如播放时间00分05秒-00分18秒，视频帧图像中出现小狗，卡车，播放时间03分12秒，视频帧图像中出现航天飞机，等；对于音频，如果存在字幕文件，可直接提取包含时间轴的文本，如果不存在字幕文件，可通过语音分析，转换为文本，及其对应的播放时间，例如该节目中播放时间00分05秒-00分18秒，基于音频数据转换的文字内容数据为“看一下旧卡车中有没有其他遗漏”，例如，节目15分17秒开始背景音频为歌曲，提取歌词文本。可以通过数据结构表存储转换的内容数据以及与内容数据对应的播放时间。

具体地，所述步骤103中创建时间标签，时间标签可以对应时间点，也可以对应时间段，即所述时间标签包括音视频播放时间，或者音视频播放时间区间，例如时间标签可以是xx分xx秒，或者xx分xx秒-xx分xx秒。

具体地，步骤104包括

根据时间标签，对内容数据进行分析，

将所述内容数据拆分为一个或多个语义段落；

基于所述语义段落，确定段落内分词内容关键度，提取关键内容数据；

关联所述时间标签与所述一个或多个关键内容数据。

具体地，在步骤105，创建对应于所述一个或多个关键内容数据的交互组件，所述交互组件包括针对关键内容数据的解释，或者与关键内容数据相关联的应用、插件或配置文件。例如针对时间标签03分12秒，其关键内容数据为航天飞机，可以通过网络抓取航天飞机的解释，所述解释可以包括类似“航天飞机(spaceshuttle)，是一种有人驾驶、可重复使用的、往返于太空和地面之间的航天器。”这种基本名词解释，还可以包括其诞生历史，基本结构等等；此外，还可以关联与航天飞机相关的应用、插件或配置文件，例如关联到与航天飞机相关知识问答app。例如针对时间标签15分17秒-16分57秒，其关键数据为歌曲，以及歌词片段。通过互联网共享平台，根据歌词片段查找对应的歌词片段的解释，包括歌曲名称，歌手，专辑名称等，还是与该歌曲关联的音乐播放/下载平台，例如xx音乐，中的链接。此外，还可以关联与该歌曲相关的音乐应用、插件或配置文件。

在完善关键内容数据的交互组件后，可以构建知识图谱，从而把与关键内容数据相关的知识体系系统化地展示给用户。所述知识图谱可以是一种语义网络，一种基于图形的数据结构，所述知识图谱包含复数个数据节点，以及指示数据节点之间关系的一个或多个连接边，其中所述复数个数据节点包含一个或多个时间节点、一个或多个关键内容数据节点和一个或多个交互组件节点，所述连接边对应于时间、关键内容数据与交互组件节点的逻辑关联。例如时间节点“时间标签15分17秒-16分57秒”与关键内容数据节点“歌曲”关联，关键内容数据节点“歌曲”与交互组件节点“歌名，歌手”关联。本领域技术人员知晓，同一时间节点可以连接多个关键内容数据节点，一个关键内容数据节点也可以连接多个交互组件节点。连接到关键内容数据节点的多个交互组件节点具有不同的优先指数，该优先指数可以根据使用频率，用户选择偏好动态调整。

优选地，所述方法还可以包括

步骤107，对绑定关键内容标签以及关键内容数据交互组件的音视频资源片段进行封装，构建可交互的音视频资源；

步骤108，存储可交互的音视频资源。

具体地，通过对绑定关键内容标签以及关键内容数据交互组件的音视频资源片段进行封装使得音视频资源与交互组件能融合，从而在离线状态也能实现交互。

实施例二

以下对本发明的具备交互功能的音视频播放方法进行说明，参见图2，所述播放方法进一步包括：

步骤201，判断是否接收用户指令，若是，确定接收用户指令时的音视频资源的播放时间；

步骤202，提取所述播放时间对应的时间标签及关键内容数据；

步骤203，判断用户指令是否符合第一触发条件，若符合第一触发条件，暂停播放；

步骤204，根据所述用户指令和所述关键内容数据，向用户提供与用户指令相关的交互服务。

其中播放的音视频资源可根据实施例一的方式创建。

具体地，所述用户指令可以包括：语音交互指令，和/或体感交互指令，和/或触控交互指令。

例如在音视频播放的过程中，通过语音录入设备接收用户发出的语音指令：这是什么歌？或者通过触控设备接收用户点击屏幕中的特定目标图像，或者通过触控或键盘接收用户通过对话界面输入指令，或者利用体感交互设备捕捉用户的动作，获取用户动作指令。

具体地在步骤201，用户发出指令：这是什么歌？，此时记录播放时间为15分50秒。在步骤202，播放时间为15分50秒隶属于时间标签15分17秒-16分57秒，提取该时间标签及其关键内容数据。

具体地，所述步骤201还包括

步骤2011，若未接收用户指令，判断当前播放时间对应的时间标签是否存在关键内容数据；

步骤2012，若存在关键内容数据，进一步判断关键内容数据属性；

步骤2013，若标签属性为主动展示，调用关键内容数据交互组件与用户交互。

例如，对关键内容数据设置属性值0或1，0代表关键内容数据为被动展示；1代表关键内容数据为主动展示。在音视频播放到03分12秒，其关键内容数据为航天飞机，且该关键内容数据的属性值为1，则在视频中航天飞机图像部分以特效字幕形式展示航天飞机的解释；此外还可以是暂停播放，关联与航天飞机相关的互动问答助手：向用户提问“亲爱的小朋友，你知道航天飞机是什么吗？”从而进入互动问答助手的操作，并在用户结束互动问答助手后，返回播放界面，恢复播放。

此外，可以设置音视频资源交互的主动能力，由用户选择是否开启，若开启则激活关键内容数据属性判断，即执行步骤2011-2013；若未开启，则不执行步骤2011-2013。

具体地，步骤203中，所述判断用户指令是否符合第一触发条件具体还包括

步骤2031，解析用户指令，转换用户指令为第一文本数据；

步骤2032，判断所述第一文本数据是否符合所述第一触发条件，其中所述第一触发条件包括所述第一文本数据与关键内容数据相似度大于第一预设阈值。

具体地，所述步骤204中，所述向用户提供与用户指令相关的交互服务包括以下之一种或几种：

提供关键内容数据的解释；

调用与关键内容数据相关联的应用、插件或配置文件，通过语音交互或gui交互的形式与用户交流。

例如，基于用户在15分50秒发出的语音指令：这是什么歌？以及根据时间标签15分17秒-16分57秒的关键内容数据，通过匹配知识图谱，确定当前匹配关键知识节点为“歌曲”。则进一步，查找关联到关键知识节点“歌曲”的交互组件节点。可以根据所述交互组件节点的优先指数选择具有最高优先指数的交互组件节点向用户反馈与歌曲相关的互动，例如，可以以特效字幕的形式显示歌曲名称，歌手，专辑名称等，或者暂停播放，向用户显示该歌曲在音乐播放/下载平台的链接，快捷图标等。根据用户的选择，可以进一步以浮动界面显示音乐播放/下载平台应用、插件的操作界面，或者跳转至音乐播放/下载平台应用、插件的操作界面。

实施例三

以下对本发明的具备交互功能的音视频创建装置进行说明，参见图3，所述装置包括：

获取模块，用于获取待处理的音视频资源；

转换模块，用于将所述音视频资源转换为内容数据以及与内容数据对应的播放时间；

时间处理模块，用于创建多个时间标签，所述时间标签包括音视频播放时间，或者音视频播放时间区间；

内容处理模块，用于根据时间标签，对内容数据进行切分，提取一个或多个关键内容数据，关联所述时间标签与所述一个或多个关键内容数据；

组件创建模块，用于创建对应于所述一个或多个关键内容数据的交互组件；

绑定模块，用于将属于同一时间标签的关键内容数据及其对应的交互组件与音视频资源片段绑定。

优选地，所述转换模块具体用于

对音视频资源进行语音识别以及图像识别，输出识别结果，所述识别结果包括内容数据以及与内容数据对应的播放时间；

以播放时间为索引，存储播放时间及内容数据。

优选地，所述内容处理模块具体用于

对内容数据进行分析，将所述内容数据拆分为一个或多个语义段落；

基于所述语义段落，确定段落内分词内容关键度，提取关键内容数据；

关联所述时间标签与所述一个或多个关键内容数据。

优选地，所述交互组件包括针对关键内容数据的解释，或者与关键内容数据相关联的应用、插件或配置文件。

优选地，所述装置还包括

封装模块，用于对绑定关键内容标签以及关键内容数据交互组件的音视频资源片段进行封装，构建可交互的音视频资源；

存储模块，用于存储可交互的音视频资源。

实施例四

以下对本发明的具备交互功能的音视频播放装置进行说明，参见图4，所述装置包括：

接收模块，用于判断是否接收用户指令，若是，确定接收用户指令时的音视频资源的播放时间；

提取模块，用于提取所述播放时间对应的时间标签及关键内容数据；

判断模块，用于判断用户指令是否符合第一触发条件，若符合第一触发条件，暂停播放；

交互模块，用于根据所述用户指令和所述关键内容数据，向用户提供与用户指令相关的交互服务。

其中播放的音视频资源可根据实施例一的方式创建。

优选地，所述用户指令可以包括：语音交互指令，和/或体感交互指令，和/或触控交互指令。

优选地，所述装置进一步包括

内容判断模块，若未接收用户指令，判断当前播放时间对应的时间标签是否存在关键内容数据；

所述标签判断模块还用于若存在关键内容数据，进一步判断关键内容数据属性；

调用模块，若标签属性为主动展示，调用关键内容数据交互组件与用户交互。

优选地，所述判断用户指令是否符合第一触发条件具体还包括

解析用户指令，转换用户指令为第一文本数据；

判断所述第一文本数据是否符合所述第一触发条件，其中所述第一触发条件包括所述第一文本数据与关键内容数据相似度大于第一预设阈值。

优选地，所述向用户提供与用户指令相关的交互服务包括以下之一种或几种：

提供关键内容数据的解释；

调用与关键内容数据相关联的应用、插件或配置文件，通过语音交互或gui交互的形式与用户交流。

本发明提供一种终端设备，其特征在于，所述终端设备包括处理器和存储器，所述存储器中存储有可在处理器上运行的计算机程序，所述计算机程序在被所述处理器执行时实现如上所述的方法。

本发明提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、闪存、可擦式可编程只读存储器(eprom)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。

以上说明只是为了方便理解本发明而举出的例子，不用于限定本发明的范围。在具体实现时，本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少，在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。

尽管已经示出和描述了本发明的实施例，本领域技术人员应当理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同替换所限定，在未经创造性劳动所作的改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙晓刚;戴帅湘
技术所有人：北京蓦然认知科技有限公司
我是此专利的发明人

上一篇：一种人工智能大数据的渠务系统的制作方法
上一篇：笼屉式相变蓄热水箱的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。