字幕显示方法、装置、终端及存储介质与流程

文档序号：17358035发布日期：2019-04-09 21:51阅读：172来源：国知局

本发明实施例涉及字幕显示技术领域，尤其涉及一种字幕显示方法、装置、终端及存储介质。

背景技术：

目前，用户在观看音视频文件时，一般习惯观看字幕，字幕(是指以文字形式显示电视、电影、舞台作品中的对话等非影像内容，也泛指影视作品后期加工的文字。将节目的语音内容以字幕方式显示，可以帮助听力较弱的观众理解节目内容。并且，由于很多字词同音，只有通过字幕文字和音频结合来观看，才能更加清楚节目内容。另外，字幕也能用于翻译外语节目，让不理解该外语的观众，既能听见原作的声带，同时理解节目内容。

目前字幕显示的方法为由播放软件事先对待播放流媒体进行语音识别翻译得到字幕，在将字幕对应显示与流媒体的播放界面。但是这种字幕显示的准确度和实时性很大程度上依赖于播放软件，并且很多播放软件设置权限，导致字幕不能正常显示，给用户带来不便。

技术实现要素：

本发明实施例提供一种字幕显示方法、装置、终端及存储介质，以实时显示观看流媒体的字幕，提高字幕显示的准确性，并且可以根据用户需要自定义显示形式。

第一方面，本发明实施例提供了一种字幕显示方法，包括：

获取当前流媒体缓存数据，提取所述缓存数据中的语音数据；

对所述语音数据进行语义解析，得到解析语句，并提取所述解析语句中的特征信息；

将所述特征信息与预存特征信息进行匹配，得到目标关键词。

第二方面，本发明实施例还提供了一种字幕显示装置，包括：

语音数据提取模块，用于获取当前流媒体缓存数据，提取所述缓存数据中的语音数据；

特征信息提取模块，用于对所述语音数据进行语义解析，得到解析语句，并提取所述解析语句中的特征信息；

匹配模块，用于将所述特征信息与预存特征信息进行匹配，得到目标关键词。

第三方面，本发明实施例还提供了一种终端，该终端包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例中的任一种字幕显示方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例中的任一种字幕显示方法。

本发明实施例通过获取缓存数据中的语音数据，并对语音数据进行语义解析得到的解析语句提取特征信息，将特征信息与预存特征信息进行匹配得到目标关键词，提高了字幕识别的准确性，实现了字幕显示的实时性，摆脱了原有字幕显示的形式和权限限制，方便了用户。

附图说明

图1是本发明实施例一中的一种字幕显示方法的流程图；

图2是本发明实施例二中的一种字幕显示方法的流程图；

图3是本发明实施例三中的一种字幕显示装置的结构示意图；

图4是本发明实施例四中的一种终端的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一中的一种字幕显示方法的流程图。本实施例提供的字幕显示方法可适用于观看视频等流媒体的情况，可以由字幕显示装置来执行，该装置可以由软件和/或硬件的方式实现，该装置可以集成在终端中。参见图1，本实施的方法具体包括如下步骤：

s110、获取当前流媒体缓存数据，提取所述缓存数据中的语音数据。

具体的，所述流媒体为使用流式传输技术的连续时基媒体，如：音频、视频或多媒体文件，当用户打开流媒体时，流媒体会首先进行缓存，再进行播放，播放进度小于缓存的进度。此时，终端获取缓存数据中的缓存数据，以便进行进一步处理。

s120、对所述语音数据进行语义解析，得到解析语句，并提取所述解析语句中的特征信息。

具体的，终端对获取到的语音数据进行语义解析，得到解析语句，所述解析语句为通过语音解析识别得到的文字语句。将文字语句进行分解，并进行词性分析，得到各个词的词性。对不同词性的词进行筛选，除去虚词，例如副词、介词、连词、助词等，保留实词，例如名词、动词、形容词等。将保留的实词作为解析语句的特征信息。

s130、将所述特征信息与预存特征信息进行匹配，得到目标关键词。

具体的，终端中预先保存词汇数据库，数据库中保存有预存特征信息，所述预存特征信息包括实词。终端将解析语句的特征信息与预存特征信息进行匹配以保证特征信息的准确性，将匹配成功的特征信息作为目标关键词。

可选的，将所述特征信息与预存特征信息进行匹配，得到目标关键词，包括：获取预存特征信息库中的预设进度范围内的预存特征信息；建立所述特征信息与所述预存特征信息之间的映射关系；根据所述映射关系对所述特征信息与所述预存特征信息进行匹配。示例性的，根据已确定的流媒体字幕，确定预存特征信息，存入预存特征信息库。从预存特征信息库中获取预设进度范围的预存特征信息，所述预设进度范围可以由技术人员根据需要进行设定，以保证预设进度范围内的预设特征信息与解析语句的特征信息存在映射关系。将预设特征信息与解析语句的特征信息进行映射的计算，示例性的，根据训练样本训练关联性模型，根据映射模型对特征信息进行映射关系计算。将解析语句特征信息与预存特征信息进行匹配，得到同义词，将同义词与预存特征信息进行映射关系计算，并将得到的映射结果与预设特征信息和解析语句特征信息映射结果进行对比，同义词与预存特征信息的映射结果值大于等于解析结果与预存特征信息的映射结果值时，将同义词作为目标关键词。

本实施例的技术方案，获取当前流媒体缓存数据，提取所述缓存数据中的语音数据；对所述语音数据进行语义解析，得到解析语句，并提取所述解析语句中的特征信息；将所述特征信息与预存特征信息进行匹配，得到目标关键词。通过获取缓存数据中的语音数据，并对语音数据进行语义解析得到的解析语句提取特征信息，将特征信息与预存特征信息进行匹配得到目标关键词，提高了字幕识别的准确性，实现了字幕显示的实时性，摆脱了原有字幕显示的形式和权限限制，方便了用户。

实施例二

图2是本发明实施例二中的一种字幕显示方法的流程图。本实施例在上述实施例的基础上进行了优化，未在本实施例中详细描述的细节详见上述实施例。参见图2，本实施例提供的字幕显示方法包括：

s210、检测当前缓存区域所对应的缓存时间。

具体的，为了保证翻译字幕的准确性，终端需要对整个流媒体的其中一段音视频数据进行处理得到字幕信息，因此终端检测目前流媒体的缓存区域，并获取缓存区域所对应的缓存时间。通过对当前缓存时间的判断，能够准确获知当前缓存数据的大小，从而准确得获取能够满足句子长度，又能够实现最大处理效率的缓存数据。

s220、当所述缓存时间满足预设阈值时，读取所述缓存区的缓存数据。

判断缓存区域所对应的缓存时间，当缓存时间满足预设阈值时，读取得到缓存区域的缓存数据。预设阈值可以由技术人员根据需要进行设定，以保证缓存数据中的语音句子完整度的同时，提高处理的效率。另外，本实施例中通过终端获取缓存数据并进行字幕翻译和显示，摆脱了流媒体播放软件的权限限制，能够使终端根据用户的预先设置对流媒体进行自动智能化翻译显示，方便了用户的观看，具有通用性。

s230、获取当前流媒体缓存数据，提取所述缓存数据中的语音数据。

s240、对所述语音数据进行语义解析，得到解析语句，并提取所述解析语句中的特征信息。

s250、将所述特征信息与预存特征信息进行匹配，得到目标关键词。

s260、对所述目标关键词进行词性分析，并根据分析结果将所述目标关键词存入预存特征信息库中。

具体的，为了保证特征信息库的准确性，以用来计算与解析语义中特征信息的映射关系，保证目标关键词符合当前语境，对特征信息库进行更新。示例性的，在经过判断得到目标关键词后，对特征信息进行词性分析，根据分析结果对目标关键词进行分类。根据目标关键词的分类结果，将目标关键词存入到预存特征信息库中。

本实施例的技术方案，检测当前缓存区域所对应的缓存时间；当所述缓存时间满足预设阈值时，读取所述缓存区的缓存数据；获取当前流媒体缓存数据，提取所述缓存数据中的语音数据；对所述语音数据进行语义解析，得到解析语句，并提取所述解析语句中的特征信息；将所述特征信息与预存特征信息进行匹配，得到目标关键词；对所述目标关键词进行词性分析，并根据分析结果将所述目标关键词存入预存特征信息库中。通过获取缓存数据中的语音数据，并对语音数据进行语义解析得到的解析语句提取特征信息，将特征信息与预存特征信息进行匹配得到目标关键词，并根据分析结果将所述目标关键词存入预存特征信息库中。提高了字幕识别的准确性，实现了字幕显示的实时性，摆脱了原有字幕显示的形式和权限限制，方便了用户。

实施例三

图3是本发明实施例三中的一种字幕显示装置的结构示意图。本实施例提供一种字幕显示装置，参见图3，具体包括：

语音数据提取模块310，用于获取当前流媒体缓存数据，提取所述缓存数据中的语音数据；

特征信息提取模块320，用于对所述语音数据进行语义解析，得到解析语句，并提取所述解析语句中的特征信息；

匹配模块330，用于将所述特征信息与预存特征信息进行匹配，得到目标关键词。

可选的，所述语音数据提取模块310，包括：

检测单元，用于检测当前缓存区域所对应的缓存时间；

读取单元，用于当所述缓存时间满足预设阈值时，读取所述缓存区的缓存数据。

可选的，所述匹配模块330，包括：

预存特征信息获取单元，用于获取预存特征信息库中的预设进度范围内的预存特征信息；

映射关系建立单元，用于建立所述特征信息与所述预存特征信息之间的映射关系；

特征信息匹配单元，用于根据所述映射关系对所述特征信息与所述预存特征信息进行匹配。

可选的，还包括：

分析模块，用于对所述目标关键词进行词性分析，并根据分析结果将所述目标关键词存入预存特征信息库中。

可选的，还包括：

组合模块，用于将所述目标关键词进行组合得到最终语义；

显示模块，用于根据所述流媒体的当前播放进度将所述最终语义进行显示。

本实施例的技术方案，通过语音数据提取模块获取当前流媒体缓存数据，提取所述缓存数据中的语音数据；特征信息提取模块对所述语音数据进行语义解析，得到解析语句，并提取所述解析语句中的特征信息；匹配模块将所述特征信息与预存特征信息进行匹配，得到目标关键词。通过获取缓存数据中的语音数据，并对语音数据进行语义解析得到的解析语句提取特征信息，将特征信息与预存特征信息进行匹配得到目标关键词，提高了字幕识别的准确性，实现了字幕显示的实时性，摆脱了原有字幕显示的形式和权限限制，方便了用户。

实施例四

图4是本发明实施例四中的一种终端的结构示意图。图4示出了适于用来实现本发明实施方式的示例性终端412的框图。图4显示的终端412仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，终端412以通用计算设备的形式表现。终端412的组件可以包括但不限于：一个或者多个处理器或者处理单元416，系统存储器428，连接不同系统组件(包括系统存储器428和处理单元416)的总线418。

总线418表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(isa)总线，微通道体系结构(mac)总线，增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。

终端412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被终端412访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器428可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(ram)430和/或高速缓存存储器432。终端412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统434可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储器428可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块442的程序/实用工具440，可以存储在例如存储器428中，这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。

终端412也可以与一个或多个外部设备414(例如键盘、指向设备、显示器424等)通信，还可与一个或者多个使得用户能与该终端412交互的设备通信，和/或与使得该终端412能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口422进行。并且，终端412还可以通过网络适配器420与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器420通过总线418与终端412的其它模块通信。应当明白，尽管图中未示出，可以结合终端412使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

处理单元416通过运行存储在系统存储器428中的多个程序中其他程序的至少一个，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种字幕显示方法，包括：

获取当前流媒体缓存数据，提取所述缓存数据中的语音数据；

对所述语音数据进行语义解析，得到解析语句，并提取所述解析语句中的特征信息；

将所述特征信息与预存特征信息进行匹配，得到目标关键词。

本实施例提供的服务器，通过处理器执行程序实现获取当前流媒体缓存数据，提取所述缓存数据中的语音数据；对所述语音数据进行语义解析，得到解析语句，并提取所述解析语句中的特征信息；将所述特征信息与预存特征信息进行匹配，得到目标关键词。通过获取缓存数据中的语音数据，并对语音数据进行语义解析得到的解析语句提取特征信息，将特征信息与预存特征信息进行匹配得到目标关键词，提高了字幕识别的准确性，实现了字幕显示的实时性，摆脱了原有字幕显示的形式和权限限制，方便了用户。

实施例五

本发明实施例五还提供了一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种字幕显示方法，包括：

获取当前流媒体缓存数据，提取所述缓存数据中的语音数据；

对所述语音数据进行语义解析，得到解析语句，并提取所述解析语句中的特征信息；

将所述特征信息与预存特征信息进行匹配，得到目标关键词。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的终端、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行终端、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行终端、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李亚军;宋连军
技术所有人：南昌与德软件技术有限公司
我是此专利的发明人

上一篇：一种改进的胶针订标机头的制作方法
上一篇：具有改进的防烫把手的炊具的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。