一种字幕显示方法及终端设备与流程

文档序号：17089672发布日期：2019-03-13 23:18阅读：167来源：国知局

本发明实施例涉及通信技术领域，尤其涉及一种字幕显示方法及终端设备。

背景技术：

随着通信技术的高速发展，终端设备的应用越来越广泛，用户对终端设备的性能要求也越来越高。

目前，当终端设备播放视频时，终端设备的显示界面上不仅可以显示视频的画面，还可以显示视频的片名、摄制人员名单、对白、唱词等与视频有关的文字说明信息(以下统称为字幕)。其中，视频中的所有字幕是在视频的后期制作过程中，制作人员为视频统一配置的。通常，在终端设备播放视频的过程中，终端设备可以同步显示视频的对白字幕与视频的画面，以使用户可以结合这些对白字幕和画面，清楚地获知视频的内容。

然而，由于视频中的所有字幕是在视频的后期制作过程中，制作人员为视频统一配置的，因此终端设备显示这些字幕时是按照统一配置好的风格、格式等显示的，从而使得终端设备显示字幕的方式比较单调，进而导致终端设备显示字幕的效果较差。

技术实现要素：

本发明实施例提供一种字幕显示方法及终端设备，以解决终端设备显示字幕的效果较差的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种字幕显示的方法，包括：获取目标语音数据的语音特征信息，该语音特征信息包括以下至少一项：目标语音数据中的语音音量、目标语音数据中的语音速度、目标语音数据中的语音音调，以及目标语音数据中的语音声调，该语音特征信息用于指示该目标语音数据对应的语音的语气；并根据该语音特征信息，确定与该语气对应的目标显示方式，该目标显示方式用于显示与该目标语音数据对应的字幕；以及以该目标显示方式显示该字幕。

第二方面，本发明实施例提供了一种终端设备，包括获取模块、确定模块和显示模块。获取模块，用于获取目标语音数据的语音特征信息，该语音特征信息包括以下至少一项：目标语音数据中的语音音量、目标语音数据中的语音速度、目标语音数据中的语音音调，以及目标语音数据中的语音声调，该语音特征信息用于指示该目标语音数据对应的语音的语气；确定模块，用于根据获取模块获取的该语音特征信息，确定与该语气对应的目标显示方式，该目标显示方式用于显示与该目标语音数据对应的字幕；显示模块，用于以确定模块确定的该目标显示方式显示该字幕。

第三方面，本发明实施例提供了一种终端设备，该终端设备包括处理器、存储器及存储在该存储器上并可在该处理器上运行的计算机程序，该计算机程序被该处理器执行时实现如上述第一方面中的字幕显示方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现如上述第一方面中的字幕显示方法的步骤。

本发明实施例中，可以获取目标语音数据的语音特征信息(用于指示该目标语音数据对应的语音的语气)，并根据该语音特征信息，确定与该语音特征信息指示的语气对应的目标显示方式(用于显示与该目标语音数据对应的字幕)，以及以该目标显示方式显示与该目标语音数据对应的字幕。其中，语音特征信息包括以下至少一项：目标语音数据中的语音音量、目标语音数据中的语音速度、目标语音数据中的语音音调，以及目标语音数据中的语音声调。通过该方案，由于目标语音数据的语音特征信息可以用于指示该目标语音数据对应的语音的语气，因此本发明实施例可以根据该语音特征信息，确定与该语气对应的目标显示方式，以用于显示与该目标语音数据对应的字幕。如此，由于不同语音数据对应的语音的语气可能不同，因此根据不同语音数据的语音特征信息确定的显示方式也不相同，从而使得终端设备可以以不同的显示方式显示不同语音数据对应的字幕，进而使得终端设备显示字幕的显示方式比较丰富，提高了终端设备显示字幕的效果。

附图说明

图1为本发明实施例提供的安卓操作系统的架构示意图；

图2为本发明实施例提供的字幕显示方法的示意图之一；

图3为本发明实施例提供的字幕显示方法应用的界面示意图之一；

图4为本发明实施例提供的字幕显示方法应用的界面示意图之二；

图5为本发明实施例提供的字幕显示方法应用的界面示意图之三；

图6为本发明实施例提供的字幕显示方法的示意图之二；

图7为本发明实施例提供的终端设备的结构示意图；

图8为本发明实施例提供的终端设备的硬件示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本文中术语“和/或”，是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。本文中符号“/”表示关联对象是或者的关系，例如a/b表示a或者b。

本发明的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一位置和第二位置等是用于区别不同的位置，而不是用于描述位置的特定顺序。

在本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本发明实施例的描述中，除非另有说明，“多个”的含义是指两个或者两个以上，例如，多个元件是指两个或者两个以上的元件等。

下面首先对本发明实施例中的各个名词和/或术语进行解释说明。

字幕：广义的定义是指屏幕上显示的字符(例如文字、符号等)。狭义的定义是指屏幕上显示的、且与语音数据对应的字符。

其中，本发明实施例中涉及的字幕为上述描述的字幕的狭义定义。

流媒体：是指采用流式传输的方式播放的媒体格式。具体的，流媒体可以包括终端设备中保存的流媒体和终端设备通过网络在终端设备中实时播放的流媒体。

本发明实施例提供一种字幕显示方法及终端设备，可以获取目标语音数据的语音特征信息(用于指示该目标语音数据对应的语音的语气)，并根据该语音特征信息，确定与该语音特征信息指示的语气对应的目标显示方式(用于显示与该目标语音数据对应的字幕)，以及以该目标显示方式显示与该目标语音数据对应的字幕。其中，语音特征信息用于指示目标语音数据对应的语音的语气；目标显示方式用于显示与目标语音数据对应的字幕。通过该方案，由于目标语音数据的语音特征信息可以用于指示该目标语音数据对应的语音的语气，因此本发明实施例可以根据该语音特征信息，确定与该语气对应的目标显示方式，以用于显示与该目标语音数据对应的字幕。如此，由于不同语音数据对应的语音的语气可能不同，因此根据不同语音数据的语音特征信息确定的显示方式也不相同，从而使得终端设备可以以不同的显示方式显示不同语音数据对应的字幕，进而使得终端设备显示字幕的显示方式比较丰富，提高了终端设备显示字幕的效果。

本发明实施例中的终端设备可以为具有操作系统的终端设备。该操作系统可以为安卓(android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本发明实施例不作具体限定。

下面以安卓操作系统为例，介绍一下本发明实施例提供的字幕显示方法所应用的软件环境。

如图1所示，为本发明实施例提供的一种可能的安卓操作系统的架构示意图。在图1中，安卓操作系统的架构包括4层，分别为：应用程序层、应用程序框架层、系统运行库层和内核层(具体可以为linux内核层)。

其中，应用程序层包括安卓操作系统中的各个应用程序(包括系统应用程序和第三方应用程序)。

应用程序框架层是应用程序的框架，开发人员可以在遵守应用程序的框架的开发原则的情况下，基于应用程序框架层开发一些应用程序。

系统运行库层包括库(也称为系统库)和安卓操作系统运行环境。库主要为安卓操作系统提供其所需的各类资源。安卓操作系统运行环境用于为安卓操作系统提供软件环境。

内核层是安卓操作系统的操作系统层，属于安卓操作系统软件层次的最底层。内核层基于linux内核为安卓操作系统提供核心系统服务和与硬件相关的驱动程序。

以安卓操作系统为例，本发明实施例中，开发人员可以基于上述如图1所示的安卓操作系统的系统架构，开发实现本发明实施例提供的字幕显示方法的软件程序，从而使得该字幕显示方法可以基于如图1所示的安卓操作系统运行。即处理器或者终端设备可以通过在安卓操作系统中运行该软件程序实现本发明实施例提供的字幕显示方法。

本发明实施例中的终端设备可以为移动终端，也可以为非移动终端。示例性的，移动终端可以为手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、超级移动个人计算机(ultra-mobilepersonalcomputer，umpc)、上网本或者个人数字助理(personaldigitalassistant，pda)等，非移动终端可以为个人计算机(personalcomputer，pc)、电视机(television，tv)、柜员机或者自助机等，本发明实施例不作具体限定。

本发明实施例提供的字幕显示方法的执行主体可以为上述的终端设备，也可以为该终端设备中能够实现该字幕显示方法的功能模块和/或功能实体，具体的可以根据实际使用需求确定，本发明实施例不作限定。下面以终端设备为例，对本发明实施例提供的字幕显示方法进行示例性的说明。

本发明实施例提供的字幕显示方法可以应用于以下列举的三种场景中的任意一种场景中。

场景一：显示流媒体中的字幕(流媒体中的语音数据即为本发明实施例提供的目标语音数据)。

场景二：显示用户输入的内容对应的字幕(用户输入的内容即为本发明实施例提供的目标语音数据)。

场景三：显示流媒体中的字幕和用户输入的内容对应的字幕(流媒体中的语音数据即为本发明实施例提供的第一语音数据，用户输入的内容即为本发明实施例提供的第二语音数据，其中，本发明实施例提供的目标语音数据包括第一语音数据和第二语音数据)。

本发明实施例中，在上述任意一种场景中，在终端设备显示目标语音数据对应的字幕之前，终端设备可以先确定该字幕的显示方式，然后再以该显示方式显示该字幕。具体的，终端设备获取目标语音数据之后，可以先获取该目标语音数据的语音特征信息，并根据该语音特征信息，确定与该语音特征信息指示的语气对应的目标显示方式，然后再以该目标显示方式显示与该目标语音数据对应的字幕。如此，目标显示方式可以用于表达目标语音数据的语音特征信息指示的语气。

下面具体结合上述三种场景和各个附图对本发明实施例提供的字幕显示方法进行示例性的说明。

如图2所示，本发明实施例提供一种字幕显示方法，该方法可以包括下述的s201-s203。

s201、终端设备获取目标语音数据的语音特征信息。

其中，上述语音特征信息可以包括以下至少一项：目标语音数据中的语音字符、目标语音数据中的语音音量、目标语音数据中的语音速度、目标语音数据中的语音音调，以及目标语音数据中的语音声调。上述语音特征信息可以用于指示目标语音数据对应的语音的语气。

可选的，本发明实施例中，上述目标语音数据可以包括第一语音数据和第二语音数据中的至少一项。其中，上述第一语音数据可以为流媒体中的语音数据，上述第二语音数据可以为终端设备采集的语音数据。

可以理解的，本发明实施例中，上述目标语音数据可以为流媒体中的语音数据，也可以为终端设备采集的语音数据，还可以为流媒体中的语音数据和终端设备采集的语音数据。

可选的，本发明实施例中，上述流媒体中的语音数据可以为终端设备中保存的语音数据(例如可以为终端设备从网络中下载的语音数据或者终端设备录制的语音数据)，还可以为终端设备通过网络在终端设备中实时播放(例如可以为终端设备从服务器获取的，并在终端设备中实时播放)的语音数据等语音数据。具体可以根据实际使用需求确定，本发明实施例不作限定。

本发明实施例中，上述流媒体可以为音频或视频等任意一种可能包含语音数据的流媒体。具体可以根据实际使用需求确定，本发明实施例不作限定。

本发明实施例中，上述终端设备采集的语音数据可以为终端设备通过音频采集装置采集的终端设备所处环境中的语音数据。

可选的，本发明实施例中，上述音频采集装置可以为麦克风(具体可以为终端设备上的麦克风)等任意可能的音频采集装置。具体可以根据实际使用需求确定，本发明实施例不作限定。

本发明实施例中，上述目标语音数据中的语音字符可以用于指示目标语音数据的内容；示例性的，目标语音数据的语音字符可以为目标语音数据的关键字等。上述目标语音数据中的语音音量可以用于指示目标语音数据的音量大小；示例性的，目标语音数据中的语音音量可以为低音量、中音量和高音量等。上述目标语音数据中的语音速度可以用于指示目标语音数据中语音速度的快慢；示例性的，目标语音数据中的语音速度可以包括慢速、中速和快速等。上述目标语音数据中的语音音调可以用于指示目标语音数据中声音震动频率的高低；示例性的，示例性的，目标语音数据中的语音音调可以包括低频、中频和高频等，通常男性的语音音调(对应于低频)低于女性的语音音调(对应于高频)。上述目标语音数据中的语音声调可以用于指示目标语音数据中语音的抑扬顿挫；示例性的，语音声调可以包括阴平、阳平、上声和去声。

可选的，本发明实施例中，上述各个语音特征信息可以为目标语音数据中的全部数据或部分数据的语音特征信息，具体可以根据实际使用需求确定，本发明实施例不作限定。示例性的，以目标语音数据的语音特征信息为目标语音数据中的语音字符为例，该语音字符可以为目标语音数据中的全部字符或部分字符(例如关键字等)。又以目标语音数据的语音特征信息为目标语音数据中的语音速度为例，该语音速度可以为目标语音数据中全部语音数据对应的语音速度或部分语音数据对应的语音速度。

本发明实施例中，不同的语音数据可能具有不同的语音特征信息，由于语音特征信息用于指示语音数据对应的语音的语气，因此，不同的语音特征信息指示的语气也不同，即不同的语音数据对应的语音的语气也不同。

可选的，本发明实施例中，上述语气可以用于表示语音数据表达的情感。

本发明实施例中，上述语气可以为陈述语气、疑问语气、祈使语气或者感叹语气等任意一种可能的语气类型对应的一种语气。具体的，每种语气类型可以对应多种语气，且每种语气可以表达至少一种情感。

示例性的，当语气类型为陈述语气时，该语气类型可以对应“现实的、确定的以及符合事实的”等多种语气，相应的，每种语气表示的情感可以为“现实的、确定的以及符合事实的”等至少一种情感。

又示例性的，当语气类型为疑问语气时，该语气类型可以对应“询问、反诘、测度”等多种语气，相应的，每种语气表示的情感可以为“询问、反诘、测度”至少一种情感。

又示例性的，当语气类型为祈使语气时，该语气类型可以对应“建议、请求、邀请、命令”等多种语气，相应的，每种语气表示的情感可以为“建议、请求、邀请、命令”等至少一种情感。

又示例性的，当语气类型为感叹语气时，该语气类型可以对应“高兴、愤怒、忧伤、快乐”等多种语气，相应的，每种语气表示的情感可以为“高兴、愤怒、忧伤、快乐”等至少一种情感。

可选的，本发明实施例中，一种情感可以对应至少一种显示方式。示例性的，假设上述目标语音数据表达的情感为“高兴”，那么“高兴”对应的显示方式可以为在与目标语音数据对应的字幕后面添加“哈哈哈”，也可以为在与目标语音数据对应的字幕后面添加一个笑脸标识等其它任意可能的显示方式。

本发明实施例中，终端设备可以根据目标语音数据的语音特征信息指示的语气，确定与该语气对应的目标显示方式，并以该目标显示方式显示与该目标语音数据对应的字幕。如此，由于该语气可以用于表示该目标语音数据表达的情感，因此根据该语气确定的目标显示方式也可以表示该目标语音数据表达的情感，从而通过该目标显示方式显示与该目标语音数据对应的字幕，可以提高终端设备显示字幕的显示方式的多样性。

s202、终端设备根据语音特征信息，确定与语气对应的目标显示方式。

其中，上述目标显示方式可以用于显示与目标语音数据对应的字幕。

可以理解，本发明实施例中，上述不同的语气可以对应于不同的目标显示方式。当终端设备根据不同的语音特征信息确定不同的语气后，终端设备可以根据这些不同的语气确定与这些不同的语气对应的不同的目标显示方式。

可选的，本发明实施例中，上述目标显示方式可以包括以下至少一项：以特定显示效果显示字幕，以及在字幕上添加标识。

其中，上述特定显示效果和标识均可以用于指示语气。

可选的，上述特定显示效果可以为改变字幕的显示颜色、改变字幕的字体大小，以及增大字幕中的字符间隔等任意一种、两种或者两种以上组合的显示效果。具体可以根据实际使用需求确定，本发明实施例不作限定。

可选的，上述标识可以为笑脸、火焰、眼泪以及惊恐等任意一种能够表示目标语音数据表达的情感的标识。具体可以根据实际使用需求确定，本发明实施例不作限定。

示例性的，假设终端设备默认的字幕的显示颜色为白色，那么，当终端设备确定语气为表示愤怒的语气时，终端设备可以确定字幕的显示颜色为红色；当终端设备确定语气为表示高兴的语气时，终端设备可以确定字幕的显示颜色为黄色；当终端设备确定语气为表示忧伤的语气时，终端设备可以确定字幕的显示颜色为蓝色。

又示例性的，如图3中的(a)所示，若终端设备确定目标语音数据的语音特征信息指示的语气为表示高兴的语气，则目标语音数据对应的字幕“我好开心”的目标显示方式可以为在字幕“我好开心”后面添加一个笑脸的标识。如图3中的(b)所示，若终端设备确定目标语音数据的语音特征信息指示的语气为表示忧伤的语，则目标语音数据对应的字幕“我好难过”的目标显示方式可以为在字幕“我好难过”后面添加一个流泪的标识；如图3中的(c)所示，若终端设备确定目标语音数据的语音特征信息指示的语气为表示愤怒的语气，则目标语音数据对应的字幕“我生气了”的目标显示方式可以为在字幕“我生气了”后面添加一个火焰的标识。

本发明实施例中，终端设备通过以特定显示效果显示字幕，或者在字幕上添加标识的方式显示字幕，可以提高终端设备显示字幕的显示方式的多样性，从而提高终端设备显示字幕的趣味性性。

可选的，本发明实施例中，上述s202具体可以通过下述的s202a和s202b实现。

s202a、终端设备根据语音特征信息，确定语气。

本发明实施例中，终端设备可以根据目标语音数据的语音特征信息，获取与该目标语音数据对应的语音的语气。

可选的，本发明实施例中，终端设备可以根据上述列举的至少一项语音特征信息确定获取到的目标语音数据对应的语音的语气。

可选的，本发明实施例中，终端设备中可以预设语音特征信息。该预设的语音特征信息可以包括以下至少一项：语音字符数据库、语音音量阈值、语音速度阈值、语音频率阈值，以及语音调值库等。如此，在终端设备获取目标语音数据的语音特征信息之后，终端设备可以比较该语音特征信息与预设的语音特征信息，并根据比较结果，确定该目标语音数据对应的语音的语气。

其中，上述语音字符数据库中的语音字符具体可以根据实际使用需求设置，本发明实施例不作限定。上述语音调值库中可以包括各个语音调值，例如阴平、阳平、上声和去声。

示例性的，假设上述语音音量阈值为10分贝(db)，语音速度阈值为100字符每秒，且终端设备根据目标语音数据中的语音字符、目标语音数据中的语音音量和目标语音数据中的语音速度判断目标语音数据对应的语音的语气，那么，当终端设备获取的目标语音数据中的语音字符为“我很生气”(为语音字符数据库中的语音字符)，且目标语音数据中的语音音量为20db(大于语音音量阈值)，以及目标语音数据中的语音速度为120字符每秒(大于语音速度阈值)时，终端设备可以确定该目标语音数据对应的语音的语气为愤怒。

又示例性的，假设语音频率阈值为1000美(mel)，且终端设备根据目标语音数据中的语音字符、目标语音数据中的语音音调和目标语音数据中的语音声调判断目标语音数据对应的语音的语气，那么，当终端设备获取的目标语音数据中的语音字符为“我好开心”(为语音字符数据库中的语音字符)，且目标语音数据中的语音音调为1250mel(大于语音频率阈值)，以及语音声调为阴平(与语音调值库中的阴平相同)时，终端设备可以确定该目标语音数据对应的语音的语气为高兴。

s202b、终端设备根据语气，确定与语气对应的预设显示方式。

本发明实施例中，终端设备在根据目标语音数据的语音特征信息确定语气后，终端设备可以根据该语气，确定与该语气对应的预设显示方式。可以理解，本发明实施例中，不同语气对应不同的显示方式。

可选的，本发明实施例中，可以在终端设备中预设语气和显示方式的对应关系，当终端设备确定目标语音数据对应的语音的语气(以下称为目标语气)后，终端设备可以根据语气和显示方式的对应关系，确定与该目标语气对应的预设显示方式。

s202c、终端设备将与语气对应的预设显示方式确定为目标显示方式。

可选的，本发明实施例中，当终端设备根据语气和显示方式的对应关系确定与目标语气对应的预设显示方式后，终端设备可以将该预设显示方式作为上述目标显示方式。从而，终端设备可以以该目标显示方式显示与目标语音数据对应的字幕。

示例性的，如图4所示，假设上述语音音量阈值为10db，且终端设备根据目标语音数据中的语音字符和目标语音数据中的语音音量判断目标语音数据对应的语音的语气，当终端设备获取的目标语音数据中的语音字符为“哈哈哈哈”(为语音字符数据库中的语音字符)，且目标语音数据中的语音音量为30db(大于语音音量阈值)时，终端设备可以确定该目标语音数据对应的语音的语气为高兴。假设高兴对应的预设显示方式为：将字幕的字号放大一倍显示，那么终端设备可以将与该目标语音数据对应的字幕的字号放大一倍显示。例如，若终端设备显示字幕的默认字号为12磅，则终端设备可以以24磅的字号在终端设备的显示界面上显示与该目标语音数据对应的字幕。例如，如图4所示，终端设备可以以24磅的字号显示与该目标语音数据对应的字幕“哈哈哈哈”。

本发明实施例中，由于目标语音数据的语音特征信息指示的语气可以用于表示该目标语音数据表达的情感，因此根据该语气确定的目标显示方式也可以表示该目标语音数据表达的情感，从而通过该目标显示方式显示与该目标语音数据对应的字幕，可以提高终端设备显示字幕的显示方式的多样性。

s203、终端设备以目标显示方式显示字幕。

本发明实施例中，终端设备确定目标显示方式后，终端设备可以以该目标显示方式显示与目标语音数据对应的字幕。如此，目标显示方式可以用于表达目标语音数据的语音特征信息指示的语气。

具体的语音数据对应的字幕的显示方式可以参见上述实施例中对图3和图4的相关描述，以及上述实施例中对终端设备显示字幕的显示方式的其它相关描述，此处不再赘述。

可选的，本发明实施例中，当目标语音数据包括第一语音数据和第二语音数据时，上述s203具体可以通过下述的s203a实现。

本发明实施例中，上述第一语音数据的语音特征信息可以用于指示第一语气，上述第二语音数据的语音特征信息可以用于指示第二语气，该第一语气为该第一语音数据对应的语音的语气，该第二语气为该第二语音数据对应的语音的语气。其中，目标显示方式可以包括第一显示方式和第二显示方式，该第一显示方式为与第一语气对应的显示方式，该第二显示方式为与第二语气对应的显示方式。

s203a、终端设备以第一显示方式显示第一字幕，并以第二显示方式显示第二字幕。

其中，上述第一字幕可以为与上述第一语音数据对应的字幕，上述第二字幕为与上述第二语音数据对应的字幕。

本发明实施例中，在目标语音数据包括第一语音数据和第二语音数据的情况下，终端设备可以通过分别获取第一语音数据的语音特征信息和第二语音数据的语音特征信息，并根据该第一语音数据的语音特征信息确定该第一语音数据的语音特征信息指示的语气(即第一语气)，根据该第二语音数据的语音特征信息确定该第二语音数据的语音特征信息指示的语气(即第二语气)，以及根据该第一语气确定与第一语气对应的显示方式(即第一显示方式)，根据该第二语气确定与该第二语气对应的显示方式(即第二显示方式)，然后终端设备以第一显示方式显示第一语音数据对应的字幕，以第二显示方式显示第二语音数据对应的字幕。如此，第一显示方式可以用于表达第一语气，第二显示方式可以用于表达第二语气。

示例性的，本发明实施例中，假设第一语音数据对应的字幕为“我好开心”，第一显示方式为在字幕后面添加一个笑脸的标识；第二语音数据对应的字幕为“哈哈哈哈”，第二显示方式为将字幕的字号放大一倍，并将字幕中字符的间隔增大，例如，若终端设备显示字幕的默认字号为12磅，终端设备显示字幕的默认字符间隔为1磅，则终端设备可以以24磅的字号，10磅的字符间隔在终端设备的显示界面上显示与第二语音数据对应的字幕。如图5所示，终端设备以在字幕“我好开心”后面添加一个笑脸的标识显示第一语音数据对应的字幕“我好开心”，以24磅的字号，10磅的字符间隔显示第二语音数据对应的字幕“哈哈哈哈”。

本发明实施例中，终端设备以第一显示方式显示第一语音数据对应的字幕，以第二显示方式显示第二语音数据对应的字幕，可以使得终端设备在目标语音数据包括不同的语音数据的情况下，以不同的显示方式显示不同的语音数据对应的字幕，从而使得终端设备显示字幕的显示方式比较丰富，进而可以进一步提高终端设备显示字幕的效果。

可选的，本发明实施例中，上述s203a具体可以通过下述的s203a1实现。

s203a1、终端设备以第一显示方式显示第一字幕，以第二显示方式显示第二字幕，并以特定显示方式显示目标字幕。

其中，上述目标字幕可以为上述第一字幕和上述第二字幕中相同的字幕。

本发明实施例中，当第一字幕和第二字幕中包括相同的字幕(即目标字幕)时，终端设备可以以第一显示方式显示第一字幕，以第二显示方式显示第二字幕，并以特定显示方式显示目标字幕(可以为第一字幕中的目标字幕、第二字幕中的目标字幕，或者第一字幕中的目标字幕和第二字幕中的目标字幕)。

可选的，本发明实施例中，上述特定显示方式的显示效果可以为振动、跳跃，或者闪烁等任意可能的显示效果。具体可以根据实际使用需求确定，本发明实施例不做限定。

示例性的，本发明实施例中，假设第一字幕为“我好开心哈哈哈哈”，第二字幕为“真可爱哈哈哈哈”，那么终端设备可以确定目标字幕为“哈哈哈哈”，且终端设备以特定显示方式显示第一字幕中的目标字幕和第二字幕中的目标字幕。又假设第一显示方式为在字幕“我好开心哈哈哈哈”后面添加一个笑脸的标识；第二显示方式为将第二字幕“真可爱哈哈哈哈”的字号放大一倍显示，例如，若终端设备显示字幕的默认字号为12磅，则终端设备可以以24磅的字号在终端设备的显示界面上显示第二字幕；特定显示方式为以振动的显示效果显示“哈哈哈哈”。那么，终端设备可以在第一字幕后面添加一个笑脸的标识，以24磅的字号显示第二字幕，以振动的显示效果显示第一字幕中的目标字幕和第二字幕中的目标字幕。

本发明实施例提供的字幕显示方法，由于目标语音数据的语音特征信息可以用于指示该目标语音数据对应的语音的语气，因此本发明实施例可以根据该语音特征信息，确定与该语气对应的目标显示方式，以用于显示与该目标语音数据对应的字幕。如此，由于不同语音数据对应的语音的语气可能不同，因此根据不同语音数据的语音特征信息确定的显示方式也不相同，从而使得终端设备可以以不同的显示方式显示不同语音数据对应的字幕，进而使得终端设备显示字幕的显示方式比较丰富，提高了终端设备显示字幕的效果。

可选的，结合图2，如图6所示，在上述s201之前，本发明实施例提供的字幕显示方法还可以包括下述的s204。并且，在上述s203之前，本发明实施例提供的字幕显示方法还可以包括下述的s205和s206。

s204、终端设备获取目标语音数据。

可选的，本发明实施例中，目标语音数据可以为终端设备中已保存的语音数据(例如可以为终端设备从网络中下载的语音数据或者终端设备录制的语音数据)、终端设备通过网络在终端设备中实时播放的语音数据，以及终端设备从终端设备所处环境中采集的语音数据等中的任意一种、两种或者两种以上组合的语音数据。具体可以根据实际使用需求确定，本发明实施例不作限定。

具体的，本发明实施例中，当目标语音数据为终端设备中已保存的语音数据和/或终端设备通过网络在终端设备中实时播放的语音数据时，该目标语音数据可以为上述场景一中描述的流媒体中的语音数据(即第一语音数据)。当目标语音数据为终端设备从终端设备所处环境中采集的语音数据时，该目标语音数据可以为上述场景二中描述的用户输入的内容对应的语音数据(即第二语音数据)；当目标语音数据为终端设备中已保存的语音数据和/或终端设备通过网络在终端设备中实时播放的语音数据，以及终端设备从终端设备所处环境中采集的语音数据时，该目标语音数据可以为上述场景三中描述的流媒体中的语音数据和用户输入的内容对应的语音数据(即目标语音数据包括第一语音数据和第二语音数据)。

s205、终端设备确定获取目标语音数据的获取方式。

可选的，本发明实施例中，上述获取目标语音数据的获取方式可以为从文件中获取和/或采用音频采集装置采集。其中，当上述获取目标语音数据的获取方式为从文件中获取时，该目标语音数据为终端设备待播放的语音数据(即上述场景一中描述的流媒体中的语音数据)；当上述获取目标语音数据的获取方式为采用音频采集装置采集时，该目标语音数据为终端设备采集的语音数据(即上述场景二中描述的用户输入的内容对应的语音数据)；当上述获取目标语音数据的获取方式包括从文件中获取和采用音频采集装置采集时，该目标语音数据为终端设备待播放的语音数据和终端设备采集的语音数据(即上述场景三中描述的流媒体中的语音数据和用户输入的内容对应的语音数据)。

s206、终端设备根据获取方式，确定字幕在终端设备的显示界面上的显示位置。

本发明实施例中，终端设备获取目标语音数据的获取方式不同，终端设备获取的目标语音数据可能不同，由于不同语音数据对应的字幕在终端设备的显示界面上的显示位置不同，因此终端设备可以根据获取目标语音数据的获取方式，确定与获取的目标语音数据对应的字幕在终端设备的显示界面上的显示位置。

可选的，本发明实施例中，当获取目标语音数据的获取方式为从文件中获取时，与该目标语音数据对应的字幕在终端设备的显示界面上的显示位置可以为第一位置。当获取目标语音数据的获取方式为采用音频采集装置采集时，与该目标语音数据对应的字幕在终端设备的显示界面上的显示位置可以为第二位置。其中，第一位置和第二位置可以为终端设备的显示界面上不同的两个位置。

可选的，本发明实施例中，上述第一位置可以为终端设备的显示界面的下方1/5处对应的位置，或者终端设备的显示界面的中部1/2处对应的位置等任意可能的显示位置。上述第二位置可以为终端设备的显示界面的上方1/4处对应的位置。具体可以根据实际使用需求确定，本发明实施例不作限定。

可选的，本发明实施例中，若确定目标语音数据对应的字幕在在终端设备的显示界面上的显示位置为上述第一位置，则终端设备可以结合上述目标显示方式以弹幕、闪烁、淡入、淡出或者滚动等其它任意可能的显示效果在该位置显示该字幕。具体可以根据实际使用需求确定，本发明实施例不作限定。

需要说明的是，本发明实施例中可以不限定s205-s206和s201-s202之间的执行顺序。即本发明实施例可以先执行s205-s206，后执行s201-s202；也可以先执行s201-s202，后执行s205-s206，还可以同时执行s205-s206和s201-s202。其中，上述图6是以先执行s205-s206，后执行s201-s202为例示例性的说明的，具体可以根据实际使用需求确定，本发明实施例不作限定。

本发明实施例中，终端设备可以根据不同的目标语音数据获取方式，在终端设备的显示界面上的不同位置显示目标语音数据对应的字幕，因此，用户能够根据终端设备显示目标语音数据对应的字幕的显示位置，确定终端设备的显示界面上显示的该字幕的语音来源，从而提高终端设备的人机交互性。

如图7所示，本发明实施例提供一种终端设备700，该终端设备700可以包括获取模块701、确定模块702和显示模块703。获取模块701，用于获取目标语音数据的语音特征信息；确定模块702，用于根据获取模块701获取的语音特征信息，确定与语气对应的目标显示方式；显示模块703，用于以确定模块702确定的目标显示方式显示字幕。其中，语音特征信息可以包括以下至少一项：目标语音数据中的语音字符、目标语音数据中的语音音量、目标语音数据中的语音速度、目标语音数据中的语音音调，以及目标语音数据中的语音声调，语音特征信息可以用于指示目标语音数据对应的语音的语气；目标显示方式可以用于显示与目标语音数据对应的字幕。

可选的，上述目标语音数据可以包括第一语音数据和第二语音数据中的至少一项，其中，第一语音数据为流媒体中的语音数据，第二语音数据为终端设备采集的语音数据。

可选的，目标语音数据可以包括第一语音数据和第二语音数据，第一语音数据的语音特征信息用于指示第一语气，第二语音数据的语音特征信息用于指示第二语气，第一语气为第一语音数据对应的语音的语气，第二语气为第二语音数据对应的语音的语气。目标显示方式包括第一显示方式和第二显示方式，第一显示方式为与第一语气对应的显示方式，第二显示方式为与第二语气对应的显示方式。显示模块703，具体用于以第一显示方式显示第一字幕，并以第二显示方式显示第二字幕。其中，第一字幕为与第一语音数据对应的字幕，第二字幕为与第二语音数据对应的字幕。

可选的，显示模块703，具体用于以第一显示方式显示第一字幕，以第二显示方式显示第二字幕，并以特定显示方式显示目标字幕。其中，目标字幕为第一字幕和第二字幕中相同的字幕。

可选的，目标显示方式包括以下至少一项：以特定显示效果显示字幕，以及在字幕上添加标识。其中，特定显示效果和标识均可以用于指示语气。

本发明实施例提供的终端设备能够实现上述字幕显示方法实施例中终端设备执行的各个过程，且能达到相同的技术效果，为避免重复，此处不再赘述。

本发明实施例提供的终端设备，由于目标语音数据的语音特征信息可以用于指示该目标语音数据对应的语音的语气，因此本发明实施例可以根据该语音特征信息，确定与该语气对应的目标显示方式，以用于显示与该目标语音数据对应的字幕。如此，由于不同语音数据对应的语音的语气可能不同，因此根据不同语音数据的语音特征信息确定的显示方式也不相同，从而使得终端设备可以以不同的显示方式显示不同语音数据对应的字幕，进而使得终端设备显示字幕的显示方式比较丰富，提高了终端设备显示字幕的效果。

图8为实现本发明各个实施例的一种终端设备的硬件示意图。如图8所示，终端设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解，图8中示出的终端设备结构并不构成对终端设备的限定，终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，终端设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器110，用于获取目标语音数据的语音特征信息，并根据该语音特征信息，确定与该语音特征信息指示的语气对应的目标显示方式；显示单元106，用于以处理器110确定的目标显示方式显示与该目标语音数据对应的字幕。其中，语音特征信息可以包括以下至少一项：目标语音数据中的语音字符、目标语音数据中的语音音量、目标语音数据中的语音速度、目标语音数据中的语音音调，以及目标语音数据中的语音声调，语音特征信息可以用于指示目标语音数据对应的语音的语气。

应理解的是，本发明实施例中，射频单元101可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器110处理；另外，将上行的数据发送给基站。通常，射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元101还可以通过无线通信系统与网络和其他设备通信。

终端设备通过网络模块102为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元103可以将射频单元101或网络模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元103还可以提供与终端设备100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元103包括扬声器、蜂鸣器以及受话器等。

输入单元104用于接收音频或视频信号。输入单元104可以包括图形处理器(graphicsprocessingunit，gpu)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或网络模块102进行发送。麦克风1042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。

终端设备100还包括至少一种传感器105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度，接近传感器可在终端设备100移动到耳边时，关闭显示面板1061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器105还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061，可以采用液晶显示器(liquidcrystaldisplay，lcd)、有机发光二极管(organiclight-emittingdiode，oled)等形式来配置显示面板1061。

用户输入单元107可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作)。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器110，接收处理器110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071，用户输入单元107还可以包括其他输入设备1072。具体地，其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板1071可覆盖在显示面板1061上，当触控面板1071检测到在其上或附近的触摸操作后，传送给处理器110以确定触摸事件的类型，随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图8中，触控面板1071与显示面板1061是作为两个独立的部件来实现终端设备的输入和输出功能，但是在某些实施例中，可以将触控面板1071与显示面板1061集成而实现终端设备的输入和输出功能，具体此处不做限定。

接口单元108为外部装置与终端设备100连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(i/o)端口、视频i/o端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到终端设备100内的一个或多个元件或者可以用于在终端设备100和外部装置之间传输数据。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器110是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器109内的软件程序和/或模块，以及调用存储在存储器109内的数据，执行终端设备的各种功能和处理数据，从而对终端设备进行整体监控。处理器110可包括一个或多个处理单元；可选的，处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

终端设备100还可以包括给各个部件供电的电源111(比如电池)，可选的，电源111可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，终端设备100包括一些未示出的功能模块，在此不再赘述。

可选的，本发明实施例还提供一种终端设备，包括处理器110，存储器109，存储在存储器109上并可在处理器110上运行的计算机程序，该计算机程序被处理器110执行时实现上述字幕显示方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述字幕显示方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，该计算机可读存储介质可以包括只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡吉祥
技术所有人：维沃移动通信有限公司
我是此专利的发明人

上一篇：基于WEB接口的信息收集系统、方法、设备及存储介质与流程
上一篇：一种环保去污型水溶切削液的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。