字幕处理方法、装置、设备及存储介质与流程

文档序号：31453042发布日期：2022-09-07 13:49阅读：79来源：国知局

1.本文件涉及数据处理技术领域，尤其涉及一种字幕处理方法、装置、设备及存储介质。

背景技术：

2.随着全球协作场景的普及化，人们为了工作需要不再局限于与同语种的人进行交流，跨语种交流成为了更多群体的工作选择。在视频会议场景下，若用户不熟悉会议发言者的语种，则难以听懂会议内容，降低视频会议效果。基于此，有必要提供一种技术方案，解决视频会议场景下的跨语种交流问题，满足用户在视频会议场景下对会议内容的了解需求。

技术实现要素：

3.本说明书实施例提供了一种字幕处理方法、装置、设备及存储介质，以解决视频会议场景下的跨语种交流问题，满足用户在视频会议场景下对会议内容的了解需求。
4.第一方面，本说明书一实施例提供了一种字幕处理方法，包括：
5.检测到用户进入视频会议场景，获取所述视频会议当前的发言者的主语种信息作为第一语种信息，获取所述用户的主语种信息作为第二语种信息；
6.在所述第一语种信息与所述第二语种信息不相同时，获取所述发言者的语音数据，根据所述语音数据生成相应的字幕；
7.根据所述用户的历史翻译相关操作，确定所述字幕的显示样式；
8.根据所述字幕的显示样式，将所述字幕实时推送至所述用户的视频会议场景中。
9.第二方面，本说明书一实施例提供了一种字幕处理装置，包括：
10.信息获取单元，用于检测到用户进入视频会议场景，获取所述视频会议当前的发言者的主语种信息作为第一语种信息，获取所述用户的主语种信息作为第二语种信息；
11.字幕生成单元，用于在所述第一语种信息与所述第二语种信息不相同时，获取所述发言者的语音数据，根据所述语音数据生成相应的字幕；
12.样式确定单元，用于根据所述用户的历史翻译相关操作，确定所述字幕的显示样式；
13.字幕显示单元，用于根据所述字幕的显示样式，将所述字幕实时推送至所述用户的视频会议场景中。
14.第三方面，本说明书一实施例提供了一种字幕处理设备，包括：处理器；以及，被配置为存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器实现上述第一方面所述的方法的步骤。
15.第四方面，本说明书一实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现上述第一方面所述的方法的步骤。
16.本说明书一实施例中，检测到用户进入视频会议场景，获取视频会议当前的发言
者的主语种信息作为第一语种信息，获取用户的主语种信息作为第二语种信息，在第一语种信息与第二语种信息不相同时，获取发言者的语音数据，根据语音数据生成相应的字幕，根据用户的历史翻译相关操作，确定字幕的显示样式，根据字幕的显示样式，将字幕实时推送至用户的视频会议场景中，以在用户的视频会议场景中实时显示字幕。可见，通过本实施例，能够在视频会议场景下根据发言者的发言内容实时生成字幕，并根据用户情况，确定字幕的显示样式，并基于字幕的显示样式，在用户的视频会议场景中实时显示字幕，从而解决视频会议场景下的跨语种交流问题，满足用户在视频会议场景下对会议内容的了解需求。
附图说明
17.为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图；
18.图1为本说明书一实施例提供的字幕处理方法的流程示意图；
19.图2为本说明书一实施例提供的字幕的显示样式的示意图；
20.图3a为本说明书一实施例提供的视频会议中开启字幕的场景示意图；
21.图3b为本说明书又一实施例提供的视频会中开启字幕的场景示意图；
22.图4为本说明书一实施例提供的字幕处理装置的结构示意图；
23.图5为本说明书一实施例提供的字幕处理设备的结构示意图。
具体实施方式
24.为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本文件的保护范围。
25.本说明书实施例提供了一种字幕处理方法、装置、设备及存储介质，以解决视频会议场景下的跨语种交流问题，满足用户在视频会议场景下对会议内容的了解需求。
26.可以理解的是，在使用本说明书各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本说明书各实施例所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
27.例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主地选择是否向执行本说明实施例中的技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
28.作为一种可选的但非限定性的实现方式，向用户发送提示信息的方式例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
29.可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本说明实施例
的实现方式构成限定，其它满足相关法律法规的方式也可以应用于本说明实施例的实现方式中。
30.图1为本说明书一实施例提供的字幕处理方法的流程示意图，如图1所示，该流程包括以下步骤：
31.步骤s102，检测到用户进入视频会议场景，获取视频会议当前的发言者的主语种信息作为第一语种信息，获取用户的主语种信息作为第二语种信息；
32.步骤s104，在第一语种信息与第二语种信息不相同时，获取发言者的语音数据，根据语音数据生成相应的字幕；
33.步骤s106，根据用户的历史翻译相关操作，确定字幕的显示样式；
34.步骤s108，根据字幕的显示样式，将字幕实时推送至上述用户的视频会议场景中。
35.本说明书一实施例中，检测到用户进入视频会议场景，获取视频会议当前的发言者的主语种信息作为第一语种信息，获取用户的主语种信息作为第二语种信息，在第一语种信息与第二语种信息不相同时，获取发言者的语音数据，根据语音数据生成相应的字幕，根据用户的历史翻译相关操作，确定字幕的显示样式，根据字幕的显示样式，将字幕实时推送至用户的视频会议场景中，以在用户的视频会议场景中实时显示字幕。可见，通过本实施例，能够在视频会议场景下根据发言者的发言内容实时生成字幕，并根据用户情况，确定字幕的显示样式，并基于字幕的显示样式，在用户的视频会议场景中实时显示字幕，从而解决视频会议场景下的跨语种交流问题，满足用户在视频会议场景下对会议内容的了解需求。
36.本实施例中的字幕处理方法可以应用在服务器端，由服务器执行，该服务器可以为集成有视频会议应用的协同办公软件的服务器。或者，本实施例中的字幕处理方法可以应用在用户的用户终端上，由用户终端执行，该用户终端可以为手机、电脑、平板电脑、笔记本电脑、车载电脑、可穿戴设备等智能终端。该用户终端上可以运行有集成有视频会议应用的协同办公软件。其中，协同办公软件是一种集成有即时通讯、云文档、音视频会议等多种办公应用的软件，能够极大提高员工之间的协作办公效率。
37.上述步骤s102中，检测用户是否进入视频会议场景，若检测到用户点击了加入视频会议的按钮，则确定用户进入视频会议场景。在检测到用户进入视频会议场景之后，获取视频会议当前的发言者的主语种信息作为第一语种信息，以及，获取用户的主语种信息作为第二语种信息。
38.其中，视频会议当前的发言者是当前时刻在视频会议中发言的人员。视频会议的发言者可以随着时间变化而发生变化。在一个实施例中，获取视频会议当前的发言者的主语种信息，具体为：
39.(a1)获取发言者发出的语音数据；
40.(a2)在语音数据对应一种语种信息时，将所对应的语种信息确定为发言者的主语种信息；
41.(a3)在语音数据对应多种语种信息时，确定语音数据中各种语种信息所对应的音频数据量，将所对应的音频数据量最多的语种信息，确定为发言者的主语种信息。
42.在视频会议场景下，各位参会方可以通过语音的方式交流，基于此，可以获取视频会议中当前的发言者发出的语音数据，并判断该语音数据对应几种语种信息。具体为，判断该语音数据中包括几种语言，从而确定该语音数据对应几种语种信息。比如，语音数据“你
好”包括一种语言——汉语，从而对应一种语种信息——汉语；语音数据“hello，吃了吗”包括两种语言——汉语和英语，从而对应两种语种信息——汉语和英语。
43.接着，若确定发言者的语音数据对应一种语种信息，则将所对应的语种信息确定为发言者的主语种信息。若确定发言者的语音数据对应多种语种信息，则确定发言者的语音数据中各种语种信息所对应的音频数据量，将所对应的音频数据量最多的语种信息，确定为发言者的主语种信息。
44.比如，发言者的语音数据为“hello，吃了吗，今天天气怎么样”，则可以分析该语音数据中各种语种信息(中文和英文)所对应的音频数据量，将所对应的音频数据量最多的语种信息(中文)，确定为发言者的主语种信息。
45.可以看出，通过本实施例，能够在发言者的语音数据对应多种语种信息时，根据发言者的语音数据中各种语种信息所对应的音频数据量，确定发言者的主语种信息，从而在视频会议场景下准确确定发言者的主语种信息。
46.在一个示例中，可以周期性确定发言者的主语种信息，比如每隔七天根据这七天内发言者在协同办公软件集成的各个应用如即时通讯应用和视频会议应用中发出的语音消息和/或文字消息，确定发言者的主语种信息。在另一个示例中，可以通过预先训练的机器学习模型对发言者历史在协同办公软件所集成的各个应用如即时通讯应用和视频会议应用中发送过的会话消息的语种进行识别，例如，将发言者即时通讯应用和视频会议应用中发出的会话消息，输入至预先训练的机器学习模型，该机器学习模型输出会话消息的语种信息，将机器学习模型输出的语种信息作为该会话消息的语种标签，这样可以统计发言者在最近一段时间(如7天)内在协同办公软件所集成的各个应用中发出的会话消息的语种标签来确定该发言者的主语种信息。其中，会话消息可以包括语音消息和文字消息。当然，若发言者为自己设置了主语种信息的标签，则可以直接获取该标签以确定发言者的主语种信息。
47.上述步骤s102中，在确定发言者的主语种信息之后，将发言者的主语种信息确定为第一语种信息。上述步骤s102中，还获取用户的主语种信息作为第二语种信息。在一个实施例中，获取用户的主语种信息，具体为：利用机器学习模型对用户历史在协同办公软件所集成的各个应用如即时通讯应用和视频会议应用中发送过的会话消息的语种进行识别，例如，将用户在即时通讯应用和视频会议应用中发出的会话消息，输入至预先训练的机器学习模型，该机器学习模型输出会话消息的语种信息，将机器学习模型输出的语种信息作为该会话消息的语种标签，这样可以统计用户在最近一段时间(如3个月)内在协同办公软件所集成的各个应用中发出的会话消息的语种标签来确定该用户的主语种信息。当然，若用户为自己设置了主语种信息的标签，则可以直接获取该标签以确定用户的主语种信息。本实施例中，在获取用户的主语种信息之后，将用户的主语种信息作为第二语种信息。
48.上述步骤s104中，判断第一语种信息与第二语种信息是否相同，若相同，则可以保持视频会议中的字幕处于不开启状态，若不相同，则获取发言者在视频会议过程中发言的语音数据，根据该语音数据生成相应的字幕。可以通过语音识别技术将该语音数据转换为相应的字幕。
49.上述步骤s106中，根据用户的历史翻译相关操作，确定字幕的显示样式。字幕的显示样式包括显示字幕中的部分文本的译文、显示字幕中的全部文本的译文以及不显示字幕
的译文。
50.图2为本说明书一实施例提供的字幕的显示样式的示意图，如图2所示，以同一句英文字幕为例，本实施例提供有三种显示样式，从上到下分别为：显示字幕中的部分文本的译文、显示字幕中的全部文本的译文以及不显示字幕的译文。
51.对于跨语言能力强的用户，其可能只需要视频会议的发言者的字幕，因此可以确定字幕的显示样式为不显示字幕的译文。对于具备一定跨语言能力的用户，其可能需要显示视频会议的发言者所说的生僻词的译文，因此可以确定字幕的显示样式为显示字幕中的部分文本的译文。对于跨语言能力弱的用户，其可能需要视频会议的发言者的字幕和相应的全部译文，因此可以确定字幕的显示样式为显示字幕中的全部文本的译文。
52.在一个实施例中，根据用户的历史翻译相关操作，确定字幕的显示样式，包括以下中的至少一项：
53.(b1)若根据用户的历史翻译相关操作，确定用户已开启针对视频会议的字幕翻译功能，则确定字幕的显示样式为显示字幕中的全部文本的译文；
54.(b2)若根据用户的历史翻译相关操作，确定用户未开启针对视频会议的字幕翻译功能，且用户历史执行指定翻译操作的频次大于或者等于预设频次，则确定字幕的显示样式为显示字幕中的部分文本的译文；
55.(b3)若根据用户的历史翻译相关操作，确定用户未开启针对视频会议的字幕翻译功能，且用户历史执行指定翻译操作的频次小于预设频次，则确定字幕的显示样式为不显示字幕的译文；
56.其中，指定翻译操作为针对第一语种信息的翻译操作。
57.用户的历史翻译相关操作，包括针对视频会议的字幕翻译功能的开启和关闭操作。首先，根据用户的历史翻译相关操作，判断用户是否已经在视频会议中开启字幕翻译功能，若是，则确定用户已开启针对视频会议的字幕翻译功能，从而确定用户需要全部译文才能够了解视频会议内容，并确定字幕的显示样式为显示字幕中的全部文本的译文。
58.若确定用户没有在视频会议中开启字幕翻译功能，也即，确定用户未开启针对视频会议的字幕翻译功能，则根据用户的历史翻译相关操作，判断用户历史执行指定翻译操作的频次是否大于或等于预设频次。其中，指定翻译操作为用户针对第一语种信息的翻译操作。
59.在一个实施例中，视频会议场景所在的视频会议应用集成在协同办公软件中，则用户的历史翻译相关操作包括用户在协同办公软件所集成的各个应用中历史执行的翻译操作，可以根据用户在协同办公软件所集成的各个应用中历史执行的翻译操作，判断用户历史执行指定翻译操作的频次是否大于或者等于预设频次。
60.具体地，可以获取用户在提供视频会议功能的协同办公软件所集成的各个应用(如视频会议应用、即时通讯应用、翻译应用等应用)中历史执行的各个翻译操作，从获取的翻译操作中提取用于翻译第一语种信息对应的语言的指定翻译操作，比如，获取用户在当前时间之前一周内，在协同办公软件所集成的各个应用中执行的各个翻译操作，从获取的翻译操作中提取用于翻译第一语种信息对应的语言的指定翻译操作。该用于翻译第一语种信息对应的语言的指定翻译操作，可以是用户在任何情况下用于翻译第一语种信息对应的语言的翻译操作。比如，与上述的视频会议发言者在单聊或者群聊或视频会议场景下针对
第一语种信息的翻译操作，或者，在与其他使用第一语种的用户在单聊或者群聊或者视频会议场景下针对第一语种信息的翻译操作，或者，用户在协同办公软件所集成的翻译应用中的针对第一语种信息的翻译操作。
61.判断用户历史执行指定翻译操作的频次是否大于或等于预设频次，比如，是否大于等于2次/周，若是，则确定用户阅读第一语种信息的能力较弱，确定用户需要上述字幕中的部分译文，因此确定字幕的显示样式为显示字幕中的部分文本的译文。
62.相反地，若确定用户未开启针对视频会议的字幕翻译功能，且用户历史执行指定翻译操作的频次小于预设频次，则说明用户阅读第一语种信息的能力较强，则确定字幕的显示样式为不显示字幕的译文。
63.在一个实施例中，在视频会议中，若在为用户开启字幕后，用户执行了字幕关闭操作，则在后续的视频会议中，不再自动通过图1中的流程为用户开启字幕。
64.可见，通过本实施例，能够根据用户的历史翻译相关操作，有针对性地确定用户对应的字幕的显示样式，使得字幕的显示样式与用户的语言能力相匹配，为用户带来更好的视频会议体验。
65.在一个实施例中，确定字幕的显示样式为显示字幕中的部分文本的译文之后，通过以下过程，确定字幕中需要显示译文的部分内容：
66.(d1)获取用户的目标词库；
67.(d2)将字幕与目标词库中的字词进行比对，以在字幕中确定位于目标词库中的第一目标字词；
68.(d3)确定显示字幕中的第一目标字词的译文。
69.首先，获取用户的目标词库。目标词库中记录了对于用户而言的在第一语种信息下的生僻字词。然后，将字幕与目标词库中的字词逐一进行比对，以在字幕中确定位于目标词库中的第一目标字词，可以理解，第一目标字词即为字幕中对于用户而言的在第一语种信息下的生僻字词。最后，确定显示字幕中的第一目标字词的译文，当然，该译文从属于用户对应的第二语种信息。
70.可见，通过将字幕与用户对应的生僻词库进行比对的方式，能够在字幕中准确确定对于用户而言的在第一语种信息下的生僻字词，并确定显示该部分生僻词在第二语种信息下的译文，从而便于用户了解视频会议的内容，提高用户的视频会议沟通效率。
71.在一个实施例中，获取用户的目标词库，具体为：
72.(d11)获取预先建立的第一词库，将第一词库作为用户的目标词库；
73.或者，
74.(d12)根据用户的历史翻译相关操作，在预先建立的多个第二词库中确定与用户的语言特征相匹配的词库，将相匹配的词库作为用户的目标词库；
75.或者，
76.(d13)根据用户的历史翻译相关操作，确定用户历史翻译过的字词，获取预先建立的第三词库，将用户历史翻译过的字词增加至第三词库中，得到用户的目标词库。
77.一种情况下，预先建立有第一词库，第一词库为对于任何用户而言都通用的生僻词库，第一词库可以举例为包含英文领域第一级别(含)以及以上级别字词的词库，将该第一词库作为用户的目标词库。
78.另一种情况下，根据用户的历史翻译相关操作包括的用户在协同办公软件所集成的各个应用中历史执行的翻译操作，确定用户历史翻译过的字词所属的级别，则在预先建立的多个第二词库中，选取与用户历史翻译过的字词所属的级别相匹配的词库，作为用户的语言特征相匹配的词库，进而作为用户的目标词库。比如，用户历史翻译过的字词属于英文领域第一级别以及第一级别的以上级别，则在预先建立的多个第二词库中，选择包括英文领域第一级别以及第一级别以上级别字词的词库，作为用户的目标词库。
79.又一个情况下，根据用户的历史翻译相关操作包括的用户在协同办公软件所集成的各个应用中历史执行的翻译操作，确定用户历史翻译过的字词。获取预先建立的第三词库，第三词库也为对于任何用户而言都通用的生僻词库，第三词库可以与第一词库相同。将用户历史翻译过的字词增加至第三词库中，得到用户的目标词库。
80.可以看出，本实施例中，一种情况下，可以根据用户历史翻译过的字词所属的级别，选择与用户历史翻译过的字词所属的级别相匹配的词库，作为用户的目标词库，另一个情况下，可以将用户历史翻译过的字词添加到通用词库中，形成用户个性化的生僻词库。从而通过多种方式得到用户个性化的生僻词库，使得确定字幕中的部分文本的译文时，可以准确确定用户不熟悉的词并将其翻译出来。
81.在一个实施例中，在上述流程下，还可以执行：在用户的目标词库中确定在该用户的视频会议场景中的翻译次数达到预设次数阈值的第二目标字词，将第二目标字词标记为在用户的视频会议场景中暂停翻译的字词。由于第二目标字词的翻译次数较多，因此推测用户已经掌握该词及其译文，因此将第二目标字词标记为在用户的视频会议场景中暂停翻译的字词，以不在视频会议场景下向用户提供第二目标字词的译文，节省系统工作量。
82.上述步骤s108中，在确定字幕的显示样式之后，根据字幕的显示样式，将字幕实时推送至用户的视频会议场景中，从而在视频会议场景中为用户实时显示字幕，辅助用户了解会议内容。需要说明的是，将字幕实时推送至用户的视频会议场景中，指的是，将字幕推送至用户的视频会议的界面中，以在用户的视频会议的界面中显示该字幕。
83.图3a为本说明书一实施例提供的视频会议中开启字幕的场景示意图，如图3a所示，可以在视频会议中，自动为用户开启字幕，并自定确定字幕的显示样式，图3a以显示样式为显示全部译文为例进行示意。
84.图3b为本说明书又一实施例提供的视频会中开启字幕的场景示意图，与图3a对应，图3b中，在字幕开启后，可以向用户实时显示字幕的全部译文。
85.可见，通过以上实施例中，能够在视频会议场景下为用户自动开启视频会议的字幕，从而提高用户的视频体验。需要说明的是，在执行本实施例之前，可以向用户提示是否同意授权自动开启视频会议的字幕推荐功能，并向用户说明，在自动开启视频会议的字幕推荐功能时，需要获取用户必要的个人信息以帮助用户分析开启字幕时字幕的显示样式。若用户点击同意自动开启视频会议的字幕推荐功能，则可以通过以上的过程，在不侵犯用户隐私的情况下，在视频会议场景中自动为用户开启字幕并确定字幕的显示样式。
86.在一个实施例中，若确定字幕的显示样式为显示字幕中的部分文本的译文，则相应地，根据字幕的显示样式，将字幕实时推送至用户的视频会议场景中，可以为：在用户的视频会议场景中的字幕显示区域，显示字幕以及字幕中的部分文本的译文；其中，若在字幕显示区域当前显示的字幕中同一需要翻译的字词出现至少两次，则显示字幕中位置靠前的
该需要翻译的字词的译文。
87.具体而言，在向用户显示字幕以及字幕中的部分文本的译文时，若在字幕显示区域中，当前显示的字幕中某个需要翻译的字词出现了多次，则在当前显示的字幕中，确定各次出现的该字词中位置靠前的该字词，显示位置靠前的该字词的译文，对于当前显示的字幕中后续出现的该字词，则不显示译文，从而节省字幕显示区域的空间。其中，位置靠前的该字词，可以是按照发言者的发言顺序，首先说出的字词，在当前显示的字幕中按照文本从左往右的顺序，该字词的位置靠前。
88.举例而言，视频会议场景中的字幕显示区域中，当前显示的字幕为“apple、pear、apple”其中，“apple”为需要翻译的字词，该字词出现了两次，则只显示第一次出现的该字词的译文，第二词出现的该字词不显示译文，相应地，字幕及其译文为“apple(苹果)、pear、apple”。
89.需要说明的是，视频会议场景中的字幕显示区域中显示的字幕，会随着发言者的发言进程而变化，若根据上述流程，在字幕显示区域当前显示的字幕中确定得到某需要翻译的字词出现两次，并显示字幕中位置靠前的该字词的译文之后，若字幕显示区域中的字幕发生变化，变化后的字幕中又出现了该字词，则重新按照上述的流程，显示位置靠前的该字词的译文，以方便用户在切换后的字幕中了解该字词的含义。
90.在一个实施例中，还可以响应于用户的字幕开启操作，在用户的视频会议场景中显示视频会议的会议字幕，并且，响应于用户针对会议字幕中的第三目标字词的翻译操作，在视频会议场景中实时显示第三目标字词的译文。
91.其中，会议字幕即为前文中根据发言者的语音数据生成的字幕，可以按照前文的流程，通过语音识别技术根据发言者的语音数据生成字幕。具体地，图1中的流程是自动为用户开启字幕并确定字幕显示样式的过程，在其他实施例中，用户也可以手动开启字幕，用户手动开启字幕后，字幕默认不显示译文，用户可以针对字幕中的第三目标字词进行翻译，则在视频会议场景中显示第三目标字词的译文，从而在视频会议场景下根据用户的操作为用户提供所需的翻译功能。
92.综上，通过本实施例，能够在视频会议场景下根据发言者的发言内容实时生成字幕，并根据用户情况，确定字幕的显示样式，并基于字幕的显示样式，在用户的视频会议场景中实时显示字幕，从而解决视频会议场景下的跨语种交流问题，满足用户在视频会议场景下对会议内容的了解需求。
93.图4为本说明书一实施例提供的字幕处理装置的结构示意图，如图4所示，该装置包括：
94.信息获取单元41，用于检测到用户进入视频会议场景，获取所述视频会议当前的发言者的主语种信息作为第一语种信息，获取所述用户的主语种信息作为第二语种信息；
95.字幕生成单元42，用于在所述第一语种信息与所述第二语种信息不相同时，获取所述发言者的语音数据，根据所述语音数据生成相应的字幕；
96.样式确定单元43，用于根据所述用户的历史翻译相关操作，确定所述字幕的显示样式；
97.字幕显示单元44，用于根据所述字幕的显示样式，将所述字幕实时推送至所述用户的视频会议场景中。
98.可选地，所述字幕的显示样式包括显示所述字幕中的部分文本的译文、显示所述字幕中的全部文本的译文以及不显示所述字幕的译文。
99.可选地，信息获取单元41，具体用于：
100.获取所述发言者的语音数据；
101.在所述语音数据对应一种语种信息时，将所对应的语种信息确定为所述发言者的主语种信息；
102.在所述语音数据对应多种语种信息时，确定所述语音数据中各种所述语种信息所对应的音频数据量，将所对应的音频数据量最多的所述语种信息，确定为所述发言者的主语种信息。
103.可选地，样式确定单元43，具体包括以下中的至少一项：
104.若根据所述用户的历史翻译相关操作，确定所述用户已开启针对所述视频会议的字幕翻译功能，则确定所述字幕的显示样式为显示所述字幕中的全部文本的译文；
105.若根据所述用户的历史翻译相关操作，确定所述用户未开启针对所述视频会议的字幕翻译功能，且所述用户历史执行指定翻译操作的频次大于或者等于预设频次，则确定所述字幕的显示样式为显示所述字幕中的部分文本的译文；
106.若根据所述用户的历史翻译相关操作，确定所述用户未开启针对所述视频会议的字幕翻译功能，且所述用户历史执行所述指定翻译操作的频次小于所述预设频次，则确定所述字幕的显示样式为不显示所述字幕的译文；
107.其中，所述指定翻译操作为针对所述第一语种信息的翻译操作。
108.可选地，所述视频会议场景所在的视频会议应用集成在协同办公软件中；所述装置还包括：判断单元，用于根据所述用户在所述协同办公软件所集成的各个应用中历史执行的翻译操作，判断所述用户历史执行所述指定翻译操作的频次是否大于或者等于所述预设频次。
109.可选地，还包括词库比对单元，用于：
110.在确定所述字幕的显示样式为显示所述字幕中的部分文本的译文之后，获取所述用户的目标词库；
111.将所述字幕与所述目标词库中的字词进行比对，以在所述字幕中确定位于所述目标词库中的第一目标字词；
112.确定显示所述字幕中的所述第一目标字词的译文。
113.可选地，所述词库比对单元具体用于：
114.获取预先建立的第一词库，将所述第一词库作为所述用户的目标词库；
115.或者，
116.根据所述用户的历史翻译相关操作，在预先建立的多个第二词库中确定与所述用户的语言特征相匹配的词库，将所述相匹配的词库作为所述用户的目标词库；
117.或者，
118.根据所述用户的历史翻译相关操作，确定所述用户历史翻译过的字词，将所述用户历史翻译过的字词增加至预先建立的第三词库中，得到所述用户的目标词库。
119.可选地，还包括标记单元，用于：
120.在所述目标词库中确定在所述用户的视频会议场景中的翻译次数达到预设次数
阈值的第二目标字词；
121.将所述第二目标字词标记为在所述用户的视频会议场景中暂停翻译的字词。
122.可选地，若确定所述字幕的显示样式为显示所述字幕中的部分文本的译文，所述字幕显示单元44具体用于：
123.在所述用户的视频会议场景中的字幕显示区域，显示所述字幕以及所述字幕中的部分文本的译文；
124.其中，若在所述字幕显示区域当前显示的字幕中同一需要翻译的字词出现至少两次，则显示所述字幕中位置靠前的该需要翻译的字词的译文。
125.可选地，还包括手动翻译单元，用于：
126.响应于所述用户的字幕开启操作，在所述用户的视频会议场景中显示所述视频会议的会议字幕；
127.响应于所述用户针对所述会议字幕中的第三目标字词的翻译操作，在所述视频会议场景中实时显示所述第三目标字词的译文。
128.需要说明的是，本实施例中的字幕处理装置，可以实现前述的字幕处理方法实施例的各个过程，并达到相同的效果和功能，这里不再重复。
129.本说明书一实施例还提供了一种字幕处理设备，图5为本说明书一实施例提供的字幕处理设备的结构示意图，如图5所示，字幕处理设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器801和存储器802，存储器802中可以存储有一个或一个以上应用程序或数据。其中，存储器802可以是短暂存储或持久存储。存储在存储器802的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括字幕处理设备中的一系列计算机可执行指令。更进一步地，处理器801可以设置为与存储器802通信，在字幕处理设备上执行存储器802中的一系列计算机可执行指令。字幕处理设备还可以包括一个或一个以上电源803，一个或一个以上有线或无线网络接口804，一个或一个以上输入或输出接口805，一个或一个以上键盘806等。
130.通过有线或无线网络接口804，字幕处理设备可以连接网络，如互联网或者局域网，从而与网络中的其他设备进行通信。通过输入或输出接口805，字幕处理设备可以接收外部设备输入的数据，或者向外部设备输出数据，一个示例中，输入或输出接口805包括但不限于触控显示屏。通过键盘806，字幕处理设备可以接收用户输入的信息并进行相应处理。
131.在一个具体的实施例中，字幕处理设备可以为服务器或用户终端，包括有处理器；以及，被配置为存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器实现以下流程：
132.检测到用户进入视频会议场景，获取所述视频会议当前的发言者的主语种信息作为第一语种信息，获取所述用户的主语种信息作为第二语种信息；
133.在所述第一语种信息与所述第二语种信息不相同时，获取所述发言者的语音数据，根据所述语音数据生成相应的字幕；
134.根据所述用户的历史翻译相关操作，确定所述字幕的显示样式；
135.根据所述字幕的显示样式，将所述字幕实时推送至所述用户的视频会议场景中。
136.需要说明的是，本实施例中的字幕处理设备，可以实现前述的字幕处理方法实施
例的各个过程，并达到相同的效果和功能，这里不再重复。
137.本说明书另一实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现以下流程：
138.检测到用户进入视频会议场景，获取所述视频会议当前的发言者的主语种信息作为第一语种信息，获取所述用户的主语种信息作为第二语种信息；
139.在所述第一语种信息与所述第二语种信息不相同时，获取所述发言者的语音数据，根据所述语音数据生成相应的字幕；
140.根据所述用户的历史翻译相关操作，确定所述字幕的显示样式；
141.根据所述字幕的显示样式，将所述字幕实时推送至所述用户的视频会议场景中。
142.需要说明的是，本实施例中的存储介质，可以实现前述的字幕处理方法实施例的各个过程，并达到相同的效果和功能，这里不再重复。
143.其中，所述的计算机可读存储介质包括只读存储器(read-only memory，简称rom)、随机存取存储器(random access memory，简称ram)、磁碟或者光盘等。
144.在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(programmable logic device，pld)(例如现场可编程门阵列(field programmable gate array，fpga))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(hardware description language，hdl)，而hdl也并非仅有一种，而是有许多种，如abel(advanced boolean expression language)、ahdl(altera hardware description language)、confluence、cupl(cornell university programming language)、hdcal、jhdl(java hardware description language)、lava、lola、myhdl、palasm、rhdl(ruby hardware description language)等，目前最普遍使用的是vhdl(very-high-speed integrated circuit hardware description language)与verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。
145.控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(application specific integrated circuit，asic)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：arc 625d、atmel at91sam、microchip pic18f26k20以及silicone labs c8051f320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使
得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
146.上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
147.为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
148.本领域内的技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
149.本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
150.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
151.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
152.还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
153.本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个
或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
154.本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
155.以上所述仅为本文件的实施例而已，并不用于限制本文件。对于本领域技术人员来说，本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本文件的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋叶婷马新雅杨文海李想郑康
技术所有人：北京字跳网络技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。