实现视频会议中提词的方法以及装置的制作方法

文档序号：7896104阅读：449来源：国知局

专利名称：实现视频会议中提词的方法以及装置的制作方法
技术领域：
本发明涉及通信技术领域，具体涉及实现视频会议中提词的方法以及装置。
技术背景
随着用户需求的演变和视频会议技术的发展，视频会议技术已经越来越广泛的应用在学术交流，远程教育、商务磋商、峰会论坛等多种场景。
在很多场景下，参与会议的发言者可能都需要基于一定的发言稿来进行相应发言。为使得发言者无须低头看发言稿，而直接面对摄像头发言，以增强与远端与会人员的会议交流，现有的很多会议系统都考虑到为发言人提供提词的功能。
现有技术中较常用的提词功能的实现方式是，部署专用提词设备(包含一台专门显示提词信息的显示器)为与会者提词，会议终端通过软件控制提词设备实时提词。
实践发现，现有利用专用提词设备进行提词的技术中，需增加额外的硬件和配套软件来实现提词，其实现成本相对较高，管理相对较复杂，功能扩展也相对较差；且提词的显示器的安装位置直接影响提词效果，使会场部署受到诸多的限制。发明内容
本发明实施例提供实现视频会议中提词的方法以及装置，以降低视频会议中提词功能的实现成本和复杂度，提高会场部署灵活性。
为解决上述技术问题，本发明实施例提供以下技术方案
一种实现视频会议中提词的方法，包括
视频会议终端获取至少一个提词字幕图片；
对所述至少一个提词字幕图片进行编辑处理，并按照指定的图片显示顺序将经过编辑处理的所述提词字幕图片缓存到所述视频会议终端的显存中；
接收提词指令；
根据所述提词指令，在所述视频会议终端显示的远端会议视频的指定区域，按照显存中指定的图片显示顺序，滚动显示经过编辑处理的所述提词字幕图片。
一种实现视频会议中提词的方法，包括
视频会议终端获取提词字幕文件；
接收提词指令；
采样发言者音频；
对所述采样的发言者音频进行语音识别，获得与采样的所述发言者音频对应的文字信息；
将获得的与采样的所述发言者音频对应的文字信息，与提词字幕文件包含的提词字幕信息进行匹配；
根据匹配结果，在所述视频会议终端显示的远端会议视频的指定区域，显示所述提词字幕文件包含的提词字幕信息中，与当前采样的所述发言者音频对应的文字信息相匹配部分的下一部分提词字幕信息。
一种视频会议终端，包括
获取模块，用于获取至少一个提词字幕图片；
处理缓存模块，用于对所述获取模块获取的至少一个提词字幕图片进行编辑处理，并按照指定的图片显示顺序将经过编辑处理的所述提词字幕图片缓存到所述视频会议终端显存中；
接收模块，用于接收提词指令；
滚动显示模块，用于根据所述接收模块接收的提词指令，在所述视频会议终端显示的远端会议视频的指定区域，按照显存中指定的图片显示顺序，滚动显示经过编辑处理的所述提词字幕图片。
一种视频会议终端，包括
第二获取模块，用于获取提词字幕文件；
接收模块，用于接收提词指令；
采样模块，用于采样发言者音频；
语音识别模块，用于对所述采样模块采样的发言者音频进行语音识别，获得与采样的所述发言者音频对应的文字信息；
匹配模块，用于将所述语音识别模块获得的与采样的所述发言者音频对应的文字信息，与提词字幕文件包含的提词字幕信息进行匹配；
显示控制模块，用于根据所述匹配模块的匹配结果，在所述视频会议终端显示的远端会议视频的指定区域，显示所述提词字幕文件包含的提词字幕信息中，与当前采样的所述发言者音频对应的文字信息相匹配部分的下一部分提词字幕信息。
由上可见，在本发明实施例提供的一种方案中，由视频会议终端直接获取包含发言所需的提词信息的提词字幕图片，并按指定的顺序将经过编辑处理的提词字幕图片缓存到视频会议终端显存中，在接收提词指令后，在远端会议视频的指定区域，按照显存中指定的图片显示顺序滚动显示经过编辑处理的提词字幕图片，由于是直接以包含发言所需的提词信息的提词字幕图片为基础进行处理，处理复杂度可适当降低；由于引入了滚动显示机制，在远端会议视频的指定区域滚动显示提词字幕图片，有利于在清晰显示提词字幕的同时，不影响到远端会议视频的正常观看，进而提升会议体验；并且，由于可利用会议终端固有硬件资源实现提词功能，可降低视频会议中提词功能的硬件实现成本和系统复杂度，提高会场部署灵活性。
在本发明实施例提供的另一种方案中，由视频会议终端直接获取包含发言所需的提词信息的提词字幕文件，在接收提词指令后，采样发言者音频；对采样的发言者音频进行语音识别，获得与采样的发言者音频对应的文字信息；将获得的与采样的该发言者音频对应的文字信息，与提词字幕文件包含的提词字幕信息进行匹配；根据匹配结果，在视频会议终端显示的远端会议视频的指定区域，显示该提词字幕文件包含的提词字幕信息中，与当前采样的发言者音频对应的文字信息相匹配部分的下一部分提词字幕信息。由于引入音频识别技术和根据发言者语音的实时滚动显示机制，在远端会议视频的指定区域滚动显示提词字幕，可实现自动实时的提词，并且有利于在清晰显示提词字幕的同时，不影响到远端会议视频的正常观看，较大的提升会议体验；并且，由于可利用会议终端固有硬件资源实现提词功能，可降低视频会议中提词功能的硬件实现成本和系统复杂度，提高会场部署灵活性。

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种实现视频会议中提词的方法流程示意图2是本发明实施例二提供的一种实现视频会议中提词的方法流程示意图3_a是本发明实施例二提供的一种按页保存提词字幕图片示意图3_b是本发明实施例二提供的一种基于发言者语速滚动提词的示意图3-c是本发明实施例二提供叠加图片的地址跳转示意图3-d是本发明实施例二提供的一种提词字幕图片切分并叠加到本地视频的示意图4是本发明实施例三提供一种视频会议终端示意图5是本发明实施例四提供的一种实现视频会议中提词的方法流程示意图6是本发明实施例五提供一种视频会议终端示意图。
具体实施方式
本发明实施例提供一种实现视频会议中提词的方法以及装置，可降低视频会议中提词功能的实现成本和复杂度，提高会场部署灵活性。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
实施例一
本发明实现视频会议中提词的方法的一个实施例，可包括视频会议终端获取至少一个提词字幕图片；对上述至少一个提词字幕图片进行编辑处理，并按照指定的图片显示顺序将经过编辑处理的该提词字幕图片缓存到视频会议终端的显存中；接收提词指令；根据上述提词指令，在视频会议终端显示的远端会议视频的指定区域，按照显存中指定的图片显示顺序，滚动显示经过编辑处理的上述提词字幕图片。
参见图1，具体步骤可包括
110、视频会议终端获取至少一个提词字幕图片；
在实际应用中，视频会议终端获取提词字幕图片(其中包含发言者发言所需的提词信息)的方式可以是多种多样的，例如会议终端既可从外部获取提词字幕图片，亦可自己生成获取提词字幕图片，举例来说，视频会议终端可通过视频输入接口接收其它设备输入的包含发言者发言所需的提词信息的提词字幕图片，如视频会议终端可与一文本摄像机连接，该文本摄像机将发言者发言所需的提词信息拍摄成提词字幕图片，并将该拍摄的提词字幕图片传递给视频会议终端；或者，视频会议终端亦可接收个人电脑或互联网输入的包含发言者发言所需的提词信息的提词字幕图片，又或者，视频会议终端可在获得发言者发言所需的提词信息后，生成包含发言者发言所需的提词信息的提词字幕图片。视频会议终端可将获取的提词字幕图片保存在其存储介质(如内存)中。
可以理解，由于发言者发言所需的所有提词信息间(例如各提词行、各提词段、各提词页之间)是具有一定逻辑关联和先后顺序的，因此若获取到包含发言者发言所需的提词信息的多个提词字幕图片，则该多个提词字幕图片之间也可指定一个先后顺序，视频会议终端可按先后顺序对其进行编号，并按页存放，以便显示时依次显示。
120、视频会议终端对上述至少一个提词字幕图片进行编辑处理，并按照指定的图片显示顺序将经过编辑处理的所述提词字幕图片缓存到视频会议终端的显存中；
在一种应用场景下，对提词字幕图片进行编辑处理可包括将提词字幕图片进行编辑处理为带α信息(α信息可指示出图片的透明度，其中，α =0表示全透明，α = 1 表示全覆盖)的提词字幕图片，以便根据发言者指示，修改输出提词字幕的颜色、背景、底色等信息，具体可在需要在送叠加显示前，对提词字幕图片进行透明、底色等变换处理。其中，对提词字幕图片进行编辑处理可还可包括对提词字幕图片格式大小与配置显示的格式进行匹配，例如若提词字幕图片和配置显示的格式不匹配，则可对提词字幕图片进行缩放，例如，缩放时可控制水平和显示格式一致，垂直缩放可与水平缩放比相同，以免字幕图像变形。
视频会议终端对提词字幕图片进行编辑处理，并可按照指定的图片显示顺序将经过编辑处理的提词字幕图片缓存到视频会议终端的显存中，以便后续可直接从视频会议终端的显存中读取提词字幕图片进行图片显示，实现自动换行换页功能。其中，此处的图片显示顺序即是指提词信息之间的先后顺序，若提词信息以行为单位，则此处的图片显示顺序可指各提词行之间的先后顺序，若提词信息以段为单位，则该图片显示顺序可指各提词段之间的先后顺序，若提词信息以页为单位，则该图片显示顺序可指各提词页之间的先后顺序，以此类推。
130、视频会议终端接收提词指令；
在视频会议过程中，若发言者需要给予提词来发言，发言者可向视频会议终端发送提词指令，视频会议终端在接收到提词指令后，启动提词功能。
可以理解，上述举例是以步骤110和120在步骤130之前执行为例的，当然其亦可在步骤130之后执行，即视频会议终端在接收到提词指令后，再获取提词字幕图片，将其进行编辑处理，并按照指定的图片显示顺序将经过编辑处理的提词字幕图片缓存到显存中。
140、视频会议终端根据上述提词指令，在该视频会议终端显示的远端会议视频的指定区域，按照显存中指定的图片显示顺序，滚动显示经过编辑处理的上述提词字幕图片。
在实际应用中，视频会议终端可在本地显示的远端会议视频上的指定区域设置一提词叠加窗口，并可根据设置的提词叠加窗口生成叠加使能时序，具体指定对应到每帧远端会议视频的哪些行，哪些列允许叠加提词字幕图片；在提词叠加窗口可直接显示一行或多行提词字幕，而通过滚动显示的方式，则可持续的显示出所有提词字幕，由于可将提词叠加窗口设定得足够小，也就不会影响到远端会议视频的正常观看。其中，由于视频会议终端是按指定顺序，将经过编辑处理的提词字幕图片存放在视频会议终端显存中，视频会议终端可通过对叠加显存的起始地址进行操作实现指定区域的词字幕图片的显示，通过叠加显存地址累加或累减，就可实现提词字幕图片的滚动显示。
在一种应用场景下，视频会议终端可基于手动模式或自动模式，对滚动显示提词字幕图片进行滚动速率控制，例如，视频会议终端可基于预定的滚动速率，滚动显示经过编辑处理的提词字幕图片；或者，可基于与发言者语速相匹配的滚动速率，滚动显示经过编辑处理的提词字幕图片；或者，可根据发言者滚动显示控制指令，滚动显示经过编辑处理的提词字幕图片，当然，视频会议终端可基于其它机制，滚动显示提词字幕图片。
进一步的，视频会议终端还可以将当前滚动显示的提词字幕图片切分成多块(可按照特定大小进行切割，或者，可根据发言者当前的发言文字，将发言者当前发言文字所对应位置的提词字幕图片的那部分切分下来)，并将其叠加到本地会议视频的指定区域，得到本地叠加视频；将该本地叠加视频进行编码并向远端视频会议终端(远端视频会议终端指的是当前会议中除视频会议终端外的其它一个或多个视频会议终端)发送，该本地叠加视频可直接发送到远端视频会议终端，或者可通过中间设备进行相应处理后转发给远端视频会议终端，而远端视频会议远端则在显示发言视频时即可显示出发言者的发言内容。这样，可实现向其它与会者实时呈现发言内容的功能，亦可省去后台编辑字幕的工作。
进一步的，视频会议终端还可显示提词字幕图片当前滚动显示进度的提示标记 (该提示标记可以是图标、文字或其它形式)，以便发言者实时了解当前发言的进度，还剩余多少发言内容等。
由上可见，本实施例中由视频会议终端直接获取包含发言所需的提词信息的提词字幕图片，并按指定的顺序将编辑处理得到提词字幕图片缓存到视频会议终端的显存中，在接收提词指令后，在远端会议视频的指定区域，按照显存中指定的图片显示顺序滚动显示提词字幕图片，由于是直接以包含发言所需的提词信息的提词字幕图片为基础进行处理，处理复杂度可适当降低；由于引入了滚动显示机制，在远端会议视频的指定区域滚动显示提词字幕图片，有利于在清晰显示提词字幕的同时，不影响到远端会议视频的正常观看，进而提升会议体验；并且，由于可利用会议终端固有硬件资源实现提词功能，可降低视频会议中提词功能的硬件实现成本和系统复杂度，提高会场部署灵活性。
实施例二
为便于更好的理解本发明实施例的技术方案，下面以更为具体的举例实例对本发明实施例的技术方案进行更为详尽的描述。
参见图2，具体步骤可包括
201、视频会议终端获取至少一个包含提词信息的提词字幕图片。
在实际应用中，视频会议终端获取提词字幕图片(其中包含发言者发言所需的提词信息)的方式可以是多种多样的，例如会议终端既可从外部获取提词字幕图片，亦可自己生成获取提词字幕图片，举例来说，会议终端可通过视频输入接口接收其它设备输入的包含发言者发言所需的提词信息的提词字幕图片，如会议终端可与一文本摄像机连接，该文本摄像机将发言者发言所需的提词信息拍摄成提词字幕图片，并将该拍摄的提词字幕图片传递给会议终端；或者，会议终端亦可接收个人电脑或互联网输入的包含发言者发言所需的提词信息的提词字幕图片，又或者，会议终端可以在获得发言者发言所需的提词信息后，生成包含发言者发言所需的提词信息的提词字幕图片。会议终端可将获取的提词字幕图片保存在其存储介质(如内存)中。
可以理解，由于发言者发言所需的所有提词信息间(例如各提词行、各提词段、各提词页之间)是具有一定逻辑关联和先后顺序的，因此若获取到包含发言者发言所需的提词信息的多个提词字幕图片，则该多个提词字幕图片之间也可指定一个先后顺序，视频会议终端可按先后顺序对其进行编号，并按页存放，以便显示时依次显示。
202、视频会议终端对获取的至少一个提词字幕图片进行编辑处理；
在一种应用场景下，会议终端对提词字幕图片进行编辑处理可包括对提词字幕图片进行格式调整，数据变换等多种处理，以得到待送显的提词字幕图片数据。
例如，会议终端将提词字幕图片进行编辑处理为带α信息(其中，α = 0表示全透明，α = 1表示全覆盖)的提词字幕图片，以便根据发言者设置，修改输出提词字幕的颜色、背景及底色等信息，具体可在需要在送叠加显示前，对提词字幕图片进行透明、底色等变换处理。若进行半透明变化处理，则提词字幕的显示亦不影响到远端会议视频的显示。
进一步的，对提词字幕图片进行编辑处理可还可包括对提词字幕图片格式大小与配置显示的格式进行匹配，例如若提词字幕图片和配置显示的格式不匹配，则视频会议终端可对提词字幕图片进行缩放，例如，缩放时可控制水平和显示格式一致，垂直缩放可与水平缩放比相同，或者，垂直水平和显示格式一致，水平缩放可与垂直缩放比相同，以免字幕图像变形。
203、视频会议终端按照指定的图片显示顺序，将经过编辑处理的提词字幕图片缓存到该视频会议终端的显存中。
在一种应用场景下，视频会议终端对提词字幕图片进行编辑处理，并可并按照指定的图片显示顺序将经过编辑处理的提词字幕图片缓存到该视频会议终端显存中，以便后续可直接从视频会议终端的显存中读取提词字幕图片数据进行图片显示，实现自动换行换页功能。其中，此处的图片显示顺序即是指提词信息之间的先后顺序，若提词信息以行为单位，则此处的图片显示顺序可指各提词行之间的先后顺序，若提词信息以段为单位，则此处的图片显示顺序可指各提词段之间的先后顺序，若提词信息以页为单位，则此处的图片显示顺序可指各提词页之间的先后顺序(按页存储方式例如图3_a所示的方式)，以此类推。
204、视频会议终端接收提词指令；
在视频会议过程中，若发言者需要给予提词来发言，发言者可向会议终端发送提词指令，会议终端在接收到提词指令后，启动提词功能。
可以理解，上述举例是以步骤201 203在步骤204之前执行为例的，当然其亦可在步骤204之后执行，即视频会议终端在接收到提词指令后，再获取提词字幕图片，将其进行编辑处理，并按照指定的图片显示顺序将经过编辑处理的提词字幕图片缓存到显存中。
205、视频会议终端在显示的远端会议视频的指定区域设置叠加窗口；
在实际应用中，视频会议终端可在接收到提词指令后，在本地显示的远端会议视频上的指定区域(例如左上方、右上方、左下方、右下方等)设置一提词叠加窗口，而提词字幕内容只在设置的提词叠加窗口中显示。
视频会议终端可根据设置的提词叠加窗口生成叠加使能时序，具体指定对应到每帧远端会议视频的哪些行，哪些列允许叠加提词字幕图片；在提词叠加窗口可直接显示一行或多行提词字幕，而通过滚动显示的方式，则可持续的显示出所有提词字幕，由于可将提词叠加窗口设定得足够小，也就不会影响到远端会议视频的正常观看。其中，由于视频会议终端是按指定顺序，将编辑处理得到的提词字幕图片数据存放在显存中，会议终端可通过对叠加显存的起始地址进行操作实现指定区域的词字幕图片的显示，通过叠加显存地址累加或累减，就可实现提词字幕图片的滚动显示。
206、视频会议终端在显示远端会议视频的指定区域，按照显存中指定的图片显示顺序，滚动显示经过编辑处理的上述提词字幕图片。
在一种应用场景下，视频会议终端可基于手动模式或自动模式，对滚动显示提词字幕图片进行滚动速率控制，例如，视频会议终端可基于预定的滚动速率，滚动显示经过编辑处理的提词字幕图片；或者，可基于与发言者语速相匹配的滚动速率，滚动显示经过编辑处理的提词字幕图片；或者，可根据发言者滚动显示控制指令，滚动显示经过编辑处理的提词字幕图片，当然，视频会议终端可基于其它机制，滚动显示提词字幕图片。
在实际应用中，手动模式下，视频会议终端还可以支持外部设备控制滚动操作，如根据来自遥控器或互联网的滚动控制指令，滚动(如前进后退，左右移动)显示提词字幕图片。在自动模式下，视频会议终端可根据设置的滚动速度，滚动显示提词字幕图片；或者，部署一个语速传感器，感应出发言者讲话的速度和进度(例如可对每段提词字幕中的关键字对应的音频进行感应，根据感应到的音频确定发言者讲话的速度和进度)，视频会议终端基于与发言者语速相匹配的滚动速率，滚动显示提词字幕图片。当然，会议终端可根据发言者指令，在手动模式和自动模式之间进行切换，例如视频会议终端可在发言者通过外置的滚动控制器的控制下，进行滚动速度，滚动方向、滚动暂停等滚动控制操作。
其中，在视频会议终端基于与发言者语速相匹配的滚动速率，滚动显示提词字幕图片的机制中，视频会议终端可采样发言者音频(在实际应用中，视频会议终端例如可通过拾音装置，采样发言者音频，其采样频率可根据具体情况具体设置，例如采样频率可设定为4000赫兹)，对该采样的发言者音频进行语音识别，获得与采样的发言者音频对应的文字信息(例如，可在数据库中存储标准文字音频(例如普通话)，还可存储各种方言的文字音频，将该采样的发言者音频与数据库中存储的文字音频进行匹配，获得采样的发言者音频对应的文字信息，当然亦可采用其它语音识别技术，获得与采样的发言者音频对应的文字信息)；将获得的与采样的所述发言者音频对应的文字信息，与经过编辑处理的提词字幕图片所能呈现的提词字幕信息(可通过光学识别技术识别提词字幕图片所能呈现的提词字幕信息)进行匹配(例如，视频会议终端可根据情况设定一个匹配度阈值(例如85%、 90%或其它值)，当匹配度大于该设定的匹配度阈值时，则确认两者相匹配，视频会议终端将获得的与采样的发言者音频对应的文字信息，与提词字幕图片所能呈现的提词字幕信息进行匹配，当获得的与采样的发言者音频对应的文字信息，与提词字幕图片所能呈现的提词字幕信息的某一部分的匹配度大于设定匹配度阈值时，则确定当前获得的与采样的发言者音频对应的文字信息，与提词字幕图片所能呈现的该部分提词字幕信息相匹配)；根据匹配结果，显示经过编辑处理的提词字幕图片所能呈现的提词字幕信息中，与当前采样的发言者音频对应的文字信息相匹配部分的下一部分提词字幕信息(可以是下一句，下几句或下一段等)的对应图片位置(当然同时也还可显示经过编辑处理的提词字幕图片所能呈现的提词字幕信息中，与当前采样的发言者音频对应的文字信息相匹配部分)。具体显示场景可如图3-b所示，可实现发言者发言文字的同步提词。
当完成一页提词字幕图片的显示后，由于提词字幕图片数据都保存到了视频会议终端的显存中，可以自动按照编号进入下一页，启到自动换页目的。例如图示3-c所示，当第1页完成显示后，叠加图片的首地址由A跳转到B，起到换页目的。为了提高可靠性，若显存切换到了 B，这时A地址对应加载第3页的内容。当第2页完成后，又切换到A地址，以此类推，就可以把要显示的提词字幕自动翻页全面显示了。
进一步的，视频会议终端在叠加显示前，还可进行提词字幕图片的显示排练预演，由于每页图片中可能前有空白，视频会议终端可通过设置显存地址的跳转，去掉空白部分不用显示，如此，提词字幕显示在页和页间衔接时可更顺畅，提词效率得到提高。
207、视频会议终端将当前滚动显示的提词字幕图片切分成多块，并将其叠加到本地会议视频的指定区域，得到本地叠加视频；将该本地叠加视频进行编码并向视频会议的远端视频会议终端发送。
在实际应用中，视频会议终端可将当前滚动显示的提词字幕图片切分成多块，例如切分为大小为N*M的小快，并将其叠加到本地会议视频的指定区域(例如，左上左下、右上右下等)，得到本地叠加视频；将该本地叠加视频进行编码并向视频会议的远端视频会议终端发送。或者，可根据发言者当前的发言文字，将发言者当前发言文字所对应位置的提词字幕图片的那部分切分下来，并将其叠加到本地会议视频的指定区域(例如，左上左下、右上右下等)，得到本地叠加视频；将该本地叠加视频进行编码并向视频会议的远端视频会议终端发送，具体显示场景可如图3-d所示，可实现发言者发言文字的同步呈现。
以按固定大小切分举例来说，如提词字幕图片格式为1280*720格式，N取值要小于1280，M取值要小于720 ；为了存取方便可将图片分成等大，如N = 640，M= 360，提词字幕图片切分为四个图像块，视频会议终端可将包含提词信息的图像块取出，并将其叠加到本地会议视频的指定区域，得到本地叠加视频；并将其进行编码后向会议远端的视频会议终端发送。而视频会议远端则在显示此发言视频时即可显示出发言者的发言内容。这样，可实现向其它与会者实时呈现发言内容的功能，亦可省去后台编辑字幕的工作。
进一步的，视频会议终端还可实时的或根据发言者指令，显示提词字幕图片当前滚动显示进度的提示标记(该提示标记可以是图标、文字或其它形式)，以便发言者实时了解当前发言的进度，还剩余多少发言内容等。视频会议终端还可显示发言时间信息，以便发言者实时了解其已发言多久。
由上可见，本实施例中可由视频会议终端直接获取包含发言所需的提词信息的提词字幕图片，并按指定的顺序将编辑处理得到提词字幕图片数据缓存到视频会议终端显存中，在接收提词指令后，在远端会议视频的指定区域，按照显存中指定的图片显示顺序滚动显示提词字幕图片，由于是直接以包含发言所需的提词信息的提词字幕图片为基础进行处理，处理复杂度可适当降低；由于引入了滚动显示机制，在远端会议视频的指定区域滚动显示提词字幕图片，有利于在清晰显示提词字幕的同时，不影响到远端会议视频的正常观看，进而提升会议体验；并且，由于可利用视频会议终端固有硬件资源实现提词功能，可降低视频会议中提词功能的硬件实现成本和系统复杂度，提高会场部署灵活性。
进一步的，视频会议终端支持基于手动或自动模式下的滚动速率控制机制，滚动显示提词字幕图片，实现灵活性较高。
为便于更好的实时本发明上述实施例的技术方案，本发明实施例下面还提供可实的相关装置。
实施例三
参见图4、本发明实施例提供的一种视频会议终端400，可以包括获取模块410、处理缓存模块420、接收模块430和滚动显示模块440。
其中，获取模块410，用于获取至少一个提词字幕图片；
在实际应用中，视频会议终端的获取模块410获取提词字幕图片(其中包含发言者发言所需的提词信息)的方式可以是多种多样的，例如获取模块410既可从外部获取提词字幕图片，亦可自己通过生成图片获取提词字幕图片，举例来说，获取模块410可以通过视频输入接口接收其它设备输入的包含发言者发言所需的提词信息的提词字幕图片，如获取模块410可以与一文本摄像机连接，该文本摄像机将发言者发言所需的提词信息拍摄成提词字幕图片，并将该拍摄的提词字幕图片传递给视频会议终端400 ；或者，获取模块410 亦可以接收个人电脑或互联网输入的包含发言者发言所需的提词信息的提词字幕图片，又或者，获取模块410可在获得发言者发言所需的提词信息后，生成包含发言者发言所需的提词信息的提词字幕图片。获取模块410可将获取的提词字幕图片保存在其存储介质(如内存)中。
可以理解，由于发言者发言所需的所有提词信息间(例如各提词行、各提词段、各提词页之间)是具有一定逻辑关联和先后顺序的，因此若获取模块410获取到包含发言者发言所需的提词信息的多个提词字幕图片，则该多个提词字幕图片之间也可指定一个先后顺序，视频会议终端400可按先后顺序对其进行编号，并按页存放，以便显示时依次显示。
处理缓存模块420，用于对获取模块410获取的至少一个提词字幕图片进行编辑处理，并按照指定的图片显示顺序将经过编辑处理的该提词字幕图片缓存到视频会议终端 400显存中；
在一种应用场景下，处理缓存模块420对提词字幕图片进行编辑处理可包括将提词字幕图片进行编辑处理为带α信息(α信息可指示图片的透明度，其中，α =0表示全透明，α = 1表示全覆盖)的提词字幕图片，以便根据发言者指示，修改输出提词字幕的颜色、背景、底色等信息，具体可在需要在送叠加显示前，对提词字幕图片进行透明、底色等变换处理。其中，处理缓存模块420对提词字幕图片进行编辑处理可还可包括对提词字幕图片格式大小与配置显示的格式进行匹配，例如若提词字幕图片和配置显示的格式不匹配，则可对提词字幕图片进行缩放，例如，缩放时可控制水平和显示格式一致，垂直缩放可与水平缩放比相同，以免字幕图像变形。
处理缓存模块420对提词字幕图片进行编辑处理，并可以按照指定的图片显示顺序将经过编辑处理的提词字幕图片缓存到视频会议终端的显存中，以便后续可以直接从视频会议终端的显存中读取提词字幕图片进行图片显示，实现自动换行换页功能。其中，此处的图片显示顺序即是指提词信息之间的先后顺序，若提词信息以行为单位，则此处的图片显示顺序可指各提词行之间的先后顺序，若提词信息以段为单位，则该图片显示顺序可指各提词段之间的先后顺序，若提词信息以页为单位，则该图片显示顺序可以指各提词页之间的先后顺序，以此类推。
接收模块430，用于接收提词指令；
滚动显示模块440，用于根据接收模块430接收的提词指令，在视频会议终端400显示的远端会议视频的指定区域，按照显存中指定的图片显示顺序，滚动显示经过编辑处理的提词字幕图片。
在实际应用中，滚动显示模块440可在本地显示的远端会议视频上的指定区域设置一提词叠加窗口，并可以根据设置的提词叠加窗口生成叠加使能时序，具体指定对应到每帧远端会议视频的哪些行，哪些列允许叠加提词字幕图片；在提词叠加窗口可直接显示一行或多行提词字幕，而通过滚动显示的方式，则可持续的显示出所有提词字幕，由于可将提词叠加窗口设定得足够小，也就不会影响到远端会议视频的正常观看。其中，由于处理缓存模块420是按指定顺序，将经过编辑处理的提词字幕图片存放在视频会议终端显存中，滚动显示模块440可通过对叠加显存的起始地址进行操作实现指定区域的词字幕图片的显示，通过叠加显存地址累加或累减，就可实现提词字幕图片的滚动显示。
在一种应用场景下，滚动显示模块440可基于手动模式或自动模式，对滚动显示提词字幕图片进行滚动速率控制，例如，滚动显示模块440可基于预定的滚动速率，滚动显示经过编辑处理的提词字幕图片；或者，滚动显示模块440可基于与发言者语速相匹配的滚动速率，滚动显示经过编辑处理的提词字幕图片；或者，滚动显示模块440可根据发言者滚动显示控制指令，滚动显示经过编辑处理的提词字幕图片，当然，滚动显示模块440可基于其它机制，滚动显示提词字幕图片。
在一种应用场景下，处理缓存模块420可包括编辑处理子模块和缓存子模块(图 4中未示出)。
编辑处理子模块，用于对获取模块410获取的至少一个提词字幕图片进行编辑处理，得到带α信息的提词字幕图片；
缓存子模块，用于按照指定的图片显示顺序，将上述编辑处理子模块得到的带α 信息的提词字幕图片缓存到显存中。
在一种应用场景下，滚动显示模块440可包括第一滚动显示子模块、第二滚动显示子模块和第三滚动显示子模块中的一个或多个(图4中未示出)。
其中，第一滚动显示子模块，用于根据接收模块430接收的提词指令，在视频会议终端400显示的远端会议视频的指定区域，按照显存中指定的图片显示顺序，基于预定的滚动速率滚动显示经过编辑处理的上述提词字幕图片；
第二滚动显示子模块，用于根据接收模块430接收的提词指令，在视频会议终端 400显示的远端会议视频的指定区域，按照显存中指定的图片显示顺序，基于与发言者语速相匹配的滚动速率，滚动显示经过编辑处理的上述提词字幕图片；
第三滚动显示子模块，用于根据接收模块430接收的提词指令，在视频会议终端 400显示的远端会议视频的指定区域，按照显存中指定的图片显示顺序，根据发言者滚动显示控制指令，滚动显示经过编辑处理的上述提词字幕图片。
在一种应用场景下，第二滚动显示子模块可以包括采样子模块、语音识别子模块、匹配子模块和显示控制子模块(图4中未示出)。
其中，采样子模块，用于采样发言者音频；
在实际应用中，采样子模块例如可通过拾音装置，采样发言者音频，其采样频率可根据具体情况具体设置，例如采样频率可设定为4000赫兹
语音识别子模块，用于将采样子模块采样的发言者音频进行语音识别，获得与采样的所述发言者音频对应的文字信息；
匹配子模块，用于对语音识别子模块获得的与采样的发言者音频对应的文字信息，与经过编辑处理的上述提词字幕图片所能呈现的提词字幕信息进行匹配；
例如，匹配子模块可根据情况设定一个匹配度阈值(例如85%、90%或其它值)，当匹配度大于该设定的匹配度阈值时，则确认两者相匹配，匹配子模块将获得的与采样的发言者音频对应的文字信息，与提词字幕图片所能呈现的提词字幕信息进行匹配，当获得的与采样的发言者音频对应的文字信息，与提词字幕图片所能呈现的提词字幕信息的某一部分的匹配度大于设定匹配度阈值时，则确定当前获得的与采样的发言者音频对应的文字信息，与提词字幕图片所能呈现的该部分提词字幕信息相匹配。
显示控制子模块，用于根据匹配子模块的匹配结果，显示经过编辑处理的上述提词字幕图片所能呈现的提词字幕信息中，与当前采样的发言者音频对应的文字信息相匹配部分的下一部分提词字幕信息(可以是下一句，下几句或下一段等)的对应图片位置。
当然，显示控制子模块还可用于，同时显示经过编辑处理的提词字幕图片所能呈现的提词字幕信息中，与当前采样的发言者音频对应的文字信息相匹配部分。
在一种应用场景下，视频会议终端400还可包括本地视频叠加模块和发送模块 (图4中未示出)。
其中，本地视频叠加模块，用于将滚动显示模块当前滚动显示的上述提词字幕图片切分成多块，并将其叠加到本地会议视频的指定区域，得到本地叠加视频；
发送模块，用于将上述本地视频叠加模块得到的本地叠加视频进行编码并向会议远端发送。
在一种应用场景下，视频会议终端400的本地视频叠加模块可以将当前滚动显示的提词字幕图片切分成多块(可按照特定大小进行切割，或者，可根据发言者当前的发言文字，将发言者当前发言文字所对应位置的提词字幕图片的那部分切分下来)，并将其叠加到本地会议视频的指定区域，得到本地叠加视频；将该本地叠加视频进行编码并向远端视频会议终端(远端视频会议终端指的是当前会议中除视频会议终端外的其它一个或多个视频会议终端)发送，该本地叠加视频可直接发送到远端视频会议终端，或者可通过中间设备进行相应处理后转发给远端视频会议终端，而远端视频会议远端则在显示发言视频时即可显示出发言者的发言内容。这样，可实现向其它与会者实时呈现发言内容的功能，亦可省去后台编辑字幕的工作。
在一种应用场景下，视频会议终端400还可包括进度提示模块(图4中未示出)。
其中，进度提示模块，用于显示上述提词字幕图片当前滚动显示进度的提示标记。
需要说明的是，本实施例的视频会议终端400可如上述方法实施例中的视频会议终端，可以用于实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述实施例中的相关描述，此处不再赘述。
由上可见，本实施例中可由视频会议终端400直接获取包含发言所需的提词信息的提词字幕图片，并按指定的顺序将编辑处理得到提词字幕图片数据缓存到视频会议终端 400显存中，在接收提词指令后，在远端会议视频的指定区域，按照显存中指定的图片显示顺序滚动显示提词字幕图片，由于是直接以包含发言所需的提词信息的提词字幕图片为基础进行处理，处理复杂度可适当降低；由于引入了滚动显示机制，在远端会议视频的指定区域滚动显示提词字幕图片，有利于在清晰显示提词字幕的同时，不影响到远端会议视频的正常观看，进而提升会议体验；并且，由于可利用视频会议终端400固有硬件资源实现提词功能，可降低视频会议中提词功能的硬件实现成本和系统复杂度，提高会场部署灵活性。
实施例四
本发明实现视频会议中提词的方法的另一个实施例，可包括视频会议终端获取提词字幕文件；接收提词指令；采样发言者音频；对该采样的发言者音频进行语音识别，获得与采样的该发言者音频对应的文字信息；将获得的与采样的该发言者音频对应的文字信息，与提词字幕文件包含的提词字幕信息进行匹配；根据匹配结果，在视频会议终端显示的远端会议视频的指定区域，显示上述提词字幕文件包含的提词字幕信息中，与当前采样的该发言者音频对应的文字信息相匹配部分的下一部分提词字幕信息。
参见图5，具体步骤可包括
510、视频会议终端获取提词字幕文件；
在实际应用中，视频会议终端获取提词字幕文件(提词字幕文件中包含发言者发言所需的提词信息，其格式可以是图片，文档或其它格式)的方式可以是多种多样的，例如会议终端既可从外部获取提词字幕文件，亦可自己生成获取提词字幕文件，举例来说，视频会议终端可通过视频输入接口接收其它设备输入的包含发言者发言所需的提词信息的提词字幕文件，例如会议终端可与一文本摄像机连接，该文本摄像机将发言者发言所需的提词信息拍摄成提词字幕图片，并将该拍摄的提词字幕图片传递给视频会议终端；或者，视频会议终端亦可接收个人电脑或互联网输入的包含发言者发言所需的提词信息的提词字幕图片，又或者，会议终端可在获得发言者发言所需的提词信息后，生成包含发言者发言所需的提词信息的提词字幕图片。会议终端可将获取的提词字幕图片保存在其存储介质(如内存)中。
可以理解，由于发言者发言所需的所有提词信息间(例如各提词行、各提词段、各提词页之间)是具有一定逻辑关联和先后顺序的，因此，若获取到了包含发言者发言所需的提词信息的多个提词字幕图片，则该多个提词字幕图片之间也可指定一个先后顺序，视频会议终端可按先后顺序对其进行编号，并按页存放，以便显示时依次显示。
进一步的，若获取到的提词字幕文件为提词字幕文档，视频会议终端可不对其进行编辑处理；获取到的提词字幕文件为提词字幕图片，视频会议终端还可对其进行编辑处理，对提词字幕图片进行编辑处理的方式可参考上述实施例一至三中的描述，此处不再赘述。
520、视频会议终端接收提词指令；
在视频会议过程中，若发言者需要给予提词来发言，发言者可向视频会议终端发送提词指令，视频会议终端在接收到提词指令后，启动提词功能。
可以理解，上述举例是以步骤410在步骤420之前执行为例的，当然其亦可在步骤 420之后执行，即视频会议终端在接收到提词指令后，再获取提词字幕文件。
530、视频会议终端采样发言者音频；
在实际应用中，视频会议终端可通过拾音装置，采样发言者音频，采样频率可根据具体情况具体设置，例如采样频率可设定为4000赫兹。
M0、视频会议终端对采样的发言者音频进行语音识别，获得与采样的发言者音频对应的文字信息；
在实际应用中，可在数据库中存储标准文字音频(例如普通话)，还可存储各种方言的文字音频，视频会议终端可将该采样的发言者音频与数据库中存储的文字音频进行匹配，获得采样的发言者音频对应的文字信息，当然亦可采用其它语音识别技术，获得与采样的发言者音频对应的文字信息。
550、视频会议终端将获得的与采样的发言者音频对应的文字信息，与提词字幕文件包含的提词字幕信息进行匹配；
在实际应用中，可根据情况设定一个匹配度阈值(例如85%、90%或其它值)，当匹配度大于该设定的匹配度阈值时，则确认两者相匹配，视频会议终端将获得的与采样的发言者音频对应的文字信息，与提词字幕文件包含的提词字幕信息进行匹配，当获得的与采样的发言者音频对应的文字信息，与提词字幕文件包含的提词字幕信息的某一部分的匹配度大于设定匹配度阈值时，确定获得的与采样的发言者音频对应的文字信息，与提词字幕文件包含的提词字幕信息的该部分相匹配。
560、视频会议终端根据匹配结果，在视频会议终端显示的远端会议视频的指定区域，显示提词字幕文件包含的提词字幕信息中，与当前采样的发言者音频对应的文字信息相匹配部分的下一部分提词字幕信息(可以是下一句，下几句或下一段等)。
当然，视频会议终端同时也还可显示提词字幕文件包含的提词字幕信息中，与当前采样的发言者音频对应的文字信息相匹配部分。具体显示场景可如图3-b所示，可实现发言者发言文字的同步提词。
在一种应用场景下，视频会议终端还可将提词字幕文件包含的提词字幕信息中，与当前采样的发言者音频对应的文字信息相匹配部分对应的提词字幕信息，叠加到本地会议视频的指定区域，得到本地叠加视频；将该本地叠加视频进行编码并向视频会议的远端视频会议终端发送。
在实际应用中，若提词字幕文件为提词字幕图片，视频会议终端可将当前滚动显示的提词字幕图片切分成多块(可按照特定大小进行切割，或，可根据发言者当前的发言文字，将发言者当前发言文字所对应位置的提词字幕图片的那部分切分下来)，并将其叠加到本地会议视频的指定区域，得到本地叠加视频；将该本地叠加视频进行编码并向远端视频会议终端(远端视频会议终端指的是当前会议中除视频会议终端外的其它一个或多个视频会议终端)发送，该本地叠加视频可直接发送到远端视频会议终端，或者可通过中间设备进行相应处理后转发给远端视频会议终端，而远端视频会议远端则在显示发言视频时即可显示出发言者的发言内容。这样，可实现向其它与会者实时呈现发言内容的功能，亦可省去后台编辑字幕的工作。
进一步的，视频会议终端还可实时的或根据发言者指令，显示提词字幕文件当前滚动显示进度的提示标记(该提示标记例如可以是图标、文字或其它形式)，以便发言者实时了解当前发言的进度，还剩余多少发言内容等。视频会议终端还可显示发言时间信息，以便发言者实时了解其已发言多久。
由上可见，本实施例中由视频会议终端直接获取包含发言所需的提词信息的提词字幕文件，在接收提词指令后，采样发言者音频；对采样的发言者音频进行语音识别，获得与采样的发言者音频对应的文字信息；将获得的与采样的该发言者音频对应的文字信息，与提词字幕文件包含的提词字幕信息进行匹配；根据匹配结果，在视频会议终端显示的远端会议视频的指定区域，显示该提词字幕文件包含的提词字幕信息中，与当前采样的发言者音频对应的文字信息相匹配部分的下一部分提词字幕信息。由于引入音频识别技术和根据发言者语音的实时滚动显示机制，在远端会议视频的指定区域滚动显示提词字幕，可实现自动实时的提词，并且有利于在清晰显示提词字幕的同时，不影响到远端会议视频的正常观看，较大的提升会议体验；并且，由于可利用会议终端固有硬件资源实现提词功能，可降低视频会议中提词功能的硬件实现成本和系统复杂度，提高会场部署灵活性。
为便于更好的实时本发明上述实施例的技术方案，本发明实施例下面还提供可实施上述技术方案的相关装置。
实施例五
参见图6、本发明实施例五提供的一种视频会议终端600，可以包括第二获取模块610、接收模块620、采样模块630、语音识别模块640、匹配模块650和显示控制模块660。
其中，第二获取模块610，用于获取提词字幕文件；
在实际应用中，第二获取模块610获取的包含发言者发言所需的提词信息的提词字幕文件的格式可以是图片，文档或其它格式。
在一种应用场景下，若第二获取模块610获取到的提词字幕文件为提词字幕文档，视频会议终端600可不对其进行编辑处理；若第二获取模块610获取到的提词字幕文件为提词字幕图片，则视频会议终端600还可包括编辑处理模块，用于对提词字幕图片进行编辑处理，对提词字幕图片进行编辑处理的方式可参考上述实施例一至三中的描述，此处不再赘述。
接收模块620，用于接收提词指令；
采样模块630，用于采样发言者音频；
在实际应用中，采样模块630可通过拾音装置，采样发言者音频，采样频率可根据具体情况具体设置，例如采样频率可设定为4000赫兹。当然，采样模块630亦可通过其它现有的音频采样机制，采样发言者音频。
语音识别模块640，用于对采样模块630采样的发言者音频进行语音识别，获得与采样的发言者音频对应的文字信息；
在实际应用中，例如可在数据库中存储标准文字音频(例如普通话)，还可存储各种方言的文字音频，语音识别模块640可将该采样的发言者音频与数据库中存储的文字音频进行匹配，获得采样的发言者音频对应的文字信息，当然语音识别模块640亦可采用其它语音识别技术，获得与采样的发言者音频对应的文字信息。当然，语音识别模块640亦可通过其它现有的一种或多种语音识别模块，对采样模块630采样的发言者音频进行语音识别，获得与采样的发言者音频对应的文字信息。
匹配模块650，用于将语音识别模块640获得的与采样的该发言者音频对应的文字信息，与提词字幕文件包含的提词字幕信息进行匹配；
在实际应用中，可根据情况设定一个匹配度阈值(例如85%、90%或其它值)，当匹配度大于该设定的匹配度阈值时，则确认两者相匹配，匹配模块650将语音识别模块640 获得的与采样的发言者音频对应的文字信息，与提词字幕文件包含的提词字幕信息进行匹配，当语音识别模块640获得的与采样的发言者音频对应的文字信息，与提词字幕文件包含的提词字幕信息的某一部分的匹配度大于设定匹配度阈值时，确定语音识别模块640获得的与采样的发言者音频对应的文字信息，与提词字幕文件包含的提词字幕信息的该部分相匹配。
显示控制模块660，用于根据匹配模块的匹配结果，在视频会议终端600显示的远端会议视频的指定区域，显示上述提词字幕文件包含的提词字幕信息中，与当前采样的发言者音频对应的文字信息相匹配部分的下一部分提词字幕信息(可以是下一句，下几句或下一段等)。
当然，显示控制模块660同时也还可显示提词字幕文件包含的提词字幕信息中，与当前采样的发言者音频对应的文字信息相匹配部分。具体显示场景可如图3-b所示，可实现发言者发言文字的同步提词。
在一种应用场景下，视频会议终端600还可包括视频叠加模块(图6中未示出)。
视频叠加模块，用于将提词字幕文件包含的提词字幕信息中，与当前采样的发言者音频对应的文字信息相匹配部分对应的提词字幕信息，叠加到本地会议视频的指定区域，得到本地叠加视频；将该本地叠加视频进行编码并向视频会议的远端视频会议终端发送。
进一步的，视频会议终端600还可包括进度提示模块(图6中未示出)。
其中，进度提示模块，用于实时的或根据发言者指令，显示提词字幕文件当前滚动显示进度的提示标记(该提示标记例如可以是图标、文字或其它形式)，以便发言者实时了解当前发言的进度，还剩余多少发言内容等。
进一步的，进度提示模块还可显示发言时间信息，以便发言者实时了解其已发言多久。
需要说明的是，本实施例的视频会议终端600可如上述方法实施例四中的视频会议终端，可以用于实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，其具体实现过程可参照上述实施例中的相关描述，此处不再赘述。
由上可见，本实施例中由视频会议终端600直接获取包含发言所需的提词信息的提词字幕文件，在接收提词指令后，采样发言者音频；对采样的发言者音频进行语音识别，获得与采样的发言者音频对应的文字信息；将获得的与采样的该发言者音频对应的文字信息，与提词字幕文件包含的提词字幕信息进行匹配；根据匹配结果，在视频会议终端600显示的远端会议视频的指定区域，显示该提词字幕文件包含的提词字幕信息中，与当前采样的该发言者音频对应的文字信息相匹配部分的下一部分提词字幕信息。由于引入音频识别技术和根据发言者语音的实时滚动显示机制，在远端会议视频的指定区域滚动显示提词字幕，可实现自动实时的提词，并且有利于在清晰显示提词字幕的同时，不影响到远端会议视频的正常观看，较大的提升会议体验；并且，由于可利用会议终端固有硬件资源实现提词功能，可降低视频会议中提词功能的硬件实现成本和系统复杂度，提高会场部署灵活性。
需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
综上，本发明实施例提供的一种技术方案中，由视频会议终端直接获取包含发言所需的提词信息的提词字幕图片，并按指定的顺序将编辑处理得到提词字幕图片数据缓存到视频会议终端显存中，在接收提词指令后，在远端会议视频的指定区域，按照显存中指定的图片显示顺序滚动显示提词字幕图片，由于是直接以包含发言所需的提词信息的提词字幕图片为基础进行处理，处理复杂度可适当降低；由于引入了滚动显示机制，在远端会议视频的指定区域滚动显示提词字幕图片，有利于在清晰显示提词字幕的同时，不影响到远端会议视频的正常观看，进而提升会议体验；并且，由于可利用视频会议终端固有硬件资源实现提词功能，可降低视频会议中提词功能的硬件实现成本和系统复杂度，提高会场部署灵活性。
本发明实施例提供的另一种技术方案中，由视频会议终端直接获取包含发言所需的提词信息的提词字幕文件，在接收提词指令后，采样发言者音频；对采样的发言者音频进行语音识别，获得与采样的发言者音频对应的文字信息；将获得的与采样的该发言者音频对应的文字信息，与提词字幕文件包含的提词字幕信息进行匹配；根据匹配结果，在视频会议终端显示的远端会议视频的指定区域，显示该提词字幕文件包含的提词字幕信息中，与当前采样的发言者音频对应的文字信息相匹配部分的下一部分提词字幕信息。由于引入音频识别技术和根据发言者语音的实时滚动显示机制，在远端会议视频的指定区域滚动显示提词字幕，可实现自动实时的提词，并且有利于在清晰显示提词字幕的同时，不影响到远端会议视频的正常观看，较大的提升会议体验；并且，由于可利用会议终端固有硬件资源实现提词功能，可降低视频会议中提词功能的硬件实现成本和系统复杂度，提高会场部署灵活性。
进一步的，会议终端支持基于手动或自动模式下的滚动速率控制机制，滚动显示提词字幕图片，实现灵活性较高。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括只读存储器、随机存储器、磁盘或光盘等。
以上对本发明实施例所提供的实现视频会议中提词的方法以及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式
及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。
权利要求
1.一种实现视频会议中提词的方法，其特征在于，包括视频会议终端获取至少一个提词字幕图片；对所述至少一个提词字幕图片进行编辑处理，并按照指定的图片显示顺序将经过编辑处理的所述提词字幕图片缓存到所述视频会议终端的显存中；接收提词指令；根据所述提词指令，在所述视频会议终端显示的远端会议视频的指定区域，按照显存中指定的图片显示顺序，滚动显示经过编辑处理的所述提词字幕图片。
2.根据权利要求1所述的方法，其特征在于，所述滚动显示经过编辑处理的所述提词字幕图片，包括基于预定的滚动速率，滚动显示经过编辑处理的所述提词字幕图片；或者，基于与发言者语速相匹配的滚动速率，滚动显示经过编辑处理的所述提词字幕图片；或者，根据发言者滚动显示控制指令，滚动显示经过编辑处理的所述提词字幕图片。
3.根据权利要求1所述的方法，其特征在于，所述基于与发言者语速相匹配的滚动速率，滚动显示经过编辑处理的所述提词字幕图片，包括采样发言者音频；对所述采样的发言者音频进行语音识别，获得与采样的所述发言者音频对应的文字信息；将获得的与采样的所述发言者音频对应的文字信息，与经过编辑处理的所述提词字幕图片所能呈现的提词字幕信息进行匹配；根据匹配结果，显示经过编辑处理的所述提词字幕图片所能呈现的提词字幕信息中，与当前采样的所述发言者音频对应的文字信息相匹配部分的下一部分提词字幕信息的对应图片位置。
4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括将当前滚动显示的经过编辑处理的所述提词字幕图片切分成多块，并将其叠加到本地会议视频的指定区域，得到本地叠加视频；将所述本地叠加视频进行编码并向远端视频会议终端发送。
5.根据权利要求1至3任一项所述的方法，其特征在于，所述对所述至少一个提词字幕图片进行编辑处理，包括将所述至少一个提词字幕图片编辑处理成带α信息的提词字幕图片。
6.一种实现视频会议中提词的方法，其特征在于，包括视频会议终端获取提词字幕文件；接收提词指令；采样发言者音频；对所述采样的发言者音频进行语音识别，获得与采样的所述发言者音频对应的文字信息；将获得的与采样的所述发言者音频对应的文字信息，与提词字幕文件包含的提词字幕信息进行匹配；根据匹配结果，在所述视频会议终端显示的远端会议视频的指定区域，显示所述提词字幕文件包含的提词字幕信息中，与当前采样的所述发言者音频对应的文字信息相匹配部分的下一部分提词字幕信息。
7.一种视频会议终端，其特征在于，包括获取模块，用于获取至少一个提词字幕图片；处理缓存模块，用于对所述获取模块获取的至少一个提词字幕图片进行编辑处理，并按照指定的图片显示顺序将经过编辑处理的所述提词字幕图片缓存到所述视频会议终端显存中；接收模块，用于接收提词指令；滚动显示模块，用于根据所述接收模块接收的提词指令，在所述视频会议终端显示的远端会议视频的指定区域，按照显存中指定的图片显示顺序，滚动显示经过编辑处理的所述提词字幕图片。
8.根据权利要求7所述的视频会议终端，其特征在于，所述滚动显示模块包括第一滚动显示子模块，用于根据所述接收模块接收的提词指令，在所述视频会议终端显示的远端会议视频的指定区域，按照显存中指定的图片显示顺序，基于预定的滚动速率滚动显示经过编辑处理的所述提词字幕图片；或者，第二滚动显示子模块，用于根据所述接收模块接收的提词指令，在所述视频会议终端显示的远端会议视频的指定区域，按照显存中指定的图片显示顺序，基于与发言者语速相匹配的滚动速率，滚动显示经过编辑处理的所述提词字幕图片；或者，第三滚动显示子模块，用于根据所述接收模块接收的提词指令，在所述视频会议终端显示的远端会议视频的指定区域，按照显存中指定的图片显示顺序，根据发言者滚动显示控制指令，滚动显示经过编辑处理的所述提词字幕图片。
9.根据权利要求8所述的视频会议终端，其特征在于，第二滚动显示子模块，包括采样子模块，用于采样发言者音频；语音识别子模块，用于将所述采样子模块采样的发言者音频进行语音识别，获得与采样的所述发言者音频对应的文字信息；匹配子模块，用于对所述语音识别子模块获得的与采样的所述发言者音频对应的文字信息，与经过编辑处理的所述提词字幕图片所能呈现的提词字幕信息进行匹配；显示控制子模块，用于根据所述匹配子模块的匹配结果，显示经过编辑处理的所述提词字幕图片所能呈现的提词字幕信息中，与当前采样的所述发言者音频对应的文字信息相匹配部分的下一部分提词字幕信息的对应图片位置。
10.根据权利要求7至9任一项所述的视频会议终端，其特征在于，所述视频会议终端还包括本地视频叠加模块，用于将滚动显示模块当前滚动显示的经过编辑处理的所述提词字幕图片切分成多块，并将其叠加到本地会议视频的指定区域，得到本地叠加视频；发送模块，用于将所述本地视频叠加模块得到的本地叠加视频进行编码并向远端视频会议终端发送。
11. 一种视频会议终端，其特征在于，包括第二获取模块，用于获取提词字幕文件；接收模块，用于接收提词指令；采样模块，用于采样发言者音频；语音识别模块，用于对所述采样模块采样的发言者音频进行语音识别，获得与采样的所述发言者音频对应的文字信息；匹配模块，用于将所述语音识别模块获得的与采样的所述发言者音频对应的文字信息，与提词字幕文件包含的提词字幕信息进行匹配；显示控制模块，用于根据所述匹配模块的匹配结果，在所述视频会议终端显示的远端会议视频的指定区域，显示所述提词字幕文件包含的提词字幕信息中，与当前采样的所述发言者音频对应的文字信息相匹配部分的下一部分提词字幕信息。
全文摘要
本发明实施例公开了实现视频会议中提词的方法以及会场终端。其中，一种实现视频会议中提词的方法，包括视频会议终端获取至少一个提词字幕图片；对该至少一个提词字幕图片进行编辑处理，并按照指定的图片显示顺序将经过编辑处理的提词字幕图片缓存到所述本地会场终端的显存中；接收提词指令；根据该提词指令，在本地会场终端显示的远端会议视频的指定区域，按照显存中指定的图片显示顺序，滚动显示经过编辑处理的该提词字幕图片。本发明实施例提供的技术方案有利于降低视频会议中提词功能的实现成本和复杂度，提高会场部署灵活性。
文档编号H04N7/15GK102036051SQ201010596209
公开日2011年4月27日申请日期2010年12月20日优先权日2010年12月20日
发明者戴华波, 王海涛申请人:华为终端有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：戴华波;王海涛
技术所有人：华为终端有限公司
我是此专利的发明人

上一篇：一种上行测距信号的发射方法及其系统的制作方法
上一篇：一种色散测量装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。