多媒体数据录制方法、装置及电子设备与流程

文档序号：21369702发布日期：2020-07-04 06:23阅读：565来源：国知局

本发明涉及通信技术领域，尤其涉及一种多媒体数据录制方法、装置及电子设备。

背景技术：

随着电子设备的发展，电子设备的功能越来越多。目前，电子设备一般都具有音频录制功能，例如：用户可以通过音频录制应用录制音频数据，以及通过视频录制应用录制包含有音频信息的视频数据。当用户需要通过电子设备中的音频录制应用或视频录制应用等，录制目标音频数据或者包含音频信息的目标视频数据中相似的音频内容时，一般用户需要自己记住或者预先手动记录所要录制的音频信息的文本内容，再通过电子设备中的音频录制应用或视频录制应用等进行录制。其中，针对用户自己记住音频信息的文本内容的方式，可能由于用户忘词等情况，需要反复频繁的进行录制；针对预先记录音频信息的文本内容的方式，还需要繁琐的记录过程，以上这些方式都不便于用户操作。

技术实现要素：

本发明提供了一种多媒体数据录制方法、装置及电子设备，能够解决目前录制多媒体数据的过程中，由于用户忘词等情况需要反复频繁的进行录制，或者用户手动记录音频信息的文本内容存在操作繁琐以及操作不便的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种多媒体数据录制方法，应用于电子设备，所述方法包括：

接收用户的第一输入；

响应于所述第一输入，录制第一多媒体数据，并在所述第一多媒体数据的录制界面，显示目标文本信息；

其中，所述第一多媒体数据包括目标用户的音频信息，所述目标文本信息是从第二多媒体数据中获得的。

第二方面，本发明实施例还提供了一种多媒体数据录制装置，应用于电子设备，所述装置包括：

接收模块，用于接收用户的第一输入；

响应模块，用于响应于所述第一输入，录制第一多媒体数据，并在所述第一多媒体数据的录制界面，显示目标文本信息；

其中，所述第一多媒体数据包括目标用户的音频信息，所述目标文本信息是从第二多媒体数据中获得的。

第三方面，本发明实施例还提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的多媒体数据录制方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的多媒体数据录制方法的步骤。

在本发明实施例中，通过接收用户的第一输入，并响应于所述第一输入，录制包含目标用户的音频信息的第一多媒体数据，并在所述第一多媒体数据的录制界面，显示从第二多媒体数据中获得的目标文本信息，这样在录制包含目标用户的音频信息的第一多媒体数据的过程中，通过将预先从第二媒体数据中获取的目标文本信息在录制界面进行显示，以提供用户所述目标文本信息的提醒作用，避免用户在录制多媒体数据，如：录制音频数据或视频数据时可能出现忘词等情况需要反复频繁的进行录制，以及避免用户可能需要手动记录目标文本信息的繁琐过程，以及通过将第二多媒体数据中获得的目标文本信息显示在第一多媒体数据的录制界面，实现了对用户录制过程中的提示，提高了第一多媒体数据录制的成功率。

附图说明

图1表示本发明实施例的多媒体数据录制方法流程图；

图2表示本发明实施例显示目标文本信息的示意图；

图3表示本发明实施例的“表演提词器”按钮的示意图；

图4表示本发明实施例视频数据的浏览界面的示意图；

图5表示本发明实施例的目标文本信息内容的示例；

图6表示本发明实施例显示第一句文本信息内容的示例；

图7表示本发明实施例显示第二句文本信息内容的示例；

图8表示本发明实施例显示第三句文本信息内容的示例；

图9表示本发明实施例显示第一句文本信息和第二句文本信息内容的示例；

图10表示本发明实施例显示第二句文本信息和第三句文本信息内容的示例；

图11表示本发明实施例以第二显示方式显示第一句文本信息中与录入的第一音频信息的语音内容相匹配的字符的示意图之一；

图12表示本发明实施例以第二显示方式显示第一句文本信息中与录入的第一音频信息的语音内容相匹配的字符的示意图之一；

图13表示本发明实施例显示第三文本信息的示意图；

图14表示本发明实施例的注视位置对应的目标显示位置的示意图；

图15表示本发明实施例在目标显示位置显示目标文本信息的示意图；

图16表示本发明实施例的多媒体数据录制装置的框图；

图17表示本发明实施例的电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1，本发明实施例提供了一种多媒体数据录制方法，应用于电子设备，所述方法包括：

步骤101：接收用户的第一输入；

可选地，用户输入的第一输入用于启动多媒体数据的录制功能，如：该第一输入可以是用于启动音频录制应用的启动输入，也可以是用于启动视频录制应用的启动输入等。

步骤102：响应于所述第一输入，录制第一多媒体数据，并在所述第一多媒体数据的录制界面显示第二多媒体数据。

其中，所述第一多媒体数据包括目标用户的音频信息，所述目标文本信息是从第二多媒体数据中获得的。

可选地，该第一多媒体数据可以是音频数据也可以是视频数据；该第二媒体数据可以是音频数据，也可以是视频数据，还可以是文本数据等，能够携带该目标文本信息或者间接获得该目标文本信息即可。例如：间接获得该目标文本信息的方式可以是采用语音识别技术从视频数据/音频数据中识别得到相应的语音内容，进而可以将识别得到的语音内容转换为文本信息。

其中，第一多媒体数据与第二多媒体数据的类型可以相同，如第一多媒体数据为音频数据的情况下，该第二多媒体数据也可以为音频数据，第一多媒体数据为视频数据的情况下，该第二多媒体数据也可以为视频数据；当然，该第一多媒体数据与第二多媒体数据的类型也可以不同，如第一多媒体数据为音频数据的情况下，该第二多媒体数据可以为视频数据、文本数据等，第一多媒体数据为视频数据的情况下，该第二多媒体数据可以为音频数据、文本数据等。

如图2，以视频录制应用为例，在视频录制的录制界面可以显示该目标文本信息21。另外，录制按钮22用于启动视频录制，或者用于在视频录制的过程中暂停或停止视频录制；缩略图窗口23用于显示最近一次拍摄的图像数据，如视频数据的缩略图、照片的缩略图等，缩略图窗口23还可以与图像浏览界面关联，用于进入图像浏览界面。

其中，在该目标文本信息的字符数量在预设范围内的情况下，在视频录制的录制界面可以显示该目标文本信息的全部内容，这样在目标文本信息的字符数量在预设范围内的情况下，通过将目标文本信息的全部内容进行显示的方式，可以保证用户直观的查看到目标文本信息的所有内容。

在该目标文本信息的字符数量超过该预设范围的情况下，可以显示该目标文本信息中的部分内容；例如：在视频录制的录制界面中显示目标文本信息中的部分内容的情况下，可以是显示与当前录入的音频信息的语音内容相匹配的部分文本信息，如图2所示，当前录入的音频信息的语音内容为“今天天气”，则可以在视频录制的录制界面中显示目标文本信息中与语音内容为“今天天气”相匹配的部分文本信息为“今天天气很好适合踏青”。

这样，在该目标文本信息的字符数量超过该预设范围的情况下，通过显示目标文本信息中的部分内容的方式，可以避免由于目标文本信息的内容过多导致占用较大的显示区域，从而有利于保证录制界面的显示效果。

上述方案中，通过接收用户的第一输入，并响应于所述第一输入，录制包含目标用户的音频信息的第一多媒体数据，并在所述第一多媒体数据的录制界面，显示从第二多媒体数据中获得的目标文本信息，这样在录制包含目标用户的音频信息的第一多媒体数据过程中，通过将预先从第二多媒体数据中获取的目标文本信息在录制界面进行显示，以提供用户所述目标文本信息的提醒作用，避免用户在录制多媒体数据，如：录制音频数据或视频数据时，可能出现忘词等情况需要反复频繁的进行录制，以及避免用户可能需要手动记录目标文本信息的繁琐过程，以及通过将第二多媒体数据中获得的目标文本信息显示在第一多媒体数据的录制界面，实现了对用户录制过程中的提示，提高了第一多媒体数据录制的成功率。

可选地，在上述第二多媒体数据为包含目标音频信息的多媒体数据的情况下，上述在所述第一多媒体数据的录制界面，显示目标文本信息的步骤之前，所述方法还可以包括：

提取所述第二多媒体数据中的目标音频信息；

对所述目标音频信息进行语音识别处理，得到所述目标文本信息。

其中，所述目标文本信息用于所述第一多媒体数据的录制过程中对应目标用户的语音内容的提示。

可选地，本发明实施例的多媒体数据录制方法，可以应用于音频录制或视频录制的场景，这样在音频录制或视频录制的场景下，能够自动识别第二多媒体数据中的目标音频信息，并对应该目标音频信息自动生成目标文本信息，避免用户需要手动记录目标文本信息的繁琐操作。

例如：在音频录制界面或视频录制界面中可以显示一“表演提词器”按钮，这样在音频录制界面或视频录制界面中，用户可以通过触发“表演提词器”按钮，触发获取目标文本信息的功能。当用户触发“表演提词器”按钮时，可以切换至多媒体数据的浏览界面；其中，多媒体数据的浏览界面可以是视频数据浏览界面、音频数据浏览界面或多媒体数据选择界面，其中该多媒体数据选择界面可以包括视频数据和音频数据中的至少一个。这样，用户可以通过选择操作确定第二多媒体数据，并实现一键获取第二多媒体数据对应的目标文本信息。

在确定第二多媒体数据的情况下，进一步还可以通过提取所述第二多媒体数据中的目标音频信息；并对所述目标音频信息进行语音识别处理的方式，获得所述目标文本信息，以避免用户可能需要手动记录目标文本信息的繁琐过程，从而有利于简便用户操作。

可选地，所述目标文本信息包括：用于指示语音内容的文字信息，以及以下中的至少一项：角色标识信息、发音标识信息。

其中，角色标识信息用于区别不用角色对应的用于指示语音内容的文字信息，其中角色标识信息可以是角色名称、图案等，不同角色对应不同的角色标识信息，以便于用户能够区分不用角色对应的用于指示语音内容的文字信息；发音标识信息可以包括但不限于：音调信息、语气信息、语速信息、调整呼吸的提示信息、停顿时间等。

例如：当目标文本信息中仅包含一个角色对应的语音内容的文字信息的情况下，该目标文本信息中可以包括用于指示语音内容的文字信息，或者还可以包括用于指示语音内容的文字信息以及发音标识信息以提示用户录入语音内容时的发音信息。

又例如：当目标文本信息中包含多个角色对应的语音内容的文字信息的情况下，该目标文本信息中除了包用于指示语音内容的文字信息之外，还可以包括角色标识信息，来区分用于指示语音内容的文字信息，或者除了包括角色标识信息和用于指示语音内容的文字信息之外，还可以包括发音标识信息，以提示用户录入语音内容时的发音信息。

如图3，以视频录制场景为例，在视频录制界面中可以显示一“表演提词器”按钮31，用户可以通过触发视频录制界面中的“表演提词器”按钮31，切换至视频数据的浏览界面，如图4所示，视频数据的浏览界面中可以显示至少一个视频数据的缩略图41。

进一步地，用户可以通过点击视频数据的缩略图，选择一个第二多媒体数据；在确定第二多媒体数据的情况下，提取所述第二多媒体数据中的目标音频信息，通过语音识别技术以及声纹识别技术等，可以识别得到目标音频信息中不同用户对应的语音内容；其中，语言识别技术可以识别目标音频信息中的语音内容，并转换为对应的文本信息；声纹识别技术可以按照不同的声波频谱来区分不同的用户，从而可以将目标音频信息中不同用户对应的语音内容区分出来，从而可以根据目标用户及其对应的语音内容，生成目标文本信息，如图5所示，目标文本信息51包括角色a的语音内容对应的文本信息及其对应的角色标识信息a，如“a：今天天气很好适合踏青我们一起去公园吧”，角色b的语音内容对应的文本信息及其对应的角色标识信息b，如“b：好的”。

可选地，通过将目标文本信息中针对不同角色的语音内容对应的文本信息进行标识，以在录制界面显示目标文本信息时，可以提供不同角色的台词区分的提示。

可选地，在针对目标音频信息进行识别的过程中，除了可以识别得到用户的语音内容以及对应的目标用户外，还可以识别得到语音内容对应的发音标识信息，如：语音内容对应的语气信息、语调信息、语速信息、语音内容之间的时间间隔等，并可以将该语音内容对应的语气信息、语调信息、语速信息、时间间隔等标识在目标文本信息中。如图5所示，目标文本信息52中包括角色a的语音内容、语音内容的发音标识信息以及角色标识信息a，如“a：今天天气很好(间隔0.3秒)适合踏青(间隔1秒，语气平静，语调平缓，语速缓慢)我们一起去公园吧”，角色b说话的内容、发音标识信息及其对应的角色标识信息b，如“b：好的(语气兴奋，语速适中)”。

这样，通过针对目标文本信息52中语音内容、语音内容的发音信息以及对应角色等进行标识，以提供用户在录制第一多媒体数据时的语音内容以及发音信息的提示，使得通过目标文本信息进行所录制语音内容的提醒更丰富多样，通过更多语音内容及其相关信息的提示，有利于提高录制成功率。

可选地，在识别目标音频信息中的语音内容并转换为对应的文字信息的过程中，还可以根据目标音频信息中用户的语音内容的时间间隔，划分文本段落；例如：当同一个用户对应的第一语音时间段结束后超过预定时长(如0.5秒后)才开始第二语音时间段，则将这两个语音时间段划分为两个音频段，这样针对不同语音时间段内的语音内容的识别，可以得到各自对应的语音内容的文本信息，进而可以将识别到的语音内容进行文本段落的划分，如图5所示，在目标文本信息53中，将角色a的语音内容对应的文本信息划分为两个文本段落“今天天气很好适合踏青”、“我们一起去公园吧”。或者，还可以是识别得到目标文字信息之后，通过对目标文本信息进行语义分析(语义分析的方法可以基于学习算法建立语义分析模型来实现)，将所述目标文字信息划分为多个文字段落。

进一步地，在将目标文本信息划分为多个文本段落的情况下，还可以根据目标音频信息中对应相邻的文本段落的音频段之间的时间间隔，对该文本段落进行时间间隔的标记，作为语音内容之间的停顿时间；例如：可以在该相邻的文本段落中排序靠前的一个文本段落的末尾处记录相应的时间间隔，以提供用户相邻的文本段落之间的时间间隔的提醒，便于用户在录制第一多媒体数据时可以调整语速、呼吸等。此外，还可以在文本信息中标识语气信息、语调信息、语速信息等，本发明实施例不以此为限。

可选地，从第二多媒体数据中获取目标文本信息的步骤，可以是在第一多媒体数据录制界面中通过“表演提词器”按钮，选择第二多媒体数据后从该第二多媒体数据中获取，也可以是在录制第一多媒体数据之前预先从第二多媒体数据中获取。

可选地，在从第二多媒体数据中获取到目标文本信息之后，还可以接收用户对所述目标文本信息的编辑输入，并响应于所述编辑输入，更新所述目标文本信息的文字内容；这样后续在显示目标文本信息时，可以显示该更新后的目标文本信息。

例如：用户想修改目标文本信息的文字内容时，可以对目标文本信息进行增加内容、删除内容、调整文本段信息之间的顺序等编辑输入，从而更新所述目标文本信息的文字内容。

可选地，所述录制第一多媒体数据，并在所述第一多媒体数据的录制界面，显示目标文本信息的步骤，可以具体包括：

按照所述目标文本信息中多个文本段信息的预定顺序以及每个文本信息对应的显示时长，在所述录制界面依次切换显示所述多个文本段信息。

可选地，在第一多媒体数据的录制过程中，通过显示目标文本信息以提供用户台词提醒功能的基础上，通过在所述录制界面依次切换显示所述目标文本信息中的多个文本段信息的方式，还可以避免过多的文本段信息占用录制界面中较多的显示区域，导致影响视频预览效果。

其中，该每个文本信息对应的显示时长可以根据每个文本段信息的字符数以及第二多媒体数据中目标音频信息中对应于每个文本段信息与其时序之后的文本段信息的音频段之间的时间间隔等来确定。这样，通过按照所述目标文本信息中多个文本段信息的预定顺序，直接以预定的显示时长在所述录制界面依次切换显示所述多个文本段信息的方式，可以减少在录制过程中检测录入音频信息的语音内容以及匹配文本段信息的处理过程，从而可以在一定程度上降低电子设备的数据处理量。

可选地，所述录制第一多媒体数据，并在所述第一多媒体数据的录制界面，显示目标文本信息，包括：

在所述第一多媒体数据的第一录制时间段内，在所述录制界面，以第一显示方式显示第一文本信息；其中，所述第一文本信息包括：所述目标文本信息包含的至少一句文本信息；所述目标文本信息包括所述第一文本信息，所述第一文本信息包括n个字符，n为正整数。

可选地，第一显示方式包括但不限于：第一文本信息的字体样式、字体颜色、字体大小等。

可选地，第一文本信息可以是目标文本信息中的一句文本信息，如该第一文本信息可以是与第一录制时间段内录入的语音内容相匹配的第一句文本信息，这样通过在录制界面只显示第一录制时间段相匹配的文本信息，可以避免过多内容的文本信息占用较多的显示区域，并且还可以针对第一录制时间段相匹配的文本信息起到强调的作用。

可选地，第一文本信息可以是所述第一句文本信息，以及与所述第一文本信息的时序相邻且时序在所述第一句文本信息的时序之前的第二句文本信息；或者，第一文本信息可以是第一句文本信息，以及与所述第一文本信息的时序相邻且时序在所述第一句文本信息的时序之后的第三句文本信息；或者，第一文本信息可以是所述第一句文本信息以及所述第二句文本信息和所述第三句文本信息，这样通过显示与第一录制时间段内录入的语音内容相匹配的第一句文本信息，以及所述第一句文本信息的时序之前的第二句文本信息和所述第一句文本信息的时序之后的第三句文本信息，以在针对该第一句文本信息起到提醒作用的同时保证针对第二句文本信息和第三句文本信息也起到提醒作用，并且便于用户结合第一句文本信息的及其前后内容建立逻辑关联。

具体的，目标文本信息中可以包含多句文本信息，如图5所示，目标文本信息中包含3句文本信息，分别为“今天天气很好适合踏青”、“我们一起去公园吧”、“好的”；若在第一录制时间段内录入的语音内容相匹配的一句文本信息为“我们一起去公园吧”，则可以在当前录制界面仅显示这一句文本信息；或者还可以在显示这句文本信息的同时，显示其时序之前的文本信息“今天天气很好适合踏青”，或者还可以是在显示这句文本信息的同时，显示其时序之后的文本信息“好吧”；或者还可以是在显示这句文本信息的同时，显示其时序之前的文本信息“今天天气很好适合踏青”以及其时序之后的文本信息“好吧”。

具体的，作为一种实现方式：以第一文本信息为与第一录制时间段内录入的语音内容相匹配的第一句文本信息为例，如图6所示，若在第一录制时间段内，在录制界面显示第一句文本信息61为“今天天气很好适合踏青”；如图7所示，在第一录制时间段后的第二录制时间段内，在录制界面显示第二句文本信息71为“我们一起去公园吧”；如图8所示，在第二录制时间段之后的第三录制实现段内，在录制界面显示第三句文本信息81为“好吧”；这样，根据录制时间段的推移逐步显示目标文本信息的多句文本信息，在避免过多的文本信息占用较多的显示区域的情况下，还能针对不同录制时间段所录制语音信息对应的文本信息起到强调的作用，具有相应文本信息的针对性的提醒作用。

具体的，作为另一种实现方式：第一录制时间段内录入的语音内容与第一句文本信息相匹配，在录制界面显示第一句文本信息91为“今天天气很好适合踏青”，以及该第一句文本信息之后的第二句文本信息92为“我们一起去公园吧”；其中，第一句文本信息91与第二句文本信息92的显示方式不同，如第一句文本信息91的显示方式为字符加粗放大，如图9所示，当然还可以通过其他显示方式的不同来区别，本发明实施例不以此为限。

在第一录制时间段后的第二录制时间段内，第二录制时间段内录入的语音内容与第二句文本信息相匹配，在录制界面显示第二句文本信息101为“我们一起去公园吧”以及第二句文本信息之后的第三句文本信息为“b：好的”；其中，第二句文本信息101与第三句文本信息102的显示方式不同，如第二句文本信息101的显示方式为字符加粗放大，如图10所示，当然还可以通过其他显示方式的不同来区别，本发明实施例不以此为限。

可选地，所述在所述第一多媒体数据的录制界面，以第一显示方式显示第一文本信息的步骤之后，还包括：

在所述电子设备的音频采集组件采集到的第一音频信息的语音内容包括所述第一文本信息的第i个字符的情况下，将所述第i个字符对应的所述第一显示方式更新为第二显示方式；

在所述第一文本信息的n个字符对应的所述第一显示方式均更新为所述第二显示方式的情况下，将所述第一文本信息更新为第二文本信息；

其中，i为正整数，i小于或等于n；所述第二显示方式用于指示所述第一音频信息的语音内容与所述第i个字符相匹配；所述目标文本信息包括所述第二文本信息，在所述第二多媒体数据中所述第二文本信息对应的第二时序与所述第一文本信息对应的第一时序相邻，且所述第二时序在所述第一时序之后。

其中，该第二多媒体文件为视频数据或音频数据的情况下，文本信息的时序可以是文本信息对应于第二多媒体数据中的音频信息的出现时间的先后；该第二多媒体文件为文本数据的情况下，文本信息的时序可以是文本数据内容中的先后。

可选地，在录制所述第一多媒体数据的过程中，针对所采集到的音频信息进行实时地识别，得到对应的语音内容，以对第一文本信息中的字符的显示方式进行更新；其中，更新显示方式，即第一显示方式更新到第二显示方式可以包括但不限于：更新字体样式、字体颜色、字体大小等中的至少一个。

例如：在第一录制时间段内显示第一句文本信息为“今天天气很好适合踏青”，如图11所示；用户在第一录制时间段内录入的第一音频信息包含语音内容为“今”，则将第一句文本信息1101中字符“今”的显示方式由第一显示方式切换为第二显示方式，如图11中字符“今”的字体加粗放大，当然本发明实施例还可以是调整字体的颜色、样式等，本发明实施例不以此为限。

进一步地，在将字符“今”的显示方式由第一显示方式切换为第二显示方式之后，检测到录入第一音频信息包含语音内容为“天”，则将第一句文本信息1101中字符“天”的显示方式由第一显示方式切换为第二显示方式，如图12所示；以此类推，进行第一音频信息的实时识别与匹配，进而实时更新第一句文本信息中字符的显示方式，以区分未录制和已录制的音频信息对应的文本信息。

可选地，在识别到音频信息中包含有第一文本信息中的字符的情况下，可以将该字符的显示方式从第一显示方式切换至第二显示方式，以及将音频信息中未识别到的字符的显示方式从第一显示方式切换至第三显示方式，如通过增加标识符等方式来区分已录制和未录制的文本段信息，如：在音频信息中未识别到的字符对应的显示区域进行特殊标记，如图6中针对未识别到的字符“今天”在字符下方打点以进行未识别字符的提示，从而起到强调提醒的作用，当然标识符可以是除此之外的其他形式，如下划线、圈出未识别到的字符等，本发明实施例不以此为限。

更进一步地，在所述第一文本信息的n个字符对应的所述第一显示方式均更新为所述第二显示方式的情况下，即确认当前的第一文本信息对应的语音内容已录制完成，则将所述第一文本信息更新显示为第二文本信息。可选地，在未识别到音频信息中包含有第二文本信息中的字符的情况下，该第二文本信息以第一显示方式显示；在识别到音频信息中包含有该第二文本信息中的字符时，将该字符的显示方式从第一显示方式切换为第二显示方式，具体的识别、匹配与更新的方式与上述第一文本信息类似，这里不再赘述。

可选地，在切换显示上述字符的显示方式的步骤中，每一次识别到的字符的数量可以是一个，即一个字符一个字符的进行显示方式的更新；或者每一次识别到的字符的数量也可以是多个，如包含多个字符的词组，即一个词组一个词组的进行显示方式的更新，本发明实施例不以此为限。

可选地，在所述第一多媒体数据的第一录制时间段内，在所述录制界面，以第一显示方式显示第一文本信息的步骤之后，还可以具体包括：

在所述第一多媒体数据的第一录制时间段内，获取所述第一录制时间段内采集到的第一音频信息；

将从所述第一音频信息中识别的文本信息与第一文本信息进行匹配；

若从所述第一音频信息中识别的文本信息与第一文本信息相匹配，则在所述录制界面，显示第二文本信息。

其中，所述目标文本信息包括所述第二文本信息，在所述第二多媒体数据中所述第二文本信息对应的第二时序与所述第一文本信息对应的第一时序相邻，且所述第二时序在所述第一时序之后。

可选地，若从所述第一音频信息中识别的文本信息中有大于t个字符与第一文本信息中的字符相匹配，则确定从所述第一音频信息中识别的文本信息与所述第一文本信息相匹配。例如：用户在第一录制时间段内录入第一音频信息时，可能会存在遗漏部分文字或增加部分文字的情况，针对该情况可以通过模糊匹配的方式来判断是否录制完当前的第一文本信息对应的语音内容。如：第一文本信息对应有10个字符，若从所述第一音频信息中识别的文本信息与第一文本信息中相同的字符数量超过7个，则可以确定从所述第一音频信息中识别的文本信息与第一文本信息相匹配，即完成录制第一文本信息对应的语言内容，从而可以显示该第一文本信息的时序之后的第二文本信息，进而进行第二文本信息的提醒。

可选地，所述在所述第一多媒体数据的录制界面，以第一显示方式显示第一文本信息的步骤之后，所述方法还可以包括：

在所述电子设备的音频采集组件采集到的第二音频信息包括所述n个字符中的t个字符的情况下，输出提示信息，所述提示信息用于提示所述第二音频信息的内容和所述第一文本信息不匹配；

在所述电子设备的音频采集组件采集到的第二音频信息包括所述n个字符中的0个字符的情况下，在所述第一多媒体数据的录制界面，显示第三文本信息；其中，所述第三文本信息为将所述第二音频信息转换为文本得到的；n＞1，t＜n。

例如：第一文本信息对应有10个字符，若从所述第二音频信息中识别的文本信息中包含了10个字符，但是其中与第一文本信息中相同的字符数量为3个，则可以确定从所述第二音频信息中识别的文本信息与第一文本信息不匹配，则输出提示信息。

可选地，该提示信息可以是显示在录制界面上的提示图标，该提示图标用于指示所述第二音频信息的内容和所述第一文本信息不匹配；或者该提示信息还可以是提示文字，如直接显示所述第二音频信息的内容和所述第一文本信息不匹配的文字内容，或者直接提示是文本信息中的哪几个字符不匹配等，以提醒用户在录制过程中可能说错台词。

可选地，该提示信息也可以是语音提醒信息，如将指示所述第二音频信息的内容和所述第一文本信息不匹配的语音内容直接进行播报，或者直接将文本信息中的不匹配的几个字符播报出来，以提醒用户在录制过程中可能说错台词；或者通过其他预定声音的提醒，指示灯的闪烁等方式进行提醒等，本发明实施例不以此为限。

例如：用户在第一录制时间段内录入第二音频信息时，可能会存在遗漏部分文本信息的内容，或者选择性的跳过部分文本信息的内容，该情况下可以根据当前录入的音频信息的内容，提示当前音频信息的内容对应的文本信息之后的文本信息；如在录制第一句文本信息对应的语音内容后，可能跳过第二句文本信息的内容，而识别到第三句文本信息的内容，则可以直接显示该第三句文本信息；这样在用户可能遗漏部分文本信息的内容或者选择性的跳过部分文本信息的内容的情况下，可以保证文本信息的正常切换显示。

例如：用户可能在录制第一音频信息时增加了部分内容，在所述电子设备的音频采集组件采集到的第二音频信息包括所述n个字符中的0个字符，即确定采集到的第二音频信息的内容为用户增加的内容，则可以直接将从该第二音频信息中识别得到的第三文本信息显示在录制界面，以进行新增内容的提醒。如图13所示，在第一文本信息131为“今天天气很好适合踏青”，第二文本信息为132为“我们一起去公园吧”，新增的第三文本信息133为“公园的人很多”。

可选地，还可以设置该第三文本信息的显示方式与第一显示方式、第二显示方式不同，从而可以起到强调提醒该第三文本信息为新增的内容。

可选地，在所述电子设备的音频采集组件采集到的第二音频信息包括所述n个字符中的0个字符的情况下，将第三文本信息插入至所述目标文本信息，所述第三文本信息为将所述第二音频信息转换为文本得到的。

具体的，可以是将第三文本信息插入至所述目标文本信息中对应的时序位置，如该第三文本信息对应的音频信息的时序在第一文本信息对应的时序之后，且两者相邻，则将该第三文本信息插入至目标文本信息中位于第一文本信息的时序之后的位置。这样可以在录制过程中，根据用户输入的音频信息的内容更新目标文本信息的内容，通过自动插入用户新增的语音内容对应的文本信息，以便于在下一次录制相同语音内容的多媒体数据时，可以基于更新后的目标文本信息对用户进行视频台词的提示，不需要用户手动更新目标文本信息，以便于多次录制时减少用户手动更新目标文本信息的操作。

又例如：用户可能在录制第一音频信息时增加了部分内容，若在所述电子设备的音频采集组件采集到的第二音频信息包括所述n个字符中的0个字符，即当前录入的音频信息的内容与第一文本信息不一致，则可以保持该第一文本信息的显示，直至检测到用户输入的音频信息对应的文本信息与第二文本信息相匹配的情况下，才将第一文本信息更新显示为第二文本信息；其中，该目标文本信息包括所述第二文本信息。

例如：在目标文本信息中包括时序先后为第一文本信息、第二文本信息、第三文本信息，且当前显示第一文本信息的情况下，可以先将当前用户录入的音频信息的内容与第一文本信息进行模糊匹配，若匹配程度满足预设条件即两者相匹配，则可以显示第二文本信息，其中具体匹配方式可参见上述实施例，这里不再赘述；若匹配程度不满足预设条件即两者不匹配，则依次向下判断是否与该第二文本信息匹配，若匹配则显示该第三文本信息，若不匹配则依次向下判断是否与该第三文本信息匹配，若匹配则提示第四文本信息，若不匹配依次向下判断是否与该第四文本信息匹配，以此类推。若目标文本信息中不存在与当前用户录入的音频信息的内容相匹配的文本信息，则可以输出提示信息且仍继续显示该第一文本信息；可选地，输出提示信息可以参见上述实施例，如该第一提示信息可以是语音消息为“你可能说错了哦，请说下面的台词”。

可选地，通过将当前所采集的音频信息的内容与目标文本信息中的多句文本信息注意匹配的方式，来确定下一个将要显示的文本信息，可以在用户可能跳过某段台词的情况下，保证多句文本信息的切换显示，以保证显示文本信息具有更高的灵活性。

可选地，所述录制所述第一多媒体数据的步骤，还可以具体包括：

在录制所述第一多媒体数据的过程中，在预定时间段内未采集到目标用户的音频信息的情况下，播放所述第一文本信息对应的第一语音信息。

可选地，用户在录制第一多媒体数据时，用户相对于电子设备的位置可能发生移动，如移动到背对电子设备的位置，或者看不到电子设备的录制预览界面的情况下，可以通过第一文本信息对应的第一语音信息进行播放的方式，以提供用户提醒的作用。

可选地，在播放第一语音信息时，若检测到目标用户的眼睛的注视位置在电子设备上，则可以停止播放该第一语音消息，继续保持显示第一文本信息。这样，通过将第一文本信息对应的第一语音信息进行播放的方式，可以保证用户在不便于查看屏幕的情况提供用户提醒的作用，并且可以减少用户查看屏幕的操作。

可选地，所述在所述第一多媒体数据的录制界面，显示目标文本信息的步骤，可以具体包括：

获取目标用户的眼睛在所述电子设备上的注视区域，所述目标用户为所述电子设备所采集到的音频信息中的语音信息对应的用户；

在所述录制界面的目标区域，显示所述目标文本信息，所述目标区域为与所述注视区域对应的区域。

可选地，在录制过程中，可以通过摄像头采集目标用户的面部特征来识别确定目标用户的眼睛在所述电子设备上的注视区域；如：在音频录制过程中，可以通过启动摄像头来采集目标用户的眼部特征，进而通过采集到的眼部特征确定目标用户的眼睛在所述电子设备上的注视区域；又如：在视频录制过程中，可以通过视频预览界面中所述目标用户的面部特征来识别确定目标用户的眼睛在所述电子设备上的注视区域。

例如：用户在录制第一多媒体数据时，用户相对于电子设备的位置可能发生移动，如图14所示，当目标用户的视线方向注视在电子设备上的注视位置，对应于所述录制预览界面中的目标显示位置141的情况下，可以将目标文本信息42切换显示到该目标显示位置141处，如图15所示。这样，在用户录制第一多媒体数据时，目标文本信息的显示位置可以跟随目标用户的眼睛在所述电子设备上的注视区域进行移动，从而进一步方便用户查看所显示的目标文本信息。

可选地，所述录制第一多媒体数据，并在所述第一多媒体数据的录制界面，显示目标文本信息的步骤，还可以具体包括：

在录制所述第一多媒体数据的过程中，接收用户对所述目标文本信息的第二输入；

响应于所述第二输入，更新所述目标文本信息的显示信息；其中，所述显示信息包括以下至少一项：显示内容、显示参数。

可选地，在显示目标文本信息的情况下，可以响应于用户的输入编辑目标文本信息的内容，显示参数等，如编辑目标文本信息的内容可以是增加文本内容、删除文本内容、修改文本内容等；编辑目标文本信息的显示参数可以是修改字体样式，修改字体大小、修改字体颜色、修改字体背景颜色等。这样在目标文本信息的显示过程中，用户可以通过针对目标文本信息的第二输入，直接对目标文本信息的显示信息进行编辑，以保证编辑方式更加方便快捷。

如图16所示，本发明实施例还提供了一种多媒体数据录制装置1600，应用于电子设备，所述装置1600包括：

接收模块1610，用于接收用户的第一输入；

响应模块1620，用于响应于所述第一输入，录制第一多媒体数据，并在所述第一多媒体数据的录制界面，显示目标文本信息；

其中，所述第一多媒体数据包括目标用户的音频信息，所述目标文本信息是从第二多媒体数据中获得的。

可选地，所述响应模块1620包括：

第一显示子模块，用于在所述第一多媒体数据的第一录制时间段内，在所述录制界面，以第一显示方式显示第一文本信息；

其中，所述第一文本信息包括：所述目标文本信息包含的至少一句文本信息；所述目标文本信息包括所述第一文本信息，所述第一文本信息包括n个字符，n为正整数。

可选地，所述响应模块1620还包括：

第一更新子模块，用于在所述电子设备的音频采集组件采集到的第一音频信息的语音内容包括所述第一文本信息的第i个字符的情况下，将所述第i个字符对应的所述第一显示方式更新为第二显示方式；

第二更新子模块，用于在所述第一文本信息的n个字符对应的所述第一显示方式均更新为所述第二显示方式的情况下，将所述第一文本信息更新为第二文本信息；

可选地，所述响应模块1620还包括：

输出子模块，用于在所述电子设备的音频采集组件采集到的第二音频信息包括所述n个字符中的t个字符的情况下，输出提示信息，所述提示信息用于提示所述第二音频信息的内容和所述第一文本信息不匹配；

第二显示子模块，用于在所述电子设备的音频采集组件采集到的第二音频信息包括所述n个字符中的0个字符的情况下，在所述第一多媒体数据的录制界面，显示第三文本信息；

其中，所述第三文本信息为将所述第二音频信息转换为文本得到的；n＞1，t＜n。

可选地，所述响应模块1620还包括：

插入子模块，用于在所述电子设备的音频采集组件采集到的第二音频信息包括所述n个字符中的0个字符的情况下，将所述第二音频信息转换为文本得到的第三文本信息，插入至所述目标文本信息。

可选地，所述响应模块1620包括：

播放子模块，用于在录制所述第一多媒体数据的过程中，在预定时间段内未采集到目标用户的音频信息的情况下，播放所述第一文本信息对应的第一语音信息。

可选地，所述响应模块1620包括：

获取子模块，用于获取目标用户的眼睛在所述电子设备上的注视区域，所述目标用户为所述电子设备所采集到的音频信息中的语音信息对应的用户；

第三显示子模块，用于在所述录制界面的目标区域，显示所述目标文本信息，所述目标区域为与所述注视区域对应的区域。

可选地，所述响应模块1620包括：

接收子模块，用于在录制所述第一多媒体数据的过程中，接收用户对所述目标文本信息的第二输入；

响应子模块，用于响应于所述第二输入，更新所述目标文本信息的显示信息；

其中，所述显示信息包括以下至少一项：显示内容、显示参数。

本发明实施例提供的多媒体数据录制装置能够实现上述多媒体数据录制方法实施例的各个过程，为避免重复，这里不再赘述。

本发明实施例中的装置1600，通过接收用户的第一输入，并响应于所述第一输入，录制包含目标用户的音频信息的第一多媒体数据，并在所述第一多媒体数据的录制界面，显示从第二多媒体数据中获得的目标文本信息，这样在录制包含目标用户的音频信息的第一多媒体数据的过程中，通过将预先从第二媒体数据中获取的目标文本信息在录制界面进行显示，以提供用户所述目标文本信息的提醒作用，避免用户在录制多媒体数据，如：录制音频数据或视频数据时，可能出现忘词等情况需要反复频繁的进行录制，以及避免用户可能需要手动记录目标文本信息的繁琐过程，以及通过将第二多媒体数据中获得的目标文本信息显示在第一多媒体数据的录制界面，实现了对用户录制过程中的提示，提高了第一多媒体数据录制的成功率。

图17为实现本发明各个实施例的一种电子设备的硬件结构示意图。

该电子设备1700包括但不限于：射频单元1701、网络模块1702、音频输出单元1703、输入单元1704、传感器1705、显示单元1706、用户输入单元1707、接口单元1708、存储器1709、处理器1710、以及电源1711等部件。本领域技术人员可以理解，图17中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，用户输入单元1707，用于接收用户的第一输入；

处理器1710，响应于所述第一输入，录制第一多媒体数据，并在所述第一多媒体数据的录制界面显示第二多媒体数据。其中，所述第一多媒体数据包括目标用户的音频信息，所述目标文本信息是从第二多媒体数据中获得的。

本发明实施例提供的电子设备能够实现以上多媒体数据录制方法实施例的各个过程，为避免重复，这里不再赘述。

本发明实施例中的电子设备1700，通过接收用户的第一输入，并响应于所述第一输入，录制包含目标用户的音频信息的第一多媒体数据，并在所述第一多媒体数据的录制界面，显示从第二多媒体数据中获得的目标文本信息，这样在录制包含目标用户的音频信息的第一多媒体数据的过程中，通过将预先从第二媒体数据中获取的目标文本信息在录制界面进行显示，以提供用户所述目标文本信息的提醒作用，避免用户在录制多媒体数据，如：录制音频数据或视频数据时，可能出现忘词等情况需要反复频繁的进行录制，以及避免用户可能需要手动记录目标文本信息的繁琐过程，以及通过将第二多媒体数据中获得的目标文本信息显示在第一多媒体数据的录制界面，实现了对用户录制过程中的提示，提高了第一多媒体数据录制的成功率。

应理解的是，本发明实施例中，射频单元1701可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器1710处理；另外，将上行的数据发送给基站。通常，射频单元1701包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元1701还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块1702为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元1703可以将射频单元1701或网络模块1702接收的或者在存储器1709中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元1703还可以提供与电子设备1700执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元1703包括扬声器、蜂鸣器以及受话器等。

输入单元1704用于接收音频或视频信号。输入单元1704可以包括图形处理器(graphicsprocessingunit，gpu)17041和麦克风17042，图形处理器17041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元1706上。经图形处理器17041处理后的图像帧可以存储在存储器1709(或其它存储介质)中或者经由射频单元1701或网络模块1702进行发送。麦克风17042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元1701发送到移动通信基站的格式输出。

电子设备1700还包括至少一种传感器1705，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板17061的亮度，接近传感器可在电子设备1700移动到耳边时，关闭显示面板17061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器1705还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元1706用于显示由用户输入的信息或提供给用户的信息。显示单元1706可包括显示面板17061，可以采用液晶显示器(liquidcrystaldisplay，lcd)、有机发光二极管(organiclight-emittingdiode,oled)等形式来配置显示面板17061。

用户输入单元1707可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元1707包括触控面板17071以及其他输入设备17072。触控面板17071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板17071上或在触控面板17071附近的操作)。触控面板17071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1710，接收处理器1710发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板17071。除了触控面板17071，用户输入单元1707还可以包括其他输入设备17072。具体地，其他输入设备17072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板17071可覆盖在显示面板17061上，当触控面板17071检测到在其上或附近的触摸操作后，传送给处理器1710以确定触摸事件的类型，随后处理器1710根据触摸事件的类型在显示面板17061上提供相应的视觉输出。虽然在图17中，触控面板17071与显示面板17061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板17071与显示面板17061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元1708为外部装置与电子设备1700连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(i/o)端口、视频i/o端口、耳机端口等等。接口单元1708可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备1700内的一个或多个元件或者可以用于在电子设备1700和外部装置之间传输数据。

存储器1709可用于存储软件程序以及各种数据。存储器1709可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1709可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1710是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器1709内的软件程序和/或模块，以及调用存储在存储器1709内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器1710可包括一个或多个处理单元；优选的，处理器1710可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1710中。

电子设备1700还可以包括给各个部件供电的电源1711(比如电池)，优选的，电源1711可以通过电源管理系统与处理器1710逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备1700包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种电子设备，包括处理器1710，存储器1709，存储在存储器1709上并可在所述处理器1710上运行的计算机程序，该计算机程序被处理器1710执行时实现上述多媒体数据录制方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述多媒体数据录制方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(read-onlymemory，简称rom)、随机存取存储器(randomaccessmemory，简称ram)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：付玉迪
技术所有人：维沃移动通信有限公司
我是此专利的发明人

上一篇：一种提升屏蔽体局部区域电磁屏蔽效能的方法与流程
上一篇：一种直播内容风险信息控制方法及系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。