用于音频编辑的方法、装置、设备和存储介质与流程

文档序号:31086062发布日期:2022-08-09 23:01阅读:75来源:国知局
用于音频编辑的方法、装置、设备和存储介质与流程

1.本公开的示例实施例总体涉及计算机领域,特别地涉及用于音频编辑的方法、装置、设备和计算机可读存储介质。


背景技术:

2.音频数据是人们生活、工作和社交等各方面的常见信息交互方式。当前,人们可以越来越方便地生产和获得音频数据,并且也会分享录制的音频。为了输出更高质量的音频,期望对音频数据执行各种编辑操作,包括调节音量、速度、音色等等。在一些情况下,还期望能够删除音频数据中不期望出现的词语。


技术实现要素:

3.根据本公开的示例实施例,提供了一种用于音频编辑的方案。
4.在本公开的第一方面,提供了一种音频编辑的方法。该方法包括在针对音频的预定义模式下,醒目呈现与音频相对应的文本中包含的一个或多个无效字符。该方法还包括检测对一个或多个无效字符中的至少一个目标无效字符的删除确认指示;以及响应于检测到删除确认指示,从音频中删除与至少一个目标无效字符相对应的至少一个音频部分。
5.在本公开的第二方面,提供了一种用于音频编辑的装置。该装置包括醒目呈现模块,被配置为在针对音频的预定义模式下,醒目呈现与音频相对应的文本中包含的一个或多个无效字符;指示检测模块,被配置为检测对一个或多个无效字符中的至少一个目标无效字符的删除确认指示;以及音频删除模块,被配置为响应于检测到删除确认指示,从音频中删除与至少一个目标无效字符相对应的至少一个音频部分。
6.在本公开的第三方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。
7.在本公开的第四方面,提供了一种计算机可读存储介质。介质上存储有计算机程序,计算机程序可由处理器执行以实现第一方面的方法。
8.应当理解,本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
9.结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
10.图1示出了本公开的实施例能够在其中实现的示例环境的示意图;
11.图2示出了根据本公开的一些实施例的用于音频编辑的过程的流程图;
12.图3a至图3f示出根据本公开的一些实施例的用于音频编辑的编辑页面的交互示
例的示意图;
13.图4示出了根据本公开的一些实施例的用于醒目呈现无效字符的过程的流程图;
14.图5示出了根据本公开的另一些实施例的用于醒目呈现无效字符的过程的流程图;
15.图6a至图6f示出根据本公开的一些实施例的在编辑页面中对无效字符的示例用户选择的示意图;
16.图7a至图7b示出根据本公开的一些实施例的音频编辑的示例页面呈现的示意图;
17.图8示出了根据本公开的一些实施例的用于音频编辑的装置的框图;以及
18.图9示出了能够实施本公开的多个实施例的设备的框图。
具体实施方式
19.下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
20.在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。
21.可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
22.可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当根据相关法律法规通过适当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
23.例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息,从而使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
24.作为一种可选的但非限制性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式,例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或“不同意”向电子设备提供个人信息的选择控件。
25.可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其他满足相关法律法规的方式也可应用于本公开的实现方式中。
26.图1示出了本公开的实施例能够在其中实现的示例环境100的示意图。在该示例环境100中,终端设备110中可以安装有音频编辑应用112,用于对音频114进行编辑。例如,音频编辑应用112可以由基于用户102的操作对音频114进行编辑。在本文中,要编辑的音频114可以是任何音频格式,并且可以具有任何适当的音频长度。作为示例,音频114可以是播客、短视频对应的音频、广播剧、有声书、会议或访谈录音、有声课程、录音笔记等等。
27.在一些实施例中,音频114可以由音频采集设备105(例如,具有麦克风的设备)采集,并且被提供到音频编辑应用112进行编辑。例如,音频采集设备105可以从至少用户104采集音频。在一些实施例中,音频编辑应用112可以提供音频录制功能,用于录制经由音频采集设备105采集到的音频114。在一些实施例中,音频编辑应用112所编辑的音频114可以来自任何其他数据源,例如可以是从其他设备下载或接收到的音频114。本公开的实施例在此方面不受限制。
28.可以理解,虽然示出对音频114进行编辑操作的用户102和输出音频114的用户104,但这些用户可以是相同用户,这在本文中不做限制。还可以理解,虽然被示出为分离的设备,但音频采集设备105可以与终端设备110集成。在其他实现中,音频采集设备105可以以其他方式与终端设备110通信连接以提供所采集的音频114。
29.终端设备110可以是任意类型的移动终端、固定终端或便携式终端,包括移动手机、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、媒体计算机、多媒体平板、个人通信系统(pcs)设备、个人导航设备、个人数字助理(pda)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者前述各项的任意组合,包括这些设备的配件和外设或者其任意组合。在一些实施例中,终端设备110也能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。
30.在一些实施例中,终端设备110可以与远端的计算设备122通信,以实现对音频114的编辑。举例而言,计算设备122可以提供对音频114的存储功能、特定分析任务等等,以扩展终端设备110的存储和处理能力。计算设备122可以是能够提供计算能力的各种类型的计算系统/服务器,包括但不限于大型机、边缘计算节点、云环境中的计算设备,等等。在图1示出的示例中,计算设备122可以被部署在云环境120中。
31.应当理解,仅出于示例性的目的描述环境100的结构和功能,而不暗示对于本公开的范围的任何限制。例如,终端设备110可以不与远端的计算设备122通信。又例如,用户104和音频采集设备105也可以省略,等等。
32.在音频编辑场景中,有时期望能够删除音频中不期望出现的字或词,例如对于音频中的表达可能是无意义或无用的字或词。在本文中,这类的字或词可以被称为“无效字符”,有时也称为“无效词”、“无用词”、“水词”或“废词”,其中“无效字符”可以是任意尺寸的文本单元,例如单个字、词或词组,在不同自然语言中可以具有不同尺寸。在一些实施例中,无效字符可以包括口语表达中出现的语气词、口头禅等,例如中文表达中的“啊”、“呀”、“嗯”、“额”、“这个”、“那个”等,这些无意义的词语被认为是无效表达。在一些实施例中,无效字符可以附加地或备选地其他不期望出现在音频中出现的字或词,例如敏感词。在不同应用场景下不期望出现的敏感词可能不同,这可以根据需要确定。
33.在传统方案中,为了删除音频中不期望出现的字或词,音频编辑人员需要反复听音频,以便发现和精确定位要删除的字或词,并将对应的音频部分选中和删除。这样的编辑过程效率低下,而且容易出现漏删、错删(例如,删除的音频部分过长或多短)等诸多问题。
34.根据本公开的实施例,提出了一种改进的音频编辑方案。在该方案中,在音频相对应的文本基础上确定和醒目呈现其中存在的一个或多个无效字符,使得用户可以选择和确认是否要删除其中的某个或某些无效字符。在检测到对无效字符的删除确认指示后,从音频自动删除与确认要删除的无效字符对应的音频部分。
35.该方案能够支持对音频中的无效字符的便捷删除,显著提高了音频编辑的效率。从用户的角度看,可以实现对无效字符的一键式识别和删除,避免了冗余操作,节约了音频编辑的时间。由于向用户提供了对可删除的潜在无效字符的醒目呈现,可以有效避免误删、漏删等现象的发生。
36.以下将继续参考附图描述本公开的一些示例实施例。
37.图2示出了根据本公开的一些实施例的用于音频编辑的过程200的流程图。过程200可以在终端设备110处实现。为便于讨论,将参考图1的环境100来描述过程200。
38.在框210,终端设备110在针对音频的预定义模式下,醒目呈现音频114相对应的文本中的一组无效字符。
39.在本公开的实施例中,从音频114识别相对应的文本,以用于辅助对音频114的编辑。在一些实施例中,可以利用自动语音识别(asr)技术来从音频114识别相对应的文本。文本的识别可以在终端设备110处执行。在其他实施例中,文本的识别可以由远端的计算设备,例如环境100中的计算设备122来执行,并且终端设备110可以从计算设备122接收到文本。
40.在本公开的实施例中,提供了一种预定义模式,在该模式下可以定位和醒目呈现文本中的一组无效字符,其包括一个或多个无效字符。在下文中,为便于讨论,该预定义模式在本文中被称为“无效字符定位模式”。在一些实施例中,可以响应于用户选择而进入该无效字符定位模式。
41.在本公开的实施例中,被醒目呈现的无效字符是在文本基础上确定出的。在一些实施例中,被醒目呈现的无效字符可以包括从文本自动识别出的一个或多个无效字符。自动识别无效字符可以节省用户对无效字符的识别时间。特别是与通过试听音频来定位无效字符的方式相比,自动识别可以更快速向用户提示无效字符的存在。这样,在触发进入无效字符定位模式后,可以自动且快速地醒目呈现从文本中识别出的无效字符。
42.在下文将描述的另外一些实施例中,被醒目呈现的无效字符可以附加地或备选地包括基于用户选择确定的一个或多个无效字符。例如,可以允许用户从所呈现的文本中选择一个或多个字符作为无效字符。与通过试听音频来定位无效字符的方式相比,用户在文本中可以更容易和准确地识别无效字符。
43.在一些实施例中,对无效字符的自动识别可以在终端设备110处执行。在其他实施例中,对无效字符的自动识别可以由远端的计算设备,例如环境100中的计算设备122来执行,并且终端设备110可以从计算设备122获得自动识别出的一组无效字符。
44.可以利用各种方法来自动识别文本中的无效字符。在一些实施例中,可以预选创建和维护无效字符列表,其中记录常见的无效字符,例如“啊”、“呀”、“嗯”、“额”、“这个”、“那个”等和/或在音频中不期望出现的其他字或词,例如敏感词。通过将与音频114相对应的文本中的各个字符与无效字符列表进行匹配,可以确定出文本中包含的无效字符。应当理解,这里仅列出无效字符的非限制示例,在不同语言和应用场景下,无效字符列表中还可以记录更多、更少或其他的无效字符。
45.备选地或附加地,在一些实施例中,可以构建和训练无效字符识别模型,该模型被配置为能够从输入的文本识别无效字符。可以基于各种机器学习或深度学习算法来构建和训练这样的无效字符识别模型。无效字符识别模型的输入可以包括文本,输出包括识别结
果。识别结果可以指示文本中是否存在无效字符以及如果存在的话,还包括对识别出的无效字符的指示。
46.用于训练这样的无效字符识别模型的训练数据可以包括样本文本,并且还可以包括样本文本中的无效字符的标注信息。此外,可以利用适合文本处理的机器学习或深度学习模型来构建无效字符识别模型,并且可以利用机器学习或深度学习的适当训练算法来训练该模型。本公开的实施例对无效字符识别模型的结构和训练过程不做具体限定。
47.可以理解,无论是基于无效字符列表或是无效字符识别模型,均可以在终端设备110本地或在远端的计算设备122处执行无效字符的识别。在一些实施例中,无效字符的识别可以在接收到进入无效字符定位模式的触发之后开始执行。在一些实施例中,无效字符的识别可以异步执行,例如终端设备110或计算设备112可以在获得音频114后从音频114相对应的文本中识别一组无效字符,并且记录识别出的这些无效字符。在后续进入无效字符定位模式后,可以快速地将先前识别的无效字符进行醒目呈现。
48.在一些实施例中,可以在音频编辑应用112处执行对音频114的编辑,包括对无效字符对应的音频部分的删除。例如,音频编辑应用112可以提供对音频114的编辑页面。音频编辑应用112可以提供无效字符定位模式。在处于无效字符定位模式时,文本中的一组无效字符可以被醒目呈现(highlight)在编辑页面中。在一些实施例中,可以在编辑页面中呈现文本,并且在文本的呈现中醒目呈现一组无效字符。
49.无效字符的醒目呈现指的是无效字符的显示区别于文本中的其他字符。可以采用一种或多种醒目呈现方式来实现对无效字符的醒目呈现。作为示例,醒目呈现的方式可以包括增加对无效字符的删除线(即,在字符中间画一条线)或下划线,改变无效字符的格式(例如,颜色、字号、字体和/或粗细等)以区别于其他字符,在无效字符上叠加特定颜色或形状的底纹,在无效字符上增加特殊形状或标注,以及任何其他能够将无效字符醒目呈现的方式。
50.在一些实施例中,如果同时呈现文本中的其他字符,可以改变除无效字符之外的其他字符的呈现方式,以使无效字符可以被醒目呈现。例如,可以改变其他字符的格式(例如,颜色、字号、字体和/或粗细等),将其他字符隐藏或至少部分隐藏,等等。
51.在一些实施例中,可以用单个方式来醒目呈现无效字符,例如仅对无效字符增加删除线。在一些实施例中,可以对无效字符同时叠加多个醒目呈现的方式,例如同时增加删除线和添加特定颜色的底纹。
52.对于无效字符的醒目呈现的方式可以根据实际应用需要来选择。本公开的实施例对于醒目呈现的方式不做限定。
53.为更好理解本公开的一些实施例,下文将参考用户界面图来进一步讨论。
54.图3a示出根据本公开的一些实施例的用于音频编辑的编辑页面300的交互示例的示意图。应当理解,图3a示出的页面以及下文中将描述的其他附图中的页面仅仅是示例,实际可以存在各种页面设计。页面中的各个图形元素可以具有不同的布置和不同的视觉表示,其中的一个或多个元素可以省略或被替换,并且还可以存在一个或多个其他元素。本公开的实施例在此方面不受限制。
55.在编辑页面300中,在页面区域310中呈现音频114对应的内容。出于解释说明的目的,在图中呈现了特定的文本,但这样的文本并不构成对本公开的实施例的任何限制。编辑
页面300中还可以呈现与音频114相关联的音频信息(也称为音频114的关联信息),包括音频114的声波表征信息320以及时间长度信息322。在其他实施例中,也可以不呈现这些音频信息中一者或多者。
56.编辑页面300还提供可选择的一个或多个编辑功能。在图3a的示例,标注有文字“一键去水”的功能330指示用于进入无效字符定位模式的功能。图3a还示出了其他示例编辑功能,包括用于将音频114分割为一个或多个音频片段的分割功能342,用于调节音频114的音量的音量调节功能344,用于调节音频114的速度的速度调节功能346,以及用于删除音频114的一个或多个音频片段的删除功能348。编辑页面300还呈现播放标识363,指示音频正在播放。在一些实现中,用户可以通过定位文本中的某个或某些字符,或者通过拖动进度控制条312来定位音频的起始播放位置。
57.应当理解,对功能330的文字标注以及其他示出的编辑功能均是示例。编辑页面300可以提供更多、更少或其他编辑功能。
58.响应于检测到对功能330的用户选择,例如在图3b中检测到用户对功能330的点击选择,终端设备110或音频编辑应用112进入无效字符定位模式。注意,出于解释说明的目的,在图3b以及后续一些实施例中,图示了基于触控手势的用户选择。然而应当理解,取决于终端设备110的能力,可以存在接收用户选择的其他方式,诸如鼠标选中、语音控制等等。
59.在一些实施例中,在切换到无效字符定位模式时,终端设备110可以确定和定位页面区域310呈现的文本中的无效字符。如前所述,无效字符的识别可以在终端设备110本地或在远程的计算设备112处执行,并且可以在触发进入无效字符定位模式后执行或者可以预先执行。
60.在一些示例中,如图3c所示,可以提供定位等待指示350,以指示正在页面区域310中定位无效字符。在一些情况下,无效字符的识别可能需要一定时间,或者在编辑页面300中定位和渲染对无效字符的醒目呈现也需要一定时间。定位等待指示350可以向用户提示终端设备110的当前操作。
61.在确定出无效字符后,如图3d所示,在页面区域310中醒目呈现无效字符360-1“额”、无效字符360-2“那个”和无效字符360-3“嗯”。在该示例中,以添加删除线以及颜色底纹的方式来醒目呈现无效字符。
62.在一些实施例中,除了醒目呈现无效字符之外,还可以呈现无效字符的附加信息。附加信息至少可以包括被醒目呈现的无效字符的数目。如图3d所示,可以在编辑页面300呈现对醒目呈现的无效字符的数目的文字指示362,并且在“确认删除”选项372上也显示无效字符的数目(例如,数目“3”)。这样的呈现可以使用户能够快速了解文本中的无效字符的总数,这在文本较长或者识别出的无效字符较多的情况下特别有用。在一些实施例中,可以随着用户不断选择新的无效字符,和/或取消选择无效字符,动态地修改所呈现的无效字符的数目,这在下文中将会继续讨论。
63.通过醒目呈现无效字符,用户可以准确了解可能要被删除的字符,并可以根据编辑需要,进一步确认是否要删除这些无效字符中的一个或多个。返回图2的过程200,在框220,终端设备110检测对一组无效字符中的至少一个目标无效字符的删除确认指示。至少一个目标无效字符指的是确认要被删除的无效字符。在一些实施例中,可以基于用户选择来检测删除确认指示。
64.在一些实施例中,可以呈现对无效字符的删除的确认选项,以供用户选择。例如,在图3e的示例中,提供“确认删除”选项372,对该选项的选择可以指示触发删除确认指示。
65.在一些实施例中,用户还可以对自动识别出的无效字符进行选择性确认,和/或可以补充更多无效字符,这将在下文中讨论。
66.如果被醒目呈现的一个或多个字符被认为不需要删除,例如基于用户选择确定这些字符为“非无效字符”,那么其余无效字符可以被确定为要删除的目标无效字符。
67.继续参考图2,在框230,终端设备110确定是否检测到删除确认指示。响应于检测到对至少一个目标无效字符的删除确认指示,在框240,终端设备110从音频114中删除与至少一个目标无效字符相对应的至少一个音频部分,以获得更新的音频。如果没有检测到对至少一个目标无效字符的删除确认指示,终端设备110可以继续等待。
68.在一些实施例中,终端设备110可以基于音频114与文本在时间上的对应关系,确定音频114中与至少一个目标无效字符对应的至少一个音频部分对应的至少一个音频部分。音频114与文本的对应关系可以指示文本中的各个文本字符或文本字符串所对应的音频部分,例如可以指示对应的音频部分的时间戳信息,包括起始时间和结束时间。这样,在确定要删除的一个或多个目标无效字符后,可以基于该对应关系确定对应的音频部分的时间戳信息,从而在音频114中定位这些音频部分。
69.在从音频114中删除一个或多个目标无效字符对应的音频部分之后,更新的音频可能具有更短的时间长度。在被删除的音频部分的前后部分可以被连接,以组成更新的音频。在一些实施例中,更新的音频本身可以由终端设备110在本地或远端存储为单独的音频文件。
70.在一些实施例中,除删除音频部分之外,还可以从音频114相对应的文本中删除所确认的一个或多个目标无效字符,以获得与更新的音频对应的更新的文本。更新的文本中不包括所删除的目标无效字符。在一些实施例中,还可以呈现更新的文本。在一些实施例中,还可以呈现与更新的音频相关联的信息(也称为关联信息),例如时间长度信息和/或声波表征信息,等等。由于音频发生更新,这些音频信息也可能会发生相应更新。
71.举例而言,在用户选择图3e的“确认删除”选项372时,当前被醒目呈现的无效字符360-1、360-2和360-3被确认为目标无效字符。因此,这些目标无效字符对应的音频部分从音频114中被删除,并且这些目标无效字符也会从文本中被删除。如图3f所示,可以在编辑页面300的文本区域310呈现更新的文本,其中目标无效字符不再被呈现。
72.此外,在图3f的编辑页面300中还呈现更新的音频的关联信息,如图3f所示的声纹表征信息324,以及时间长度信息326。更新的关联信息使用户能够从视觉上查看到对音频中无效字符的删除结果。在删除与无效字符对应的音频部分后,如果用户选择播放音频,将能够听到没有无效字符的更新的音频。
73.如前文所述,在进入无效字符定位模式后醒目呈现自动识别的无效字符。此外,还可以附加地或备选地由用户选择性地确认自动识别出的无效字符是否可以被删除,和/或可以由用户选择另外的无效字符用于删除。这样的实施例将在下文详细讨论。
74.图4示出了根据本公开的一些实施例的用于醒目呈现无效字符的过程400的流程图。过程400可以在终端设备110处实现。图4的过程400从总体上概括描述基于自动识别和用户手动选择而确定的无效字符的显示。
75.在框410,终端设备110呈现音频114相对应的文本,例如图3a所示的文本的呈现。在框420,终端设备110获取对文本的无效字符识别结果。如前所述,终端设备110可以在本地执行无效字符的识别或者从远端设备直接接收到无效字符识别结果。无效字符识别结果可以在文本中识别出的一组无效字符,或者可以指示在文本中没有识别出无效字符。
76.在框430,终端设备110检测是否进入无效字符定位模式。如果没有检测到要进入无效字符定位模式,终端设备110可以继续等待。响应于检测到进入无效字符定位模式,例如图3b中用户选择编辑页面300中呈现的对应功能,在框440,终端设备110基于无效字符识别结果确定是否存在自动识别出的无效字符。
77.如果存在自动识别出的无效字符,在框450,终端设备110醒目呈现自动识别出的一组无效字符。如图3e所示,可以在编辑页面300显示在文本中自动识别出的一组无效字符。
78.如果在框440确定字符识别结果指示不存在自动识别出的无效字符,那么在进入无效字符定位模式后可能不会有字符被自动醒目呈现。在这种情况下,过程400行进到框460,终端设备110在无效字符定位模式中检测对无效字符的用户选择。例如,可以允许用户从所呈现的文本中选择一组字符作为无效字符。换言之,在无效字符定位模式下,被醒目呈现的无效字符可以包括基于用户选择确定的无效字符。
79.在一些实施例中,在框450处醒目呈现自动识别的一组无效字符后,过程400也可以行进到框460,由终端设备110在无效字符定位模式中继续检测检测对无效字符的用户选择。在这情况下,可以允许用户指示自动识别出的一个或多个无效字符不应被删除,因此不作为目标无效字符。附加地或备选地,在这种情况下也可以允许用户选择一个或多个其他字符作为无效字符。
80.在框470,终端设备110基于用户选择来确定对无效字符的醒目呈现。取决于用户的具体选择,有些无效字符可以不再被醒目呈现,有些另外的无效字符可以被选择以醒目呈现。
81.在过程400中,框460和框470可以重复执行,直到接收到对目标无效字符的删除确认指示。响应于该确认指示,可以将当前仍被选择或被醒目呈现的无效字符确定为要删除的目标无效字符。
82.下文将结合图5以及图6a至图6f来详细讨论在编辑页面中对无效字符的示例用户选择以及无效字符的醒目呈现。
83.图5示出了根据本公开的另一些实施例的用于醒目呈现无效字符的过程500的流程图。过程500可以在终端设备110处实现。过程500可以被认为是过程400中的框460和470的示例实施例。在过程500中,首先假设已经有一个或多个无效字符被醒目呈现。当前被醒目呈现的无效字符可以包括自动识别出的一个或多个无效字符,和/或可以包括基于用户选择确定的一个或多个无效字符。
84.在框510,终端设备110确定是否接收到对一个或多个无效字符的取消选择指示。取消选择指示可以基于用户选择来确定。例如,对于醒目呈现的一个或多个无效字符,可以允许用户分别取消选择其中的某个或某些无效字符,使这些字符不再被认为是无效字符。如图6a所示,在编辑页面300中醒目呈现有无效字符360-1、360-2和360-3。如果用户点击无效字符360-2“那个”,终端设备110接收到对该无效字符的取消选择指示。
85.在框520,响应于接收到取消选择指示,终端设备110停止或降级对被取消选择的一个或多个无效字符的醒目呈现。在一些实施例中,响应于取消选择指示,终端设备110还可以将被取消选择的一个或多个无效字符从无效字符的集合中移除,这意味着这些字符不再被认为是无效字符。
86.在一个实施例中,终端设备110可以使被取消选择的一个或多个无效字符不再被醒目呈现,这些无效字符的呈现将被文本中的其他字符的呈现相同。图6b示出了停止对被取消选择的无效字符的醒目呈现的示例。具体地,在图6a接收到对无效字符360-2的取消选择指示后,如图6b所示,字符“那个”不再被醒目呈现。
87.在另一实施例中,终端设备110可以将被取消选择的无效字符的醒目呈现降级,使得被取消选择的无效字符的醒目程度低于其他未被取消选择的无效字符。在一些示例中,相较于文本中的其他字符,被取消选择的无效字符可能仍是醒目呈现,以向用户指示这些字符曾被确定为无效字符(例如,被自动识别为无效字符)。醒目呈现的降级方式可以包括取消部分醒目呈现的方式(在按多种方式来醒目呈现无效字符的情况下),按另外的方式进行醒目呈现(该方式的醒目程度较低,例如用更低饱和度的颜色作为底纹等),以及任何其他降级醒目呈现的方式。
88.图6c示出了对被取消选择的无效字符的醒目呈现降级。在图6a接收到对无效字符360-2的取消选择指示后,如图6c所示,无效字符360-2的删除线被取消,但仍具有颜色底纹。
89.通过提供被取消选择的无效字符的一定程度的醒目呈现,可以在用户误操作等情况下方便用户可以再次定位到这些无效字符。
90.如前文提及的,如果确定一个或多个无效字符被取消选择,例如接收到对一个或多个无效字符的取消选择指示,可以改变所呈现的无效字符的数目。例如,在图6b和图6c的示例中,在无效字符360-2被取消选择后,还可以在编辑页面300呈现文字指示662,以指示更新后的无效字符的数目。此外,还可以在“确认删除”选项672上也显示无效字符的数目(例如,数目“2”)。
91.返回图5的过程530,终端设备110确定是否接收到对一个或多个无效字符的恢复选择指示。如果接收到恢复选择指示,在框540,终端设备110从停止状态或降级状态恢复对无效字符的醒目呈现。
92.如图6c所示,根据需要,用户可以再次方便地定位和选择无效字符360-2。如图6d所示,如果接收到用户对无效字符360-2的重新选择,该无效字符360-2的醒目呈现被恢复为与其他无效字符的醒目呈现程度相同。当然,在这种情况下也可以用不同的醒目呈现方式来指示该无效字符是被重新恢复的无效字符。这里不做限制。
93.此外,在无效字符360-2被重新选择后,由于此时无效字符的数目增加,在图6d的示例中,还可以在编辑页面300呈现对无效字符的更新数目的文字指示664。此外,还可以在“确认删除”选项674上也显示无效字符的数目(例如,数目“3”)。
94.在一些实施例中,在各种情况下,终端设备110可以在框550确定是否检测到另外的字符被选择为无效字符。例如,如果在框510为检测到取消选择指示,或者是在框530未检测到恢复选择指示,或者是在恢复无效字符的醒目呈现之后,终端设备110均可以继续判断是否检测到另外的字符是否被选择为无效字符。应当理解,虽然按顺序描述图5所示的流程
图中各个框的步骤,但这些步骤可以按不同顺序或并行顺序来执行。例如,框510、530和550的步骤可以并行执行。
95.在处于无效字符定位模式的过程中,终端设备110可以基于用户选择来确定文本中另外的一个或多个字符是否被选择为无效字符。例如,可以允许用户选择文本中未被醒目呈现的一个或多个字符作为无效字符。
96.响应于检测到另外的一个或多个字符被选择为无效字符,在框560,终端设备110醒目呈现被选择的另外的一个或多个无效字符。
97.如图6e所示,用户选择文本区域310中未被醒目呈现的字符,例如字符660-1“啊”。终端设备110检测到这样的用户选择,确定将该字符选择为无效字符。如图6f所示,终端设备110将字符660-1醒目呈现在编辑页面300中。此外,由于此时无效字符的数目从2个增加到3个,还可以在编辑页面300呈现对无效字符的更新数目的文字指示666。此外,还可以在“确认删除”选项676上也显示无效字符的数目(例如,数目“3”)。
98.在一些实施例中,可以在音频114处于未播放状态的情况下检测用户选择,包括取消选择、恢复选择和/或选择额外的无效字符。在一些示例中,如图3d以及图6a至图6f所示,在开始醒目呈现无效字符时,在编辑页面300呈现指示信息364,以向用户指示在音频的暂停状态下单击高亮部分可以保留或去除无效字符。如图6a至图6f所示,编辑页面300呈现暂停播放标识663,指示音频114处于暂停播放状态。
99.如果在框550未检测到另外的一个或多个字符被选择为无效字符,终端设备110可以确定当前不需要再醒目呈现另外的无效字符。在处于无效字符定位模式的过程中,终端设备110可以持续多次执行框510、530和550的检测。
100.无论用户是否对无效字符进一步编辑,在检测到删除确认指示后,可以将当前被醒目呈现的无效字符确定为要删除的目标无效字符,并且基于这些目标无效字符,从音频114中删除这些目标无效字符对应的音频部分。如图7a所示,在用户选择“确认删除”选项372时,当前被醒目呈现的无效字符360-1、360-3和660-1被确认为目标无效字符。因此,这些目标无效字符对应的音频部分从音频114中被删除,并且这些目标无效字符也从文本中被删除。如图7b所示,可以在编辑页面300的文本区域310呈现更新的文本,其中目标无效字符360-1、360-3和660-1不再被呈现。此外,还可以呈现更新的音频相关联的声纹表征信息720,以及时间长度信息722。
101.在一些实施例中,在获得由用户选择和确定删除的无效字符的情况下,还可以将基于用户选择的无效字符以及音频114对应的文本提供用于调整无效字符识别模型。例如,可以将图6e和图6f中由用户选择的字符“啊”以及音频114对应的文本提供用于训练字符识别模型。该字符识别模型可以是由终端设备110或远端的计算设备112用于自动识别无效字符的模型。所提供的无效字符以及音频114对应的文本可以丰富和扩展无效字符识别模型的训练数据集,从而使无效字符识别模型能够演进以具备更强的识别能力。
102.在一些实施例中,可以在收集到足够多的额外的训练数据后,重新启动对无效字符识别模型的训练。在一些实施例中,对无效字符模型的训练可以在终端设备110处执行、在计算设备112处执行或在其他模型训练设备处执行。本公开的实施例在此方面不受限制。
103.图8示出了根据本公开的某些实施例的用于音频编辑的装置800的示意性结构框图。装置800可以被实现为或者被包括在终端设备18中。装置800中的各个模块/组件可以由
硬件、软件、固件或者它们的任意组合来实现。
104.如图所示,装置800包括醒目呈现模块810,被配置为在针对音频的预定义模式下,醒目呈现与音频相对应的文本中包含的一个或多个无效字符。装置800还包括指示检测模块820,被配置为检测对一个或多个无效字符中的至少一个目标无效字符的删除确认指示;以及音频删除模块830,被配置为响应于检测到删除确认指示,从音频中删除与至少一个目标无效字符相对应的至少一个音频部分。
105.在一些实施例中,装置800还包括:无效字符识别模块,被配置为从文本识别第一无效字符。
106.在一些实施例中,装置800还包括:无效字符确定模块,被配置为基于用户输入确定对文本中的第二无效字符。
107.在一些实施例中,装置800还包括:数据提供模块,被配置为提供第二无效字符和文本以用于训练无效字符识别模型,无效字符识别模型被训练为从输入的文本识别无效字符。
108.在一些实施例中,指示检测模块包括:无效字符移除模块,被配置为响应于接收到对一个或多个无效字符中的第三无效字符的取消选择指示,将第三无效字符从一个或多个无效字符中移除。
109.在一些实施例中,装置800还包括:醒目呈现停止或降级模块,被配置为响应于接收到对一个或多个无效字符中的第四无效字符的取消选择指示,停止或降级对第四无效字符的醒目呈现。
110.在一些实施例中,装置800还包括:数目呈现模块,被配置为呈现一个或多个无效字符的第一数目。
111.在一些实施例中,装置800还包括:数目确定模块,被配置为响应于接收到对所述一个或多个无效字符中的至少一个无效字符的取消选择指示,确定所述一个或多个无效字符中未被取消选择的无效字符的第二数目;以及数目修改模块,被配置为将所呈现的所述第一数目修改为所述第二数目。
112.在一些实施例中,装置800还包括:文本确定模块,被配置为响应于检测到对至少一个目标无效字符的删除确认指示,从文本中删除至少一个目标无效字符,以获得更新的文本;以及文本呈现模块,被配置为呈现更新的文本。
113.在一些实施例中,装置800还包括:信息模块,被配置为呈现音频在删除至少一个音频部分后的关联信息,关联信息包括时长和声波表征中的至少一项。
114.图9示出了示出了其中可以实施本公开的一个或多个实施例的计算设备900的框图。应当理解,图9所示出的计算设备900仅仅是示例性的,而不应当构成对本文所描述的实施例的功能和范围的任何限制。图9所示出的计算设备900可以用于实现图1的终端设备110。
115.如图9所示,计算设备900是通用计算设备的形式。计算设备900的组件可以包括但不限于一个或多个处理器或处理单元910、存储器920、存储设备930、一个或多个通信单元940、一个或多个输入设备950以及一个或多个输出设备960。处理单元910可以是实际或虚拟处理器并且能够根据存储器920中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高计算设备900的并行处理能力。
116.计算设备900通常包括多个计算机存储介质。这样的介质可以是计算设备900可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器920可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(ram))、非易失性存储器(例如,只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、闪存)或它们的某种组合。存储设备930可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如闪存驱动、磁盘或者任何其他介质,其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备900内被访问。
117.计算设备900可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图9中示出,可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器920可以包括计算机程序产品925,其具有一个或多个程序模块,这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。
118.通信单元940实现通过通信介质与其他计算设备进行通信。附加地,计算设备900的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,计算设备900可以使用与一个或多个其他服务器、网络个人计算机(pc)或者另一个网络节点的逻辑连接来在联网环境中进行操作。
119.输入设备950可以是一个或多个输入设备,例如鼠标、键盘、追踪球等。输出设备960可以是一个或多个输出设备,例如显示器、扬声器、打印机等。计算设备900还可以根据需要通过通信单元940与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与计算设备900交互的设备进行通信,或者与使得计算设备900与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(i/o)接口(未示出)来执行。
120.根据本公开的示例性实现方式,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式,还提供了一种计算机程序产品,计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令,而计算机可执行指令被处理器执行以实现上文描述的方法。
121.这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
122.这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
123.可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设
备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
124.附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
125.以上已经描述了本公开的各实现,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1