言语至文本增强媒体编辑的制作方法

文档序号：16370068发布日期：2018-12-22 08:39阅读：219来源：国知局

本公开涉及一种用于有效地编辑诸如音频内容和/或包括音频内容的其它内容的媒体内容的设备和方法。

背景技术

媒体制作(例如，博客)常常是从原始记录的大音频源创建的。例如，可从特定日或周的整个无线电节目的最佳部分形成一小时的无线电节目博客。因此，音频数据的量会相当大，因此制作仅由原始音频的小部分组成的博客的编辑处理会是耗时的。

技术实现要素：

根据本公开的设备和方法可克服与用于编辑诸如音频内容的媒体内容的传统手段关联的一个或更多个缺点。更具体地讲，根据本公开的电子设备和方法可执行原始音频数据的言语至文本转换，并将文本连同时间戳一起存储在文本容器中。时间戳对应于文本的音频形式在媒体数据中的开始和结束位置。然后可使用传统文本编辑概念(例如，查找、替换、剪切、粘贴、删除、移动等)来编辑容器中的文本。例如，可从一个位置剪切文本的部分并将其移动到文本容器内的另一位置，或者可删除整个部分，从而仅留下文本的特定部分。然后对更改的文本进行的改变可与时间戳结合用于对原始媒体数据执行对应编辑。

根据本公开的设备和方法的优点在于其使得原始内容能够由编辑器容易地可视化(例如，通过显示文本)。此外，通过将媒体内容的音频部分转换为文本形式，可使用传统文本编辑概念来更改媒体内容的音频部分(同时以文本形式)。这些传统工具的使用容易且有效，因此简化编辑处理。

除了简化媒体内容的编辑处理之外，可对文本执行进一步的分析以使最终媒体产品与预定义的要求对应。例如，特定媒体应用可对媒体文件的长度施加时间限制。根据本公开，可自动地分析和操纵从媒体文件获得的文本以使最终媒体产品的长度最小化以满足该时间限制。在这方面，在将词语转换为文本形式时可检测并忽略赘词(fillerword)、背景语音、无关声音等。另外，特定词语可被替换为其同义词等。

根据本公开的一个方面，一种用于编辑媒体内容的方法包括以下步骤：分析媒体内容以检测媒体内容中的词语；将所检测的词语转换为文本并将该文本存储在文本容器中；改变文本容器内的文本的特性；以及更改媒体内容以与改变后的文本的特性相对应。

为了实现前述和相关目的，该设备和方法包括以下在说明书中充分描述并在权利要求中特别指出的特征，以下描述和附图详细阐述了特定例示性实施方式，然而，这些仅是指示可适当地采用本发明的原理的各种方式中的几种。

尽管在各个附图/实施方式中描述和示出了各种特征，但是将理解，给定附图或实施方式的特征可用在本发明的一个或更多个其它附图或实施方式中。

附图说明

图1是示出根据本公开的音频内容、文本和时间戳之间的关系的框图。

图2是示出根据本公开的生成与音频内容相对应的文本容器的示例性步骤的流程图。

图3是示出根据本公开的使用文本容器来操纵音频内容的示例性步骤的流程图。

图4示出根据本公开的示例性文本搜索操作者界面。

图5示出根据本公开的示例性文本选择操作者界面。

图6是示出根据本公开的操纵音频内容的示例性的步骤的流程图。

图7是用于实现根据本公开的方法的电子设备的若干示例性相关部分的示意性框图。

具体实施方式

现在将参照附图描述实施方式，其中，始终使用相似的标号表示相似的元件。将理解，附图未必按比例。另外，关于一个实施方式描述和/或示出的特征可在一个或更多个其它实施方式中以相同的方式或以相似的方式使用，和/或与其它实施方式的特征组合或代替其它实施方式的特征使用。

术语“电子设备”和“电子设备”可互换使用，并且包括便携式无线电通信设备。在下文中被称为“移动无线电终端”、“移动电话”、“移动装置”或“移动终端”等的术语“便携式无线电通信设备”包括诸如移动电话、寻呼机、通信器(即，电子记事本)、个人数字助理(pda)、智能电话、便携式通信设备等的所有设备。术语“电子设备”和“电子设备”还可包括数字音乐和/或视频装置，例如ipod装置、mp3播放器、便携式游戏系统、电视、与电视/显示装置一起使用的便携式电视装置、家庭影院pc(htpc)系统等。

根据本公开的方法和设备在编辑音频内容方面具有特别效用，因此，在该上下文中主要描述实施方式。然而，本发明的各方面适用于其它形式的媒体内容。例如，本发明的各方面适用于编辑包括音频内容的媒体内容(例如，视频)。如本文所用，术语“媒体内容”包括单独的音频内容和/或与其它内容组合的音频内容(例如，音频内容和视频内容)。

本公开描述了用于编辑音频内容的方法以及用于实现这些方法的设备。如下面将更详细描述的，分析音频内容(例如，直播或预记录的音频内容)以标识音频内容中的词语。针对标识的各个词语确定时间戳，并将时间戳关联到标识的各个词语，该时间戳指示与所标识的词语相对应的音频在音频内容中的时间位置。如本文所用，时间戳是指限定感兴趣的音频在音频内容内的开始位置和结束位置的时间段。时间戳可涉及词语、短语、句子、段落等。所标识的词语被转换为文本形式并连同关联的时间戳一起存储在文本容器中。一旦处于文本形式，就可使用传统文本编辑工具来搜索和/或重新排列文本。基于对文本进行的编辑以及对应的时间戳，对原始音频内容进行对应改变。修改的音频内容然后可被存储在原始音频容器中或新的音频容器中以供稍后使用。

图1示出音频内容2、文本4与时间戳6之间的关系。更具体地讲，文本4是从音频内容2中的词语获得的，而时间戳6是从词语在音频内容2内的时间位置获得的。时间戳6被关联到文本，从而将文本4链接到音频内容2。通过编辑文本4，可基于对文本进行的编辑以及与编辑的文本相对应的时间戳6来编辑对应音频内容2。

与现有技术的方法相比，根据本公开的音频编辑方法具有若干优点。例如，由于音频内容被转换为文本形式，所以可使用传统搜索工具来定位文本中的特定词语或段落。这显著简化了定位音频内容的、编辑内容的人所感兴趣的部分的处理。另外，一旦处于文本形式，就可通过查看文本来将音频内容可视化。这无法使用传统编辑方法实现，因为纯音频无法有效地可视化。此外，由于提供了音频内容的文本表示，所以也可使用传统文本编辑概念来操纵文本，该文本继而可被应用于实际音频文件。这些传统文本编辑概念是本领域熟知的，可包括例如查找、替换、剪切、粘贴、删除、移动或者用于编辑文本的任何其它特征。以这种方式，可例如使用基于文本的剪切和粘贴工具来有效地编辑音频内容，以提供期望的音频文件。

例如，个人可能希望使用四小时无线电节目的部分来创建该节目的精彩部分。在节目期间，个人可能记住该个人感兴趣的特定部分。然而，在传统技术中，没有有效的方式搜索这些感兴趣的部分的音频内容。因此，必须知道该无线电节目的用户感兴趣的部分的一般时间位置以便查找内容。将理解，这会是一项繁琐的任务，因为不仅难以记住内容的位置，而且还难以在四小时的记录中查找它们。根据本公开，对音频内容执行言语至文本识别以将音频内容中的词语转换为文本形式，并且所得文本可被存储在容器(例如，文件、数据库或者用于存储文本数据的其它装置)中。另外，针对音频内容中的各个词语标识时间戳，并且将该时间戳与根据该词语生成的文本关联起来。因此，针对词语的各个文本表示，在音频内容内的位置已知。

一旦处于文本形式，就可执行简单的词语搜索以标识感兴趣的部分。例如，可能回想起无线电dj演说了特定主题。代替听完音频内容的相当大的部分以查找与主题对应的部分，可使用传统文本搜索算法来简单地执行词语搜索。一旦找到，就可根据期望操纵文本。例如，可选择感兴趣的部分并将其移动到新的位置或新的容器，可删除其它部分等。然后可对实际音频内容相应地执行对文本执行的动作。例如，如果文本被修改以移动或删除文本，则基于与所操纵的文本关联的时间戳，可对音频内容的对应部分执行相同的动作。将理解，通过操纵文本，可容易地创建/改变音频内容。

图2示出根据本公开的将音频内容转换为文本格式的示例性方法10。图3示出使用例如传统文本编辑概念利用所转换的音频内容(即，文本)来编辑音频内容的示例性方法50。对所示方法的变化是可能的，因此，所示实施方式不应被视为实现本文献中所公开的技术的唯一方式。另外，尽管图2和图3示出执行功能逻辑方框的特定顺序，但是执行方框的顺序可相对于所示顺序改变，和/或可按照面向对象的方式或面向状态的方式实现。另外，连续示出的两个或更多个方框可同时执行或者部分同时执行。也可省略特定方框。例如，可通过执行电子设备所存储的代码来实现示例性方法。该代码可被具体实现为可由处理器执行的逻辑指令集。因此，这些方法可被具体实现为存储在计算机可读介质(例如，存储器)上的计算机程序形式的软件。

从方框12开始，获得要执行转换处理的音频。音频可以是直播音频流，例如无线电广播、电视广播、公开演出(例如，在研讨会上发表的演讲)等。在这方面，直播音频流可被实时馈送到执行根据本公开的方法的电子设备。另选地，音频可以是预记录的音频、存储在容器中的记录。这些容器的非限制性示例包括mp3、mp4、mpeg、wave、xmf、aiff、avi、flv等。

无论音频内容的格式如何，在方框14，分析音频以检测音频内容中的词语。在执行分析时，可使用传统言语识别算法来分析音频内容并确定音频内容中的词语。如果音频内容是直播音频内容，则可实时分析，而如果音频内容被预记录并存储在音频容器中，则可在任何期望的时间分析。

在方框16，针对音频中的各个词语标识时间戳，该时间戳与相应词语在音频内容内的时间位置相对应。因此，例如，如果分析确定音频内容的第一个句子是“goodmorning,thanksfortuningin(早上好，感谢收听)”，则0.00-0.05的时间戳可与词语“good”关联，0.06-0.10的时间戳可与词语“morning”关联，1.1-1.15秒的时间戳可与词语“thanks”关联，依此类推。如下面更详细描述的，当操纵与词语相对应的文本时，则从时间戳知道与该词语相对应的音频内容的确切位置。

接下来在方框18，将所检测到的词语转换为文本形式。转换处理可再次使用本领域已知的传统言语至文本识别算法。在方框20，与所检测到的各个词语相对应的时间戳然后可与词语的相应文本形式关联并存储在文本容器中。如本文所用，文本容器是指用于存储词语的文本形式的存储手段，其非限制性示例包括数据库、文本文件等。

因此，当在音频中标识出词语时，词语被转换为文本形式并置于诸如文本文件、数据库或其它容器的容器中。另选地，时间戳和/或时间戳与词语的文本形式的关联可被存储在单独的位置。接下来在方框20，可执行文本的传统索引以方便搜索词语。

因此，图2所示的步骤生成容器，该容器可用于使用例如传统文本编辑概念来容易地搜索和修改词语。如下面将参照图3更详细描述的，容器可用于查找音频内容的特定部分并通过操纵容器中的文本来容易地修改音频内容。

参照图3所示的示例性方法50，在步骤52，例如使用传统文本编辑概念来访问在图2的示例性方法中创建的容器。接下来在步骤54，用户可使用文本编辑概念来搜索文本容器中的特定词语或短语。例如，用户可能回想起无线电广播中的特别幽默的时刻(例如，笑话或无线电比特(radiobit))。基于幽默部分的记忆，用户可输入要执行搜索的关键字。然后，搜索功能将定位词语或短语的第一个实例，并且用户可确认或拒绝词语或短语是正确的。如果词语或短语的第一个实例不是音频内容的期望部分，则搜索可继续，直到在文本中找到期望的词语或短语为止。

一旦找到期望的文本，在步骤56，用户就更改文本的特性。例如，可经由指点装置等选择文本的一部分并将其拖曳(移动)到新位置，或者甚至新的(单独的)容器。另外，可根据期望重新排列容器内的文本的顺序(例如，可根据期望重新排列不同主题的顺序，可移动词语或句子)。另外，可删除容器内的文本部分等。例如，用户可能仅希望使用四小时无线电广播的十分钟片段。在这种情况下，除了与感兴趣的十分钟对应的部分之外，用户可删除容器中的所有文本。

基于对容器中的文本进行的改变，对该文本的音频组件自动地进行对应改变，如方框58所指示。更具体地讲，从与各个文本(词语)关联的时间戳知道与该文本相对应的音频组件的位置。因此，如果操纵文本的一部分，则与该文本相对应的音频部分的位置也已知。因此，如果与词语或词语组对应的文本已被移动到新位置，则该文本的对应音频部分也移动。类似地，如果已删除文本的较大部分，则对应音频部分也被删除。在一个实施方式中，对音频组件的这种改变可基本上与对文本进行的改变同时发生。在另一实施方式中，当用户请求进行改变时(例如，通过激活“执行”软键或者通过将文件保存到存储器)，进行改变。

一旦音频组件被更改以与对文本进行的改变对应，则音频组件可被存储在相同或不同的音频容器中。如上所述，音频容器可以是mp3、mp4、mpeg或其它音频容器。

简要地参照图3和图4，示出了根据本公开的用于编辑音频内容的示例性界面。在图3和图4的示例中，制作者希望基于跨越三天的试验(例如，大约21小时的音频内容)创建一小时的音频制作。用户可将音频内容导入到根据本公开的编辑器中，该编辑器生成音频内容中所说的词语的文本版本以及该词语的各个文本表示的时间戳。制作者可能希望在见证讨论特定主题的情况下开始音频制作，因此将关键字输入到音频编辑器的搜索实用程序(searchutility)中。然后，搜索引擎搜索文本并标识词语或短语的各个实例。例如，如图4所示，可突出显示在三天试验中搜索到的词语的各个实例。如图5所示，用户可例如通过将光标置于感兴趣的文本上并选择该文本来选择在创建音频制作时感兴趣的文本部分。所选择的文本然后可被拖放到表示音频制作的新容器。可重复此处理直到完成音频制作为止。然后，制作者可选择创建功能，并且音频编辑器继续基于对文本进行的改变来创建新的音频文件。

除了提供容易地编辑音频内容的手段之外，还可实现其它编辑工具以创建音频剪辑。例如，用于编辑音频内容的一些应用(app)已得以普及并具有忠实的追随者。这些app并非基于使用如本文所述的言语至文本。相反，其提供了用于编辑音频文件的简单用户界面。类似于推特(其对推文的长度有限制)的成功，这些音频app对音频剪辑的长度具有时间限制(例如，18秒)。根据本公开的方法将文本链接到音频。因此，如果希望导出新的音频剪辑，则可简单地标记文本并执行“保存剪辑”软键并且匹配音频被保存。

一些app的18秒限制的问题在于，如果超过时间限制，则词语可能被切断。解决此问题的一种方式是加速音频内容中的言语以将整个剪辑缩短到指定时间。然而，这会产生难以理解的听起来不自然的言语。根据本公开，分析从原始音频内容的转换处理获得的文本以确定可如何修改它以减小最终音频剪辑的时间长度而不会明显更改言语的声音。

图6示出根据本公开的用于减小音频内容的方法80的示例性步骤。尽管图6示出若干步骤，需要注意的是许多步骤是可选的，不需要执行。

该方法可在从原始音频内容创建音频剪辑的背景下执行。因此，在方框82，用户可选择文本块(根据图1和/或图2的方法生成)，该文本对应于整个音频的用户希望创建音频剪辑的部分。可通过简单地将光标定位在文本的开头处并突出显示要形成音频剪辑的部分来选择文本。一旦选择了文本，用户就可启动“执行”功能，如方框84所指示。例如，可在电子设备的显示器上输出软键等，并且用户可通过在软键上点击来启动剪辑生成。

在启动剪辑生成时，方法移动到方框86，其中确定时间约束是否与剪辑关联。如果时间约束没有与剪辑关联，则不需要进一步分析，并且方法移动到方框104，其中基于所选择的文本来生成音频剪辑。然而，如果时间约束与音频剪辑关联，则方法移动到方框88，其中确定音频剪辑的最大长度。例如，这种确定可基于用户输入或者基于电子设备的存储器中的预存储的值。接下来在方框90，分析文本以确定可如何编辑文本和对应音频以满足指定的时间约束。例如，这可包括分析文本以确定语句/句子何时开始和结束、分析文本的内容(例如，检测赘词、检测干扰主要说话者的次要声音)、和/或与词语的各个文本表示对应的音频的语速。用于确定文本的这些特性的算法是本领域普通技术人员已知的，因此本文中不再描述。该分析在方框92-102处使用，其解决了可如何编辑文本和音频以满足时间约束。

方框92-102标识可应用于文本/音频文件以满足时间约束的若干动作。可将所示技术中的一个或更多个应用于音频文件以获得满足时间约束的音频剪辑。换言之，可仅执行方框92-102中的一个，可执行方框92-102中的多个，或者可执行方框92-102中的全部。

可选地，在方框92，忽略与赘词对应的文本。赘词可以是预定义的词语，例如“umm”、“ah”、“mmm”或者通常在用户说话时用于弥合时间间隙的任何其它词语。将理解，赘词可基于语言和/或方言而变化(例如，英语的赘词可与日语中的赘词不同)。由于在所选择的文本中标识赘词，所以其被自动去除。

可选地，在方框94，忽略与背景言语和/或声音对应的文本。例如，可基于主要(主)说话者与另一(背景)说话者之间的频率特征的差异来标识这样的文本。另选地或另外地，可基于与文本相对应的声音的音量的差异来标识这样的文本。例如，主要说话者可能在麦克风附近，因此将以期望的音量记录。然而，背景说话者可能不在麦克风附近，因此从这些背景说话者记录的任何声音相对于主要说话者将具有较低的音量。可删除与较低音量说话者关联的文本。

可选地，在方框96，忽略与主要说话者的次要声音/干扰对应的文本。可按照关于方框94所描述的方式来标识这样的文本。

可选地，在方框98，可用特定词语的同义词的文本替换该词语的文本。例如，可用与词语“fair”对应的文本替换与词语“unbiased”对应的文本。词语“fair”和“unbiased”可具有相同的含义，但是词语“fair”比“unbiased”短，因此在音频剪辑内消耗更少的音频时间。

在一些情况下，贯穿音频内容相同词语可能被多次说出。可选地，在方框100，可分析词语的各个实例的语速或节奏，以确定该词语的哪个实例被最快地说出(即，具有最快的语速)。然后，与该词语的最快语速对应的音频部分可被关联到该词语的文本。因此，例如，如果在时间t1、t2和t3，用户以较慢的语速说出词语“unconstitutional”，并且在时间t4，用户以较快的语速说出词语“unconstitutional”，那么如果所选择的文本包括在时间t1、t2和/或t3说出的词语，则将用词语在时间t4的音频替换与相同词语在时间t1、t2和/或t3的多个实例对应的音频。这样，音频剪辑所消耗的时间最小化。

可选地，在方框102，可对文本应用归纳算法以便减少文本容器中的词语的数量。例如，可忽略诸如“a”、“the”等的特定词语，以便在不更改音频剪辑所传达的消息的情况下减小音频剪辑的长度。这种归纳算法是本领域已知的，因此本文中不再描述。

一旦文本和/或音频被最小化以满足时间约束，则在方框104，使用修改的文本将与这种文本相对应的音频导出到音频容器中以形成音频剪辑。另选地，代替将对应音频导出到新的音频容器中，音频内容可保持其原始形式，而生成描述对文本进行的编辑的数据库。当期望与编辑的文本相对应的音频内容时，可执行例程，该例程基于存储在该数据库中的信息从原始容器检索音频内容。

上述方法10、50和80(称为媒体编辑功能)可由电子设备200执行，其示例示出于图7中。电子设备200可以是任何类型的电子设备，其示例包括移动装置、平板计算机、媒体播放器、游戏装置、台式计算机、膝上型计算机等。电子设备200包括被配置为执行本文所描述的编辑方法的媒体编辑功能。

电子设备200可包括显示器202。显示器202向用户显示诸如从音频转换的文本、文本的选择等的信息，其使得用户能够利用电子设备200的各种特征。显示器202还可用于可视地显示由电子设备200接收和/或从电子设备200的存储器204检索的内容。

键盘206和指点装置208提供用于各种用户输入操作。例如，键盘可用于输入用于搜索查询的文本，而指点装置208可用于选择文本以导出到媒体剪辑。键盘和指点功能也可被具体实现为与显示器202关联的触摸屏。另外，显示器202和指点装置208可彼此结合使用以实现软键功能。

电子设备200可包括主控制电路210，其被配置为执行电子设备200的功能和操作的总体控制。控制电路210可包括诸如中央处理单元(cpu)、微控制器或微处理器的处理装置212。处理装置212执行存储在控制电路210内的存储器(未示出)中和/或单独的存储器(例如，存储器204)中的代码，以便执行电子设备200的操作。例如，处理装置212可执行实现媒体编辑功能10、50、80的代码。例如，存储器204可以是缓冲器、闪存、硬盘驱动器、可移除介质、易失性存储器、非易失性存储器、随机存取存储器(ram)或其它合适的装置中的一个或更多个。在典型的布置方式中，存储器204可包括用于长期数据存储的非易失性存储器以及用作控制电路212的系统存储器的易失性存储器。存储器204可经由数据总线与控制电路210交换数据。还可存在介于存储器204和控制电路212之间的伴随控制线和地址总线。

电子设备200还可包括用于处理音频信号的声音信号处理电路214。扬声器216和麦克风218联接到声音处理电路214，其使得用户能够经由电子设备200倾听和说话，以及监视环境声音。声音处理电路214联接到控制电路210，以执行总体操作。可从控制电路210将媒体数据传递到声音信号处理电路214以用于回放给用户。例如，媒体数据可包括来自由存储器204存储并由控制电路210检索的音频文件的音频数据，或者诸如语音通信形式的接收的音频数据或来自移动无线电服务、博客等的流音频数据。声音处理电路214可包括任何适当的缓冲器、解码器、放大器等。

显示器202可通过视频处理电路220联接到控制电路210，视频处理电路220将视频数据转换为用于驱动显示器202的视频信号。视频处理电路220可包括任何适当的缓冲器、解码器、视频数据处理器等。视频数据可由控制电路210生成或者通过任何其它合适的方法获得。

电子设备200还可包括一个或更多个输入/输出(i/o)接口222。i/o接口222可以是典型i/o接口的形式并且可包括一个或更多个电连接器。i/o接口222可形成一个或更多个数据端口以用于经由线缆将电子设备200连接到另一装置(例如，计算机)或附件。此外，可经由i/o接口222接收操作功率，并且可经由i/o接口222接收对电子设备200内的电源单元(psu)224的电池充电的电力。在没有外部电源的情况下，psu224可供应电力以操作电子设备200。

电子设备200还可包括各种其它组件。例如，系统时钟226可对诸如控制电路210和存储器204的组件进行时钟控制。可使用诸如红外收发器和/或rf收发器(例如，蓝牙芯片组)的本地无线接口228来建立与附近装置(例如，无线电终端、计算机或其它装置)的通信。

尽管已示出和描述了特定实施方式，但是将理解，在阅读和理解本说明书之后，本领域技术人员将想到落入所附权利要求的范围内的等同物和修改。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：R·赫勒姆博;O·索恩
技术所有人：索尼移动通讯有限公司
我是此专利的发明人

上一篇：一种环保型拖拉机多用途油及其制备方法与流程
上一篇：一种可调节高度的运动鞋及其用法的制作方法