用于在音频文件内表示内容的方法和系统的制作方法

文档序号:7598917阅读:192来源:国知局
专利名称:用于在音频文件内表示内容的方法和系统的制作方法
技术领域
本发明涉及音频文档或记录领域,特别涉及在音频文档或记录内包括标签(tag)。
背景技术
数字记录,例如,音频文件如波形、音频交换文件格式(AIFF)、MPEG音频层3(MP3)或MP4文件可存储各种类型的音频内容。例如,数字记录可存储音乐、语音、声效等。当测试语音响应系统时,可以在该数字记录中捕获在用户或测试系统与语音响应系统之间交换的音频以作以后检查。虽然数字记录目前可包括各种形式的音频内容,但是没有任何方式来相互区分可包括在相同数字记录或音频文件内的不同类型的音频内容。
例如,在测试语音响应系统的上下文中,与语音响应系统的用户会话的数字记录将包括用户口述请求以及来自语音响应系统的语音提示。需要一种可以在单个数字记录或音频文件内标记不同类型的音频内容的方式。

发明内容
本发明提供了一种用于在音频文件内标记各种类型的音频内容的方法、系统和设备。根据在此公开的创新性方案,可以在音频文件内包括音频标签以隔离和标识不同类型的音频内容。音频标签可以是用户可定义的,并且提供对音频文件的组织。
本发明的一方面可包括一种在音频文件内表示内容的方法。该方法可包括定义包括开标签和闭标签的音频标签集,将每个音频标签集与一种内容类型相关联,使用开标签在音频文件内标记一种内容类型的开始位置,并且使用闭标签在音频文件内标记该内容类型的结束位置。
开标签和闭标签可由音调(tone)和/或波形形状指定。在一个实施例中,音频文件可以是数字化语音文件。例如,内容类型可包括语音提示或用户响应中的至少之一。
本发明的另一方面可包括一种音频文件。该音频文件可包括在音频文件内指定至少一种音频内容类型的第一数字化信息。该音频文件还可包括指定标签集的第二数字化信息。该标记集可包括表示一种音频内容类型在音频文件内的开始位置的开标签以及表示该音频内容类型在音频文件内的结束位置的闭标签。该标签集与该标签集表示其开始和结束的音频内容类型相关联。
该标签集可由音调和/或波形形状定义。在一个实施例中,音频文件可以是数字化语音文件。内容类型可以是语音提示类型和/或用户响应类型。
在另一个实施例中,第二数字化信息可指定表示包括在音频文件内的多种内容类型的组织的多个标签集。显然地,内容类型还可使用多个标签集来分层安排。
本发明的其他实施例可包括具有用于执行在此公开的各步骤的装置的系统以及用于使机器执行在此所述的步骤的可机读存储装置。


在附图中示出了本发明的优选实施例,然而,应当理解本发明不限于所示的特定方案和手段。
图1是示出根据本发明一个实施例的用于在数字音频文件内包括音频标签的数字音频处理器的示意图。
图2是根据在此公开的创新性方案的包括音频标签的数字音频文件的示例性图示。
图3是根据本发明一个实施例的插入音频标签之后的示例性波形的图示。
具体实施例方式
图1是示出根据本发明一个实施例的用于在数字音频文件100内包括音频标签的数字音频处理器105的示意图。数字音频处理器105可被实现为在信息处理系统内执行的计算机程序。数字音频处理器105可在数字音频文件100内插入音频标签。
在用途上类似于可扩展置标语言(XML)标签的音频标签可用来在数字音频文件100内分开不同类型的音频内容。同样地,音频标签可与音频标签正在标记或标识的音频内容相区分。音频标签可由一个或多个音调组成,其是可识别的并且用来表示特定类型音频内容的开始和结束。可定义多个音频标签集,并且将其与各种类型的音频内容相关联。音频内容的例子可包括但不限于语音或对话和音乐。另外,其他例子可包括较大内容领域的特定情况。例如,语音可被细分成进一步的内容类型如“用户响应”和“语音响应系统提示”。
因此,数字音频处理器105可接收数字音频文件100,并且处理该文件以在适当时包括音频标签。数字音频处理器105可提供所得到的带标签数字音频文件110作为输出。在一个实施例中,数字音频处理器105可分析数字音频文件的各方面以自动检测可能的内容变化。可以使用频率分析来区分在数字记录中可能讲话的不同人,或者使用语音识别来区分口述部分与音乐或其他非口述音频内容,从而执行该确定。各种公知的数字信号处理技术中的任一种都可用来在数字音频文件100内确定音频内容类型之间的可能转变。
在另一个实施例中,数字音频处理器105可提供图形用户界面(GUI)来提供由数字记录或文件指定的波形的图形表示。通过该GUI,用户可指示开始和结束音频标签位置,以表示音频文件内各种内容的开始和结束位置。用户可使用各种输入机制的任一种来与该GUI交互。
在另一个实施例中,数字音频处理器105可播放数字音频文件100。在这种情况下,当听出和检测到两种音频内容之间的转变时,用户可向系统提供输入以指示每个音频标签要被置放的位置。然而,本领域的技术人员应当认识到本发明可包括自动置标过程、基于GUI的用户发起过程和基于回放的用户发起过程的各种组合来向数字音频文件100添加音频标签。
图2是根据在此公开的创新性方案的数字音频文件200或记录的示例性表示。如图所示,数字音频文件包括三个音频标签集A、B和C。每个音频标签集包括用来在数字音频文件200内相互隔开各种音频内容的开标签和闭标签。
数字音频文件200包括三种不同类型的内容语音响应系统提示、用户响应、以及音乐。每一个音频标签集与特定类型的内容相关联。例如,语音响应系统提示与音频标签集A相关联,用户响应与音频标签集B相关联,并且音乐与音频标签集C相关联。
虽然示出了音频标签集为字母或字符系列,但是如上所述,本发明的音频标签可以是实际的音频部分。例如,具有特定频率或主要频率的可标识音调或诸如特定波形即正弦形、锯齿形、方形波的其他音频标识符或者其组合可用作音频标签。在另一个实施例中,音频标签可以是亚音频或按键音调(双音多频拨号音调)、或者音调系列。在任何情况下,音频标签可以是用户可定义的,并且向数字音频文件200提供含义和次序。
开和闭音频标签可以相互不同或者可以相同。例如,如果使用音调,则开标签和闭标签可以是相同音调,或者可以是不同但配对的音调,其中指定一个音调为开标签,并且指定另一个不同音调为闭标签。因此,数字音频文件内不同类型的音频内容可使用起始和结尾音调标记来识别以隔离每种音频内容类型。
在此公开的音频标签的使用还允许以分层格式安排作为数字音频文件的隔离音频部分或组成部分的各种内容类型。例如,在语音的情况下,一个语音序列可被标记或置标为命令,而另一个语音序列可被标记为从语音命令发布所预期的响应。因此,可根据音频内容类型排列或安排数字音频文件的各个组成部分。在另一个例子中,本发明可用来识别一个词序列作为目录,并且识别另一个词序列作为命令属性。本发明允许在数字音频文件内描述复杂的测试序列。
音频文件表示200作为使用音频标签的例子来提供。本领域的技术人员应当认识到,由于音频标签可以是用户可定义的,因此音频标签可代表或表示各种不同音频内容类型的任一种。
图3是根据本发明一个实施例的插入音频标签之后的示例性波形300的图示。如图所示,开标签和闭标签区分内容组成部分。在这种情况下,开和闭标签是具有特定频率的正弦波形。虽然开和闭标签被示出为具有相同频率,但是如上所述,开和闭标签可以不同,而可以被配对或被分配为表示特定类型的内容。在任何情况下,波形300仅作为在音频文件内使用音频标签的示例而提供的,而不旨在限制在此公开的创新性方案。
本发明允许读取或播放带标签音频文件,使得回放系统可根据其中检测出的音频标签的解释来确定音频文件内的内容。
本发明可以采用硬件、软件或者硬件和软件的组合来实现。本发明可以在一个计算机系统中以集中方式实现或者采用不同单元分散在若干互连的计算机系统之间的分布方式实现。配置成执行在此所述的方法的任何类型的计算机系统或者其他设备都是适合的。硬件和软件的典型组合可以是具有计算机程序的通用计算机系统,其中该计算机程序被装载和执行时控制计算机系统使得其执行在此所述的方法。
本发明也可嵌入在计算机程序产品中,其中该计算机程序产品包括使得能够实现在此所述的方法的所有特性,并且当被装载到计算机系统中时能够执行这些方法。本上下文中的计算机程序是指采用任何语言、代码或表示法的一组指令的任何表达,其中这组指令旨在使具有信息处理能力的系统直接地或者在下列操作的任一种或两者之后执行特定功能a)转换到另一种语言、代码或表示法;b)以不同素材形式再现。
本发明在不脱离其精神或基本属性的情况下可采用其他形式来实施。因此,应当参考所附权利要求而非前面说明书来表示本发明的范围。
权利要求
1.一种在音频文件内表示内容的方法,包括定义包括开标签和闭标签的音频标签集;将音频标签集与一种内容类型相关联;使用开标签在音频文件内标记一种内容类型的开始位置;以及使用闭标签在音频文件内标记该内容类型的结束位置。
2.如权利要求1所述的方法,其中开标签和闭标签由音调指定。
3.如权利要求1所述的方法,其中开标签和闭标签由波形形状指定。
4.如权利要求1所述的方法,其中音频文件是数字化语音文件。
5.如权利要求1所述的方法,其中内容类型包括语音提示或用户响应中的至少之一。
6.一种音频文件,包括第一数字化信息,在音频文件内指定至少一种音频内容类型;以及第二数字化信息,指定标签集,其中所述标记集包括表示一种音频内容类型在音频文件内的开始位置的开标签以及表示该音频内容类型在音频文件内的结束位置的闭标签;其中所述标签集与所述标签集表示其开始和结束的音频内容类型相关联。
7.如权利要求6所述的音频文件,其中所述标签集由音调定义。
8.如权利要求6所述的音频文件,其中所述标签集由波形形状定义。
9.如权利要求6所述的音频文件,其中音频文件是数字化语音文件。
10.如权利要求6所述的音频文件,其中音频内容类型是语音提示类型或用户响应类型。
11.如权利要求6所述的音频文件,其中所述第二数字化信息指定表示包括在所述音频文件内的多种内容类型的组织的多个标签集。
12.如权利要求11所述的音频文件,其中内容类型使用所述多个标签集来分层安排。
13.一种用于在音频文件内表示内容的系统,包括用于定义包括开标签和闭标签的音频标签集的装置;用于将音频标签集与一种内容类型相关联的装置;用于使用开标签在音频文件内标记内容开始位置的装置;以及用于使用闭标签在音频文件内标记内容结束位置的装置。
14.如权利要求13所述的系统,其中开标签和闭标签由音调指定。
15.如权利要求13所述的系统,其中开标签和闭标签由波形形状指定。
16.如权利要求13所述的系统,其中音频文件是数字化语音文件。
17.如权利要求13所述的系统,其中音频内容类型是语音提示类型或用户响应类型。
18.如权利要求13所述的系统,其中所述第二数字化信息指定表示包括在所述音频文件内的多种内容类型的组织的多个标签集。
19.如权利要求18所述的系统,其中内容类型使用所述多个标签集来分层安排。
20.一种可机读存储装置,其上存储了具有可由机器执行以使该机器执行以下步骤的多个代码部分的计算机程序定义包括开标签和闭标签的音频标签集;将音频标签集与一种内容类型相关联;使用开标签在音频文件内标记内容开始位置;以及使用闭标签在音频文件内标记内容结束位置。
21.如权利要求20所述的可机读存储装置,其中开标签和闭标签由音调指定。
22.如权利要求20所述的可机读存储装置,其中开标签和闭标签由波形形状指定。
23.如权利要求20所述的可机读存储装置,其中音频文件是数字化语音文件。
24.如权利要求20所述的可机读存储装置,其中音频内容类型是语音提示类型或用户响应类型。
25.如权利要求20所述的可机读存储装置,其中所述第二数字化信息指定表示包括在所述音频文件内的多种内容类型的组织的多个标签集。
26.如权利要求25所述的可机读存储装置,其中内容类型使用所述多个标签集来分层安排。
全文摘要
一种数字音频文件可包括在音频文件内指定至少两种音频内容类型的第一数字化信息以及指定标签集的第二数字化信息。该标记集可包括表示一种音频内容类型在音频文件内的开始位置的开标签以及表示该音频内容类型在音频文件内的结束位置的闭标签。该标签集与该标签集表示其开始和结束的音频内容类型相关联。
文档编号H04M3/487GK1629970SQ20041008796
公开日2005年6月22日 申请日期2004年10月27日 优先权日2003年12月15日
发明者托马斯·E·克里莫, 比约施·贾斯瓦尔, 维克托·S·穆尔 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1