用于重现音频数据的装置和方法以及用于其中的计算机程序产品的制作方法

文档序号：6761546阅读：115来源：国知局

专利名称：用于重现音频数据的装置和方法以及用于其中的计算机程序产品的制作方法
技术领域：
本发明涉及一种用于回放音频数据的装置，具有存储装置、控制装置和音频回放装置，其中音频数据对应于来自一个由单词组成的文本中的文本数据，存储装置用于存储该音频数据，存储到存储装置的音频数据能够以正向顺序被读取，控制装置用于控制存储的音频数据以正向模式和反向模式回放。
本发明进一步涉及一种用于回放存储在存储装置中的音频数据的方法，其中音频数据对应于来自一个由单词组成的文本中的文本数据，存储到存储装置的音频数据以正向顺序被读取，在该方法执行过程中，能够控制音频数据以正向模式和反向模式回放。
本发明进一步涉及一种计算机程序产品，以及涉及为执行这种计算机程序产品而设计的一种计算机。
背景技术：
在文本的手工或自动转录中，特别是在使用语音识别系统自动修正转录的文本时，通常通过例如头戴受话器的音频回放装置，收听口述的文本，以音频数据的形式进行数字存储，其中在已经转录了文本并且不得不修正文本的情况下，可以是通过文本显示装置(例如一个计算机工作站的监视器)，同时显示对应于所存储的音频数据并已经作为文本文件存储的文本。具体的，由此还知道为相互关联的音频数据和文本数据提供对应的单词标记数据做为链接数据，其指示例如一个单词的开始，并显示相互对应的(即匹配的)音频数据和文本数据，从而能够以正向模式用声音和可视地同步回放它们。为此目的的适用技术描述在例如专利文件WO01/46853A1中。由此还知道为当前正声音回放的特定单词在可视显示的文本部分中将被可视地高亮显示，这也可以通过使用由单词标记数据或联接数据组成的控制数据来实现。
因此，只有在正向模式和正向顺序时才允许相关单词的收听和显示。如果发生，与正向顺序相反，从一个瞬时回放位置开始，返回到一个在前的文本位置，那么也可以同时启动一个音频回放，但是这同样与正向顺序相反，并且因此处于不可理解的形式。例如，如果自动或人工的转录一个口述，并且从事转录和修正(如果适用的话)的人不同于叙述该口述的人，那么这个从事转录的人发现返回到在先的文本位置会特别不顺利，因为他完全不明白所讲出的文本，并且因为根据可用的软件，以数字形式存储在存储装置中的音频数据以与正向顺序相反的一种不可理解的形式迅速连续地呈现给他。那么对于这个人来说必须人工切换到正向顺序回放并收听所关心的口述段落，并且在在先的自动转录的情况下，可视地检查相关的文本字，其中与可视显示的文本同步的音频回放仅在这种正向模式下是可能的。这意味着一个相当大的时间输入，其结果是削弱这个人处理该文本时的注意力。对他的处理效率也会造成不利的影响。
美国专利文件US2002/0062214A1披露了一种文本标记系统，其中在计算机监视器上显示单词组，其中为不同的工作步骤的控制提供切换区域。为了从一个标记的单词(在一个文本行中被高亮显示)处跳转到紧接在它之前的单词或者紧随其后的单词，以便高亮显示这个单词并且同时用语音来回放它，在此提供了两个被分别激活的切换区域。然而，这个控制系统非常费时费力，如果从一个特定的单词开始寻找它前面的一个相对长的距离的一个文本位置，例如它前面10或20个单词，其中必须反复在适当的切换区域上手动点击。

发明内容
本发明的一个目的是补救这种情形，并实现一种装置和方法，从而能够在存储的音频数据中进行口述文本段落的迅速目标查找，其中要求从事处理的人只需要可能的最少的人工控制干预。
为了实现上述目标，根据第一个方面，本发明提供了一种用于回放存储的音频数据的装置，具有存储装置、控制装置和音频回放装置，其中音频数据与来自一个由单词组成的文本中的文本数据相对应，存储装置用于存储音频数据，存储到存储装置的音频数据能够以正向顺序被读取，控制装置用于控制存储的音频数据以正向模式和反向模式回放，其中这样设置控制装置，在以反向模式回放音频数据的过程中，从音频数据中的特定瞬时回放位置开始，与正向顺序相反，它们自动启动一个向后跳转，越过一个与至少大约两个单词的长度相对应的返回距离，到达一个目标位置，随后，从该特定目标位置开始，仅为该返回距离的一个部分启动以正向顺序的音频数据的回放。
根据第二个方面，本发明提供一种用于回放存储在存储装置中的音频数据的方法，其中音频数据与来自一个由单词组成的文本中的文本数据相对应，存储到存储装置的音频数据以正向顺序被读取，在该方法中，能够控制音频数据以正向模式和反向模式回放，其中，在以反向模式进行音频数据回放的过程中，从音频数据中的特定瞬时回放位置开始，与正向顺序相反，自动启动一个向后跳转，越过一个与至少大约两个单词的长度相对应的返回距离，到达一个目标位置，随后，从该特定目标位置开始，仅为该返回距离的一个部分启动以正向顺序的回放。
使用根据本发明的这种方法，与现有技术的情况相比，能够更迅速和更有效地在音频数据中进行特定文本段落的搜索。例如，如果在由人进行的文本转录和修正的过程中，当到达了一个文本位置时，出现一个问题，即，这个人可能认为在先前转录或修正的文本位置处不清楚或有差异或有错误，该位置在正进行转录或修正的文本前10或20个单词处，在启动了根据本发明的方法后，能够非常迅速和完全自动地以反向模式进行一个相应的搜索，借此，在计算机的辅助下，根据指定的返回距离，自动跳转到该文本中位于更后方的目标位置，并且随后仅对于该特定返回距离的指定部分以正向顺序进行一个声音回放。结果，实现了一种可理解的音频回放，于是所述的人不存在理解的问题。如果一个对应的转录文本已经可用，那么在由音频数据表示的文本中进行向后跳转，最好使用单词标记数据做为控制字符，控制字符通常指示一个新单词的开始。如果还没有转录文本可用，那么估算在该音频数据中自动向后跳转的返回距离，例如为等于平均数据长度或至少两个单词的时间，其中，例如，一或两秒的正向回放时间构成了基础。在上下文中，由于音频数据可以根据平均“单词长度”分为多个分段，因此，也能够说，特定的返回距离不必精确地等于多个实际口述单词的长度。同样的情况适用于在每次向后跳转后提供的以正向顺序回放的持续时间。
因此，在根据本发明的方法中，可以进行(大约)两个或三个单词的向后跳转，随后(至少)一个单词的自动音频回放，其中当前回放的这个单词后来将是在随后的程序步骤中在音频数据内向后跳转越过的这两个或三个单词中的一个。然而，也可设想向后跳转一个对应于较大数量的单词的返回距离，并且当以正向顺序回放时，在口述文本中一次仅激活或回放一个单词，于是例如，仅回放每第四或第五个单词。然而，也可以以正向顺序回放多个单词。
可以是简单的单词式的进行音频回放，即，如果单词标记数据是可用的，那么等待处理下一个单词标记数据的出现，其中该下一个单词标记数据识别下一个单词的开始。然而，也可以使用一个固定的回放时间进行分段式回放，所述固定的回放时间例如在0.5到1.5秒的范围内，例如等于一个平均单词持续时间，由一个定时电路对其进行规定。在大多数情况下具有相应单词标记数据的转录文本不可用。还设想，一个要回放的单词做为一个整体，并且下一个标记的单词仅部分地在该单词的开始处。进一步设想，从事处理的人在上述不同的选项之间进行选择。
在所述的反向搜索运行期间，根据本发明进一步优选的是，以可调整的速度进行正向顺序的特定音频的回放，使从事处理的人将该搜索运行当作一个整体，如要求的那样更快或更慢的进行。如可以由所述单词标记数据规定，在回放的文本中到前面目标位置的向后跳转能够非常迅速的进行，即，实际上没有时间损耗，其中，在这种“快速倒退”模式中，不需要进行声音的音频回放。
根据本发明的这种方法与一个转录系统结合可以有非常特别的优点，使用这种系统，以本质上很传统的方式(通过通讯网络，例如LAN、WAN或互联网、或通过声音载体)到达的口述被语音识别装置自动转录到一个文本文件中，随后检查该文本文件，并且(如果可用的话)在听取口述音频数据的同时使用单词处理软件修正该文本文件。因此，基于指定的单词标记数据，可以产生一方面在音频文件中的单词和另一方面在文本文件中的相关单词的链接，因此这也指定了链接数据。在回放期间，当前正被声音回放的单词也可视地高亮显示在文本显示装置上，例如，通过衬托一个亮的背景。这里本发明提供了一个“同步反向回放模式”，其中按照与正向顺序相反的次序，可视地高亮显示来自文本文件的单词，并且同步于每个可视地高亮显示的单词，以记录顺序声学回放在音频数据中对应于这个单词的单词，即进行可理解的声学回放。其获得的优点在于，在对应的音频数据的可理解音频回放的帮助下，能够毫无问题的检查相关的、视觉显示的单词。还明显的简化了文本中位置的定位，并且提高了修正转录的口述的整体效率。
因此本发明能够在这种典型的转录系统内获得益处，在这种转录系统内，由接收站接收口述，并由转录站对其进行自动转录，在这之后，由修正站对所转录的口述进行人工修正，并且最后由传输站进行对应于接收到的口述的文本文件的传输。然而，本发明当然也可以用在由一个单独的计算机——特别是一个个人计算机实现的转录系统中，使用这个系统可以进行所述的步骤，即接收、自动转录、修正和最后的文本数据的传输。
如已经提到的，如果使用该口述(即所听取的音频数据)利用一个单词处理系统，最好利用用于对应于上述单词标记数据的音频数据和文本数据的链接数据的指定，自动产生该文本文件，那么本发明此外还可以用于一个口述的文本的人工转录，其中，如果适用，在产生或转录过程之后，也能够进行修正。因此，具体的，本发明还可以在一个移动口述装置或一个数字设计的音频回放装置中实现。
根据第三个方面，本发明还提供了一种计算机程序产品，其能够载入到计算机的存储器中，并且包括软件代码部分，从而通过在它们载入到计算机存储器之后的执行，能够利用计算机执行本发明的方法。
最后，根据第四个方面，本发明提供了一个具有一个处理单元和一个内部存储器的计算机，该计算机设计成执行根据本发明的计算机程序产品。

将参照附图中所示的实施例进一步说明本发明，但是本发明不限制于此。
图1示意性的示出了一个例程，用于以正向模式同步回放音频数据和文本数据。
图2根据现有技术示意性的示出了一个例程，用于以反向模式回放相互指定的音频数据和文本数据。
图3根据本发明示意性的示出了一个例程，用于以反向模式回放音频数据和文本数据。
图4A示出了一个与图3所示的例程相似的例程，用于以反向模式声音回放音频数据，其中描述了一个文本，该文本被预先自动转录并要求修正。
图4B示出了在以反向模式回放期间，使用图4A中所示的例程修正的文本，做为显示在例如一个显示器上的单词序列。
图5以方块图的形式示意性的示出了一个转录系统，具有用于音频回放的设备，使用这个系统能够执行根据图3和图4A中所示的示意性描述的“同步反相模式回放”。
图6以方块图的形式、以更详尽的方式示出了图5所示的用于“同步反向模式回放”的转录系统的系统组件。
图7示出了一个改进的例程，用于以反向模式回放，其与图4A中所示的例程相似，但略有简化。
图8以流程图的形式示出了用于以反向模式同步回放的方法的一种变化。
具体实施例方式
图1示意性的示出了一个例程，用于以正向模式回放与文本数据T1..T4(一般是Ti)同步的音频数据A1..A4(一般是Ai)，其中如数据记录(读入)那样(在图1中从左到右)以相同的顺序或相同的方向进行数据的回放(读出)。这种顺序被称为正向顺序。在相关的对中，音频数据Ai和文本数据Ti由此表示为一连串来自文本的单词A1/T1..A4/T4。一个单词标记代码或单词标记数据M1..M5(一般是Mi)同时形成了用于同步回放音频数据Ai和文本数据Ti的链接数据，分配给每个单词的开始。在回放期间，根据在图1底部所示的箭头1、2、3、4，连续启动文本数据T1、T2..T4(即，连续的单词)，并且可视的高亮显示在显示装置(图1中未示出)上，并且与此同步，根据在顶部用箭头1、2、3和4指示的步骤，从相应的数字音频数据A1、A2..A4中声音回放特定的单词。这种使用标记或链接数据Mi以正向模式从文本中同时声音和可视回放，表示为本身已知的现有技术。
图2也示意性的示出了一个已知例程，用于以反向模式回放。这里，如图2所示，如底部箭头1、2、3和4所示，从右到左连续向后启动单词T4、T3、T2、T1，并可视的高亮显示在图中未示出的显示装置上。同时，如图2中的顶部箭头1、2、3和4所示，使用单词标记或链接数据M5、M4、M3和M2，回放相应的音频数据A4、A3、A2和A1，即，与正向顺序相反的单词。因此，这种声音回放与记录顺序相反，即，与记录方向相反，并且因此导致一个不能理解的音频信号。这阻止了查找特定文本位置，而仅能通过可视显示查找，但在跟随口述的文本的转录和修正过程中，这与常用的操作模式相抵触，因为当正向或反向查找时从事副本转录或修正的人直接专心于声音回放的音频信号，其中，即使当直接处理时，这些人也将根据听到的音频信号来写入或修正文本。
如果还没有转录的文本(具有单词T1..T4)可用，那么在这种情况下单纯通过使用音频数据Ai来查找更后面的单词是非常麻烦的。
不同于这些已知的技术，现在也能够以反向模式声音回放单独的音频数据Ai，于是，例如在上述顺序A4、A3、A2和A1的情况下，这将是正向顺序，即记录方向，如图3中在音频数据A4、A3、A2、A1上方箭头1、2、3、4示意性所示的。同时，如果相应的文本数据T4、T3、T2、T1已经可用，那么根据图3的底部处的箭头1、2、3、4启动由文本数据Ti表示的单词的可视显示。
图4A详细示出了在这种“以反向模式的同步回放”期间，如何在音频数据A1到A6和相关的文本数据T1到T6上进行一个向后的跳转，并产生一个可理解的音频回放。所用例子是口述中的一个文本段落，正确的读作“TO BE OR NOT TO BE”(也见图4B)，但使用一种自动转录系统将其转录为图4A所示的形式，即“TWO BEE OR NOT TWOBEE”。在图4A中，在条11中示出了这个单词序列，其这样显示在例如一个(未示出)可视显示装置上，例如一台监视器上，从而可视的显示特定的单词——文本数据T1、T2..T6。这些单词以数字的形式在音频数据存储装置中存储为对应的音频数据A1、A2..A6，并且能够从音频数据存储装置中读取这些单词用于音频回放，图4A中没有示出音频数据存储装置。在图4A中，还示意性的将为此目的而提供的单词标记或链接数据Mi表示为M1、M2....M7。
特别的，如图4A所示，发生一个向后跳转，从进一步设置于口述或转录文本Ti(进一步到图4A的右侧)内的一个瞬时回放位置到一个在先目标位置(例如，如链接数据M6所确定的，到单词T6/A6(“BEE”)的开始)。图4A中的箭头1A表示这个向后跳转。随后，以正向顺序从存储的音频数据Ai处特别的回放这个单词A6，见箭头1B。在单词T6/A6的结尾(或在下一个由标记数据M7标记的单词处)，自动发生一个向后跳转(见箭头2A)，在这种情况下，越过对应于两个单词长度A5+A6或T5+T6的最小返回距离，到达如链接数据M5所指示的单词T5(文本数据)或A5(音频数据)的开始，这之后如箭头2B所示以正向顺序将单词A5回放为一个音频数据。依次对单词A4/T4、A3/T3等自动重复这个过程，见箭头3A(向后跳转到目标位置M4)、3B(在记录方向上声音回放单词A4)等，直到箭头6A、6B。因此，在图4A中，箭头1A、2A、3A...6A指示了返回距离，而箭头1B、2B、3B...6B指示了返回距离的这些区段，以正向顺序为这些区段进行音频回放。
在所述的区段式向后跳转和以正向顺序听取特定的单词Ai的过程中，特定的单词可以直接自我修正，或返回到特定的文本段落的开始，此后，以正常的模式通过以正向顺序收听和以正向顺序可视显示，可以修正整个单词序列T1到T6，于是获得了如图4B中的条11′所示的正确文本。
在声音回放特定的音频数据A1...A6的过程中，与其对应的文本数据T1...T6在监视器上特别可视的高亮显示，例如，通过一个亮背景的显示。
通过箭头2B处的虚线延长，图4A中还示意性的指出，声音回放也可以扩展到越过正考虑的单词而部分包括相连的下一个单词，即，可以提供“单词搭接(word-overlapping)”音频回放。例如，这发生在当例如M6一行中的下一个标记数据Mi不用作控制代码来终止特定的音频回放时，但提供了一个基于计时的固定的回放时间。该固定的回放时间可以是例如一秒或1.5秒，或仅略少于一秒。如果已经没有转录的文本可用，并且因此也没有单词标记数据可用作控制代码，应当提供一个用于音频回放的这种类型的预定持续时间时间。
以相同的方式，也可以计算用于向后跳转的返回距离以对应于固定的时间间隔，例如，对应于平均单词长度的两或三倍。
图5示出了设备12的一个例子，用于回放与文本数据Ti的回放同步的音频数据Ai，该设备包括一个转录数据处理装置13。这个设备12在其自身的正常模式下，一个口述文件通过通信介质从用户14.1....14.N传输到设备12，并且通过一个通信装置接收，当前情况下是一个调制解调器16，并随后传输到语音识别装置17，其中通信介质例如是LAN、WAN或互联网的通信网络15。应当提到的是，也可以通过所谓的“专用小交换机”实现这种通信装置，“专用小交换机”缩写为PBX。
在语音识别装置17中执行本身正常的语音识别软件，语音识别装置17执行口述文件到文本文件的自动转录，其中，当产生单词标记数据或链接数据Mi，以对应于来自相关音频文件的音频数据Ai的特定项时，文本数据Ti的特定单词分别存储在文本存储装置18和音频存储装置19中。如以上所述，文本数据Ti和音频数据Ai中(分别在文本存储装置18和音频存储装置19)相互对应的单词永久的相互指定，或通过单词标记数据Mi相互链接。通过这种链接，控制装置20能够成对的调用并回放合为整体的音频数据Ai和文本数据Ti。通过单词处理装置21，由控制装置20启动的文本数据Ti的可视回放出现在显示装置22上，一般例如是计算机显示器。
通过从存储装置19中读取数字存储的音频数据Ai并将其发送到用于电声转换器24的回放电路23，进行音频数据Ai的声音回放，其中头戴受话器一般用于此目的。因此，以正向顺序进行读取。
当从文本中的瞬时回放位置到在前目标位置的向后跳转并且用于同步正向回放时，使用存储在内部存储器25中的软件代码部分产生整个例程的控制。由于关于用户的界面用于启动特定的控制程序并且用于在转录或文本修正期间的多种输入，所以一个常用的键盘或类似装置用作输入装置26。也可以提供一个脚踏开关操作装置来控制正向和反向回放。
在自身正常方式下的回放电路23可以包括一个数字/模拟转换器、一个放大器和类似组件，并且回放电路23与变换器24一起形成音频回放装置27。
图6更为详细的示出了，控制装置20如何控制来自于音频存储装置19的音频数据Ai的回放、或读取，并将音频数据Ai与存储在例如文本存储装置18中的文本数据Ti以及单词标记数据Mi相结合，发送到回放装置27。一个中央控制电路28由此直接的或通过限定装置29连接到音频存储装置19，限定装置29限定了当在音频数据Ai内向后跳转时的特定的返回距离。一个计时电路30也连接到控制电路28，以启动以反向模式正向顺序的声音回放音频数据一段预定的固定时间间隔，如以上参照图4A所述。计时电路30例如可以是一个常用的时钟发生器，其中控制电路28测量通过时钟脉冲计数的期望的特定时间间隔，该时间间隔能够通过例如输入装置26来设置。这样能够设置例如1秒或1.5秒的回放时间间隔(见图4A中的箭头2B)。作为选择，如果单词标记数据Mi已经可用，那么也可以选择“单词式”回放，其中，当到达一行中下一个标记数据Mi时，控制电路28结束回放程序。计时电路30发出的计时信号(特别是时钟脉冲)可以用在限定装置29中作为确定返回距离的基础。
最好能够进一步为区段式向后跳转到在先文本的目标位置而设置返回距离，其中可以设想一次跳过超过两个的单词，例如三、四或五个单词，并且其中必须计数标记数据或链接数据的相应数量。为此，控制电路28连接到计数装置31。
与计时电路30类似，计数装置31当然可以在控制装置20的辅助下用软件实现，如限定装置29那样，可以通过在存储装置19中的相应寻址来实现。根据图6的控制电路28则与根据图5的控制装置20一致。另外，提供一个设定装置32用来设定使用回放装置27进行音频回放的速度。
应当提到的是，也可以将单词标记数据Mi作为一个整体存储在音频存储装置19中，或分开存储在文本存储装置18和音频存储装置19中。
为了更好的示例，图7示意性的示出了一次向后跳转超过两个单词的过程，例如一次三个单词，见在反向方向上的箭头1A，其中，在这种向后跳转过程之后，以正方向，即，正向顺序，进行随后的单词的音频回放，见例如图7中的箭头1B。在这种模式下，在图7所示的例子中，仅声音回放那些由标记数据M7、M5、M3、M1(以这样的顺序)识别的单词，也见图7中附图标记上的点。而对于声音回放来说，跳过那些指定了标记数据M8、M6、M4和M2的单词。
当然，在向后跳转期间也可以一次跳过超过三个单词，那么在随后的声音回放过程中仅回放每第三、第四个单词，等等。
图8示出了一个流程图，描述了在上述的同步反向回放和正向回放过程中的步骤的例子。该流程图还包括在实际向后跳转步骤和正向回放步骤之前的配置步骤和计算步骤。
参照图8，在块33处开始，进行用于在音频数据中用于向后跳转的关于音频回放和计算返回距离1A、2A、3A..6A的选项O1～O5的配置，如上所述。例如，这些选项O1～O5可以如下设置O1-如果设置了语音识别装置17并将其用于根据音频数据Ai自动创建文本数据Ti，那么选择这个选项O1，其中由语音识别装置17自动将所述单词标记数据Mi限定为链接数据。
O2-选项O2涉及人工转录的文本数据Ti被用于限定音频数据Ai的特定分段或“单词”的长度的情况。根据选项O2对所有音频分段提供一个固定长度，使用控制装置20通过简单分割从音频数据Ai的总时间间隔和转录的单词的数量中计算该长度。随后可以对特定分段或单词进行“编号”，即，提供地址或索引，从而使用这些编号或地址来确定返回距离1A、2A、3A..6A和/或要声音回放的段落1B、2B、3B..6B。
O3-这个选项O3与选项O2非常相似，如果-同样基于听到的音频数据Ai进行文本数据Ti的人工转录-由控制装置20计算具有不同长度的音频分段，根据这些单词的音节和音频数据Ai的总长度，选择选项O3。从而所有的音节假设具有相同的长度。
O4-如果还没有文本数据Ti可用，那么选择选项O4，其中基于音频能线图信息，计算音频数据Ai的音频分段或单词的长度。
O5-通过这个选项O5，假设固定长度的音频分段，例如，一秒的分段长度，其中也可以提供例如具有1/3秒的时间间隔的分段搭接。
还可以在块33处选择用于以正向顺序正常回放的速度、用于向后迅速跳转的速度、向前迅速回放的速度以及用于在向后跳转期间以正向顺序进行区段式音频回放的速度。
在块34处，例如通过在输入装置26上操作相应的键，启动这里所讨论的反向模式回放。随后在块35处自动询问用户是否指定了一个总返回距离，在音频数据Ai中的向后跳转将全部以反向模式跳转这样一个返回距离。如果不是这种情况(见块35的输出N)，自动将用于向后跳转的适当的总距离约定为一个缺省的值，例如，向后跳转到音频数据的开始，见图8中的块36。然而，如果用户已经选择了一个适当的项(块35的输出Y)，所选择的总返回距离用作在块37的基础。
随后图8的流程图中的两个分支又到了一起，在节点38，用箭头象征性的示出，如果发生在瞬时音频位置前进行文本修改，那么将重复随后的步骤，而无需终止反向模式(见块34)。
在块39处，随后询问语音识别输出数据是否可用，即，在语音识别装置17中使用语音识别软件自动转录的文本文件是否可用。如果是这种情况(见图8中的块39的输出Y)，那么在块40处询问是否指定了选项O1(见块33)。如果是这种情况(块40的输出Y)，以一种对应于文本数据Ti中已知的和编辑的文本单词的形式，在块41处进行音频数据Ai中的音频分段或单词的计算。
然而，如果没有使用语音识别(块39的输出N)，那么在块42处询问文本数据Ti是否出现在瞬时音频位置之前。如果不是这种情况(见块42的输出N)，即，如果还没有文本数据Ti可用，那么基于音频数据的总长度或音频能线图在块43处对音频分段的长度进行估算，见以上选项O4和O5。
然而，如果根据在块42处的检查，文本数据Ti已经出现在瞬时音频数据之前(见块42的输出Y)，那么随后在块44处询问是否在块33处配置了选项O2或O3，并且如果没有配置选项O2或O3(见块44的输出N)，同样发生与块43有关的上述估算。如果配置了选项O2或O3(块44的输出Y)，那么随后基于音频数据Ai的总长度和单词或音节的数量(选项O2和O3)在块45处对音频数据Ai的音频分段或单词的长度的进行估算。
在图8所示的流程图的用虚线描绘的区域46中，执行包括在向后跳转和以正向顺序的区段式回放中的实际步骤。在块47处，因此以可理解的形式启动以正向顺序的音频数据Ai的一个单词或分段的音频回放，其中回放以在块33处设置的速度进行。在块48处，随后询问是否到达了要以正向顺序回放的音频数据Ai的该单词或分段的结尾。如果不是这种情况(输出N)，那么在块49处继续回放，直到最终在块48处的询问表明已经到达了该单词或分段的结尾(块48的输出Y)。在块50处，在音频数据Ai中进行到下一个特定目标位置的向后跳转，例如，越过对应于三个单词长度的返回距离。最后，在块51处询问是否到达了特定的开始位置(见块36和37)。如果不是这种情况(输出N)，返回到块47。然而，如果已经到达了开始位置，即，反向模式的结尾(块51的输出Y)，那么在块52处结束反向模式。
最好对上述过程进行规定，上述过程自动运行，由控制装置20控制，在到达特定结尾之前的任何时间内通过在输入装置26上的“STOP”输入而手动结束。
应当提到的是，在一些情况下，在文本的修正之后，单词标记数据Mi的重新定义或音频分段长度的重新计算是必须的。
还应当提到的是，在向后跳转超过两个单词(例如，四个、五个、六个或更多)之后，可以进行超过一个单词(例如两个或三个或四个单词)的声音的满意回放。
权利要求
1.一种用于回放存储的音频数据(Ai)的设备(12)，具有存储装置(19)、控制装置(20)和音频回放装置(27)，其中音频数据(Ai)对应于来自一个由单词组成的文本的文本数据(Ti)，存储装置(19)用于存储音频数据(Ai)，存储到存储装置(19)的音频数据(Ai)能够以正向顺序被读取，控制装置(20)用于控制存储的音频数据(Ai)以正向模式和反向模式回放，其中这样设置控制装置(20)，在以反向模式回放音频数据(Ai)的过程中，从音频数据(Ai)中的特定瞬时回放位置开始，与正向顺序相反，它自动启动一个向后跳转，越过一个对应于至少大约两个单词长度的返回距离(1A，2A，3A，……6A)，到达一个目标位置，随后，从该特定目标位置开始，仅为该返回距离(1A，2A，3A，……6A)的一部分(1B，2B，3B，……6B)进行以正向顺序的音频数据(Ai)的回放。
2.如权利要求1所述的设备，其中控制装置(20)这样设置，使用指定给单词的单词标记数据(Mi)作为控制数据，它启动一个到特定目标位置的向后跳转。
3.如权利要求2所述的设备，其中指定一个计数装置(31)给控制装置(20)，来计数在向后跳转或回放期间达到的标记数据(Mi)。
4.如权利要求1所述的设备，其中指定一个记时电路(30)给控制装置(20)，来计算音频回放的持续时间。
5.如权利要求1所述的设备，其中一个设定装置(32)被连接到控制装置(20)，来设定音频回放的速度。
6.如权利要求1所述的设备，其中控制装置(20)进一步连接到用于存储对应于音频数据(Ai)的文本数据(Ti)的文本存储装置(18)，文本存储装置(18)连接到文本显示装置(22)，并且其中控制装置(20)设置为通过用于音频数据(Ai)和文本数据(Ti)的链接数据，来启动音频数据(Ai)和与其对应的文本数据(Ti)的一个同步回放。
7.如权利要求6所述的设备，其中控制装置(20)和文本存储装置(18)以及用于音频数据(Ai)的存储装置(19)连接到语音识别装置(17)，语音识别装置(17)进行一个自动的转录。
8.一种用于回放存储在存储装置(19)中的音频数据(Ai)的方法，其中音频数据(Ai)对应于来自一个由单词组成的文本的文本数据(Ti)，存储到存储装置(19)的音频数据(Ai)以正向顺序被读取，在该方法中，能够控制音频数据(Ai)以正向模式和反向模式回放，其中，在以反向模式进行音频数据(Ai)回放的过程中，从音频数据(Ai)中的特定瞬时回放位置开始，与正向顺序相反，自动启动一个向后跳转，越过一个对应于至少大约两个单词长度的返回距离(1A，2A，3A，……6A)，到达一个目标位置，并且随后，从该特定目标位置开始，仅为该返回距离(1A，2A，3A，……6A)的一个部分(1B，2B，3B，……6B)进行以正向顺序的回放。
9.如权利要求8所述的一种方法，其中在到目标位置的向后跳转期间，指定给单词的单词标记数据(Mi)被用作为控制数据。
10.如权利要求9所述的一种方法，其中当在回放期间到达下一个单词标记数据(Mi)时，自动终止以正向顺序的回放。
11.如权利要求8所述的一种方法，其中在一个指定周期之后，自动终止以正向顺序的回放。
12.如权利要求8所述的一种方法，其中在终止了以正向顺序的回放时，自动进行一个向后跳转，越过一个与至少大约两个单词的长度对应的返回距离。
13.如权利要求8所述的一种方法，其中以高于正向顺序的回放期间的回放速度的速度，进行音频数据(Ai)中的向后跳转，并且不声音回放所存储的音频数据(Ai)。
14.如权利要求8所述的一种方法，其中以一个可调整的回放速度，以正向顺序进行所存储的音频数据(Ai)的回放。
15.如权利要求8所述的一种方法，其中同步于所存储的音频数据(Ai)的正向顺序的回放，产生对应于该音频数据(Ai)的文本数据(Ti)的一个可视显示，由用于存储的音频数据(Ai)和与其对应的文本数据(Ti)的链接数据控制该显示。
16.如权利要求15所述的一种方法，其中在文本数据(Ti)的多个单词的可视显示期间，可视地高亮显示为其回放对应的音频数据(Ai)的该特定的可视显示单词。
17.如权利要求15所述的一种方法，其中通过一种自动语音识别方法，获得对应于音频数据(Ai)的文本数据(Ti)，其中，为相互对应的文本数据(Ti)和音频数据(Ai)同时产生并存储单词标记数据(Mi)作为链接数据。
18.一种计算机程序产品，其能够载入到计算机的存储器(25)中，并且包括软件代码部分，从而借助于它们在载入到存储器(25)之后的实施，能够利用计算机执行如权利要求8所述的方法。
19.如权利要求18中所述的一种计算机程序产品，特征在于它存储在一种计算机可读介质中。
20.一种具有一个处理单元和一个内部存储器的计算机，该计算机设计成执行如权利要求18所述的计算机程序产品。
全文摘要
在存储装置(19)中的音频数据(Ai)的回放期间，音频数据(Ai)对应于来自一个由单词组成的文本中的文本数据(Ti)，其中能够控制音频数据(Ai)以正向模式和反向模式回放，从音频数据(Ai)中的特定瞬时回放位置开始，与正向顺序相反，为以反向模式的音频数据(Ai)的回放自动启动一个向后跳转，越过一个对应于至少大约两个单词的长度的返回距离(1A、2A、3A、4A)，到达一个目标位置，并且随后，从该特定目标位置开始，仅为该返回距离的一个部分(1B、2B、3B、4B)启动以正向顺序的音频数据(Ai)的回放。
文档编号G11B7/007GK1705985SQ200380101669
公开日2005年12月7日申请日期2003年10月13日优先权日2002年10月17日
发明者K·弗兰庞甘萨申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：K·弗兰庞甘萨
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、毕老师：机构动力学与控制
2、袁老师：1.计算机视觉 2.无线网络及物联网
3、王老师：1.计算机网络安全 2.计算机仿真技术
4、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
5、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
如您是高校老师，可以点此联系我们加入专家库。