标注所识别文本的部分的校正装置的制作方法

文档序号：2819661阅读：236来源：国知局

专利名称：标注所识别文本的部分的校正装置的制作方法
技术领域：
本发明涉及一种校正设备，用于从口语的文本来校正由语音识别设备识别的文本，其中所识别文本包含针对口语文本的口语词而正确识别的词和针对其而不正确识别的词。
本发明进一步涉及一种校正方法，用于从口语的文本来校正由语音识别设备识别的文本，其中所识别文本包含针对口语文本的口语词而正确识别的词和针对其而不正确识别的词。
背景技术：
这种校正设备和这种校正方法从US专利5,031,113中是已知的，在其中公开了口述设备。已知的口述设备由运行语音识别软件和文本处理软件的计算机形成。已知口述设备的用户可将口语文本说到被连接于计算机的话筒中。形成语音识别设备的语音识别软件执行语音识别过程并在这样做的过程中将所识别的词分配给口语文本的每个口语词，作为其结果，针对口语的文本获得了所识别的文本。还有，在语音识别过程的过程中确定了链接信息，其标记针对口语文本的每个口语词而识别的所识别文本的词。
已知口述设备亦形成校正设备，借助其，不正确识别的词可被替换成校正词。为此，校正设备的用户可激活校正设备的同步再现模式，在其中口语文本在声学上被再现，并且与此同时，由链接信息标记的所识别文本的词被可视地加亮(即标注)。在实践中已证明，同步再现模式对于由语音识别设备识别的文本的校正是特别有利的。进一步发现，许多用户并不借助于同步再现模式来检查整个所识别文本而是检查其某些部分。这某些部分可以是例如特别关键并且必须绝对没有错误的文本部分，或者它们可以是对于语音识别软件来说特别难以识别并因此有可能包含大量不正确识别的词的文本部分。
已发现已知校正设备中的缺点在于，在用校正设备校正了所识别文本之后，用户没有办法确定所识别文本的哪些部分已借助于同步再现模式而校正以及哪些部分仍必须用它来校正。

发明内容
本发明的目的是提供在以上的第一段中限定的种类的校正设备和在以上的第二段中限定的种类的校正方法，在其中避免了上述缺点。
为实现以上所示的目的，为这种校正设备而提出了依照本发明的特点，从而使校正设备可通过以下详述的方式来表征。
一种校正设备，用于从口语文本来校正由语音识别设备识别的文本，其中用于口语文本的每个部分的链接信息项标记关联的所识别文本，该校正设备具有存储器装置，用于存储至少口语文本和所识别文本，并具有再现装置，当同步再现模式被激活于校正设备中时，用于在声学上再现口语文本并同时可视地标注由链接信息标记的关联的所识别文本，并具有标注装置，用于在存储器装置中存储标注信息，当同步再现模式被激活时，该标注信息标记由再现装置再现至少一次的口语文本和/或所识别文本的那些部分。
为实现以上所示的目的，为这种校正方法而提出了依照本发明的特点，从而使校正方法可通过以下详述的方式来表征。
一种校正方法，用于从口语文本来校正由语音识别设备识别的文本，其中用于口语文本的每个部分的链接信息项标记关联的所识别文本，并且其中以下步骤被执行存储至少口语文本和所识别文本；当同步再现模式被激活时，在声学上再现口语文本并同时可视地标注由链接信息标记的关联的所识别文本；存储标注信息，当同步再现模式被激活时，该标注信息标记之前被再现了至少一次的口语文本和/或所识别文本的那些部分。
依照本发明的特点实现了当同步再现模式被激活时，在声学上被再现并被可视地标注了至少一次的口语文本的那些部分和/或所识别文本的那些部分是由标注信息来标记的。以这种方式，有利的是，校正设备能可视地标注已借助于同步再现模式而校正了一次的所识别文本的部分，或者在声学上标注口语文本的关联部分。这使依照本发明的校正设备的用户能显然较为有效地校正所识别文本。
提供权利要求2和权利要求8提供了以下优点由语音识别设备或由校正设备标记为抑制信息的口语文本的不想要的部分在同步再现模式期间不在声学上被再现。在同步再现模式期间，用户由此能较为满意地集中在口语文本的基本部分和所识别文本的关联部分上。还有，声学再现可被加速，因此有利的是，所识别文本可被较快地校正。
应用权利要求3和权利要求9提供了以下优点口语文本的某些部分，尽管不想要，仍被再现，也就是当用户第二次或更多次听取口语文本的这些部分时。这是特别有利的，因为当语音识别过程被执行时，这种口语文本的不想要的部分常常使不正确识别的词被识别，并且通过听取文本的这些不想要的部分，用户较为容易能得出有关真正应当已被识别的词的结论。
提供权利要求4提供了特别有利地已由抑制信息标注为不想要的口语文本的那些部分的清单。文本的这种不想要的部分因此是用户在口述时进行暂停(＝无声)或者他在他思考下一句时重复一个词或发出所谓的犹豫声音(例如aah、mm...)之处的口语文本的部分。
提供权利要求5提供了以下优点校正设备可视地标注已被再现了至少一次并因此在同步再现模式中为必须检查校正设备的用户的工作的人或用户的利益而被校正的所识别文本的部分。作为结果，专业的转录服务可提供有效的质量控制。
提供权利要求6提供了以下优点依赖于所识别文本和关联口语文本是否已在同步再现模式中被再现了一次，属于校正设备的定位装置将文本光标定位于在同步再现模式被中断的时刻标注的词的上游的N个词或M个词。所限定的数量可以是例如M＝3和N＝1，作为其结果，当第一次在所识别文本中发现不正确识别的词时将允许校正者的较长响应时间。这些提供是特别有利的，这是因为一旦同步再现模式已被中断，则文本光标通常已被定位于待校正的不正确识别的词上，并且手动定位文本光标所花费的时间可由此被节省。
现在将参照附图较为详细地描述本发明，所述附图将单个实施例示出为实例，但本发明并不局限于此。

图1示出用于将口语文本转录成所识别文本的转录设备，其中校正设备被提供用于校正所识别文本。
图2以符号形式示出口语文本、转录设备识别的对应文本以及为口语文本的每个音频段而标记所识别文本的关联段的链接信息。
图3示出在转录设备的命令存储器级中存储的命令表。
图4示出在转录设备的存储器装置中存储的标注表。
图5以符号形式示出由转录设备的用户口语的文本的五个实例。
图6以符号形式示出针对口语文本的所述五个实例由转录设备的语音识别装置识别的文本，其中所识别文本的部分已由语音识别装置的第一标注级自动标注，并且用户已用第二标注级手动标注了文本的另外部分。
图7以符号形式示出针对所述五个实例由转录设备的校正设备显示的文本，其中所识别文本的自动和手动标注的文本两者均被显示为替换文本。
图8以符号形式示出当用于文本的经标注部分的所有替换文本被抑制时由校正设备显示的文本。
图9以符号形式示出文本的哪些部分在口语和所识别文本的第一和随后的第二同步再现期间被再现。
具体实施例方式
图1示出了转录设备1，其用于将口语文本GT转录成所识别文本ET并用于编辑不正确识别的所识别文本ET的部分。转录设备1由运行语音识别软件并形成语音识别设备2的第一计算机以及第二和第三计算机形成，所述第二和第三计算机每个都运行文本处理软件并形成第一校正设备3和第二校正设备4以校正尚未被正确识别的文本部分。可以提及的是，依照本发明的转录设备亦可由形成语音识别设备和校正设备两者的仅一个计算机来形成，该计算机然后将必须运行语音识别软件和文本处理软件两者。
被连接于形成语音识别设备2的第一计算机的是话筒5，表示口语文本GT的音频信号A可从中被发出。语音识别设备2包含A/D转换器6、语音识别装置7、存储器装置8、参数存储器装置9、命令存储器装置10和适配级11。由话筒5发出的音频信号A可被馈送给A/D转换器6，其将音频信号A转换成数字音频数据AD。
表示口语文本GT的音频数据AD可被馈送给语音识别装置7并可由此被存储在存储器装置8中。当语音识别过程正在由语音识别装置7执行时，语音识别装置7被安排成确定所识别文本ET，在参数存储器装置9中存储的参数信息PI被考虑这样做。在此情况下，参数信息PI包含词汇信息、语言模型信息和声学信息。
词汇信息包含可由语音识别装置7识别的所有词加上关联的音素序列。语言模型信息包含统计信息，其涉及在口语文本GT的语言中的普通词序列。声学信息包含有关转录设备1的用户的发音的特定特点和有关话筒5和A/D转换器6的声学特征的信息。
US专利5,031,113的公开内容被认为是引入到本专利的公开内容中作为参考，并且由于根据这种参数信息PI来执行语音识别过程被公开于所述US专利中，其详述将不在此被给出。所述语音识别过程的结果是，包含所识别文本ET的文本数据可由语音识别装置7存储在存储器装置8中。
在执行语音识别过程的过程中，为口语文本GT的每个部分标记由语音识别装置7识别的关联文本ET的链接信息LI亦可由语音识别装置7来确定。链接信息LI的产生被类似地公开于US专利5,031,113中，为此其不在此被详细讨论。
在图2中，由作者——也就是通过语音识别设备2的用户——说到话筒5中的文本GT沿时间轴t以符号形式被示出。由语音识别装置7针对该口语文本而识别的文本ET亦被示出。在语音识别过程正被执行时，口语文本GT被分成包含关联声学信息的音频段AS。这种关联声学信息可以是例如词、两个词之间稍长的语音暂停、所谓的犹豫声音如“aah”或“mm”、或者噪声。
链接信息LI标记口语文本GT的每个音频段AS和所识别文本ET的关联段TS的开头和结尾。例如，第一音频段AS1包含用于口语文本GT的第一词“The”的持续1.5秒的声学信息，而由链接信息LI分配的第一文本段TS1包含由语音识别装置7识别的词“The”的文本。
命令存储器级10将由语音识别设备2识别的词的序列存为命令。在命令存储器级10中存储的命令表BT的部分被示出于图3中。通过参考命令表BT，语音识别装置7将例如词序列“next word bold”识别为用于待以粗体示出的所识别文本ET中的接下来的词的命令。命令编号BI12在命令表BT中被指定给该命令。词序列“insert text of module 1”被类似地识别为命令，其在此情况下用于待插入到所识别文本ET中的来自在命令存储器级10中的位置“2341”中的存储器单元处存储的文本模块的标准文本。
语音识别装置7进一步包括第一标注级12，其被安排用于自动确定标注信息的不同项并用于将由此确定的标注信息MI的项存储在存储器装置8中，标注信息MI的所述项标记具有与由此标注的文本的所有部分共同的某个特征的所识别文本ET和口语文本GT的部分。词“自动”在此情况下应被理解成指的是“没有转录设备1的用户的任何动作”。第一标注级12被安排用于用暂停标注信息PMI自动标注稍长的语音暂停，用犹豫声音标注信息HMI自动标注犹豫声音，用命令标注信息CMI自动标注命令，用重复标注信息RMI自动标注被重复的词，用日期标注信息DMI自动标注日期，并用噪声标注信息GMI自动标注噪声。
图4示出在存储器装置8中存储的标注表MT，在该表中，由第一标注级12自动确定的标注信息MI的项由第一标注级12输入。为了自动标注所识别文本ET中的命令，第一标注级12比较命令表BT中包含的词序列与所识别文本ET中包含的词序列。当命令表BT中包含的词序列被发现于所识别文本ET中时，则第一标注级12在标注表MT中输入标识该词序列的所识别文本ET的那些文本段TS加上关联的命令编号BI，以作为命令标注信息CMI。这在以下参照应用实例而被更详细地描述。
可以提及的是，不在标注表MT中标识所识别文本ET的某些文本段TS，而在每种情况下，对于口语文本GT的适当音频段AS来说，亦将有可能被输入。在每种情况下，音频段AS和关联的文本段TS可借助于链接信息LI来确定。
语音识别装置7被安排成识别两个词之间的语音上的暂停(无声)，而第一标注级12被安排成用标注表MT中的暂停标注信息PMI来自动标注口语文本GT的对应音频段AS。
第一标注级12被安排成比较在第一标注级12中存储的犹豫声音(例如“aah”或“mhh”)与在所识别文本ET中包含的词，并用犹豫声音标注信息ZMI来自动标注包含这种犹豫声音的所识别文本ET的文本段TS。
第一标注级12亦被安排成用噪声标注信息GMI来自动标注口语文本GT的音频段AS，如果这些音频段AS包含噪声和/或声音的话。为此，标注级12包含噪声检测器，其能鉴别噪声和/或声音与包含词的音频段。
为了用重复标注信息RMI来标注所识别文本ET中的重复词，第一标注级12被安排成比较所识别文本ET中的相互跟随的词序列或词。标注表MT亦包含日期标注信息DMI，其在以下参照应用实例而被更详细地描述。
转录设备1的第一校正设备3包括再现装置12，其与存储器装置8和命令存储器级10一起由运行文本处理软件的第二计算机形成。亦被连接于第二计算机的是监视器14、键盘15和扬声器16，它们被类似地关联于第一校正设备3。当同步再现模式被激活于第一校正设备3中时，再现装置13被安排用于声学再现口语文本GT并用于同时可视地或在光学上标注由链接信息LI标记的关联的所识别文本ET。
在被激活的同步再现模式下对所识别文本ET的校正再次被公开于US专利5,031,113中，并已被证明在实践中是很有利的。在此情况下，校正者——也就是说正在校正所识别文本ET的第一校正设备3的用户——可在相同时间听取由作者说到话筒5中的文本GT并检查或编辑由语音识别装置7针对其而识别的文本ET。所识别文本ET在光学上被显示于监视器14上，而针对刚才在声学上再现的口语词而由语音识别装置7识别的词在光学上被再现装置13标注并被相应地显示于监视器14上。校正者可用键盘15来激活、中断和停用同步再现模式并编辑所识别文本ET。
第二校正设备4的构造基本上与在图1中详细示出的第一校正设备3相同，为此在图1中第二校正设备4仅被示出为方块。然而，第二校正设备4另外具有存储器装置和命令存储器装置，在其中，被存储于存储器装置8和命令存储器级10中的信息在用第一校正设备3校正的所识别文本ET被编辑之前被存储。
第二校正设备4可由例如检查者——即第二校正设备4的用户——来使用，其在被存储于存储器装置8中的所识别文本ET已由校正者校正之后检查校正者所做工作的质量。为此，检查者进行检查以了解校正者是否错过了所识别文本ET中的任何错误。这样的检查者主要由转录公司来使用，其通过随机检查经校正的所识别文本来确保所转录文本的质量。这被参照转录设备1的应用实例而详述。
转录设备1的再现装置13进一步包括第二标注级17，其与键盘15和第一标注级12一起形成标注装置，用于自动和手动标注口语文本GT或所识别文本ET的部分。有了第二标注级17，校正者在校正所识别文本ET时具有手动标注未被自动标注的文本的另外部分的机会。
另一方面，对文本部分的这种手动标注可被用于手动标注具有与已被自动标注的文本部分相同的特征的所识别文本的部分，从而允许借助于适配级11来适配在命令表BT中存储的信息或参数信息PI。这种适配实现了下一次第一标注级12将能自动标注已被手动标注的文本部分。另外，语音识别设备2的识别速率借助每个适配而被提高。作为结果，获得了以下优点转录设备可减少校正者在每个进一步的使用时必须做的越来越多的工作。
另一方面，对文本部分的这种手动标注可被用于将文本部分标注为被删除，其然后将不出现在被传输给作者的所识别文本中，但不是被完全删除。将文本的一部分标注为被删除具有以下优点如果有必要的话，这样的文本部分可在稍后的阶段被再次包括在所识别文本中，并且检查者可检查对于待删除的这些文本部分，其是否正确。然而，特别有利的是，由口语文本GT和所识别文本ET之间的链接信息提供的连接仍保持完全原封不动，这是因为没有所识别文本ET的部分被实际上删除。因此，当同步再现模式被激活时，在被标注为被删除的口语文本GT的部分正在声学上被再现的同时，替换文本可在光学上被标注，而不是文本的被删除部分，这在以下被详述。
借助手动标注具有相同特征的文本部分对自动标注文本部分的这种补充提供了以下进一步的优点经编辑的所识别文本ET可以以特别有效的方式被进一步编辑。这样，例如，对被标注为日期的所识别文本的所有部分的格式化可特别有效地被一致地修改(uniformly amend)，如在以下所详述的。
标注装置的第二标注级17亦被安排用于将再现标注信息WMI存储在存储器装置8中，该再现标注信息WMI标记在激活的同步再现模式下已由再现装置13再现了至少一次的口语文本GT和/或所识别文本ET的那些部分。
作为结果，获得了以下优点通过评价在标注表MT中包含的再现标注信息WMI，再现装置13能可视地标注已借助于同步再现模式校正了至少一次的所识别文本ET的部分，或者在声学上标注口语文本GT的关联部分。作为结果，依照本发明的校正设备的用户能显然较为有效地校正所识别文本，这在以下参照应用实例而被详述。
当同步再现模式被激活时，再现装置13被进一步安排成抑制口语文本GT的不想要的部分的声学再现，所述不想要的部分由在存储器装置8中存储的抑制信息来标记。这正是该情况，校正者可使用键盘15来设置包含在标注表MT中的标注信息MI的哪些项应被用作抑制信息。例如，用户可选择暂停标注信息PMI和犹豫声音标注信息HMI作为抑制信息，从而使当口语文本GT被第一次回放时，由此被标注的文本部分被抑制。这被参照应用实例而详述。
现在将参照图3到9中所示的应用实例在以下详细说明转录设备1的优点。图5示出由作者说到话筒5中的文本GT的五个部分。图6示出针对口语文本GT的五个部分由语音识别装置7识别的文本ET，其中所识别文本ET的部分已由第一标注级12自动标注。亦在图6中示出了由校正者借助于第二标注级17而手动标注的文本部分。图7以自动和手动标注的文本部分被示出为用替换文本替换的形式示出了所识别文本ET。图8以文本的所有被标注的部分已被抑制的形式示出了所识别文本ET，以这种形式，所识别文本ET被传输给作者。
在第一实例中，作者想要将文本“...company PHILIPS...”说出到话筒中并在相同时间将词“PHILIPS”标注为粗体。然而，在词“company”之后，作者对什么样的措词正好用于粗体格式化的命令而简短地反映，并且在他这样做时，他象许多作者一样发出犹豫声音“aah”。作者然后说出“bold next”，但在他这样做时，他想起用于该命令的正确词序列是“next word bold”，为此他说出“no”。他然后说出正确命令“next wordbold”并以词“PHILIPS”来继续文本。
如可从图6看到的，语音识别装置7针对音频段AS3而识别文本段TS3＝“aah”，并且在标注表MT的第四行中，第一标注级12用犹豫声音标注信息HMI自动标注这个犹豫声音。不是犹豫声音而是替换文本“<hes>”被示出于图6中，其允许校正者看到犹豫声音已被标注于该点。当标记所识别文本ET时，如果校正者将再现装置13的文本光标定位于该替换文本上，则由语音识别装置7识别的犹豫声音被显示。作为结果，获得了以下优点当校正时，校正者可集中在所识别文本ET的基本部分上，但如果他想要知道作者在这里发出了什么犹豫声音以使他可校正相邻于该犹豫声音的词，则他能在任何时间看到该声音。
还有，语音识别装置7现在已针对音频段AS7-AS9识别了由文本段TS7-TS9形成的词序列“next word bold”，在命令表BT中具有命令编号BI12的命令被指定给它。第一标注级12有利地自动输入这些文本段和标注表MT的第四行中的这个命令编号而作为命令标注信息CMI。在图6中，替换文本“<com>”而不是这些文本段被示出，作为其结果，获得了以上提及的优点。还有，命令BI12被执行，并且形成针对音频段AS10而识别的文本段TS10的词“PHILIPS”被以粗体显示。
通过使用键盘15和第二标注级17，校正者现在将文本段TS4和TS5标注为具有命令编号BI12的命令，因此下一次词序列“bold next”将由第一标注级12自动识别为命令。在图7中，文本的该部分类似地由用于命令的替换文本“<com>”来表示。
通过使用命令编号BI12，第二标注级17在标注表MT的第五行中输入该词序列TS4+TS5作为命令标注信息CMI。当适配模式被激活于语音识别设备2中时，适配级11从存储器装置8中读取新的命令标注信息CMI并为具有命令编号BI12的命令在命令表BT中进行进一步的输入。
这给出了以下优点校正者可以特别容易且有效地将另外的词序列定义为命令，这些词序列在适配模式下由语音识别设备2来接管(takeover)。当下一次执行语音识别过程时，词序列“bold next”将由此被自动识别为命令。
借助键盘15和第二标注级17，校正者现在继续将文本段TS6“no”标注为被删除的文本，这是因为他已看到作者无意中说出该词并且它不应被包括在传输给作者的最终文本中。用于该被删除文本的替换文本“<skip>”被示出于图7中。
可以提及的是，校正者亦可将文本段TS4-TS6标注为被删除的文本，这是因为具有命令编号BI12的命令不应出现两次。
将文本段TS6手动标注为被删除的文本给出了以下优点即使在借助例如第二校正设备4执行的随后的同步再现模式期间，由链接信息LI提供的相关性亦将被完全保留，并且同步再现将由此没有错误地进行。
图8示出在第一实例中最终被传输给作者的所识别文本“...companyPHILIPS...”，该文本是作者真正所指的，而不管犹豫声音、一个无意中说的词和错误的命令。
在第二实例中，作者想要说到话筒5中的文本是“...I fixed the leftleg...”，但在此情况下他在音频段AS20之后反映并沉默三秒，这由第一标注级12自动识别为暂停并在标注表MT中输入为暂停标注信息PMI。用于反映的该暂停的替换文本“<sil>”被示出于图6中。
在所述暂停之后，作者重复词“I”，其由第一标注级12自动识别为重复词并在标注表MT中输入为重复标注信息RMI。用于文本段TS22的替换文本“<rep>”被示出于图6中。
在重复词之后，作者说出“fixed the left”，然后进行另一个暂停以便于反映，并且最终说出“the left leg”。用于反映的该暂停再次由第一标注级12自动标注，但词“the left”的重复不能被自动识别和标注。校正者现在将文本段TS26-TS28手动标注为重复词，由此使对应的重复标注信息RMI被输入于标注表MT中。
图8示出在第二实例中最终被传输给作者的所识别文本“...the leftleg...”，因此这是作者真正所指的，而不管重复词和用于反映的暂停。作为除了自动标注以外还执行的手动标注的结果，所有重复词被标注于所识别文本中，并且借助进一步的处理，它们可例如全部被抑制于显示上或被用于适配模式。
在第三实例中，作者想要说出到话筒5中的文本是“...and companyPHILIPS will...”，但他在词“and”之后不得不打喷嚏。音频段AS51因此包含了作者在打喷嚏时发出的噪声。语音识别装置7不能识别用于该音频段AS51的词，并且因此第一标注级12用噪声标注信息GMI将该音频段AS51自动标注为噪声并同样在标注表MT中输入它。替换文本“<non sp>”被示出于图6中。
在其喷嚏之后，作者花费五秒来寻找其手绢然后擤其鼻子。音频段AS52又被自动标注为暂停并同样被输入于标注表MT中。当擤其鼻子时作者发出的噪声类似于噪声“tata”，并因此语音识别装置7不正确地将词“that”识别为文本段TS53。
有利地，当同步再现模式被激活时立即识别出所述错误的校正者能用噪声标注信息GMI将文本段TS53标注为噪声。由此获得了以下优点所识别文本ET中的所有噪声事实上同样被标注于第三实例中，并可在进一步的处理阶段中以相同方式被全部处理。第一标注级12的噪声检测器可例如用文本的这些被标注的部分来适配以使这样的噪声可在将来被自动识别。
在第四实例中，在他实际上正在口述时，作者想要将被存为名为“模块1”的命令存储器级10中的文本模块的标准文本插入到所识别文本ET中。为此，作者口述“...is the best.Insert text module one.All...”。被识别的文本段TS73-TS76被识别为具有命令编号BI13的命令，并且替换文本“<module 1>”被示出于图6中。
这给出了以下优点文本模块已经以特别简单的方式被自动插入于所识别文本ET中。在此情况下，校正者或检查者可有利地在三种类型的显示之间选择。他可看到实际上被识别的文本——文本段TS73-TS76——或替换文本，或者在图8中看到的从命令存储器级10被添加的标准文本。
在第五实例中，作者说到话筒5中的文本是“...tenth of October twothousand and one...”。第一标注级12将已自动识别并标注为日期的该词序列将已经是“October tenth two thousand and one”。然而，口语的词序列不被识别为日期，并因此校正者用日期标注信息DMI将文本段TS80-TS86标注为日期。
这给出了以下优点在所识别文本中已被自动或手动标注为日期的文本的所有部分的格式可在随后的处理工作中以特别容易且统一的方式而变更。为此，校正者可例如选择用日期标注信息DMI标注的所有日期应当以格式“MM.DD.YYYY”来示出。
现在将参照图9来说明第一校正设备3的应用实例。在该实例中假定校正者激活同步再现模式，基于此，分别从音频段AS1和文本段TS1开始，口语文本GT和所识别文本ET被第一次同步再现。这在符号上由箭头P1来表示。校正者已经以以下方式配置了再现装置13在第一再现期间，用于用暂停标注信息PMI、犹豫声音标注信息HMI和噪声标注信息GMI来标注的那些文本部分的音频段不在声学上被再现。这允许校正者特别快地再现口语文本GT并在相同时间内校正较多的所识别文本ET。
在再现期间，标注表MT中的再现标注信息WMI被连续更新。在音频段AS53(作者擤其鼻子)刚好正在声学上被再现并且文本段TS53正被可视地标注的时刻，校正者看到词“that”尚未被正确识别。此时文本光标的位置在图9中由P2在符号上指示。然而，由于校正者不能肯定什么是真正应当已被识别的，他从音频段AS50再次激活同步再现模式。这在图9中由箭头P3在符号上指示。
再现装置13现在从在标注表MT的第四行中输入的再现标注信息WMI识别出音频段AS1到AS53已在同步再现模式下被再现了一次，并因此在声学上再现所有音频段AS50到AS53。这在图9中由箭头P4在符号上指示。仅从音频段S54的再现开始——见箭头P5——被标记的文本(PMI、GMI、HMI)将在声学再现期间被再次抑制。
这给出了以下优点口述的所有音频段AS被再现于口述中的这样的通道(passage)中在这里校正者需要可用于使其能正确校正所识别文本ET的所有标注信息。在校正者可通过仅听取它们一次而校正的其它通道中，不必要的音频段AS被抑制。
类似地，当口语文本ET被第一次再现时，用于文本的所标注部分的替换文本可有利地被显示，并且仅当再现被重复时，可对实际上被识别的文本ET自动进行切换。
对在同步再现模式下已被再现了一次的文本部分的自动标注得到了进一步的显著优点。通过随机取样来确定校正者多好地校正了所识别文本ET是检查者的事情。在这一点上，再现标注信息WMI对检查者是很有用的。这是因为，检查者可立即识别校正者已借助于同步再现模式检查了文本的哪些部分以及他已跳过并因此有可能根本没有检查文本的哪些部分。检查者可由此对未用再现标注信息WMI标注的文本部分进行专门检查以了解在所识别文本ET中是否有任何错误。
如果校正者在其工作中被中断并想要在稍后的时间点继续进行，则再现标注信息WMI亦是有利的。作为对由再现标注信息WMI标记的文本的声学标注(例如作为口语文本的背景的连续音调)或可视标注(例如以相反字符示出的所识别文本)的结果，校正者可立即继续进行其工作。
第一校正设备3亦具有定位装置18，其被提供以允许在同步再现模式被中断以校正不正确识别的词时，标注文本输入位置的文本光标被定位，定位装置18被安排成在同步再现模式被中断时将文本光标定位于在所识别文本ET中被标注的词的上游的N个词，如果所识别文本的该部分已用再现标注信息WMI标注的话；并且定位装置18被安排成在同步再现模式被中断时将文本光标定位于在所识别文本ET中被标注的词的上游的M个词，如果所识别文本ET的该部分尚未用再现标注信息WMI标注的话。
所限定的数量可以是例如M＝3和N＝1，作为其结果，当第一次在所识别文本ET中发现不正确识别的词时将允许校正者的较长响应时间。这些提供是特别有利的，这是因为一旦同步再现模式已被中断，则文本光标通常已被定位于不正确识别的词上，并且手动定位文本光标所花费的时间可由此被节省。这将使M和N的有利值的许多其它组合对于本领域的技术人员来说是显而易见的。
如果定位装置18被安排成自我教导(self-teaching)，则是特别有利的。在此情况下，在同步再现模式已被中断之后，定位装置18将从校正者做出的定位条目(entry)来确定用于N和M的最佳值，并且将连续将其适配于用户的响应时间。
适配级11亦可被用于适配在参数存储器装置9中存储的参数信息PI。这给出了以下优点语音识别装置7的识别速率被稳定地提高并且较少的错误被包含于所识别文本ET中。
如可从以上应用实例看到的，各个音频段或文本段可由一项甚至多项标注信息MI来标注。这允许所识别文本在所谓的水平下以有利的方式被处理。在此情况下，例如在命令中包含的犹豫声音可以以与被标注为犹豫声音的所识别文本ET的所有其它部分相同的方式(例如抑制、删除、替换文本显示、所识别文本显示)来编辑。这也不干扰对包含犹豫声音的命令的编辑。如果文本部分是用多项标注信息MI来标注的，则因此对于这些水平来说亦变得有可能在光学上被显示。
可以提及的是，依照本发明对文本的自动和手动标注可借助标注信息MI的多个不同项来实施。这种标注信息MI的项可以是例如AutoPunctuation(自动标点)，Silence(沉默)，Nonspeech(没有语音)，Noise(噪音)，Music(音乐)，Spelling(拼写)，Hesitation(犹豫)，Insertion(插入)，NumberFormating(号格式化)，DateFormating(日期格式化)，HeaderFormating(头部格式化)，EnumerationFormating(枚举格式化)，QuantityFormating(数量格式化)，SelfCorrection(自校正)，PhraseRepetition(短语重复)，Stutter(结巴)，Discursiveness(离题的)，SpellingSequence(拼写序列)，RedundantPhrase(冗余短语)，NotUnderstood(不理解)，Remark(注释)，Deletion(删除)，Command(命令)。
可以提及的是，对文本部分的标注不必如以上借助表来说明的而进行，而可替换的是，可以以树结构的形式来进行。在此情况下，又包含进一步的被标注文本段的被标注文本段将以类似于树的形式被示出于分枝上。
可以提及的是，甚至可在执行语音识别过程的同时而不是之后进行自动标注。
可以提及的是，例如，仅语音识别装置7难以识别的文本的所有部分——即在识别中可能有大量错误——可由第一标注级12自动标注，而在同步再现模式下校正者难以识别的文本的所有部分可被手动标注，从而向口语文本的作者或检查者提示文本的这些被标注部分以用于检查的目的。这是传递涉及所识别文本的信息的特别有利的方式。
权利要求
1.一种校正设备(3、4)，用于从口语文本(GT)来校正由语音识别设备(2)识别的文本(ET)，其中用于口语文本(GT)的每个部分的链接信息(LI)项标记关联的所识别文本(ET)，该校正设备具有存储器装置(8)，用于存储至少口语文本(GT)和所识别文本(ET)，并具有再现装置(13)，当同步再现模式被激活于校正设备(3、4)中时，用于在声学上再现口语文本(GT)并同时可视地标注由链接信息(LI)标记的关联的所识别文本(ET)，并具有标注装置(12、15、17)，用于在存储器装置(8)中存储标注信息(WMI)，当同步再现模式被激活时，该标注信息(WMI)标记由再现装置(13)再现至少一次的口语文本(GI)和/或所识别文本(ET)的那些部分。
2.权利要求1的校正设备(3、4)，其中当同步再现模式被激活时，再现装置(13)被安排成抑制口语文本(GT)的不想要的部分的声学再现，所述不想要的部分由在存储器装置(8)中存储的抑制信息(PMI、HMI、GMI、DMI、RMI)来标记。
3.权利要求2的校正设备(3、4)，其中当同步再现模式被激活时，再现装置(13)被安排成在声学上再现由抑制信息(PMI、HMI、GMI、DMI、RMI)标记的口语文本(GT)的不想要的部分，如果这些不想要的部分亦由标注信息(WMI)标记的话。
4.权利要求2的校正设备(3、4)，其中由抑制信息(PMI、HMI、RMI)标记的口语文本(GT)的不想要的部分由口语文本(GT)中的暂停、重复词或犹豫声音形成。
5.权利要求1的校正设备(3、4)，其中再现装置(13)被安排用于可视地标注由标注信息(WMI)标记的所识别文本(ET)的那些部分。
6.权利要求1的校正设备(3、4)，其中定位装置(18)被提供用于在同步再现模式被中断以校正不正确识别的词时，定位识别文本输入位置的文本光标(P2)，并且其中定位装置(18)被安排成将文本光标定位于在同步再现模式被中断时被标注的所识别文本(ET)的词的上游的N个词，如果所识别文本(ET)的该部分已用再现标注信息(WMI)标记的话；并且其中定位装置(18)被安排成将文本光标定位于在同步再现模式被中断时被标注的所识别文本ET的词的上游的M个词，如果所识别文本(ET)的该部分尚未用再现标注信息(WMI)标记的话。
7.一种从口语文本(GT)来校正由语音识别设备(2)识别的文本(ET)的方法，其中用于口语文本(GT)的每个部分的链接信息(LI)项标记关联的所识别文本(ET)，并且其中以下步骤被执行存储至少口语文本(GT)和所识别文本(ET)；当同步再现模式被激活时，在声学上再现口语文本(GT)并同时可视地标注由链接信息(LI)标记的关联的所识别文本(ET)；存储标注信息(WMI)，当同步再现模式被激活时，该标注信息(WMI)标记之前被再现了至少一次的口语文本(GT)和/或所识别文本(ET)的那些部分。
8.权利要求7的校正方法，其中以下进一步的步骤被执行当同步再现模式被激活时，抑制口语文本(GT)的不想要的部分的声学再现，所述不想要的部分由所存的抑制信息(PMI、HMI、GMI、DMI、RMI)来标记。
9.权利要求8的校正方法，其中以下进一步的步骤被执行当同步再现模式被激活时，在声学上再现由抑制信息(PMI、HMI、GMI、DMI、RMI)标记的口语文本(GT)的不想要的部分，如果这些不想要的部分另外地由标注信息(WMI)标记的话。
全文摘要
在用于从口语文本(GT)来校正由语音识别设备(2)识别的文本(ET)的校正设备(3、4)中，标注装置(12、15、17)被提供用于将标注信息(WMI)存储在存储器装置(8)中，所述标注信息(WMI)标记在同步再现模式下由再现装置(13)再现了至少一次的口语文本(GT)和/或所识别文本(ET)的那些部分。以这种方式，已被再现一次的口语文本(GT)和/或所识别文本(ET)的部分可被在声学上或可视地标注，并且根据再现是第一次进行或是被重复，不同的部分可被再现。
文档编号G10L15/22GK1568501SQ02820241
公开日2005年1月19日申请日期2002年10月10日优先权日2001年10月12日
发明者W·格施文德特纳, K·拉吉申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：W.格施文德特纳;K.拉吉
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人

上一篇：在信号中编码辅助信息的系统的制作方法
上一篇：用于标注所识别文本的部分的语音识别设备的制作方法