文本显示设备、文本显示方法及程序的制作方法

文档序号：2830449阅读：208来源：国知局

专利名称：文本显示设备、文本显示方法及程序的制作方法
技术领域：
本发明涉及一种与语音输入同步地显示其文本的文本显示设备、文本显示方法及让计算机执行该方法的程序。
背景技术：
在电视广播、电视电话、网络会议等系统中，人们正在考虑基于语音识别的实时自动字幕显示设备(参照专利文献l)。在此，简单地说明一下以往的字幕显示设备。
图5是表示以往的字幕显示设备的一个构成例的方框图。该以往的字幕显示设备是由以下几个部分构成用于输入语音的语音输入部 201，保存有用于语音识别的识别词典203的记忆部230，包含识别所输入的语音的语音识别机构202的控制部220，和用于显示文本的输出部204。在这里，用麦克风代表了语音输入部201。图5中所表示的以往的字幕显示设备，如果接收到说话者的发音的话，就进行语音识别处理，一般会比该语音要稍微延迟一些才显示出识别结果的单词或单词列。当该识别结果被显示之后，下一个发音就已经开始了的情况，同样，在一定时间的显示后，显示下一个的识别结果。
图6是表示所输入的语音与其识别结果的具体例子的方框图。在这里，设为使用了便携电话机的网络会议的情况，其便携电话机具有如图 5所表示的构成。便携电话机，在有如图6所示的输入语音501时，按检测出了语音的区间进行识别处理，作为其识别结果，从字幕502a到 502d,按顺序各自进行一定时间的显示。象图6的显示时刻表示的一样，便携电话机从时刻tl到t5间，从字幕502a到502d各自只显示一定时间TO。这样做的结果，识别了的单词或单词列显示某一定时间，或只在到能得到下一个的识别结果为止的时间里显示。
专利文献1:特开2002—342311号公报上述的以往的方法，因成为识别对象的语音连续性地进行，显示识别结果的地方和时间如果不是很充分的话，用户就会听漏了语音，或错
过了字幕的识别结果。在这个情况下就会存在以下问题即使语音及字幕中包含着重要的单词，由于字幕与该重要度无关地逐次切换，因此用户无法意识到重要的单词。特别是，便携电话机即使在膝上型和桌面型的个人电脑等的信息处理设备之中，其显示画面的大小一般也是最小的，显示太多的字幕及其履历也是困难的事，因此很容易出现上述的问题。

发明内容
本发明是为了解决象上述一样的以往技术所存在的问题，目的是为了提供能够通过文本将基于语音的信息高效率地传达给用户的文本显示设备，文本显示方法及用来让计算机执行该方法的程序。
为了达成上述目的，本发明的文本显示设备由以下部分构成用于输入语音的语音输入部；记忆部，存储有用于将基于语音的信息转换成文本的识别词典；用于显示上述文本的输出部；和控制部，被输入语音时，参照上述识别词典，识别与该语音相对应的单词或单词列，求出包含该单词或该单词列的识别结果及其重要度，并对应于该重要度计算该识别结果的显示时间，使该识别结果在上述输出部中显示所计算出的显示时间以上。
另外，作为优选方式，文本显示设备中，上述控制部，根据对所输入的语音的识别的可信度、上述识别词典中所记述的单词重要度、及由用户所指定的单词重要度中的任意l个，或者这些的组合，来决定上述识别结果的重要度。
另外，作为优选方式，文本显示设备中，上述控制部，对于根据上述显示时间的计算结果，与其他识别结果相比较被决定长时间显示的识别结果，通过划下划线、反转显示、或者改变字体或大小或颜色这些方式中的任意l个，或者这些方式的组合，来进行强调并显示于上述输出部。
本发明中，如果所输入的语音信息被识别的话，识别结果便在输出部中显示根据其重要度所计算出的显示时间以上。为此，如果能使重要度高的识别结果长时间被显示的话，传达重要的信息给用户就变得容易。
为了达到上述目的，本发明的文本显示方法，是基于将语音转换成文本的信息处理设备的文本显示方法，在记忆部中存储用来将基于语音的信息转换成文本的识别词典，被输入语音时，参照上述识别词典，识别与该语音相对应的单词或单词列，求出包含上述单词或上述单词列的识别结果及其重要度，对应于上述重要度，计算上述识别结果的显示时间，使上述识别结果在输出部中显示所计算出的显示时间以上。
另外，作为优选方式，文本显示方法根据对所输入的语音的识别的可信度、上述识别词典中所记述的单词重要度、及由用户所指定的单词重要度中的任意1个，或者这些的组合，来决定上述识别结果的重要度。
另外，作为优选方式，文本显示方法对于根据上述显示时间的计算结果，与其他识别结果相比较被决定长时间显示的识别结果，通过划下
划线、反转显示、或者改变字体或大小或颜色这些方式中的任意l个，或者这些方式的组合，来进行强调并显示于上述输出部。
为了达到上述目的，本发明的程序用来使上述计算机执行将语音转换成文本并显示的处理，该处理具有在记忆部中存储用来将基于语音的信息转换成文本的识别词典的步骤；被输入语音时，参照上述识别词典，识别与该语音相对应的单词或单词列的步骤；求出包含上述单词
或上述单词列的识别结果及其重要度的步骤；对应于上述重要度，计算
上述识别结果的显示时间的步骤；和使上述识别结果在输出部中显示所
计算出的显示时间以上的步骤。
另外，作为优选方式，程序具备根据对所输入的语音的识别的可信度、上述识别词典中所记述的单词重要度、及由用户所指定的单词重要度中的任意l个，或者这些的组合，来决定上述识别结果的重要度的步骤。
另外，作为优选方式，程序具备对于根据上述显示时间的计算结果，与其他识别结果相比较被决定长时间显示的识别结果，通过划下划线、反转显示、或者改变字体或大小或颜色这些方式中的任意l个，或者这些方式的组合，来进行强调并显示于上述输出部的步骤。由于本发明能优先长时间地显示重要度高的识别结果，即使显示画面切换，重要的识别结果也作为履历在输出部保留。因此，显示识别结果的地方及时间即使不充分，对用户也能高效率地传达信息。

图1是表示本实施方式的文本显示设备的一个构成例的方框图。图2是表示本实施方式的文本显示设备的工作顺序的流程图。图3是表示本实施例识别词典的记述例子的图。图4是表示本实施例的输入语音和识别结果的之一例的图。图5是表示以往的文本显示设备的一个构成例的方框图。图6是表示以往情况的输入语音和识别结果的具体例子的图。图中101—语音输入部，102 —语音识别机构，103 —识别词典， 104 —显示时间计算机构，105 —输出部，120 —控制部，130 —记忆部。
具体实施方式
本发明的文本显示设备的特征在于，求出从输入语音所识别的识别结果及其重要度，对应于该重要度计算出显示时间，将识别结果显示所计算出的显示时间以上。其次，参照附图，详细说明关于本发明实施方式的文本显示设备。图1是表示本实施方式的文本显示设备的一个构成例的方框图。本发明实施方式的文本显示设备包括用于输入语音的语音输入部101; 保存有识别词典103的记忆部130;包含使用识别词典103识别输入了的语音，输出识别结果的单词或单词列及其重要度的语音识别机构202 及根据重要度计算出显示时间的显示时间计算机构204的控制部120; 用于显示识别结果的输出部105。控制部120按照重要度，在输出部105 中将识别结果显示根据显示时间计算机构204计算出的显示时间。控制部120包括根据执行程序执行所选定的处理的CPU(Central Processing Unit)和用于保存程序的存储器。语音识别机构102及显示时间计算机构104，通过由CPU执行程序而在控制部120里虚拟地构成。其次，说明本发明实施方式的文本显示设备的工作。图2是表示文本显示设备的工作顺序的流程图。象图2表示的一样，通过语音输入机构101输入语音(步骤301)，语音识别机构102从语音输入机构101接收到语音的数据后，参照记忆部130中保存的识别词典103识别语音(步骤302)。然后，输出包含单词或单词列的识别结果，同时求出其重要度。并且，将识别结果及其重要度输出给显示时间计算机构104。显示时间计算机构104从语音识别机构102接收识别结果及其重要度的信息，对应于该重要度计算识别结果的显示时间(步骤303)。此后，控制部120在输出部105将识别结果显示对应于该重要度所计算出的显示时间(步骤304)。实施例h说明本实施例的文本显示设备的构成。本实施例的文本显示设备的识别词典103对应于所登记的各单词记述了重要度的信息。图3是表示识别词典的记述的例子的图。象图3所表示的一样，在识别词典103中记述着单词「RSS」的重要度是「3.0」，单词「网站」的重要度是「1.5」，单词「版本」的重要度是「0.9」。语音识别机构102，参照识别词典103确定出单词或单词列，从识别词典103读出其重要度，把包含确定出的单词或单词列的识别结果及其重要度的信息传给时间计算机构104。作为显示时间计算机构104所计算的、求出单词w的显示时间T计算式的一个例子，如下T = Cw * p 式(1)Cw是表示单词w的单词重要度的值。P是系数。作为P的一个例子，是依存于系统的显示区域依存的常数。所谓依存于显示区域的常数是由画面显示尺寸的制约所决定的值，画面显示尺寸越小，则显示识别结果的地方和时间就越没有富余，其值就会变小。如果显示时间计算机构104从语音识别机构102接收包含单词w的识别结果和其重要度的信息的话，计算上述式(l)，算出识别结果的显示时间T。若显示时间计算机构104计算出识别结果的显示时间的话，控制部 120为了强调显示重要度高的识别结果，对重要度高的识别结果，在用划下划线的状态下，于输出部105显示。本实施例中，如果该识别结果的显示时间为第1阈值以上，便在输出部105强调显示。这里，第1阈值成为强调显示与否的判断基准的时间。
相反的，识别结果的显示时间如果没达到第2阈值，控制部120便将其作为重要度低的识别结果，不在输出部105中显示。这里，第2阈值成为显示与不显示的判断基准的时间。第1阈值及第2阈值预先保存在记忆部130。
其次，在本发明的实施例中，说明了从语音输入到文本显示的工作。图4是表示本实施例中的输入语音和识别结果的一个例图。在这里，所输入的语音的信息与图6所表示了的以往的情况相同。同时，把上述式 (l)的系数p设为3.0。同时，第1阈值设为3.5秒，第2阈值设为2.0 秒。同时，把字幕的标准转换周期设为3.5秒。
若「流行着RSS...版本」一段为止的语音被输入的话，语音识别机构102按顺序识别基于语音的单词或单词列。识别出单词「RSS」后，从识别词典103读出其重要度「3.0」，并把单词「RSS」及重要度「3.0」的信息传给显示时间计算机构104。显示时间计算机构104根据上述式 (l)算出单词「RSS」的显示时间T1。显示时间T1为3.0*3.0 = 9.0秒。并且，因为单词「RSS」的显示时间比第l阈值大，控制部120会识别单词「RSS」成为强调显示的对象。这样做，控制部120在「流行着 RSS...版本」为止的信息中确定了强调显示的单词之后，在输出部105 中显示出字幕402a。
其次，语音识别机构102识别到「在各自……持续着议论。」一段为止的语音的话。如上所述，求出每个识别了的单词或单词列的重要度，传给显示时间计算机构104。并且，显示时间计算机构104接收各识别
结果及其重要度的信息，并计算出每个单词或单词列的显示时间。在这里，如把「持续着」的重要度设为0.5的话，单词列「继续着」的显示时间就设为1.5秒。这个时间比第2阈值小。同时，象上述一样，以字幕402a显示了的单词「RSS」作为强调显示的对象。
控制部120，使字幕402a显示了 3.5秒之后，在输出部105对下一个的字幕做切换指示的时候，因为字幕402a的单词「RSS」的显示时间不满9秒，在用划下划线的状态下，显示单词「RSS」。同时，控制
部120使输出部105删除单词列「持续着」，显示下一个的字幕402b。这样做，象图4表示的一样，字幕402b在输出部105显示。
并且，语音识别机构102在识别下面的一段「作为适合Weblog…… 格式」语音的情况的话，也同上述的一样。接着，显示时间计算机构 104，根据从语音识别机构102接收到的识别结果与其重要度的信息及上述式(1),计算每个单词或单词列的显示时间。当显示时间被算出之后，控制部120，因为对于单词「RSS」的显示时间，字幕402a、 402b两个字幕的显示时间合计也只有7秒，还不到9秒，在使输出部105显示字幕402c的时候，强调显示单词「RSS」。这样做，图4表示的字幕402c 被输出部105显示。再者，省略详细的说明，控制部120对于单词「Weblog」和单词列「网站概要格式」，和对单词「RSS」的情况一样，也判断作为强调显示的对象。
其次，与上述同样，「新提出……标准」一段的语音根据语音识别机构102被识别，其每个单词或单词列的显示时间，由根据显示时间计算机构104算出。此后，控制部120，因为对于单词「RSS」的显示时间，字幕402a到402c的3个字幕显示时间的总和是10.5秒，比9秒长，因此在输出部105显示下一个字幕的时候，从显示中删除单词「RSS」。另一方面，因为新单词「Weblog」和单词列「网站概要格式」成为了强调显示的对象，控制部120使输出部105强调显示单词「Weblog」及单词列「网站概要格式」。其结果，象在图4表示的一样，字幕402d 在输出部105显示。
如上所述，本实施例中考虑重要度的高低和显示制约，求识别结果的显示对象和显示时间，并对在显示文本的地方和时间不充分的显示画面中显示的识别结果进行取舍选择。并且，不能全部实时显示识别结果的情况，能长时间地显示成为强调显示对象的识别结果，由于不显示重要度低的识别结果，因此使对用户进行高效率的传达信息变成可能。
再者，本实施例中，成为强调显示的对象的识别结果「RSS」虽然只显示3个字幕显示时间(共计显示时间10.5秒)，但当识别结果「RSS」的显示时间如果变成9秒的时候，可以从显示画面上删除识别结果「RSS」。
同时，单词或单词列的重要度象图3表示的一样，也可以预先用识别词典103记述，也可能根据用户预先定义的文件变更。譬如，在首次登录识别词典103的阶段，即使是重要度高的单词，如果好多次强调显示，用户就能理解那个单词的意义，因此就要降低那个单词的重要度。用户既可以自己指定重要度高的单词，也可以记述表示重要度的数值。
同时，可以用识别的可信度代替单词的重要度，求出识别结果的显示时间。所谓识别的可信度，就是参照识别词典103,语音识别机构102 对输入语音，确定了单词或单词列的时候，表示语音数据和单词或单词列的适合性。如果所输入的语音有不清楚的情况，及登录有多个读法相似的单词等情况时，语音识别机构102确定与输入语音不同的单词或单词列的概率变得很高，可信度会变低。因此，可信度低的识别结果有被误识别的可能性，如这样的识别结果被强调显示的话，反倒会让用户产生混乱。
同时，象图3表示的一样，识别词典103根据预先被记述的数值，和识别的可信度的组合，可以求出单词或单词列的重要度。这个情况下，即使预先被识别词典103记述的数值高，但如果识别结果的可信度低的话，误识别的可能性就变得很高，因此不进行显示。由于不显示可信度低的误识别结果，因此能减少信息传达的错误。其结果提高了给用户传达信息的精度。
并且，可以通过预先被识别词典103登记了的重要度，用户的指定和识别的可信度中的任何一个，或这些的组合，求出单词或单词列的重要度。
关于强调显示的方法，在图4表示了的例子里，其识别结果「RSS」及「Weblog」等都判定为重要度高，显示时间长的单词，这里不仅仅限定用划下划线来强调显示的方法。强调显示的方法，其他还可以采用改变成为对象的文本的字体或大小或颜色，也可以反转显示成为对象的文本。同时，也可以是这些方法的组合。据此，用户能很容易地区别重要度高、显示时间长的单词与除此以外的单词。
本发明的文本显示设备，识别出所输入的语音信息后，算出与其重要度对应的识别结果的时间，并让输出部显示。由于能优先长时间显示重要度高的识别结果，因此即使显示画面切换了，重要的识别结果也作为履历留在输出部。因此，显示识别结果的地方及时间即使不充分，也能对用户高效率地传达信息。
本发明的文本显示设备，能适用于电视广播，电视电话及网络会议等的字幕显示的用途。同时，也可以适用于用来让计算机执行本发明的文本显示方法的程序。
权利要求
1.一种文本显示设备，其特征在于，具有用于输入语音的语音输入部；记忆部，存储有用于将基于语音的信息转换成文本的识别词典；用于显示上述文本的输出部；和控制部，被输入语音时，参照上述识别词典，识别与该语音相对应的单词或单词列，求出包含该单词或该单词列的识别结果及其重要度，并对应于该重要度计算该识别结果的显示时间，使该识别结果在上述输出部中显示所计算出的显示时间以上。
2. 根据权利要求1所述的文本显示设备，其特征在于，上述控制部，根据对所输入的语音的识别的可信度、上述识别词典中所记述的单词重要度、及由用户所指定的单词重要度中的任意1个，或者这些的组合，来决定上述识别结果的重要度。
3. 根据权利要求1或2所述的文本显示设备，其特征在于，上述控制部，对于根据上述显示时间的计算结果，与其他识别结果相比较被决定长时间显示的识别结果，通过划下划线、反转显示、或者改变字体或大小或颜色这些方式中的任意1个，或者这些方式的组合, 来进行强调并显示于上述输出部。
4. 一种文本显示方法，是基于将语音转换成文本的信息处理设备的文本显示方法，其特征在于在记忆部中存储用来将基于语音的信息转换成文本的识别词典；被输入语音时，参照上述识别词典，识别与该语音相对应的单词或单词列；求出包含上述单词或上述单词列的识别结果及其重要度；对应于上述重要度，计算上述识别结果的显示时间；使上述识别结果在输出部中显示所计算出的显示时间以上。
5. 根据权利要求4所述的文本显示方法，其特征在于，根据对所输入的语音的识别的可信度、上述识别词典中所记述的单词重要度、及由用户所指定的单词重要度中的任意1个，或者这些的组合，来决定上述识别结果的重要度。
6. 根据权利要求4或5所述的文本显示方法，其特征在于，对于根据上述显示时间的计算结果，与其他识别结果相比较被决定长时间显示的识别结果，通过划下划线、反转显示、或者改变字体或大小或颜色这些方式中的任意l个，或者这些方式的组合，来进行强调并显示于上述输出部。
7. —种文本显示程序，使计算机执行将语音转换成文本并显示的处理，该处理具有在记忆部中存储用来将基于语音的信息转换成文本的识别词典的步骤；被输入语音时，参照上述识别词典，识别与该语音相对应的单词或单词列的步骤；求出包含上述单词或上述单词列的识别结果及其重要度的步骤；对应于上述重要度，计算上述识别结果的显示时间的步骤；和使上述识别结果在输出部中显示所计算出的显示时间以上的步骤。
8. 根据权利要求7所述的程序，其特征在于，具有根据对所输入的语音的识别的可信度、上述识别词典中所记述的单词重要度、及由用户所指定的单词重要度中的任意l个，或者这些的组合，来决定上述识别结果的重要度的步骤。
9. 根据权利要求7或8所述的程序，其特征在于，具有，对于根据上述显示时间的计算结果，与其他识别结果相比较被决定长时间显示的识别结果，通过划下划线、反转显示、或者改变字体或大小或颜色这些方式中的任意1个，或者这些方式的组合，来进行强调并显示于上述输出部的步骤。
全文摘要
本发明提供一种能够通过文本对用户高效率传达基于语音的信息的文本显示设备。具有以下构成用于输入语音的语音输入部(101)；记忆部(130)，存储有用于将基于语音的信息转换成文本的识别词典；用于显示文本的输出部(150)；和控制部(120)，被输入语音时，参照识别词典，识别与该语音相对应的单词或单词列，求出包含该单词或该单词列的识别结果及其重要度，并对应于该重要度计算该识别结果的显示时间，使该识别结果在输出部中显示所计算出的显示时间以上。
文档编号G10L15/22GK101410790SQ20078001048
公开日2009年4月15日申请日期2007年3月16日优先权日2006年3月24日
发明者花泽健申请人:日本电气株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：花泽健
技术所有人：日本电气株式会社
我是此专利的发明人