信息处理设备、信息处理方法和记录介质、以及程序的制作方法

文档序号:2819079阅读:159来源:国知局
专利名称:信息处理设备、信息处理方法和记录介质、以及程序的制作方法
技术领域
本发明涉及输入数据的识别处理中的用户界面。
背景技术
近年来,已提出了使用诸如语音识别技术、文本识别技术等识别技术的各种用户界面。例如,日本专利公开No.7-160289提出了一种用户界面,该用户界面允许用户与输入的语音相一致地、容易地校正语音设备不能确定的识别结果。利用这种用户界面,用户可以容易地校正不能被识别的识别结果。
日本专利公开No.63-48040提出了一种用户界面,该用户界面记录输入语音,并为合作用户重放该输入语音,以使该合作用户在识别由主叫者发出的被叫者名字的专用小交换机中进行确认。以这种方式,即使当获得了错误的识别结果,合作用户也可以通过听重放声音而对其进行识别。因此,当合作用户注意到错误的识别结果时,其可以自己进行校正。
然而,根据这两种现有技术,当在识别处理期间发生了错误时,或者当获得了错误的识别结果时,用户自己必须对其进行校正,这造成不便。即使当识别结果是正确的,如果在使用该识别结果执行后处理(例如翻译处理)时发生错误,用户自己也必须对其进行校正。
另一方面,很难在用于识别的语法和标准模式中注册包括专有名词的所有的词和短语,并且识别率的改善是有限的。因此,当在识别处理中或在使用识别结果的后处理中发生错误时,希望尽可能地节省用户校正所需的劳动。

发明内容
考虑到上述情况而做出了本发明。本发明的目的是,在识别输入数据并输出识别结果的信息处理设备中,即使在输入数据的识别期间或使用识别结果的后处理期间发生错误,也可节省用户校正所需的劳动,并改善对用户的便利性。
为了实现上述目的,根据本发明的信息处理设备包括以下配置。
即,一种信息处理设备,该设备包括记录装置,用于记录输入数据;识别装置,用于识别该输入数据;判断装置,用于判断该识别装置是否能够识别该输入数据;以及输出装置,当判断装置判断识别装置能够识别该输入数据时,该输出装置输出基于识别装置的识别结果而产生的数据,以及,当判断装置判断识别装置不能识别该输入数据时,该输出装置输出基于记录在记录装置中的输入数据而产生的输出数据。
根据本发明,在识别输入数据并输出识别结果的信息处理设备中,即使当在识别输入数据期间或使用识别结果的后处理期间发生了错误时,也能节省用户校正所需的劳动,并且可以改善对用户的便利性。


从以下结合附图对优选实施例的详细描述中,将充分地理解本发明的特征和优势。
图1是示出了根据本发明的每个实施例的信息处理设备的配置的示意性框图;图2示出了根据本发明的第一实施例的信息处理设备的用户界面的一个例子;图3是用于说明根据本发明的第一实施例的信息处理设备的操作的视图;图4是用于说明根据本发明的第一实施例的信息处理设备的操作的视图;图5是用于说明根据本发明的第一实施例的信息处理设备的操作的视图;图6是用于说明根据本发明的第一实施例的信息处理设备的操作的视图;图7是示出了根据本发明的第一实施例的信息处理设备的操作的流程图;图8是示出了根据本发明的第二实施例的信息处理设备的用户界面的一个例子;图9是用于说明根据本发明的第二实施例的信息处理设备的操作的视图;图10是用于说明根据本发明的第二实施例的信息处理设备的操作的视图;图11是用于说明根据本发明的第二实施例的信息处理设备的操作的视图;图12是用于说明根据本发明的第二实施例的信息处理设备的操作的视图;以及图13是示出了根据本发明的第二实施例的信息处理设备的操作的流程图。
具体实施例方式
下面将参考附图描述本发明的实施例。
下面将参考附图描述本发明的一个实施例。图1是示出了根据本发明的一个实施例的信息处理设备的配置的示意性框图。信息处理设备101包括通信单元102、操作单元103、存储单元104、显示单元105、OCR单元106、控制单元107、语音输入单元108、语音输出单元109、语音合成单元110以及语音识别单元111。
通信单元102连接到网络,并且与外部装置等进行数据通信。操作单元103包括按钮、键盘、鼠标、触摸板、笔、写字板等,并且用于操作该设备。存储单元104包括诸如磁盘、光盘、硬盘器件等的存储介质,并且存储应用程序,输入文本数据、图像数据、语音数据等。显示单元105包括诸如液晶显示器等的显示器件,并且显示图片、文本等。
OCR单元106通过光学方法读取手写或打印的字符,通过与事先存储的模式进行对照而指定字符,并且输入文本数据。OCR单元106可包括扫描仪,以及从所读取的图像中识别字符并且将该字符转换成文档数据的OCR软件。控制单元107包括工作存储器、微计算机等,并且读出并执行存储在存储单元104中的程序。语音输入单元108包括麦克风等,并且输入由用户发出的语音。语音输出单元109包括扬声器、耳机等,并且输出由语音合成单元110合成的语音、存储在存储单元104中的语音,等等。语音合成单元110产生存储在存储单元104中的文本的合成语音。语音识别单元111对通过语音输入单元108输入的语音应用语音识别。对于语音识别技术和语音合成技术,可以使用现有的技术。
下面将描述根据本发明的第一实施例的信息处理设备的特征。图2示出了进行以下操作时使用的用户界面的例子语音识别单元111识别通过语音输入单元108输入的语音,识别结果从日语翻译成英语,语音合成单元110产生所产生的英语文本的合成语音,语音输出单元109输出合成语音。在这种情况下,用户经常发出专有名词,但是很难在用于语音识别的语法中注册所有词和短语。同样,在翻译处理中,很难注册所有词和短语的英语翻译。因而,在此实施例的设备中,记录用户的输入语音,并且当输入了没有注册在语音识别语法中的词或短语时,当在语音识别处理期间发生了错误时,当语音识别结果的可信度因子低时,当没有注册相应的英语翻译时,当在翻译处理期间发生了错误时,当翻译结果的可信度因子低时,等等,组合从所定义的句子产生的语音合成输出以及所记录的输入语音的重放。
当用户预先意识到要输入的词或短语是没有注册在识别语法中的词或短语,或者是不能接受例如翻译处理等的词或短语时,该用户可以选择记录/重放模式,其中记录输入语音,并且在输出时组合从定义的句子中产生的语音合成输出以及所记录的输入语音的重放。语音识别技术、语音合成技术和翻译技术使用现有技术。
以下将使用图3到6示出的例子描述根据本实施例的信息处理设备的各种操作。
图3示出了一个例子,其中可以成功识别用户的输入语音“Efferu-to”(“艾菲尔铁塔”的日语发音)。在这种情况下,语音识别结果“Efferu-to”被翻译为英语的“the Eiffel Tower”(艾菲尔铁塔)。结果,所产生的句子“How can I get to the Eiffel Tower?”(如何到达艾菲尔铁塔?)作为合成语音被输出。注意,除了合成语音,该输出还可以作为文本消息或图标显示在显示屏幕上。
与之相对照,图4示出了当用户输入的词“Eiferu-tawa”(“艾菲尔铁塔”的另一种日语说法)没有注册在语音识别语法中时,当在识别处理期间发生了错误时,或者当识别结果的可信度因子低(例如30%或更低)时的例子。在这种情况下,组合从定义的句子产生的语音合成输出以及所记录的输入语音的重放。在图4的例子中,定义的句子“How can I get to”(如何到达)作为合成语音输出,并且用户的输入语音“Eiferu-tawa”在该语音之后重放。此时,可以显示表示下列含义的文本消息或图标该词没有注册在语音识别语法中,在识别处理期间发生了错误,或者识别结果的可信度因子低,等等。
图5示出了当没有注册相应的英语翻译时,当发生了错误,或者当应用处理中(翻译处理中)的处理结果的可信度因子低时的例子。识别用户的输入语音“Biggu-Ben(ビツク·べン的日语发音)”,并且作为语音识别结果的词“Biggu-Ben”从日语翻译成英语。当识别结果“Biggu-Ben”的英语翻译没有注册在翻译处理中的系统中时,当翻译处理期间发生了错误时,或者当翻译结果的可信度因子低(例如为30%或更低)时,组合从定义的句子产生的语音合成输出以及所记录的输入语音的重放。
在图5的例子中,定义的句子“How can I get to”作为合成语音输出,并且所记录的用户的输入语音“Biggu-Ben”在该输出后重放。此时,可以在显示屏幕上显示表示以下含义的文本消息或图标没有可用的相应英语翻译,在翻译处理期间发生了错误,翻译结果的可信度因子低,等等。当翻译处理中没有注册识别结果“Biggu-Ben”的英语翻译时,可以输出作为识别结果的文本“Biggu-Ben”,并且可以作为合成语音输出“How can I get to Biggu-Ben”(如何到达Biggu-Ben)。
当用户事先意识到要输入的词或短语是没有注册在识别语法中的词或短语,或者是不能接受例如翻译处理等的词或短语时,该用户可以选择记录/重放模式,该模式中,记录输入语音,并且在输出时组合从定义的句子产生的语音合成输出以及所记录的输入语音的重放。如图6所示,在记录/重放模式中,记录用户的输入语音“Mike’s house(麦克的房子)”,并且跳过语音识别和翻译处理。在输出时,所定义的句子“How can I get to”作为合成语音输出,并且重放所记录的用户的输入语音“Mike’s house”。此时,可以在显示屏幕上显示表示重放记录的输入语音的文本信息或图标。
下面将使用图7所示的流程图描述前述操作。初始,装载表示是否选择语音识别模式的设置(步骤S702)。如果没有选择语音识别模式(选择了记录/重放模式),并且输入了语音(步骤S703),则记录该语音(步骤S704)。在输出时,组合从所定义的句子产生的语音合成输出以及所记录的输入语音的重放(图6的步骤S705)。
另一方面,如果选择了语音识别模式并且输入了语音,则识别该输入语音(步骤S707),并记录该输入语音(S708)。如果用户的输入词或短语没有在语音识别语法中注册,如果在识别处理期间发生了错误,或者如果识别结果的可信度因子低(例如为30%或更低)(即,如果步骤S709的判断结果为“否”),则组合从定义的句子产生的语音合成输出以及所记录的输入语音的重放(图4的步骤S710)。如果在语音识别语法中注册了用户的输入词或短语,或者如果识别结果的可信度因子高(例如为30%或更高)(即,如果步骤S709的判断结果为“是”),则处理所识别的词或短语(翻译处理)(步骤S711)。
在翻译处理中,如果没有注册识别结果的相应英语翻译,如果在识别结果的翻译处理期间发生了错误,或者如果翻译结果的可信度因子低(例如为30%或更低)(即,如果步骤S712的判断结果为“否”),则组合从所定义的句子产生的语音合成输出以及所记录的输入语音的重放(图5中的步骤S710)。如果在系统中注册了识别结果的相应英语翻译,或者如果翻译结果的可信度因子高(例如为30%或更高)(即,如果步骤S712的判断结果为“是”),则输出完整的所产生的句子作为合成语音(图3中的步骤S713)。除了合成语音,该输出可以作为文本消息或图标显示在显示屏幕上。
如上所述,根据此实施例,记录输入语音,并且当输入了没有注册在语音识别语法中的词或短语时,当在语音识别期间发生了错误时,当识别结果的可信度因子低时,当系统中没有注册相应的英语翻译时,当在翻译处理期间发生了错误时,或者当处理结果的可信度因子低时,则组合地输出从定义的句子产生的语音合成输出以及所记录的输入语音的重放,由此降低发生识别错误或任何其他错误时用户的人工校正的次数,并且改善便利性。
下面将描述根据本发明的第二实施例的信息处理设备。第一实施例已经示例了识别语音的情况。此实施例将示例识别手写字符的情况。注意,该设备的配置与图1中所示的相同,并且省略其描述。使用现有技术识别手写字符。注意,字符不限于手写字符,也可以使用通过OCR单元106光学扫描打印的字符并且通过将其与事先存储的模式进行对照而指定的字符。
图8示出了当控制单元107识别通过操作单元103输入的字符、被识别的字符从英语翻译成日语、并且所产生的日语句子在显示单元105上作为文本显示时该设备的操作。如在第一个实施例中那样,用户的输入字符图像记录在存储单元104中,并且当输入没有在用于字符识别的标准模式中注册的字符时,当在字符识别期间发生了错误时,当字符识别结果的可信度因子低时,当没有注册相应的日语翻译时,当翻译处理期间发生了错误时,或者当翻译结果的可信度因子低时,组合所定义的句子的文本输出以及所记录的输入字符的输出。
当用户预先意识到要输入的字符(词或短语)没有注册在用于识别的标准模式中或者不能接受翻译处理等时,该用户可以选择记录/输出模式,其中记录输入字符图像,并且在输出时组合所定义的句子的文本输出以及所记录的输入字符图像的输出。文本输出技术和翻译技术利用现有技术。
下面将使用图9到12所示的例子来描述根据此实施例的信息处理设备的各种操作。
图9示出了其中可以成功识别用户的输入字符“The TokyoTower”(东京塔)的例子。在此情况下,字符识别结果“The TokyoTower”被翻译为日语的“東京タワ一”(东京塔)。结果,作为文本输出所产生的句子“東京タワ一はどう行けばいいてすか?”(怎样到达东京塔)。注意,除了文本输出以外,还可以使用文本的合成语音进行该输出。
与之对照,图10示出了当用户的输入字符没有注册在用于字符识别的标准模式中时,当字符识别期间发生了错误时,或者当识别结果的可信度因子低(例如为30%或更低)时的例子。在这种情况下,组合所定义的句子的文本输出以及所记录的输入字符图像的输出。在图10的例子中,输出用户的输入字符图像“the Tokyo Tower”,并且所定义的句子“へはどう行けばいいてすか?”(如何到达?)作为文本输出。此时,可以输出表示以下含义的文本消息、图标或者话音消息用户的输入字符没有注册在用于字符识别的标准模式中,字符识别期间发生了错误,或者识别结果的可信度因子低。
图11示出了当系统中没有注册相应日语翻译时,当应用处理(翻译处理)期间发生了错误时,或者当处理结果的可信度因子低时的例子。识别用户的输入字符“the Tokyo Towr”,并且字符识别结果“theTokyo Towr”从英语翻译成日语。在翻译处理中,当系统中没有注册识别结果“the Tokyo Towr”的相应日语翻译时,当翻译处理期间发生了错误时,或者当翻译结果的可信度因子低(例如为30%或更低)时,组合所定义的句子的文本输出以及所记录的输入字符图像的输出。
在图11的例子中,输出用户的输入字符图像“the Tokyo Towr”,并且所定义的句子“へはどう行けばいいてすか?”作为文本输出。此时,可以输出表示以下含义的文本消息、图标或者话音消息没有注册相应日语翻译,翻译处理期间发生了错误,或者翻译结果的可信度因子低。在翻译处理中,当系统中没有注册识别结果“the Tokyo Towr”的相应日语翻译时,可以输出文本“the Tokyo Towr”作为识别结果,并且“the Tokyo Towrへけどう行けばいいてすか?”可以作为文本输出。
当用户预先认识到要输入的字符是没有注册在用于识别的标准模式中的词或短语,或者没有注册相应日语翻译时,该用户可以选择记录/输出模式,在该模式中,记录输入字符图像,并且在输出时组合所定义的句子的文本输出以及所记录的输入字符图像的输出。如图12所示,在记录/输出模式中,记录用户的输入字符图像“Taro’s house”(太郎的房子),并且跳过字符识别和翻译处理。在输出时,输出用户的输入字符图像“Taro’s house”,并且作为文本输出所定义的句子“へはどう行けばいいてすか?”。此时,可以输出表示输出了所记录的输入字符图像的文本消息、图标或话音消息。
下面将使用图13的流程图说明前述操作。初始,装载表示是否选择字符识别模式的设置(步骤S1301)。如果没有选择字符识别模式(如果选择了记录/输出模式),并且输入了字符(步骤S1303),则记录该字符图像(步骤S1304)。在输出时,组合所定义的句子的文本输出以及所记录的输入字符图像的输出(图13的步骤S1305)。
另一方面,如果选择了字符识别模式并且输入了字符(步骤S1306),则识别输入字符(步骤S1307)并记录该输入字符图像(S1308)。如果用户的输入字符没有注册在用于字符识别的标准模式中,如果在识别处理期间发生了错误,或者如果识别结果的可信度因子低(例如为30%或更低)(即,如果步骤S1309的判断结果为“否”),则组合所定义的句子的文本输出以及所记录的输入字符图像的输出(图13的步骤S1310)。如果用户的输入字符注册在用于字符识别的标准模式中,或者如果识别结果的可信度因子高(例如为30%或更高)(即,如果步骤S1309的判断结果为“是”),则处理所识别的词或短语(翻译处理)(步骤S1311)。在翻译处理中,如果系统中没有注册对应于识别结果的日语词或短语,如果在翻译处理期间发生了错误,或者如果翻译结果的可信度因子低(例如为30%或更低)(即,如果步骤S1312的判断结果为“否”),则组合所定义的句子的文本输出以及所记录的输入字符图像的输出(图13中的步骤S1310)。如果在系统中注册了对应于识别结果的日语词或短语,或者如果该翻译结果的可信度因子高(例如为30%或更高)(即,如果步骤S1312的判断结果为“是”),则作为文本输出完整的所产生的句子(图13中的步骤S1313)。除了文本输出,还可以通过文本的合成语音进行该输出。
注意,字符识别可以使用利用了现有图像识别技术的图像识别,并且可以在翻译之后输出根据用户的输入图像的文本,或者可以输出所记录的输入图像。
如上所述,根据第二实施例,记录输入字符图像,并且当用于字符识别的标准模式中没有注册字符时,当字符识别处理期间发生了错误时,当识别结果的可信度因子低时,当系统中没有注册相应的日语翻译时,当翻译处理期间发生了错误时,或者当处理结果的可信度因子低时,组合显示所定义的句子的文本输出以及所记录的输入字符图像的输出,由此降低在发生识别错误或任何其他错误时用户人工的校正的次数,并且改善便利性。
注意,本发明可以应用到由多个装置(例如主机计算机、接口装置、读取器、打印机,等)组成的系统,也可以应用到由单个设备(例如复印机、传真机设备,等)组成的装置。
本发明的目的还通过向系统或设备提供一种存储介质来实现,该存储介质包含可以实施上述各实施例功能的软件程序的程序代码。该程序代码接着由系统或设备的计算机(或CPU或MPU)来读取和执行。
在这种情况下,从存储介质读出的程序代码本身实施上述各实施例的功能,并且存储了该程序代码的存储介质组成本发明。
作为用于提供程序代码的存储介质,例如可以使用软盘(floppydisk)、硬盘、光盘、磁光盘、CD-ROM、CD-R、磁带、非易失性存储卡、ROM等。
上述各实施例的功能可以通过以下方式来实施用计算机执行读出的程序代码来实施,或者可以通过执行程序代码的指令,如由计算机上运行的OS(操作系统)执行的实际处理操作的一些或全部,来实施。
进而,上述各实施例的功能可以通过由设置在插入到或连接到计算机的功能扩展板或功能扩展单元中的CPU等执行的实际处理操作的一些或全部来实施。一旦程序代码从存储介质中读出,它就被写入功能扩展板或单元的存储器中。
由于可以不偏离本发明的实质和范围而做出本发明的许多明显广泛不同的实施例,因此应该理解,本发明不局限于其具体的实施例,而只受所附的权利要求的限定。
本申请要求2003年11月7日申请的日本专利申请No.2003-378877的优先权,在此通过参考引入该申请。
权利要求
1.一种信息处理设备,其特征在于包括记录装置,用于记录输入数据;识别装置,用于识别该输入数据;判断装置,用于判断所述识别装置是否能够识别该输入数据;以及输出装置,当所述判断装置判断所述识别装置能够识别该输入数据时,该输出装置输出基于所述识别装置的识别结果而产生的数据,以及,当所述判断装置判断所述识别装置不能识别该输入数据时,该输出装置输出基于记录在所述记录装置中的该输入数据而产生的输出数据。
2.根据权利要求1所述的设备,其特征在于还包括处理装置,用于处理所述识别装置的识别结果,其中当所述处理装置中的数据处理失败时,所述输出装置输出基于记录在所述记录装置中的输入数据而产生的输出数据。
3.根据权利要求1所述的设备,其特征在于,该输入数据是语音数据、字符数据和图像数据中至少之一。
4.根据权利要求2所述的设备,其特征在于,所述处理装置执行所述识别装置的识别结果的翻译处理。
5.根据权利要求1所述的设备,其特征在于,所述输出装置进行语音输出,或者进行显示输出。
6.根据权利要求1所述的设备,其特征在于,当所述识别装置的识别结果的可信度因子低时,所述判断装置判断该识别装置不能识别该输入数据。
7.根据权利要求1所述的设备,其特征在于,当没有注册该输入数据的相应翻译时,所述判断装置判断该识别装置不能识别该输入数据。
8.一种信息处理方法,其特征在于包括记录步骤,用于记录输入数据;判断步骤,用于判断是否能够识别该输入数据;以及输出步骤,用于当在判断步骤中判断能够识别该输入数据时,输出基于作为识别该输入数据的结果的识别结果而产生的数据,以及,当在判断步骤中判断不能识别该输入数据时,输出基于在记录步骤中记录的该输入数据而产生的输出数据。
9.根据权利要求8所述的方法,其特征在于还包括处理步骤,用于处理该识别结果,其中在输出步骤中,当处理步骤中的数据处理失败时,输出基于在记录步骤中记录的该输入数据而产生的输出数据。
10.根据权利要求8所述的方法,其特征在于,该输入数据是语音数据、字符数据和图像数据中至少之一。
11.根据权利要求9所述的方法,其特征在于,在处理步骤中,执行识别结果的翻译处理。
12.根据权利要求8所述的方法,其特征在于,在输出步骤中,进行语音输出,或者进行显示输出。
13.根据权利要求8所述的方法,其特征在于,当该识别结果的可信度因子低时,在判断步骤中判断不能识别该输入数据。
14.根据权利要求8所述的方法,其特征在于,当没有注册该输入数据的相应翻译时,在判断步骤中判断不能识别该输入数据。
15.一种存储介质,存储用于使计算机实施如权利要求8到14中任何一个的信息处理方法的控制程序。
16.一种控制程序,用于使计算机实施如权利要求8到14中任何一个的信息处理方法。
全文摘要
本发明涉及一种信息处理设备、信息处理方法和记录介质、以及程序。本发明的目的是当在用于识别输入数据并输出识别结果的信息处理设备的输入数据识别期间或识别结果处理期间发生错误时,节省用于校正和调节所需要的劳动时间。实施例中描述的信息处理方法包括记录步骤,记录输入数据(步骤S708),识别步骤,识别该输入数据(步骤S707),判断步骤,判断是否可以在识别步骤中识别该输入数据(步骤S709),以及输出步骤,当在判断步骤中判断能够识别输入数据时,输出基于识别步骤中的识别结果而产生的数据(步骤S713),并且当在判断步骤中判断不能识别输入数据时,输出基于记录步骤中记录的输入数据而产生的输出数据(步骤S710)。
文档编号G10L15/26GK1875400SQ200480032299
公开日2006年12月6日 申请日期2004年10月26日 优先权日2003年11月7日
发明者近江裕美, 八木泽津义, 广田诚 申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1