信息检索系统、方法和程序的制作方法

文档序号:6649391阅读:166来源:国知局
专利名称:信息检索系统、方法和程序的制作方法
技术领域
本发明涉及用于检索对于口头询问的回答的信息检索系统、方法和程序。
背景技术
通常,提供了多个询问回答系统,用于来自用户的口头询问,并且显示这种检索结果或者通过语音合成来输出该结果。在该系统中,通常,通过使用预先准备的询问回答知识(数据库)来产生回答。在该询问回答系统中,在输入的询问很含糊的情况下,很难产生用户想获得的回答。
已经提出了一种设计方案,用于如发生含糊的询问时则向用户进行附加询问,并且从用户获得对于该附加询问的回答,由此消除含糊性。例如,在日本专利申请公开No.2002-63209中,描述了一种信息处理装置,用于维持其中登记有内容的候选列表;根据从另一设备输入的检索条件,计算登记在该候选列表中的内容的相似度;在计算的相似度小于预定阈值的情况下,从候选列表中删除相应的内容;在保留在候选列表中的内容总数等于或者大于预定数目时,呈现询问条目给该另一个设备;以及进一步根据从该另一个设备输入的附加检索条件计算内容的相似度。
另外,在传统的系统中,已经进行了询问回答类型检索的研究和发展,用于分析文本信息,其中该文本信息是自然语言句子的询问,以及根据分析结果,从文档数据库中检索所要求的回答。该询问回答类型检索不同于通常的文档检索之处在于呈现对询问的回答,而没有任何在文档单位呈现上的超出和不足。例如,对于询问“富士山有多高?”的回答为“3776米”。
通常,为了实现对于口头询问的询问回答,首先,必须借助于语音识别处理将口头询问转化成文本信息。但是,在用于从文档数据库中进行检索的询问会答系统中,很难处理发生语音识别错误的情况。
在通过自然语言句子的口头询问进行文档检索的情况中,即使语音识别错误包括在该询问中,也能够根据正确的识别部分来进行文档的检索。但是,在用于从文档数据库进行检索的询问回答类型检索中,如果用于估计回答(回答的类型,例如长度和重要)的疑问表达(例如多少米或者多少公斤)的一部分发生识别错误,则不能检索正确的回答。

发明内容
根据本发明的一方面,提供一种信息检索系统,包括语音识别装置,用于对口头询问进行语音识别,以产生第一文本信息;产生装置,用于修正所述第一文本信息,以产生作为疑问的第二文本信息,以检索对于所述询问的回答;检索装置,用于通过使用所述第二文本信息,从文档数据库中检索所述回答。
根据本发明的另一方面,一种信息检索方法,包括对口头询问进行语音识别,以产生第一文本信息;修正所述第一文本信息,以产生作为疑问的第二文本信息,以检索对于所述询问的回答;以及通过使用所述第二文本信息,从文档数据库中检索所述回答。


图1是描述根据本发明第一实施例的信息检索系统的方框图;图2是显示信息检索系统的应用实例的视图;图3是显示数据库检索处理的流程图;
图4是显示文档分析处理的流程图;图5是用于描述回答候选检索处理和单词提取处理的视图;图6是用于描述词素分析处理和以及共现(co-occurrence)关系提取处理的视图;图7是显示存储在共现信息数据库中的表格的视图;图8是显示询问附加处理的流程图;图9是描述检索词检测处理和疑问表达检查处理的视图;图10是用于描述检索词检查处理的视图;图11是显示根据第一实施例的检索结果屏幕的视图;图12是显示根据第一实施例的检索结果屏幕的视图;图13是显示根据第二实施例存储在共现信息数据库中的表格的视图;以及图14是显示根据第二实施例的检索结果屏幕的视图。
具体实施例方式
此后,将参考附图,描述本发明的优选实施例。
第一实施例图1是描述根据本发明第一实施例的信息检索系统的方框图。提供图1所示的信息检索系统,作为这样一种系统,其用于语音识别来自用户的口头询问,以将语音识别的询问转换成文本信息,从而根据转换的文本信息,检索对询问的回答,并且将检索结果提供给用户。在该信息检索系统中,通过文档分析部件101,从包含在专用文档数据库10中的文档数据当中,分析可以产生作为检索词的单词与可以产生作为回答(回答候选)的候选表达之间的共现关系,其中专用文档数据库10具有预先登记在其中的用于检索的若干文档。然后,文档分析部件101将关于疑问表达与用于引入回答候选的检索词之间共现信息的信息存储在共现信息数据库11中。在此所使用的术语“共现关系”表示相邻的疑问表达同时出现的关系。信息检索系统通过使用出现在询问中的单词,从这些疑问表达和检索词当中,检索对于口头询问的回答。
将详细描述信息检索系统中的处理操作的流程。在该信息检索系统中,借助于语音识别部件102,识别由用户发出的声音所产生的询问句子,并且将这些语音识别的询问句子转化成文本信息。将转化成文本信息的信息提供给询问修正部件103。询问修正部件103分析文本信息;从共现信息数据库11中选择相应的共现信息;以及通过使用共现信息,将疑问表达添加到该文本信息。询问修正部件103将包括添加的疑问表达的文本信息提供给检索部件104。检索部件104根据来自询问修正部件103的文本信息和添加的疑问表达,查阅文档数据库10,并且从数据库当中检索对询问的回答。另外,检索部件104将回答提供给控制部件105。在控制部件105的控制下,将回答显示在显示部件106上。控制部分105进行从语音识别部件102到显示部件106的调用,并且根据用户操作进行控制。
将对于以下内容进行详细描述参考图3的信息检索系统中的整个处理操作;参考图4到图6的文档分析部件101的处理操作;以及参考图8到图10的询问修正部件103的操作处理。另外,将参考图7详细描述共现信息数据库11。
在这种方式下,在该信息检索系统中,将共现信息添加到作为语音识别结果的文本信息,并且根据共现信息来检索回答,由此,即使在口头询问发生识别错误的情况下,也可以检索正确的回答,使得可以向用户提供回答。
另外,如图2所示,在客户端301(例如通用个人计算机(PC))上可以实现图1所示的信息检索系统。此后,将结合图1和图2的设置,描述信息检索系统中执行的处理操作。首先,将信息检索系统执行的程序安装在盘206中,并且启动所述程序。由作为控制部件105的CPU 204来控制图1所示的每一个处理操作,由此,执行数据库检索处理。接下来,图1所示的语音识别部件102将通过语音输入设备201(例如麦克风)输入的口头输入转化成文本信息。响应于使用例如鼠标的指针设备202的屏上操作,控制部分105控制语音识别处理的开始和结束或者询问回答处理的启动。另外,控制部件105促使对应于显示部件106的显示设备203(例如显示单元)来显示在语音识别部件102、询问修正部件103和检索部件104处获得的结果。同时,在控制部件105控制每个处理操作的情况中,将数据临时存储在存储器205。
另外,可以分配信息检索系统或者数据库的处理操作,以将其分布在服务器302以及客户端301上,其中服务器302是经由网络1连接到它的客户端301的服务器计算机。例如,可以分配语音识别部件102,使得其由客户端301来执行。另外,分配文档分析部件101、询问修正部件103、检索部件104、文档数据库10以及共现信息数据库11,使得它们由服务器302来执行。另外,可以分配控制部件105和显示部件106,使得它们由客户端301和服务器302共同执行。
例如,使用客户端301上的Web浏览器,通过Java Script(注册商标)来描述在客户端301上操作的控制部件105。另一方面,在服务器302上,使用与JSP(Java Server Pages)兼容的Web服务器,通过JSP来描述在服务器302上操作的控制部件105,并且以可以根据Java Script(注册商标)或者Java(注册商标)调用的格式,封装图1中的每个部件,由此,可以在分布式环境下实现调用它们或者交换数据以及显示结果等操作。
另外,语音识别部件102借助于图2所示的语音输入设备201来执行口头输入的口述(dictation),并且在显示设备203上显示作为该口述的结果的文本信息。借助于商业上可获得的专用软件,来外部地控制语音口述处理或者结果显示处理。语音识别部件103使用这种软件。
现在,将描述由图1所示信息检索系统执行的数据库检索处理。在图3中,首先,将询问的语音输入语音识别部件102(步骤S1)。语音识别部件102识别输入的语音,并且将识别的语音转化成文本信息(步骤S2)。询问修正部件103从文本信息中提取共现信息,并且根据共现信息修正文本信息(步骤S3)。检索部件104根据修正的文本信息从文档数据库10中检索回答,并且提取回答(步骤S4)。检索部件104将提取的回答提供给控制部件105。控制部件105将提取的回答呈现在显示部件106上(步骤S5)。
在这种方式下,基于根据共现信息修正的文本信息来检索回答,由此,即使在询问的语音输入发生识别错误时,也可以检索正确的回答,并且将该回答提供给用户。
现在,将参考图4到图6描述使用文档分析部件101的文档分析处理。在图4中,首先,文档分析部件101检索可以产生作为对于询问回答类型检索的回答的表达(检索候选)(步骤S10)。接下来,文档分析部件101在检索的回答候选之前或者之后以预定的间隔提取预定数量的单词(步骤S11)。例如,如图5所示,在实例1的情况中,检索单位表达,例如,包含在文本信息中的“一个蒸汽盘”中的“一个”的表达(对应于步骤S10),并且在该单词周围提取预定的在先和后续单词(对应于步骤S11)。另外,在实例2中,检索包含在文本信息中的“将其在盘上加热5分钟”中的“分钟”的单位表达,以及在该单词周围提取预定的在先单词或者后续单词。可以检索具有例如长度或者重量的单位的数量表达,包括m(米)、cm(厘米)、g(斤)和kg(公斤)。在这种方式下,通过预先指定单位表达,例如“一个”和“分钟”或者长度和重量,在图4的步骤S10和S11中,从文档中提取这些单位表达之前和之后的预定间隔的预定数量单词(例如,多个字符)。
现在,如图4所示,文档分析部件101将提取的单词分解成若干词素,并且分析语音的一部分(步骤S12)。词素分析是在例如机器翻译的自然语言处理中通常执行的处理。这样,在此省略对其详细描述。接下来,文档分析部件101根据词素分析的结果从提取的单词中提取语音的预定部分(这里称为名词)的单词(检索词),并且经由它的检索词和回答候选,来产生在间接共现关系中建立的疑问表达(步骤S13)。文档分析部件101将检索词和疑问表达彼此相关联地存储在共现信息数据库11中(步骤S14)。
例如,如图6所示,当对提取的单词“Heat it on the plate for5 minutes(将其在盘上加热5分钟)”进行词素分析时,分析结果是“Heat<动词>it<代词>on<介词>the<冠词>plate<名词>for<介词>5<量词>minutes<名词>”,以及从词素当中提取名词“plate(盘)”和“heat(加热)”(对应于步骤S12)。在这种情况下,从与提取的单词中的回答“five minutes(五分钟)”相结合的表达中,根据利用回答“minutes(分钟)”的单位的“how many(多少)”,来产生疑问表达“howmany time(多少次)”。
即,在本实施例的情况下,通过将“How many(多少)”和回答的单位(例如,参考图4的步骤S10的单位表达)相结合来自动产生疑问表达,以及自动产生的疑问表达存储在共现信息数据库11中。对于检索词和疑问表达之间的关联,可以准备关联规则。例如,在常规表达中描述了回答候选的类别,以及将常规表达和疑问表达相互关联。提出了一种方法,用于检查回答候选和与它们相互关联的常规表达,以及将已经成功检查的与常规表达相关联的疑问表达与回答候选相关联。另外,检索词和疑问表达彼此关联,以及共现信息以图7所示的两种格式存储在共现信息数据库11中,使得双向关联地记录这些工作中的两个。
现在,描述在共现信息数据库11中存储的表格。在图7所示的表格110中,以两种格式相互关联地存储检索词和疑问表达。在第一中格式中,多个检索词与一个疑问表达相关联。在第二中各是中,多个疑问表达与一个检索词相关联。例如,在第一种格式中,检索词“盘、蒸汽”相对于疑问表达“多少”来存储。在第二个格式中,疑问表达“多少、多少分钟、多少小时等等”相对于检索词“盘”来存储。根据图6所示的实例,根据提取的检索词“盘、烤炉、熏肉”,产生疑问表达“多少分钟”。这样,在第一种格式中,检索词“盘、烤炉、熏肉”相对于疑问表达“多少分钟”来存储,而在第二种格式中,疑问表达“多少分钟”相对于检索词“盘”、“烤炉”和“熏肉”的每一个来存储。
现在,参考图8到图10,描述使用询问修正部件103的询问添加处理。在图8中,首先,询问修正部件103检查是否图7所示的检索词包括在文本信息中,以及从图7所示的共现信息中列出对应于该检索词的疑问表达(步骤S20)。询问修正部件103测量列出的疑问表达和包含在文本信息中的表达之间在单词上的相似度,并且选择已经成功地检查在相似度上等于或者大于预定阈值的疑问表达(步骤S21)。
通过下式获得单词的相似度相似度S=1-(d/L)其中,疑问表达的字符数L基于这些单词两者的语音符号之间的编辑距离“d”。
对照疑问表达,来检查整个文本信息,以及包含在文本信息的部分单词中的疑问表达和具有最大相似度的单词之间的相似度被定义作为疑问表达和文本信息之间的相似度。这可以通过对照部分单词检查疑问表达来实现,所述部分单词是通过从开始逐个单词地移动询问句子以及当检查处理到达疑问表达的结尾时停止相似度的计算。在这种方式下,上述“d”等于或者小于L,以及相似度S被获得在值0和1之间。
例如,如图9所示,提取在文本信息“(Now many cream platesare attached”中包括的检索词,并且通过查阅共现信息数据库11,根据提取的检索词“plate”,来列出疑问表达“how many(多少)、howmany minutes(多少分钟)、how may hours(多少小时)等等”(对应于步骤S20)。接下来,从列出的疑问表达中,首先,比较文本信息和疑问表达之间的语音符号。在这种情况下,“now many”和“how many”、“cream”和“steam”的前面字符是不同的,由此,获得d=2。因此,因为“how many”和“cream”的长度分别是L=7和L=5,所以相似度S=1-(2/12)=大约0.833。类似地,也计算例如“how many minutes”、“how many hours”的相似度。在该实例中,留下单词“多少”和“多少小时”。检查这些疑问表达和共现的steam(蒸汽)、oven(烤炉)。在这种情况下,留下仅仅“steam”(没有找到具有类似语音符号的单词),类似地,获得对于其它疑问表达的相似度,并且以相似度的顺序,存储具有阈值或者更高的上述疑问表达(对应于步骤S21)。
再次参考图8,当询问修正部件103找出类似度等于或者大于预定类似度的疑问表达时,根据这些疑问表达,从图7所示的共现信息中,列出相应的检索词。如同疑问表达的情况,询问修正部件103相互检查检索词和文本信息,以及选择具有预定或者更高相似度的任何检索词(步骤S22)。最后,询问修正部件103将选择的疑问表达添加到文本信息的结尾,以及将检索词添加到文本信息的开头(步骤S23)。但是,如果将要添加的疑问表达或者检索词开始就包括在表示语音识别结果的文本信息中,则没有添加单词。
例如,作为使用询问修正部件103在文本信息和疑问表达之间检查的结果,假设留下三个疑问表达“how many、how many minutes、how many hours”。从图7所示的共现信息中利用文本信息,检查与这些疑问表达共现的检索词“bacon(熏肉)、steam(蒸汽)、oven(烤炉)、steam(蒸汽)、heat(加热)”。为了清楚起见,作为结果,假设仅仅经由疑问表达“how many、how many minutes”的检索词“steam”具有等于或者大于预定阈值的相似度,并且通过利用文本检查而留下来。询问修正部件103将获得的疑问表达添加到文本信息的结尾,并且将检索词添加到文本信息的开头。此时,对于每个疑问表达,添加询问信息和检索词。例如,在疑问表达“how many”的情况下,检索词“steam”添加到文本信息开头以及疑问表达“how many”添加到其结尾。但是,在询问信息“how many hours”的情况中,询问信息“how many hours”和检索词“steam”没有共现,这样,检索词“steam”没有添加到文本信息的开头。
另外,在通过利用询问修正部件103进行处理操作之后,检索部件104查阅具有存储在其中用于检索的文本信息的文档数据库10,并且根据在询问修正部件103的处理操作之后获得的文本信息来检索回答。在疑问表达包括在文本信息的情况下,执行询问回答类型检索。在没有包括疑问表达的情况下,执行常规的文档检索。
在疑问表达包括在文本信息中的情况下,询问回答类型检索首先根据疑问表达指定回答的类型。在此所使用的回答的类型是指将要输出作为回答的表达的类型,例如重要或者长度。接下来,在根据文本信息对文档数据库10执行常规的文档检索(例如是量空间方法)之后,扫描上面的文档组作为该检索的结果,以及提取与上述指定的回答类型相匹配的回答候选的单词。最后,根据与包含在相同文档中的选中单词(包含在文本信息中并且出现在文档中的单词)相关的距离(其单位是出现位置的近似的距离,例如字符的数量),来排列提取的回答候选的单词,以及输出第一位置的单词作为回答。参考区域53,描述包含在文档中的信息,在该文档中,在图12所示的检索结果屏幕上出现回答。从出现在文档中的选中单词“steam plate(蒸汽盘)”之前和之后的字符组中,输出与最接近该“steam plate”的与“how many”有关的单词“one”,作为回答(除了具有从用于扫描的目标输入的线的字符组)。
在此时,增加到回答中的内容包括文档信息(例如文档ID),其在包括该回答的文档当中具有用于询问的文本表达的文档检索的最高检索分值。在用于指定回答的疑问表达没有包括在文本信息中的情况下,执行常规的文档检索,并且提供关于检索分值最高的文档的文档信息。
接下来,描述已经提供了回答等的情况,例如根据第一实施例显示在显示设备203上的检索结果屏幕。图11所示的检索结果屏幕60显示了区域61,其中将显示关于语音识别结果的文本信息;检索按钮62,用于检索对于口头询问的回答;清除按钮63,用于清除区域61的语音识别结果;区域64,用于以近似度下降的顺序显示包括疑问表达及其回答的文本信息;以及区域66,用于显示包含在文档中的信息,在该文档中,出现从语音识别结果检索的回答。在区域64中,以近似度下降的顺序,显示具有增加到其上的如图10所示的疑问表达的文本信息。在此时,当选择检索按钮62时,以建立一个链接的状态,在区域64的右侧显示每个回答。另外,根据关于显示在区域61中的语音识别结果的文本信息,在区域66中,显示包含在检索回答通常出现的文档中的信息。即使没有选择检索按钮62,如果在预定间隔没有执行发声,则可以在区域64上显示通过将疑问表达添加到区域61的语音识别结果所获得的文本信息及其相关回答。另外,可以在区域66中显示包含在文档中的信息,该文档根据包含在区域61中的文本信息来检索。
在Web浏览器上实现图11所示的检索结果屏幕60。通过选择其中已经建立了显示在区域64中的链接的回答,显示其上包括该回答的页面,同时记录超链接。例如,当选择回答结果“one(一个)”(此时已经建立了区域65的链接)时,显示图12所示的屏幕。
如此构造检索结果屏幕60,使得可以识别其中已经将疑问表达正确地添加到文本信息中的情况和其中已经添加了不正确的疑问表达的情况,以及改进检索结果的功能性。
图12显示了在已经选择了图11所示的区域65的情况中显示的检索结果屏幕。图12所示的检索结果屏幕50显示了区域51,用于显示关于语音识别结果的文本信息或者包括共现信息的文本信息;区域52,用于显示检索结果的回答;以及区域52,用于显示包含在出现回答的文档中的信息。在图11的实例中,在区域53中,显示对修正作为“steam,Now many cream plates are attached,How many?”的询问的回答,作为“One(一个)”,以及在区域53中,显示在其上已经描述了回答的页面当中具有最高检索分值的页面。
在这种方式下,通过将疑问表达和检索词添加到被识别作为语音的文本信息中,来进行检索,由此,即使询问的语音输入发生识别错误,也可以通过检索回答而将正确的回答提供给用户。另外,同时显示其上已经描述了回答的页面,这样,可以检查与询问相关的另一信息项,例如,是否对询问的回答是准确的。
<第二实施例>
现在,在此描述根据第二是实施例的信息检索系统。根据第二是实施例的信息检索系统不同于根据第一实施例的信息检索系统的地方主要在于在文档分析部件中101中,通过使用语音识别的下一个候选信息,利用语音识别的第一候选代替存在于下一个候选中的疑问表达候选。即,根据第二是实施例的信息检索系统与根据第一实施例的信息检索系统的不同之处在于根据共现信息来修正文本信息的一部分,而没有添加文本信息,例如疑问表达和检索词。
现在,在此描述根据第二是实施例的信息检索系统的处理操作。根据第二实施例的信息检索系统具有与根据第一实施例的信息检索系统相同的结构。首先,借助于语音识别部件102,识别由用户发出的声音引起的询问句子,然后,将其转化成文本信息。控制部件105获取关于来自语音识别部件102的识别结果的信息,并且将其提供给询问修正部件103。询问修正部件103获取与每个单词有关的下一个候选,所述单词构造来自语音识别部件102的文本信息。检索部件104根据询问修正部件103的结果来检索回答。没有必要对于构造文本信息的每个单词仅仅存储一个下一个候选,可以存在多个候选。如果疑问表达或者检索词从开始就包括在文本信息中,则询问修正部件103不起作用,以及提供文本信息本身给检索部件104。另外,在没有疑问表达或者检索词包含在文本信息中并且没有疑问表达包括在任何下一个候选的情况下,询问修正部件103也不气作用,并且提供文本信息本身给检索部件104。相反,虽然没有疑问表达包括在文本信息中,但在该疑问表达包括在下一个候选中的情况下,扫描文本信息的下一个候选,并且利用以下一个候选的相应部分代替第一个找到的疑问表达,由此,修正文本信息以及提供修正结果。在根据本发明第二实施例的信息检索系统中,在图8的询问修正处理当中,执行步骤S20的检测检索词、步骤S21的检查疑问表达、以及步骤S22的检查检索词,以及没有执行步骤S23的添加疑问表达或者检索词。在根据第二实施例的信息检索系统,扫描通过图1的语音识别部件102输出的下一个候选表格,代替步骤S23的添加疑问表达或者检索词。如果作为步骤S21的检查疑问表达或者步骤S22的检查检索词的结果的疑问表达或者检索词存在作为下一个候选,则该下一个候选被识别结果的相应部分代替。
在这种方式下,以对用户来说很自然的方式,修正作为语音识别的文本信息,由此可以很容易地检索正确的回答。
现在,在此描述由语音识别部件输出的下一个候选表格。图13所示的表格120仅仅显示了与作为语音识别的文本信息的每个单词有关的下一个候选。例如,相对于单词“milk(牛奶)”,存储下一个候选“mill(磨坊)、mild(温和的)、steam(蒸汽)等等”。在图9和10所示的情况中,在根据第二实施例的信息检索系统中,询问修正部件103将文本信息单词“milk”修正为“mild”,因为单词“milk”是已经成功地在下一个候选中检查的检索词“steam”。另外,询问修正部件103将文本信息单词“now many”修正为“how many”或者“howmany minutes”,因为单词“now many”包括在下一个候选中的“howmany”和“how many minutes”。在图14所示的检索结果屏幕上,显示由询问修正部件103修正的文本信息。
接下来,在此描述根据第二实施例的检索屏幕。图14所示的检索结果屏幕70显示了区域71,用于显示关于语音识别结果的文本信息或者包括共现信息的文本信息;区域72,用于以相似度下降的顺序显示包括共现信息的文本信息及其回答;以及区域73,用于显示文档的内容,在该文档中,出现从语音识别结果检索的回答。比较图14所示的区域72和图11所示的区域64,在区域72中,没有显示在区域64中显示的包括疑问表达“how many minutes”的文本信息,因为在第二实施例中,该信息没有出现在下一个候选中。
正如以上所提及的,共现信息被添加到作为语音识别的文本信息中,以及根据共现信息来检索回答,由此,即使在询问语音输入中发生识别错误时,也可以通过检索正确的回答而将其提供给用户。
可以通过硬件以及可以通过使用计算机的软件来实现上述实施例中描述的信息检索处理操作。即,根据本发明,提供程序,使得计算机执行数据库检索处理操作,包括对口头询问进行语音识别以产生第一文本信息;修正第一文本信息以产生用于将回答引入给询问的疑问表达以及第二文本信息,第二文本信息包括疑问表达;以及通过使用第二文本信息检索文档数据库,以提取回答。
根据本发明,即使在询问的语音输入中发生识别错误的情况下,也可以通过检索正确的回答而将其提供给用户。另外,本发明可以减少在开始检索之后用户回答所需的时间或者与检索处理相关联的成本。
对于本领域所属技术人员来说,附加的优势和修正是很容易发生的。因此,本发明在其较宽的方面并不局限于在此显示和描述的特定细节、代表性设备和示意性实例。因而,可以做出各种修改,而没有偏离所附权利要求及其等效所定义的总的发明原理的精神和范围。
权利要求
1.一种信息检索系统,包括语音识别装置,用于对口头询问进行语音识别,以产生第一文本信息;产生装置,用于修正所述第一文本信息,以产生作为疑问的第二文本信息,以便检索对于所述询问的回答;以及检索装置,用于通过使用所述第二文本信息,从文档数据库中检索所述回答。
2.根据权利要求1所述的信息检索系统,还包括存储装置,用于通过使用共现关系,相互关联地存储用于检索回答的疑问表达候选和用于检索文档的检索词;其中,所述产生装置通过查阅所述第一文本信息,从所述存储装置中选择作为所述疑问的所述第二文本信息。
3.根据权利要求2所述的信息检索系统,还包括检索装置,用于从所述第一文本信息中检索一个检索词;以及产生装置,用于从所述第一文本信息中产生包括所述回答中的一个的单词,作为所述疑问表达候选。
4.根据权利要求2所述的信息检索系统,其中,所述存储装置将一个疑问表达候选与多个检索词相关联地存储,以及将一个检索词与多个疑问表达候选相关联地存储。
5.根据权利要求4所述的信息检索系统,还包括检索装置,用于从所述第一文本信息中检索检索词;以及产生装置,用于从所述第一文本信息中产生包括所述回答中的一个的单词,作为所述疑问表达候选。
6.根据权利要求2所述的信息检索系统,其中,所述产生装置包括检测装置,用于从所述第一文本信息中检测所述检索词;选择装置,用于从对应于由所述检测装置检测的检索词的多个疑问表达候选中选择疑问表达候选,该疑问表达候选对于包含在所述第一文本信息中的所述单词的近似度等于或者大于阈值;添加装置,用于将每个所述选择的疑问表达候选添加到所述第一文本信息中,由此产生多条所述第二文本信息。
7.根据权利要求1所述的信息检索系统,还包括显示装置,用于一起显示所述第二文本信息和所述回答。
8.根据权利要求6所述的信息检索系统,还包括显示装置,用于以相似度的降序一起显示所述多条第二文本信息和所述回答。
9.根据权利要求7所述的信息检索系统,其中,所述显示装置显示将与文档数据相链接的所述回答,所述文档数据包含在包括所述回答的所述数据库中。
10.根据权利要求1所述的信息检索系统,还包括存储装置,用于相对于构成所述第一文本信息的单词来存储语音识别的下一个候选,其中,所述产生装置通过利用所述下一个候选代替包含在所述第一文本信息中的所述单词,来产生所述第二文本信息。
11.一种信息检索系统,包括语音识别器,用于对口头询问进行语音识别,以产生第一文本信息;产生器,用于修正所述第一文本信息,以产生作为疑问的第二文本信息,以便检索对于所述询问的回答;以及检索器,用于通过使用所述第二文本信息,从文档数据库中检索所述回答。
12.根据权利要求11所述的信息检索系统,还包括存储器,用于通过使用共现关系,相互关联地存储用于检索回答的疑问表达候选和用于检索文档的检索词;其中,所述产生器通过查阅所述第一文本信息,从所述存储器中选择作为所述疑问的所述第二文本信息。
13.根据权利要求12所述的信息检索系统,还包括检索器,用于从所述第一文本信息中检索检索词;以及产生器,用于从所述第一文本信息中产生包括所述回答中的一个的单词,作为所述疑问表达候选。
14.根据权利要求12所述的信息检索系统,其中,所述存储器将一个疑问表达候选与多个检索词相关联地存储,以及将一个检索词与多个疑问表达候选相关地存储。
15.根据权利要求14所述的信息检索系统,还包括检索器,用于从所述第一文本信息中检索检索词;以及产生器,用于从所述第一文本信息中产生包括所述回答中的一个的单词,作为所述疑问表达候选。
16.根据权利要求12所述的信息检索系统,其中,所述产生器包括检测器,用于从所述第一文本信息中检测所述检索词;选择器,用于从对应于由所述检测器检测的检索词的多个疑问表达候选中选择疑问表达候选,该疑问表达候选与包含在所述第一文本信息中的所述单词的相似度等于或者大于阈值;添加器,用于将每个所述选择的疑问表达候选添加到所述第一文本信息中,由此产生多条所述第二文本信息。
17.根据权利要求11所述的信息检索系统,还包括显示器,用于一起显示所述第二文本信息和所述回答。
18.根据权利要求16所述的信息检索系统,还包括显示器,用于按照相似度的降序一起显示所述多条第二文本信息和所述回答。
19.根据权利要求17所述的信息检索系统,其中,所述显示器显示将与文档数据相链接的所述回答,所述文档数据包含在包括所述回答的所述数据库中。
20.根据权利要求11所述的信息检索系统,还包括存储器,用于相对于构成所述第一文本信息的单词来存储语音识别的下一个候选其中,所述产生器通过利用所述下一个候选代替包含在所述第一文本信息中的所述单词,来产生所述第二文本信息。
21.一种信息检索方法,包括对口头询问进行语音识别以产生第一文本信息;修正所述第一文本信息以产生作为疑问的第二文本信息,以检索对于所述询问的回答;以及通过使用所述第二文本信息,从文档数据库中检索所述回答。
全文摘要
本发明公开了一种信息检索系统,包括语音识别装置,用于对口头询问进行语音识别以产生第一文本信息;产生装置,用于修正所述第一文本信息以产生作为询问的第二文本信息,以检索对于所述询问的回答;以及检索装置,用于通过使用所述第二文本信息,从文档数据库中检索所述回答。
文档编号G06F17/30GK1815471SQ20051010848
公开日2006年8月9日 申请日期2005年9月30日 优先权日2005年1月31日
发明者真锅俊彦, 筒井秀树, 浦田耕二, 福井美佳, 羽山宽子 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1