用于自动回答自然语言问题的方法和计算机系统的制作方法

文档序号:6479026阅读:202来源:国知局
专利名称:用于自动回答自然语言问题的方法和计算机系统的制作方法
技术领域
本发明涉及用于自动回答自然语言问题的计算机系统和/或用于将例如自然语 言问题等工作词条分配给例如研究者等代理的计算机系统。
背景技术
支持数据的移动设备(主要但非排他地为移动电话)的广泛应用产生了在移动中 访问信息的需求。传统的互联网搜索解决方案不能有效地解决这一需求。传统的互联网搜索解决方案依赖于允许用户有效地进行如下重复的程序1.输入搜索词条(通常包括一个或多个关键词)。a.这将产生一系列搜索结果,通常首先按照“最相关”进行排序。b.每个结果包括到带有一些概括信息的完整结果的链接。2.用户检查这些检索结果,查看其中是否包含他们所需要的信息。a.有时可以根据单独针对每个结果的概括信息,来作这样的决定。b.有时用户打开一个或多个完整结果以检查完整的内容。3.如果没有一个匹配包含需要的信息,用户可以a.查看结果的其他部分。b.改进搜索词条,并从上述步骤1重新开始。从技术上看,移动设备有很多局限性 慢,延时长,以及网络连接断断续续。 显示器小(即在分辨率和物理尺寸两方面)。 文字输入慢且笨拙。 软件(互联网浏览器,文件阅读器/编辑器)相比于桌上计算机上的同等软件 其功能性大大下降。这些局限性在如下方面降低了上述搜索的效率 上述重复过程的每个步骤用时更长,大大降低其效率。这是因为〇文字输入慢意味着输入搜索词条用时更长。〇长延时连接意味着从输入搜索词条到看到结果的时间更长。〇连接慢意味着打开完整结果用时更长。〇连接不可靠导致重复过程的一个步骤失败的可能性。 对于搜索引擎可用的信息源中很多没有针对移动设备进行优化,这意味着〇信息可能无法正确显示。〇显示的信息的量可能过多,导致“见树不见林”。〇可能需要很长的时间加载消息(进一步降低了重复过程的效率)。出了上述技术原因之外,传统的互联网搜索不适用于移动应用,还有很多实践/ 社会学方面的原因 不同于可能只是简单浏览的桌上计算机用户,移动用户通常具有更关注的问题——他们想要得到针对具体问题的具体答案。搜索结果通常不能很好的解决这一点。〇答案可能在所有完整结果的一个中的某处出现,但其通常会被其他不太相关的 (从移动用户的观点出发)上下文包围。〇回答该问题的信息可能会出现,但是其措辞不是作为对该问题的回答。〇可能需要将几个结果组合来综合成对该问题的回答(例如对于“埃菲尔铁塔和 自由女神像那个更高”这个问题的搜索结果,可能包括含有其中一个的高度的结果,和含有 另一个的高度的结果,但是没有直接比较这两个高度的结果)。 移动用户通常空闲时间很少,更多其他的事情占据了他们的时间。特别是他们 不可能有足够的时间进行上述的重复过程(即便没有移动技术的局限性造成的无效率)。由于所有这些原因,已知的搜索技术对于移动用户的信息访问需求来说不是合 适的解决方案。而且,通常,计算机和不能准确地回答不受限制的自然语言问题,尽管 这是一个活跃的研究领域(例如,在年度文本检索会议(Text Retrieval Conference TREC)竞赛中竞争的各个解决方案中所描述的=http://trec.nist· rov/,以及商业服 务 Powersethttp //www, powerset. com/-禾口“真 知”(true knowledRe) http / / www. trueknowledRe. com/)。申请人:认识到需要一种改进的移动搜索方法。此外,由于计算机还不能准确地回答不受限制的自然语言问题,这些问题通常被 分配在很多个研究该问题并给出答案的研究者(代理)中间。将工作词条分配到代理的传 统方法有如下问题代理对工作词条的能力被无效率地匹配(例如,循环制,其中工作词条 按顺序分配给代理),或易受对策影响(例如,不同价格,其中不受欢迎的工作词条与更高 的价格相关联,且我们依赖于市场力量来保证所有的工作词条都被及时处理)

发明内容
根据本发明的一个方面,提出了一种用于自动回答自然语言问题的计算机系统, 该系统包括用来接收所述自然语言问题的输入端;用来记录链接的问题和相应答案对的 数据存储器;用来比较接收的自然语言问题和所述链接的问题和答案对的匹配器;以及如 果没有找到匹配,则将所述接收的自然语言问题转给研究者的输出端。该计算机系统可进一步包括将问题和相应答案的对链接到分组中的系统,使得能 够产生针对每个问题和答案的对的分组的典型答案,并在所述数据存储器中存储所述典型 答案;其中所述匹配器将所述接收的自然语言问题和所述数据存储器中具有相关联的典型 答案的问题进行比较,并响应于所述匹配,输出针对所述问题的所述相关联的典型答案。因此根据本发明的另一方面,提出了一种用于自动回答自然语言问题的计算机系 统,该系统包括用来接收所述自然语言问题的输入端;用来将所述问题呈现给研究者,并 输入针对所呈现的问题的答案的研究者用户界面;以及用来记录问题和相应答案的对的数 据存储器。该系统进一步包括将问题和相应答案对链接到分组中的系统,使得能够产生链 接的问题和答案对的每个分组的典型答案,并将所述典型答案存储在所述数据存储器中; 以及将接收的自然语言问题与所述数据存储器中具有相关联的典型答案的问题相匹配,并 响应于所述匹配,输出针对所述自然语言问题的所述典型答案的系统。此外,该匹配器可输出所有与所述接收的自然语言问题相匹配的链接的问题和答案对,且该系统可进一步包括一输入端,用以接收请求以将特定自然语言问题发送到研究 者,其中所述输出端响应于所述请求,将所述特定自然语言问题发送给研究者。因此,根据本发明的另一方面,提出了一种用于自动回答自然语言问题的计算机 系统,该系统包括用来接收所述自然语言问题的输入端;用以记录链接的问题和相应答 案对的数据存储器;匹配器,用以对比接收的自然语言问题和所述数据存储器中的链接的 问题和答案对,并输出所有与所述接收的自然语言问题相匹配的所述链接的问题和答案 对;以及用来接收请求以将特定自然语言问题发送给研究者的输入端;用来将所述特定自 然语言问题发送给研究者的输出端;其中所述数据存储器用以接收来自所述研究者的针对 所述特定自然语言问题的答案,在所述数据存储器中存储所述问题和接收的答案作为链接 对,并输出所述问题和接收的答案。换言之,在两种情况中,计算机系统自动回答自然语言问题的子集,其中已经存储 了相似的问题/答案对。在一个实施例中,将这些问题的子集与典型答案相关联。如果没 有存储匹配的问题/答案对,研究者可以提供答案,该答案被添加到数据库中,以增加可完 全自动回答的问题的子集。齐普夫定律(Zipfs Law)指出,在自然语言表达的文集中,任何词语的频率与其在 频率表中的排序大致成反比。除了词语频率之外,齐普夫定律对于很多其他自然语言现象 都是(大致)成立的。特别是,对于例如我们这里关心的人们提出的有关系统的问题,齐普 夫定律(大致)成立。齐普夫定律的结论是相对小的问题集合占了提出的问题的总数的相对大部分。这 些问题以微妙的不同形式被反复提出。这些常见的问题的例子可包括 先有鸡还是先有蛋?·明天的天气预报是什么? 猫王(Elvis Presley)是何时去世的? 时钟何时返回?因此通过自动回答这些被频繁提问的问题,可以对自动回答的问题的数量产生特 别大的影响。系统可适用的问题的子集是那些针对他们的答案非时间敏感的问题(即昨天对 该问题的正确答案今天仍然是正确答案)。因此,该系统不能处理“明天的天气预报是什么” 这样的问题。然而,该系统能够处理“先有鸡还是先有蛋? ”以及“猫王(Elvis Presley)是 何时去世的? ”这样的问题。也可扩展该系统以处理稍微时间敏感的问题,例如“时钟何时 返回?”(对于该问题的答案确实随时间变化,但是在长时期内保持恒定)。该系统可确定系统所接收的问题是否是时间依赖的,例如利用自动代理。该系统 可进一步包括询问实时数据馈送以产生针对时间依赖问题的答案的装置。该询问装置可以 是第二自动代理或可以结合在第一自动代理中。可利用自然语言解析系统来确定问题是否为时间依赖的,并可利用链接的问题和 答案对的所述数据库训练该自然语言解析系统。可训练该自然语言解析系统来辨别移动用 户通常使用的简洁且风格化的文本语言。该链接问题和相应答案对的系统可构建所述问题和相应答案对的分离的定向图, 并且可建立所述图的发送闭包来识别将由所述典型答案回答的所述问题和相应答案对的候选分组。这样,该系统自动识别了可为其产生典型答案的问题/答案对。该链接问题和相应答案对的系统可进一步包括调解器用户界面,以将链接的问题 和相应答案对的分组呈现给调解器用于查看。该调解器用户界面使得调解器能够从所述分 组中的链接的问题和答案对的所述答案中识别所述典型答案。所述典型答案可以目前的格 式重复利用所述答案之一,可组合分组中的两个或更多个答案,或修改分组中的答案以包 含额外的信息。偶尔地,可以通过搜索(scratch)产生典型答案。一旦产生了典型答案,将 所述典型答案存储在所述数据存储器中,与链接的问题和答案对的所述相应分组相关联。该调解器用户界面可进一步使得所述调解器能够确定链接的所述问题和答案对 的每个所述分组中的每个问题是否由与所述分组相关联的所述典型答案回答。该链接问题 和相应答案对的系统可存储问题是否被确认,并可保留所述分组中的具有相关联的典型答 案的问题,这些问题将不由所述分组中的所述典型答案回答,并标记所述不由所述典型答 案回答的所述问题。用来构建每个链接的问题和答案对的来源的记录也可存储在所述数据存储器中。 如果所述典型答案是通过修改分组中的答案以包括额外信息来产生的,这可能特别有用, 因为要修改的答案的来源可能提供所需的额外信息。相似地,如果所述典型答案是通过研 究者搜索产生的,分组中针对该问题的答案的来源可能有用。根据本发明的另一方面,提供了一种自动回答自然语言问题的方法,该方法包括 处理自然语言问题和相应答案对的数据存储器;输入所述自然语言问题;将所述自然语言 问题与所存储的自然语言问题相匹配,输出所有来自所述匹配步骤的匹配结果,以及如果 没有找到匹配结果,将特定自然语言问题发送给研究者。该方法可包括将所述自然语言问题分组,并针对所述分组的问题产生典型答案, 或接收请求以将所述特定自然语言问题发送到研究者,并响应于所述请求发送所述特定自 然语言问题。根据本发明的另一方面,提出了一种自动回答自然语言问题的方法,该方法包括 利用计算机系统处理自然语言问题和相应答案的数据存储器,以将所述自然语言问题分 组,以及针对所述分组的问题产生典型答案;以及利用所述典型答案自动回答自然语言问 题。根据本发明的另一方面,提出了一种自动回答自然语言问题的方法,该方法包括 处理将自然语言问题和相应答案对链接到分组的数据存储器,并针对链接的问题和答案的 每个分组产生典型答案;输入所述自然语言问题;将所述自然语言问题与所存储的自然语 言问题相匹配,并在发现匹配时利用所述典型答案自动地回答所述自然语言问题。可通过构建所述问题和相应答案对的分离的定向图来处理自然语言问题和相应 答案的数据存储器。可建立所述图的发送闭包来识别由所述典型答案回答的所述问题和相 应答案对的分组。产生每个所述典型答案可包括将链接的问题和相应答案对的分组-输入到调解 器,用来查看和接收来自所述调解器的所述典型答案。该分组可通过调解器用户界面输入, 该调解器用户界面可使得调解器能够识别所述典型答案,如上文所述。可确认问题分组中的每个问题来确保所述典型答案正确地回答了每个所述问题。 确认可包括将每个问题和典型答案输入到所述调解器用于查看,从所述调解器接收每个问题是否由所述典型答案回答的信息,并存储所述信息。如果没有匹配的存储的自然语言问题,可将所述自然语言问题输出给研究者。然 后该方法可包括接收来自所述研究者的答案,将该答案发送给提问者,更新所述数据存储 器以在所述数据存储器中包含所述问题和接收的答案作为链接对。来自所述研究者的接收的答案可重新使用来自存储在数据存储器中的链接的问 题和答案对的答案。在这种情况下,该方法进一步包括将输入的自然语言问题与数据存储 器中具有被重复利用的答案的问题分组,并产生针对所述分组的输入问题和重新使用的问 题的典型答案。用来构建每个问题和答案对的来源的记录也可存储在所述数据存储器中。该来源 可显示给具有匹配结果的用户或研究者。这样的优点是,如果没有匹配结果直接回答用户 的问题,该用户可以打开可能包含提供答案的必要信息的原始来源。此外,如果研究者能够 重新使用存储在数据库中的答案的一部分,这将非常有用,因为用来构建该存储的答案的 来源可能构成研究所述输入问题的很好的起点。根据本发明的另一方面,提出了一种自动回答自然语言问题的方法,该方法处理 链接的自然语言问题和相应答案对的数据存储器;输入所述自然语言问题;将所述自然语 言问题匹配到所存储的链接的自然语言问题和相应答案对;输出所有与接收的自然语言问 题相匹配的链接的自然语言问题和相应答案对;如果在所述输出步骤之后接收到将所述特 定自然语言问题发送到研究者的请求,则将特定自然语言问题发送给研究者;接收来自所 述研究者的针对所述特定自然语言问题的答案,更新所述数据存储器以在所述数据存储器 中包含所述问题和接收的答案作为链接对,并输出所述问题和接收的答案。每个方法可包括确定系统接收的问题是否是时间依赖的,并且可进一步包括询问 实时数据馈送以产生针对时间依赖问题的答案。该确定可利用自然语言解析系统,可利用 链接的问题和答案对的所述数据库来训练该自然语言解析系统。根据本发明的另一方面,提供了一种用于自动回答自然语言问题的计算机系统, 该系统包括接收所述自然语言问题的输入端;确定所述输入的自然语言问题是否为时间 依赖的装置;询问装置,用以从实时数据馈送中提取针对时间依赖问题的答案;发送所述 提取的答案的输出端;接收请求以将特定自然语言问题发送给研究者的输入端;将所述特 定自然语言问题发送给研究者的输出端;其中所述数据存储器用于接收来自所述研究者的 针对所述特定自然语言问题的答案,并输出所述接收的答案。该系统可进一步包括记录链接的问题和相应答案对的数据存储器;以及匹配器, 用以比较所述接收的自然语言问题和所述数据存储器中的所述链接的问题和答案对,并输 出所有与所述接收的自然语言问题相匹配的链接的问题和答案对。根据本发明的另一方面,提出了一种自动回答自然语言问题的方法,该方法包括: 输入所述自然语言问题;确定所述输入的问题是否为时间依赖的;从实时数据馈送中提取 针对时间依赖问题的答案;输出所述提取的答案;如果在所述输出步骤之后,接收到将所 述特定自然语言问题发送给研究者的请求,则将特定自然语言问题发送给研究者;接收来 自所述研究者的针对所述特定自然语言问题的答案,更新所述数据存储器以在所述数据存 储器中包含所述问题和接收的答案作为链接对,并输出所述接收的答案。上述任意计算机系统和/或方法可进一步适用于将待回答的自然语言问题(即工作词条)公平地分配给研究者(即代理)。因此该系统可进一步包括服务器,用于给每个所 述自然语言问题分配不受欢迎程度(unpopularity)分数;多个研究者工作站,每个具有研 究者用户界面,以及将所述服务器连接到所述多个研究者工作站的通信网络;其中每个研 究者用户界面将多个所述自然语言问题呈现给研究者,并且其中所述服务器基于由所述研 究者选择的每个自然语言问题的不受欢迎程度分数,为每个研究者分配一个值。根据本发明的另一方面,提出了一种用于分配由代理处理的工作词条的计算机系 统,该系统包括接收所述工作词条的输入端;存储所述工作词条的数据存储器;给每个所 述工作词条分配不受欢迎程度分数的服务器;多个代理工作站,每个具有代理用户界面,以 及将所述服务器连接到所述多个代理工作站的通信网络;其中每个代理用户界面将来自所 述数据存储器的多个所述工作词条呈现给代理,以及其中所述服务器基于由所述代理选择 的每个自然语言问题的不受欢迎程度分数,为每个代理分配一个值。根据本发明的另一发明,提出了一种将工作词条分配给代理的方法,该方法包括 将所述工作词条输入给服务器;在所述服务器上的数据存储器中存储所述工作词条;配置 所述服务器以为每个所述工作词条分配不受欢迎程度分数;通过通信网络将所述服务器连 接到多个代理工作站,每个代理工作站具有代理用户界面;将多个所述工作词条呈现给代 理用户界面上的代理;并且配置所述服务器以基于由所述代理选择的每个自然语言问题的 不受欢迎程度分数给每个代理分配一个值。在每个方面中,工作词条可以是由研究者形式的代理来回答的自然语言问题。因 此,该代理用户界面可以是研究者用户界面。该研究者用户界面可显示每个呈现的问题的不受欢迎程度分数的指示和/或研 究者的值的指示。所述不受欢迎程度分数和/或值的指示可以图表或数字来呈现。该研究者用户界面可将所有未回答的自然语言问题或其子集呈现给研究者。呈现 的问题的子集可以通过考虑以下部分或全部因素来确定 所述不受欢迎程度分数 所述研究者的其他属性(例如,身份,过去表现,对问题类型先前表达的偏好,等等。 未回答的问题已经存储在数据存储器中的时间长度 未回答的问题的其他属性(例如,类型,预期的完成时间,等等)。根据本发明的另一方面,提出了一种用于将多个问题显示给研究者的研究者用户 界面,所述研究者用户界面包括指示每个显示的问题的不受欢迎程度分数的显示器,临近 每个问题以供研究者选择所述问题的按钮,以及指示每个研究者的值的显示器,每个研究 者的值是基于由所述研究者选择的每个自然语言问题的不受欢迎程度分数。该研究者用户界面可以图表显示,例如图标、数字显示、百分比和/或比率来显示 不受欢迎程度分数和/或每个研究者的值。服务器通常为每个问题分配为零的初始不受欢 迎程度分数,但是如果合适(例如该问题属于已知的不受欢迎的类型),则可给问题分配更 高的初始不受欢迎程度。该系统可后续地通过跟踪到何时问题被呈现给研究者而没有回 答,来增加每个问题的不受欢迎程度值。不受欢迎程度值增加的量可非常依赖于各种因素, 包括(但不限于) 问题类型(一定类型的问题的不受欢迎程度可能比其他的高或少)
每个问题在呈现给研究者的问题列表中的位置和/或其相对于被选择的问题 的位置。例如,被选择的问题以上的问题的不受欢迎程度分数可能提高一个单位,但是该被 选择的问题以下的问题的不受欢迎程度分数不变。服务器可在特定时间框内根据由该研究者选择的每个问题的不受欢迎程度分数 的时间加权组合来计算所述值。该特定时间框可按分钟,小时或天来计算。可根据时间衰 落函数来结合所述不受欢迎程度分数。该时间衰落函数可以是阶梯函数、线性衰落函数,或 更复杂的时间衰落函数,例如椭圆函数或指数函数。当每个研究者开始工作时,服务器可为每个研究者分配为零的初始值。这意味着 每个研究者随着其开始工作有可能降到阈值以下,该阈值由所有研究者的情况确定。因此 需采取措施以确保研究者不被处罚直到他们有机会将他们的值提高到合适的水平。在这些 情况下,该系统可针对这样的研究者利用修正的时间衰落函数。此外,该系统可基于最近的 平均不受欢迎程度的问题的选择来分配初始值。如果只有几个问题具有非零的不受欢迎程度分数(例如,由于可获得的问题很 少,或因为在问题有机会变成不受欢迎之前,研究者尽职尽责地选择问题),这几个问题可 能具有很大的影响。因此该系统可能具有“最小累积不受欢迎程度”阈值,在这个阈值以 下,服务器确定没有足够的数据用来在研究者用户界面上呈现任何有用的关于不受欢迎程 度分数和研究者值的信息。该最小累计不受欢迎程度阈值可以是最近,例如最近一小时内 在数据存储器中存储的问题的所有不受欢迎程度分数的相加。换言之,如果存在很少的具 有非零的受欢迎程度分数的问题,分配工作词条的系统临时禁用,并只在代理用户界面上 呈现工作词条,而不呈现值或分数。不过,在相加的分数在阈值以下的同时,服务器继续计 算代理值和工作词条不受欢迎程度分数,并且一旦相加的分数超出所述阈值,则重新启动 该系统。在实践中,简单的计算和显示研究者的值似乎足够确保问题被公平地分配。极少 需要系统限制呈现给研究者的问题,因为每个研究者通常确保他们的值保持为可接受。因 此,在一般情况下,在确定将哪个问题呈现给研究者时,不考虑研究者的值(当前水平)。然 而,服务器也可以确定研究者的水平相对于所有研究者的平均值是否落到可接受的阈值之 下,并限制呈现给该研究者的问题(例如,仅呈现可增加研究者的值的问题),直到研究者 的值上升到可接受的阈值之上。因此本发明的至少一方面提供了一种自动软件系统和方法,其使得问题(或者称 为工作词条)能够客观地,透明地且公平地在研究者(或者称为代理)之间分配。该系统 可以成为“校平器(leveller)”。即便问题的到来不可预知和/或问题的大小、难度、吸引 力变化,该系统也能公平地分配问题。该系统确保问题被及时地处理,因为不希望工作词条 保留在队列里过长时间。通过计算服务器上的值和不受欢迎程度分数,该计算可实时进行, 而不会使工作词条分配变慢。此外,该系统使代理能够独立地并且按其自己最感兴趣的方 式操作。每个代理具有独特的能力和偏好(因此对于一个代理来说没有兴趣的问题,可能 对于另一个来说有兴趣)。与已知的系统相反,根据本发明的系统为代理提供了选择度(从而,在可能的时 候,问题与代理的能力相匹配),同时确保不受欢迎的词条一定得到及时的处理,并公平地 在代理之间分配。因此该系统自动地跟踪不受欢迎的工作词条,并确保每个代理“公平分享”不受欢迎的工作词条。根据本发明的另一方面,提供了一种用于回答由用户提交的自然语言问题的计算 机系统,包括如上文所述的用于将问题分配给所述研究者的计算机系统,和将所述计算机 系统连接到所述用户以将答案发送给所述用户的通信网络。上文所述的系统通常响应于提问者(或用户)所提的问题而操作,并独立于用于 将问题发送给系统的精确发送器。可能的发送器包括,但不限于短消信服务(SMQ,电子邮 件(e-mail)和语音消息(通过语音-文本技术或人工抄写将语音消息转换为文本)。通过 同类的发送器将后续的答案发送给提问者。注意,一个问题的答案不必通过相同的发送器 发送。本发明进一步提供了处理器控制代码,用以实现上述方法,特别是提供于例如磁 盘、CD或DVD-ROM、、例如只读存储器(固件)的编程存储器等数据载体上,或提供于例 如光或电信号载体等数据载体上。用于实现本发明的实施例的代码(和/或数据)可 包括例如C语言等常规编程语言中的源、目标或可执行代码,或汇编代码,用于设置或控 制 ASIC (Application Specific Integrated Circuit 专用集成电路)或 FPGE (Field Programmable Gate Array现场可编程门阵列)的代码,或用于硬件描述语言的代码,例如 Verilog (商标)或 VHDL (Very highspeed integrated circuit Hardware Description Language超高速集成电路硬件描述语言)。本领域技术人员应该理解,所述代码和/或数 据可分布在互相通信的多个耦合的部件中。


图1是显示第一手动问答过程的流程图;图2是显示图1的过程的修改,其中重新使用了先前答案;图3a是分离的定向图,其中每个结点代表问题/答案对,其上标注了结点B的发 送闭包;图北是显示调解器如何将典型答案与问题相关联的流程图;图4是显示来自图1到图3的自动问答过程的流程图;图5是用于图3的过程的整体系统架构的示意图;图6是在问答过程中用于研究者的示例性用户界面;图7是用于查看问题分组的用户界面;图8是用于将问题分组关联到典型答案的用户界面;图9是针对典型答案来确认问题分组成员的用户界面;图IOa是显示可能情况下用于自动回答问题的可选过程的流程图;图IOb是用于图IOa的过程的整体系统架构的示意图;图11是用于在图IOa的过程中用来输入问题的移动设备用户界面的示意性图 示;图12是用于在图IOa的过程中用来呈现各个问题和答案对的移动设备用户界面 的示意性图示;图13是显示在可能的情况下用于自动回答问题的可选过程的流程图;图14是用于图13所示的过程的整体系统架构的示意图15是用于另一实施例的整体系统架构的示意图;图16是工作词条的不受欢迎程度随时间演变的示例;图17a,17b和17c显示了阶梯、线性和椭圆时间衰落函数;以及图18是显示代理的当前阈值和工作词条的不受欢迎程度的图表指示的用户界面 的示例。
具体实施例方式图1到图9显示了一个用于自动回答自然语言问题的计算机系统是如何操作以响 应提问者(或用户)所提出的问题。该系统独立于用于将这些问题发送给该系统的精确发 送器。可能的发送器包括,但不限于短消信服务(SMS),电子邮件(e-mail)和语音消息(通 过语音-文本技术或人工抄写将语音消息转换为文本)。通过同类的发送器将后续的答案 发送给提问者。注意,问题的答案不必通过相同的发送器发送。图1显示了用于自动回答问题的数据库的形成的初始阶段。开始,问题完全由人 工研究者回答,但是要维护所有问题/答案对的数据库。在步骤S100,用户提出了问题,该 问题被发送到系统。在步骤S102,尝试将该问题与关联了典型答案的问题相匹配。关于该 匹配步骤的更多信息参见关于图4的描述。在图1所描述的初始阶段中,没有发现匹配,在 步骤S104,问题被发送给研究者。在步骤S106,研究者搜索所有问题/答案对的数据库。该 搜索可以是自动的(即可为研究者提供可能的匹配的列表,该列表来自自动产生的源自输 入的问题的搜索词条),可以是手动的(即研究者利用手动产生的搜索词条自己搜索数据 库),或者可以是两者的结合。该系统独立于用于搜索该数据库的精密机械。该算法包括, 但不限于,例如简单的“词袋法”搜索,或词频-逆向文件频率(TF-IDF)搜索。利用S102步骤中的搜索,由于数据库处于形成的早期阶段,没有找匹配。因此,在 步骤S108,研究者例如利用教科书、互联网或其他类似的资源来搜索针对该问题的答案,并 在SllO写出答案。在步骤S112,在数据库中记录该问题/答案对。如图6中更详细地描述 的,用于构建该答案的资源的记录也在步骤S221保留。用于构建特定的问题/答案对的资 源可能形成用于研究类似问题的很好的起点。该答案在步骤S114被发送,并在步骤S116 由提问者(用户)接收,在步骤S118该系统结束。图2示出了图1所示的系统的变体,其中同样的步骤的编号相同。如图1所示,在 步骤S106,研究者搜索所有问题/答案对的数据库,找到了匹配。因此,由步骤S120代替研 究步骤S108,在步骤S120中重新使用找到的答案。如步骤SlM所示,答案可以完全照原 样重新使用,或在发送给提问者之前进行修改。例如,如果在数据库中存在如下问题/答案 对Q 詹姆斯迪恩是何时去世的?A 詹姆斯迪恩是在1955年9月30日的车祸中去世的,当时他驾驶在加利福尼亚 州乔莱姆的美国466号高速公路上,一辆汽车进入他的车道。在步骤S1M,在处理问题“詹姆斯迪恩去世时驾驶的是什么车”时,研究者可重新 使用该答案,将该答案修改成(斜体字为修改)詹姆斯迪恩是在1955年9月30日的车祸中去世的,当时他驾驶一辆 疾在加利福尼亚州乔莱姆的美国466高速公路上,一辆汽车进入他的车道。如步骤S122所示,无论何时研究者选择重新使用先前的答案时,他们选择这样作 的事件记录被保留下来。这增加了先前的问题/答案对和新的问题/答案对之间的关系。 随着时间过去,这些关系建立起分离的定向图,如图3a所示,其中图中的每个结点(A,B, C 等等)是问题/答案对,且每个弧形(arc)指示先前答案的重新使用,例如答案J在问题/ 答案对0和N中被重新使用。从这张图中,自动得到一组“问题分组”,其中每个问题分组是一组从上述图的发 送闭包(transitive closure)形成的问题/答案对。图的发送闭包C(G)是包括边沿(u, ν)的图,只要有从u到ν的定向路径。针对节点B的发送闭包被加亮。这是一个完全自动 化的步骤。可以随着新的问题/答案对被添加到数据库而异步或适时地产生问题分组。问题 /答案对的分离的定向分组的形成是能够产生典型答案的技术效果。如图北所示,一旦在步骤S130产生了问题分组,则将问题分组呈现给调节器12, 在步骤S132调节器可将每个分组与“典型答案”相关联。例如问题分组可以是Q 詹姆斯迪恩是何时去世的?(When did James Dean die ?)Α:詹姆斯迪恩是在1955年9月30日的车祸中去世的,当时他驾驶在加利福尼亚 州乔莱姆的美国466高速公路上,一辆汽车进入他的车道。Q 詹姆斯迪恩是在何处去世的?A 詹姆斯迪恩是在1955年9月30日的车祸中去世的,当时他驾驶在加利福尼亚 州乔莱姆的美国466高速公路上,一辆汽车进入他的车道。Q 詹姆斯迪恩去世时驾驶的是什么车?詹姆斯迪恩是在1955年9月30日的车祸中去世的,当时他驾驶一辆保时捷550 斯派得在加利福尼亚州乔莱姆的美国466高速公路上,一辆汽车进入他的车道。Q 詹姆斯迪恩是何时去世的?(Wen did James Dean die ?)Α:詹姆斯迪恩是在1955年9月30日的车祸中去世的,当时他驾驶在加利福尼亚 州乔莱姆的美国466高速公路上,一辆汽车进入他的车道。Q 詹姆斯迪恩·布拉德菲尔德是何时去世的?A 詹姆斯迪恩·布拉德菲尔德是著名的威尔士摇滚乐队疯狂街头传教士(Manic Street Preachers)的主吉他手和主唱。他仍在世。该分组可与以下示例性典型答案关联,即提供了具有交叠度的答案中的所有细节 的答案詹姆斯迪恩是在1955年9月30日的车祸中去世的,当时他驾驶一辆保时捷550 斯派得在加利福尼亚州乔莱姆的美国466高速公路上,一辆汽车进入他的车道。这种情况下,典型答案是通过选择针对第三个列出的问题/答案对的答案来产生 的。此外,可以组合来自该分组的几个答案,或通过搜索来产生新的典型答案。通过将问题分组与典型答案相关联,在步骤S134,调节器12针对分组的每个成员 决定它是否应该利用该典型答案来回答。如果答案为是,在步骤S136将该决定记录在数据 库中,建立从问题到典型答案的映射。如果答案为否,在步骤S138也将该决定记录在数据库中。在上述示例中,以下问题应被映射到该典型答案詹姆斯迪恩是何时去世的?(When did James Dean die ?)詹姆斯迪恩是在何处去世的?詹姆斯迪恩去世时驾驶的是什么车?詹姆斯迪恩是何时去世的?(Wen did James Dean die ?)而以下问题不应被映射到该典型答案詹姆斯迪恩·布拉德菲尔德是何时去世的?图北的调节器适用于确保时间敏感性低的问题被识别出来并被自动回答。例如 包括 今年的复活节是哪一天? ·世界上最快的汽车是哪一种?这可以通过将终止日期(或类似于“生存时间”的等效机制)与典型答案相关联 而实现。一旦过了这个时期,将不再自动回答与该典型答案相关联的问题,直到调节器重新 确认该典型答案。这可能包括简单地重新设定终止日期,改变典型答案,改变将哪些问题标 记为由典型答案正确地回答了,或以上任意组合。如图1和2所示,当新的问题到来时,将其与映射到典型答案的所有问题进行匹 配。在图1和2中,没有找到匹配,则需要人的参与来回答这个问题。然而,如图4所示,如 果该问题匹配,在步骤SU6自动发送相应的典型答案。不需要人的参与。因此。储存的典 型答案自动响应自然语言问题,具有提高效率的优点,以及利用典型答案使得对提问的响 应更快的效益。该系统独立于所利用的精确匹配算法。可选择的包括简单的基于关键词的 搜索,TF-IDF http //en. wikipedia. orR/wiki/Tf-idf,或更多基于信息恢复 http:// en. wikipedia. orR/wiki/information retrieval技术的成熟方法。最简单的是字至丨J字 匹配,但是可利用更多成熟算法,包括但不限于,不区分大小写的匹配,等效字符队列替代 (例如“和”与“&”)或基于自然语言处理(NLP)的匹配算法,NLP源自语法分析和/或输入 的语义及储存的链接的问题和答案对。随着时间的推移,新的问题/答案对将被添加到问题分组(例如“詹姆斯迪恩去世 的日期是什么?)。这些新的问题将被发送给调解器,如参考图3a和北所述。如果新的 问题映射到典型答案,则认为这些问题被确认。接下来将自动地回答这些被确认了的问题 (如果合适,及如果不依赖于日期)。不管利用何种匹配算法,不会令调解器重新确认与先前确认过的问题匹配的问 题,或与那些被标记为不适于典型答案的问题匹配的问题。随着时间的推移,该系统将产生 越来越大的可被自动回答的问题的文集,以及伴随着针对这些问题的越来越大的答案的文集。图5显示了实施了图1到4所述的方法的整体系统架构。提问者20将问题22 (本 例中利用移动电话网络)发送到系统对。该问题22被发送到匹配器M,该匹配器将该输 入的问题与储存在数据库30中的关联了典型答案的问题进行匹配。如果有匹配的问题,将 答案34 (本例中为典型答案)直接从数据库30发送给提问者20,如上文参考图4所述。
如果没有匹配的问题,将输入的问题22添加到未决问题沈的队列,将该队列发送 到研究者28 (如图所示利用计算机网络)。该研究者观开始搜索问题/答案对的数据库 30,并且利用该搜索的结果产生答案32,如上文参考图1和2所述。将由研究者观产生的 答案32发送到数据库30,且将答案34 (本例中为研究者产生的答案)从数据库30发送到 提问者20。图6是供研究者在回答问题期间使用的示例性的用户界面。输入问题被显示在界 面的顶部。对问题/答案对的数据库搜索的结果显示在下面,且每个搜索结果具有相关联 的“重新使用”按钮40,如果显示的答案适于输入的问题,研究者可选择该按钮。如图6所 示,搜索得到的问题和答案对不会以他们当前的格式被重新使用来回答输入的问题。然而, 可以利用针对第一个问题/答案对的修改格式的答案,其包含一些额外信息。因此,图1所 述的过程适用于研究者必须进行额外的搜索来找到针对输入问题的答案,例如通过将搜索 词条输入手动搜索对话框42并选择相关联的搜索按钮44。搜索过程被简化了,因为除了答案的文本,用来构建该答案的资源的记录在图1 和2的步骤S112中也被保留了。用来构建特定问题/答案对的资源可构成用于研究当前 问题的好的起点。例如,包含詹姆斯迪恩何时及何地去世的细节的页面很可能也包括他去 世时驾驶什么车的信息。这是重新使用先前答案的另一个重要优点。一旦研究者找到了回 答该问题所需的额外信息,研究者将答案输入到位于输入问题下方的对话框46中,将该信 息的资源的细节添加到对话框47中,并点击相关联的发送按钮48。图7是供用户,提别是调解器使用的用户界面,用来查看问题分组。用户界面显示 分组的大小(问题的数量)以及每个分组的第一个个问题。调解器通过选择相关联的“查 看”按钮50来查看每个问题分组中的所有问题。点击“关联”按钮52将用户转换到界面 (例如图8所示)使得用户能够将每个分组与典型答案相关联。图8是使调解器能够将新的问题分组关联到典型答案的用户界面。该用户界面在 界面的顶部显示新的问题分组中的第一个问题。在该问题之下,可能显示来自每个已知问 题分组的示例性或普遍性的问题及其相应的典型答案。如果问题分组不包含普遍性问题, 则利用对该问题分组的描述,例如关于詹姆斯迪恩的死亡的问题。如果已知典型答案其中 之一提供了针对新问题分组中的第一个问题的答案,则调解器通过简单地选择每个已知问 题分组附近的“关联”按钮M将新问题分组关联到已知的问题分组。如果没有已知的典型 答案适用于该分组,也不能提供足够的信息来回答分组中的第一个列出的问题,则用户选 择“产生新的典型答案”按钮。如图北所示,一旦将问题分组与典型答案相关联,调解器针对该典型答案确认该 分组中的每个问题。图9显示了使调解器能够针对典型答案确认问题分组成员的用户界 面。在本例中,问题分组的题目是“关于詹姆斯迪恩的死亡的问题”,在界面的顶端显示了典 型答案。在该分组的每个问题之下,列出了相关联的“是”和“否”按钮。如果由典型答案来 回答该问题,调解器选择相关联的“是”按钮56,从而确认该问题(如图北中的步骤S136)。 如果不由典型答案回答该问题,调解器选择相关联的“否”按钮58,从而将该问题标记为不 能用典型答案自动回答的问题之一(如图北中的步骤S138)。该问题/答案对保留在分组 中。图IOa到12显示了用于回答自然语言问题的可选的混合手动/自动问答系统是如何操作以响应提问者(或用户)提出的问题。如上文所述,该系统独立于用于将这些问 题发送到系统的精确发送器。在图IOa的步骤S200中,用户(或提问者)提出问题,在步骤S201该问题被系统 接收。在步骤S202,尝试将该问题与储存在系统中的问题/答案对相匹配。在步骤S204, 匹配器识别的所有的匹配被返回到用户,并在步骤S206由用户查看。如果问题/答案匹配 列表提供了提问者所需的答案,则不需人工参与,该过程在S208结束。然而,在形成数据库 的初始阶段,可能找不到匹配。此外,返回的匹配可能不适于用户。例如一些类型的问题依 赖于“当前信息”,例如“明天的天气预报是什么? ”。尽管很可能该问题已经被提问过,且返 回很多匹配的问题/答案对,但这些答案不太可能正确。因此,在步骤S210,用户选择将问 题发送给研究者的选项。在步骤S212,系统接收到将问题发送给研究者的请求,并将其添加到用于研究者 的未决问题队列。然后由系统将问题发送给研究者,且在步骤S214研究者例如利用教科 书、互联网或其他类似资源来研究针对该问题的答案,并在步骤S216写下答案。在步骤 S218,在数据库中记录该问题/答案对。用于构建该答案的资源的记录也可以被保留。用 于构建特定的问题/答案对的资源可能构成重新研究类似问题的很好的起点。在步骤S220 该问题/答案对被发送给数据库,并在步骤S222由提问者接收,在步骤S2M该系统结束。图IOb显示了实现了图IOa所示的方法的整体系统架构。提问者220发送问题 (本例中利用移动电话网络)到该系统。将该问题被发送到匹配器224,该匹配器将输入的 问题针对储存在数据库230中的问题/答案对进行匹配。如果有任何匹配的问题/答案对, 将该匹配的问题/答案对直接从数据库230发送到提问者220。如上文所述,有许多可能的匹配算法。例如,该数据库可包括以下链接的问题/答 案对Q 皇后乐队的主唱是因何去世的?A 弗雷迪 梅库里(Freddie Mercury),皇后乐队主唱,死于由艾滋病引起的支气 管肺炎。该链接的问题/答案对与输入的问题“弗雷迪·梅库里是因何去世的? ”相匹配。 然而,如果问题只和问题比较,那么这两个问题之间不存在匹配。如果没有匹配结果能够回答用户的问题,或者没有返回匹配对,用户可以利用“询 问研究者”选项。该问题被添加到服务器上的未决问题序列226,供上文所述的人工研究者 240审查。在研究者构建了针对该问题的答案后,将新的问题/答案对添加到数据库230,并 将答案发送给用户的移动设备。很多发送器都可用来将该答案发送给用户的移动设备,但 是事实上人工研究者会花些时间来构建该答案,这意味着例如SMS的异步机制最为合适。图11是用户将问题输入到对话框300的示例性用户界面。该界面可以实现为安 装在移动设备上的应用程序,通过移动网页或任何其他机制。输入之后,用户点击按钮“发 送” 310发送该问题,该问题被发送给服务器。图12示出了显示匹配结果界面的示例。界面的顶端显示了提问者提出的问题,在 该原始问题之下显示了由匹配器返回的问题/答案对列表312。如果这些问题/答案对没 有合适的,-用户可点击“提问研究者”按钮314以将该问题发送到上文所述的未决问题队 列。
利用参考图1到9所述的系统,随着时间的推移,该系统将产生越来越大的可自动 返回提问者的问题/答案对的文集。而且,通过自动回答这些频繁提问的问题,可对自动回 答的问题的数量起到很大的影响。如上文所述,图IOa到12所示的系统所适用的问题的子 集是那些其答案非时间敏感的问题(即昨天针对这些问题的正确答案在今天仍然是正确 答案)。图13和14描绘了本发明的适用于自动处理这些时间依赖问题的实施例。可通过 产生大量的“自动代理”来处理时间依赖的问题的子集,该“自动代理”解决普通的问题类 型。这些代理利用自然语言解析(NLP)技术从问题来从问题中提取相关的询问数据,然后 询问实施数据馈送以产生最新的答案。示例可包括关于天气、金融市场、比赛结果等等的问 题。对于特定的问题,现有的自然语言解析系统通常产生多个不同的解析——解释问 题的不同方式,这些方式与自然语言规则一致。然后根据哪个更可能来将这些解析排序。现 有的问题的文集可用来训练这些自动代理来根据真实用户的实际使用模式对这些解析进 行排序,来增加它们的准确性。此外,可获得新的解析来处理从更传统的应用变化得到的真 实文字语言的情况(移动用户通常利用更信息化的语言,包括非常简洁和风格化的“缩写 词(txtspk) ”http://en. wikipedia. org/wiki/SMS_language)。图13示出了该过程,图14示出了整体系统架构的示意图。在图13中,在步骤 S400,用户(或提问者)提出了一个问题,该问题在步骤S401被该系统接收。在步骤S402, 该系统确定该问题是否为时间依赖的。如果该问题不是时间依赖的,在步骤S404尝试将该 问题与储存在系统中的问题/答案对进行匹配。如果系统确定该问题是时间依赖的,在步 骤S409,系统中的自动代理向适当的实时馈送发送询问以获得这样的信息,并在步骤S410 产生相应的答案。在步骤S406,将所有的结果返回给用户,并在步骤S408由用户查看这些 结果。在上述实施例中,如果问题/答案匹配列表提供了提问者所需的答案,则不需要 人工参与,且整个自动过程结束。然而,如果答案不正确,用户可选择将问题发送给研究者 的选项,且研究者如上文所述提供答案,这样该系统就变成了混合手动/自动系统。简言 之,在图13中省略了求助于研究者的步骤。在图14中,提问者220将问题发送到系统(本例中利用移动电话网络)。该问题 被发送给第一自动代理412以确定该问题是否为时间依赖的。如果该问题是时间依赖的, 第一自动代理将该问题发送给第二自动代理414,如果该问题不是时间依赖的,则将该问题 发送给上文所述的匹配器224。应理解可以由单个实体来提供第一和第二自动代理的功能。 可通过匹配器2M或第二自动代理414将合适的答案馈送给提问者。如果没有匹配结果能够回答用户的问题,或者时间依赖的答案不正确,用户可利 用如上文所述的“提问研究者”选项。因此,图13所示的系统可适用于在服务器中包含未 决问题队列,供人工研究者审查,如上文参考图IOb所述。此外,图13和14的实施例可适 用于图1到9所述的系统,其中产生典型答案。换言之,在检查是否储存了典型答案之前, 该系统可检查问题是否是时间依赖的。如果问题不是时间依赖的,系统将尝试寻找合适的 典型答案。如果找不到典型答案,该系统将如参考图1到9所述的那样继续运行。图15显示了包含服务器510的计算机系统,该服务器包括数据库512,用于存储提交到系统的所有工作词条,例如自然语言问题。将这些待处理的工作词条储存在未决工 作词条514的文件夹中,完成的工作词条存储在完成工作词条516的文件夹中。多个研究 者518(代理)通过单独的个人电脑或工作站520以及通信网络,例如互联网之类,与服务 器510通信。每个研究者执行以下步骤1、如箭头A所示,每个研究者518查看未决工作词条514的列表(或其子集)。2、每个研究者518从该列表中选择工作词条(此时其不能被任何其他代理获得)。3、每个研究者518处理他自己选择的工作词条,且完成时,将答案发送给完成工 作词条516的列表,如箭头B所示。4、然后该研究者返回步骤1重新开始该过程。图16示出了工作词条不受欢迎程度随着事件而进展的示例,其中利用了由服务 器实施的简单算法。在第一阶段,将六个未决工作词条中的三个呈现给代理。最初所有的 工作词条的不受欢迎程度值为0。代理选择工作词条C。根据该算法,所选择的词条以上的 所有词条的不受欢迎程度增加1,即工作词条A和B的不受欢迎程度增加到1。所选择的工 作词条以下的工作词条的不受欢迎程度保持0不变。在第二阶段,将五个未决工作词条中的四个呈现给代理。所呈现的工作词条(D到 F)中的三个的不受欢迎程度分数为0,一个工作词条(A)的分数为1。工作词条B没有呈 现,因为已经被其他代理选择。代理选择工作词条E。再次应用该算法,在所选择的词条之 上的所有工作词条的不受欢迎程度增加1,即工作词条A的不受欢迎程度分数增加到2,工 作词条D的不受欢迎程度分数增加到1。所选择的工作词条之下的工作词条的不受欢迎程 度保持0不变。服务器还根据代理过去选择的工作词条的不受欢迎程度分数的时间加权组合,来 计算该代理的个人不受欢迎程度分数。根据时间衰落函数来合成该分数。图16a到16c示 出了各种可利用的不同的时间衰落函数 图16a示出了阶梯函数(例如最近过去1小时内选择的工作词条同等计算,之 前选择的工作词条不计算)。 图16b显示了线性衰落函数(例如最近过去的60分钟内选择的工作词条与 l-t/60加权组合,其中t表示时间)。 图16c示出了椭圆衰落函数。图16a到16c所示的衰落函数列表并非是穷尽的。也可利用其他衰落函数,例如 其他复杂的衰落函数例如指数衰落函数等等。从回答的问题列表计算代理的不受欢迎程度分数的示例如下代理处理工作词条A (不受欢迎程度10),从15分钟之前到现在。工作词条B(不受欢迎程度0),从30分钟之前到15分钟之前。工作词条C (不受欢迎程度5),从45分钟之前到30分钟之前。工作词条D (不受欢迎程度0),从50分钟之前到45分钟之前。工作词条E (不受欢迎程度20),从60分钟之前到50分钟之前。工作词条F (不受欢迎程度10),从70分钟之前到60分钟之前。代理的值(总不受欢迎程度)
利用线性时间衰落函数l-t/60,代理的总不受欢迎程度值可计算如下Σ (^-^fl-^rV
items*t<60V ^ZU J其中(t1; t2)是时间间隔,在此时间间隔期间处理工作词条,U是该工作词条的不 受欢迎程度。所以,对于上述工作历史记录(50-45( 1-1^10 + (60-50(1 —
Vv 120 J120 j= 131. 25+0+28. 125+0+16. 667= 176.042代理的当前水平是其当前不受欢迎程度分数与所有当前工作的代理的不受欢迎 程度分数的平均值的比。因此,如果所有工作的代理的平均水平是124. 065,那么该代理的 当前水平是1.42 1,即142%。图18示出了代理的值(水平)以百分数显示的用户界面。该水平可以多种其他 的数字方式显示,包括(但不限于) 用数字(例如“您的当前水平是23. 6,对比的平均水平是12. 4”)。 用比率(例如“您的当前水平是1. 2 1”)。 用归一化的百分比,其中50%代表“平均”水平(例如“您的当前水平是34%”)。 用图(例如当“交通灯”显示绿色时指示水平在平均水平及以上,黄色指示低于 平均水平,红色指示远低于平均水平)。图18也示出了用图显示的工作词条不受欢迎程度,其中“微笑面孔”图标用以指 示选择该工作词条将增加代理的水平,“大笑面孔”图标用以指示选择该工作词条将大大增 加代理的水平,没有面孔则指示该工作词条的不受欢迎程度水平为0。此外,该工作词条不受欢迎程度值还可以多种不同方式显示,包括(但不限于) 用数字(例如“不受欢迎程度5”) 用它们将对代理的水平起到的影响(例如“选择该词条可将您的水平增加到 12. 2”)毫无疑问,本领域技术人员可获得很多其他有效的选择。应理解本发明不限于上 述实施例,还包括对于本领域技术人员来说显而易见的修改,它们也处于所附的权利要求 书的实质和范围中。
权利要求
1.一种用于自动回答自然语言问题的计算机系统,该系统包括接收所述自然语言问题的输入端,;记录链接的问题和相应答案对的数据存储器;用于比较接收的自然语言问题和链接的问题和答案对的匹配器;用于在没有找到匹配时将所述接收的自然语言问题发送给研究者的输出端。
2.根据权利要求1所述的计算机系统,进一步包括将问题和相应答案对链接到分组中的系统,用来产生针对问题和答案对的每个分组的 典型答案,并将所述典型答案存储在所述数据存储器中;其中所述匹配器比较所述接收的 自然语言问题和所述数据存储器中具有相关联的典型答案的问题,并响应于所述匹配,输 出针对所述问题的所述相关联的典型答案。
3.根据权利要求2所述的计算机系统,其中链接问题和相应答案对的所述系统用于构 建所述问题和相应答案对的分离的定向图。
4.根据权利要求2或3所述的计算机系统,其中链接问题和相应答案对的所述系统 包括调解器用户界面,该调解器用户界面用于将所述问题和相应答案对的分组呈现给调解 器,用于查看以产生所述典型答案,并且该调解器用户界面用于将所述典型答案输入到所 述数据存储器以存储与所述问题和相应答案对的分组相关联的所述典型答案。
5.根据权利要求1所述的计算机系统,其中所述匹配器用于输出与所述接收的自然语 言问题相匹配的所有链接的问题和答案对。
6.根据权利要求5所述的计算机系统,进一步包括接收请求以将特定自然语言问题发 送给研究者的输入端,其中所述输出端响应于所述请求将所述特定自然语言问题发送给研 究者。
7.根据前述任意一项权利要求中所述的计算机系统,进一步包括研究者用户界面,该 研究者用户界面将所述问题呈现给研究者,并为研究者呈现输入对话框以输入针对呈现的 问题的答案。
8.根据前述任意一项权利要求中所述的计算机系统,其中所述数据存储器存储用于产 生每个链接的问题和答案对的资源的记录,以及其中所述系统能够输出带有所述链接的问 题和答案对的所述记录。
9.根据前述任意权利要求中所述的计算机系统,该计算机系统用于确定该系统接收的 问题是否为时间依赖的。
10.根据权利要求9所述的计算机系统,进一步包括询问实时数据馈送以产生针对时 间依赖问题的答案的装置。
11.根据权利要求9或10所述的计算机系统,其中利用自然语言解析系统来确定问题 是否为时间依赖的。
12.根据前述任意权利要求中所述的计算机系统,进一步适用于将待回答的自然语言 问题分配给研究者,该系统进一步包括用于为每一个所述自然语言问题分配不受欢迎程度分数的服务器;多个研究者工作站,每个研究者工作站具有研究者用户界面;以及将所述服务器连接到所述多个研究者工作站的通信网络;其中每个研究者用户界面向研究者呈现多个所述自然语言问题,以及其中所述服务器基于由所述研究者选择的每个自然语言问题的不受欢迎程度分数为每个研究者分配一个值。
13.根据权利要求12所述的计算机系统,其中所述研究者用户界面显示每个呈现的工 作词条的不受欢迎程度分数的指示。
14.根据前述任意权利要求中所述的计算机系统,其中服务器用于为每个自然语言问 题分配为零的初始不受欢迎程度分数,并后续通过跟踪自然语言问题何时呈现给研究者且 没被回答而增加每个自然语言问题的不受欢迎程度分数。
15.根据权利要求14所述的计算机系统,其中通过确定每个自然语言问题在呈现给研 究者的工作词条列表中相对于所述研究者所选择的自然语言问题的位置,来增加每个自然 语言问题的不受欢迎程度分数。
16.根据权利要求12到15中任意一项所述的计算机系统,其中所述服务器用于根据特 定时间框内由所述研究者选择的每个自然语言问题的不受欢迎程度分数的时间加权组合, 来计算每个研究者的所述值。
17.根据权利要求16所述的计算机系统,其中所述服务器利用修正的时间衰落函数, 根据每个工作词条的不受欢迎程度分数的时间加权组合来计算所述值。
18.一种用于自动回答自然语言问题的计算机系统,该系统包括用于接收所述自然语言问题的输入端;研究者用户界面,用于将所述问题呈现给研究者,并输入针对呈现的问题的答案;以及用于记录问题和相应答案对的数据存储器;以及进一步包括将问题和相应答案对链接到分组中的系统,用于产生针对问题和答案对的每个分组的 典型答案,并将所述典型答案存储在所述数据存储器中;以及将所述接收的自然语言问题与所述数据存储器中的具有相关联的典型答案的问题相 匹配,并响应于所述匹配输出针对所述问题的所述相关联的典型答案的系统。
19.根据权利要求18所述的计算机系统,其中所述链接问题和相应答案对的系统用于 构建所述问题和相应答案对的分离的定向图。
20.根据权利要求19所述的计算机系统,其中所述链接问题和相应答案对的系统用于 建立所述图的发送闭包以识别将由所述典型答案回答的问题和相应答案对的所述分组。
21.根据权利要求18到20中任意一项所述的计算机系统,其中所述链接问题和相应答 案对的系统包括调解器用户界面,该调解器用户界面用于将问题和相应答案对的所述分组 呈现给调解器,用于查看以产生所述典型答案,并且该调解器用户界面用于将所述典型答 案输入到所述数据存储器以存储与问题和相应答案对的所述分组相关联的所述典型答案。
22.根据权利要求21所述的计算机系统,其中所述调节器用户界面用于使调解器能够 从所述分组的所述答案中产生所述典型答案。
23.根据权利要求21或22所述的计算机系统,其中所述调解器用户界面进一步用于使 所述调解器能够确认问题和答案对的每个所述分组中的每个问题是否由与所述分组相关 联的所述典型答案回答。
24.一种用于自动回答自然语言问题的计算机系统,该系统包括用于接收所述自然语言问题的输入端;用于记录链接的问题和相应答案对的数据存储器;匹配器,用于比较所接收的自然语言问题和所述数据存储器中的所述链接的问题和答 案对,并输出所有与所述接收的自然语言问题相匹配的所述链接的问题和答案对; 接收请求来将特定自然语言问题发送给研究者的输入端; 将所述特定自然语言问题发送给研究者的输出端;其中所述数据存储器用于接收来自所述研究者的针对所述特定自然语言问题的答案, 并在所述数据存储器中存储所述问题和接收的答案作为链接对,并输出所述接收的答案。
25.如前述任意权利要求所述的计算机系统,用于确定该系统接收的问题是否为时间 依赖的,并可进一步包括询问实时数据馈送以产生针对时间依赖的问题的答案的装置。
26.根据权利要求25所述的计算机系统,其中利用自然语言解析系统确定问题是否为 时间依赖的。
27.根据权利要求25或沈所述的计算机系统,其中利用问题和答案对的所述数据库来 训练所述自然语言解析系统。
28.一种自动回答自然语言问题的方法,该方法包括 处理自然语言问题和相应答案对的数据存储器; 输入所述自然语言问题;将所述自然语言问题与所存储的自然语言问题相匹配;输出来自匹配步骤的所有匹配;以及如果没有找到匹配,将特定自然语言问题发送给研究者;
29.根据权利要求观所述的方法,进一步包括将所述自然语言问题分组,并产生针对 所述分组的问题的典型答案。
30.根据权利要求观所述的方法,进一步包括接收请求以将所述特定自然语言问题发 送给研究者,并响应于所述请求来发送所述特定自然语言问题。
31.一种自动回答自然语言问题的方法,该方法包括处理自然语言问题和相应答案对的数据存储器,以将所述自然语言问题分组,并产生 针对所述分组的问题的典型答案; 输入所述自然语言问题;将所述自然语言问题与所存储的自然语言问题相匹配;以及 当找到匹配时,利用所述典型答案自动回答所述自然语言问题。
32.根据权利要求31所述的方法,其中处理所述数据存储器包括构建链接的问题和相 应答案对的分离的定向图。
33.根据权利要求32所述的方法,包括建立所述图的发送闭包以识别由所述典型答案 回答的问题的每个所述分组。
34.根据权利要求四或31到33中任意一项所述的方法,包括通过如下方式产生每个 所述典型答案将链接的问题和相应答案对的分组输入到调解器用于查看,以及 接收来自所述调解器的所述典型答案。
35.根据权利要求34所述的方法,包括将每个问题和典型答案输入到所述调解器用于查看,接收来自所述调解器的信息,该信息为每个问题是否将由所述典型答案回答,以及存储所述信息。
36.根据权利要求四或31到35所述的方法,包括如果没有匹配的存储的自然语言问题,则将所述自然语言问题输出给研究者, 接收来自所述研究者的答案, 将该答案发送给提问者,以及更新所述数据存储器以在所述数据存储器中包含所述问题和接收的答案作为链接对。
37.根据权利要求36所述的方法,其中接收的来自所述研究者的答案重新使用了来自 存储在数据存储器中的问题和相应答案对的答案,且该方法进一步包括将输入的自然语言 问题与数据存储器中的具有被重新使用的答案的问题分组,并产生针对分组的输入的问题 和重新使用的问题的典型答案。
38.一种自动回答自然语言问题的方法,该方法包括 处理链接的自然语言问题和相应答案对的数据存储器; 输入所述自然语言问题;将所述自然语言问题与所存储的链接的自然语言问题和相应答案对相匹配; 输出所有与所接收的自然语言问题相匹配的链接的自然语言问题和相应答案对; 如果在所述输出步骤之后接收到将特定自然语言问题发送给研究者的请求,则将该特 定自然语言问题发送给研究者;接收来自所述研究者的针对所述特定自然语言问题的答案;更新所述数据存储器以在所述数据存储器中包含所述问题和接收的答案作为链接对;以及输出所述接收的答案。
39.根据权利要求观到38中任意一项所述的方法,包括确定所述系统接收的问题是否 是时间依赖的。
40.根据权利要求39所述的方法,进一步包括询问实时数据馈送以产生针对时间依赖 问题的答案。
41.根据权利要求39或40所述的方法,包括利用自然语言解析系统来确定问题是否是 时间依赖的。
42.根据权利要求39到41中任意一项所述的方法,包括利用链接的问题和答案对的所 述数据库来训练所述自然语言解析系统。
43.一种用于自动回答自然语言问题的计算机系统,该系统包括 接收所述自然语言问题的输入端;确定输入的自然语言问题是否为时间依赖的装置;用于从实时数据馈送中提取针对时间依赖问题的答案的询问装置;发送所提取的答案的输出端;接收将特定自然语言问题发送给研究者的请求的输入端; 将所述特定自然语言问题发送给研究者的输出端; 接收来自所述研究者的答案的输入端;以及 将所接收的答案发送给提问者的输出端。
44.一种自动回答自然语言问题的方法,该方法包括输入所述自然语言问题; 确定所述输入的问题是否是时间依赖的; 从实时数据馈送中提取针对时间依赖问题的答案; 输出所述提取的答案;如果在所述输出步骤之后接收到将特定自然语言问题发送给研究者的请求,则将所述 特定自然语言问题发送给研究者;接收来自所述研究者的针对所述特定自然语言问题的答案,以及 输出所述接收的答案。
45.一种用于将待回答的工作词条分配给代理的计算机系统,该系统包括 接收所述工作词条的输入端;存储所述工作词条的数据存储器; 为每个所述工作词条分配不受欢迎程度分数的服务器; 多个代理工作站,每个代理工作站具有代理用户界面,以及 将所述服务器连接到所述多个代理工作站的通信网络;其中每个代理用户界面将来自所述数据存储器的多个所述工作词条呈现给代理,并且 其中所述服务器基于由所述代理选择的每个工作词条的不受欢迎程度分数为每个代理分 配一个值。
46.根据权利要求45所述的计算机系统,其中所述代理用户界面显示每个呈现的工作 词条的不受欢迎程度分数的指示。
47.根据权利要求46所述的计算机系统,其中每个呈现的工作词条的所述不受欢迎程 度分数的指示显示为图标,并且为在每个工作词条的附近提供选择按钮用来让每个代理选 择所述工作词条。
48.根据权利要求44到47中任意一项所述的计算机系统,其中所述服务器用于为每个 工作词条分配为零的初始不受欢迎程度分数,并通过跟踪工作词条何时被呈现给代理而没 有回答来后续地增加每个工作词条的不受欢迎程度分数。
49.根据权利要求48所述的计算机系统,其中通过确定每个工作词条在呈现给代理的 工作词条的列表中相对于由所述代理选择的工作词条的位置,来增加每个工作词条的不受 欢迎程度分数。
50.根据权利要求44到49中任意一项权利要求所述的计算机系统,其中所述代理用户 界面显示代理的值的指示。
51.根据权利要求44到50中任意一项所述的计算机系统,其中所述服务器用于根据在 特定时间框内由代理选择的每个工作词条的不受欢迎程度分数的时间加权组合,来计算每 个代理的所述值。
52.根据权利要求51所述的计算机系统,其中根据时间衰落函数来组合所述不受欢迎 程度分数,其中所述时间衰落函数选自包括阶梯函数、线性衰落函数、椭圆时间衰落函数和 指数时间衰落函数的分组。
53.根据权利要求51或52所述的计算机系统,其中服务器为每个代理分配初始值零。
54.根据权利要求53所述的计算机系统,其中服务器利用修正的时间衰落函数根据每 个工作词条的不受欢迎程度分数的时间加权组合来计算所述值。
55.根据权利要求44到M中任意一项所述的计算机系统,其中代理用户界面为代理呈 现所述工作词条的子集。
56.根据权利要求55所述的计算机系统,其中该系统用于确定所述代理的值何时下降 到低于可接受的阈值,并呈现具有能够增加代理的值的不受欢迎程度分数的工作词条的子集。
57.一种将工作词条分配给代理的方法,该方法包括 将所述工作词条输入到服务器;将所述工作词条存储在所述服务器上的数据存储器中; 配置所述服务器以为每个所述工作词条分配不受欢迎程度分数; 通过通信网络,将所述服务器连接到多个代理工作站,每个代理工作站具有代理用户 界面;在代理用户界面上为代理呈现多个所述工作词条;以及配置所述服务器以基于由所述代理选择的每个工作词条的不受欢迎程度分数为每个 代理分配一个值。
58.根据权利要求57所述的方法,包括为每个工作词条分配为零的初始不受欢迎程度 分数,并后续地通过跟踪何时工作词条被呈现给代理而没有被回答来增加每个工作词条的 不受欢迎程度分数。
59.根据权利要求58所述的方法,包括通过确定每个工作词条在呈现给代理的工作词 条的列表中相对于由所述代理选择的工作词条的位置,来增加所述不受欢迎程度分数。
60.根据权利要求57到59中任意一项所述的方法,包括根据在特定时间框内由所述代 理选择的每个工作词条的不受欢迎程度分数的时间加权组合来计算每个代理的所述值。
61.根据权利要求60所述的方法,包括根据时间衰落函数组合所述不受欢迎程度分数。
62.根据权利要求57到61中任意一项所述的方法,包括为每个代理分配初始值零。
63.根据权利要求62所述的方法,包括利用修正的时间衰落函数来根据每个工作词条 的不受欢迎程度分数的时间加权组合计算每个代理的所述值。
64.根据权利要求57到63中任意一项所述的方法,包括确定所述代理的所述值何时下 降到低于阈值,并在所述代理用户界面上只将具有能增加代理的值的不受欢迎程度分数的 工作词条呈现给所述代理。
65.一种载有计算机程序代码的载体,该计算机程序代码在运行时,执行权利要求观 到42,44和57到64所述的方法。
66.根据权利要求1到27和43中任意一项权利要求所述的计算机系统,其中所述数据 存储器存储资源的记录,该资源用于产生每个链接的问题和答案对,以及所述系统用于输 出具有链接的对的所述记录。
67.一种代理用户界面,用于将多个工作词条显示给代理,所述代理用户界面包括指示 每个显示的工作词条的不受欢迎程度分数的显示器,临近每个工作词条供代理选择所述工 作词条的按钮,以及指示基于由所述代理选择的每个工作词条的不受欢迎程度分数的每个 代理的值的显示器。
68.根据权利要求67所述的代理用户界面,其中不受欢迎程度分数的显示选自包括例如图标的图显示、数字显示、百分数和比率组成的分组。
69.根据权利要求67或68所述的代理用户界面,其中代理的值的显示选自包括例如图 标的图显示、数字显示、百分数和比率组成的分组。
全文摘要
一种用于自动回答自然语言问题的计算机系统和方法。该系统包括接收所述自然语言问题的输入端;记录链接的问题和相应答案对的数据存储器;用于比较接收的自然语言问题和所述链接的问题和答案对的匹配器;以及用于在没有找到匹配时将所述接收的自然语言问题发送给研究者的输出端。该系统可进一步包括将问题和相应答案对连接到分组的系统,用来产生针对问题和答案对的每个分组的典型答案,并将所述典型答案存储在所述数据存储器中;其中所述匹配器比较所述接收的自然语言问题和所述数据存储器中具有相关联的典型答案的问题,并响应于所述匹配,输出针对所述问题的所述相关联的典型答案。此外,所述匹配器可用于输出所有与所述接收的自然语言问题相匹配的链接的问题和答案对。所述系统可进一步适用于通过为每个所述自然语言问题分配不受欢迎程度分数,来将待回答的自然语言问题分配给研究者。
文档编号G06F17/30GK102099803SQ200880118529
公开日2011年6月15日 申请日期2008年10月22日 优先权日2007年10月23日
发明者D·宾客斯, D·格, F·张, M·雅各布斯, P·布彻, T·罗伯特 申请人:瑞5优特有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1