用于为语音对话系统编辑信息的方法

文档序号：6570431阅读：261来源：国知局

专利名称：：用于为语音对话系统编辑信息的方法用于为语音对话系统编辑信息的方法
技术领域：
：本发明涉及用于为语音对话系统编辑信息的方法、装置和系统。在因特网页面上，信息以多种形式被显示，并且可以通过图形用户界面被用户看到。显示的一种可能的形式是表格，在该表格中信息按有序的编行列以文本或者数据的形式被反映。要显示的信息在此被划分为行(水平的行列)和列(垂直的行列)，使得通常在一行或者一列的表格元素的内容之间存在语义上的和/或句法上的关联。在此情况下有问题的是，这样显示出的信息只有通过图形用户界面才能被用户使用，然而这在确定的应用环境中是不可能的或者仅仅是有条件地可能的。例如在驱车旅行期间，当用户想通过因特网接入来读取因特网页面上以表格形式显示的信息时，情况如此.因此值得期望的是，提供对因特网页面上的表格的语音接入，其中用户以自然语言提出与主题有关的问题，并且获得以自然语言朗读的合适的答案。在美国专利文献US6,859,777B2中描述了一种用于通过语音控制在因特网页面上导航的方法。为此，语音识别器的词汇表动态地根据在因特网页面上找到的交叉参考(链接)产生。这些链接随后可以被用户说出，以便导航至另一页面。然而，可在因特网页面上找到的其余的和内容有关的信息不能通过这种方法被绑定。这样，特别不可能的是，用户在语音对话系统中有目的地询问在因特网页面上以表格形式显示的信息，随后期望的信息通过语音对话系统被输出。因此，本发明所基于的任务在于，提供用于为语音对话系统编辑信息的方法、装置和语音对话系统，借助该语音对话系统，以表格形式显示的信息可以被用户有目的地询问。根据本发明，该任务通过具有权利要求1、12和13的特征的方法、装置和语音对话系统来解决。本发明的有利的改进方案在从属权利要求中^L说明。根据本发明，在一种用于为语音对话系统编辑信息的方法中提供以表格形式显示的信息。以表格形式显示的信息和/或该信息的显示根据预先给定的准则来标准化并且以可访问的形式被存储。此外，表格元素的水平的和/或垂直的行列(Reihe);故分配第一语法，并且相应的行列中的表格元素被分配第二语法。第一和第二语法描述语音输入的结构和概念规则，借助这些规则，能够识别所分配的行列和相应的行列的所分配的表格元素。基于所分配的第一和第二语法，为语音对话系统编辑以表格形式显示的信息。该方法具有有利的效果，即根据按照特定的方针实现的基于因特网的应用全自动地生成针对语音对话系统的转换。因此，例如可能的是，根据在因特网中可用的FAQ列表(常见问题，FrequentlyAskedQuestions)生成半自动的具有语音接入的帮助系统。此外，借助舒适的语音对话应用，该方法能够使供应商注意其在因特网上的供应品，而不必为此投资分离的、特别地制造的语音对话机。因此，当这些信息在因特网中由供应商在表格中适当地提供并且由该方法所编辑的信息在车辆中被语音对话系统使用时，例如车辆驾驶者可以在路上问明下一个加油站或者下一个餐馆。根据本发明的一种改进方案，以表格形式显示的信息在至少一个可预先给定的数据库中被确定。因此，可以有利地访问由该方法预先给定的因特网地址，并且在这些网页中搜索HTML表格对象。根据本发明的另一种扩展方案，水平定向的表格在第一列中具有标题。用于标准化所确定的以表格形式显示的信息的可预先给定的准则是水平定向的表格。这利用如下知识在第一行列中相对于其余行列中的正常字形为粗体的情况下可以看出强烈的指示，即标题位于第一行列中。由此，可以有利地以相同的定向来显示所找到的表格。这样，例如也在本发明的范围内的是，将多维的表格或者嵌套的表格按照预先给定的方案来展开，使得这些表格随后具有相同的定向并且由此可比较，根据本发明的另一种扩展方案，用于标准化所确定的以表格形式显示的信息的预先给定的准则是信息的文字显示的统一。这例如具有以下优点，即缩写被解析或者被统一，在文本部分中出现的特殊符号、诸如缩写点或者序数点根据预先给定的试探法通过所定义的字母数字链来替代，并且未知的符号通过空白字符来替代。这种处理方式具有以下优点，即以表格形式显示的信息是统一的并且由此是可比较的。根据本发明的一种优选的扩展方案，表格元素分别被分配被至少一个类别，并且根据所分配的类别和被标准化的信息，表格元素的水平和/或垂直的行列被分配一个类别。第一和第二语法借助所分配的类别来确定。在此情况下，借助所分配的类别特别是根据数据库来确定语法。该改进方案具有有利的效果，即也为语音对话应用编辑表格，在这些表格的情况下，所产生的或者根据数据库所确定的标准语法不能被应用。根据本发明的另一种有利的扩展方案，所分配的类别包括句法类别、语义类别和标准类别。句法类别在此情况下例如是所有类别的日期说明、时间和尺寸。语义类别例如是包括属于确定语义类别的元素的列表的本体。如果不能分配合适的句法类别或者语义类别，则分配所谓的标准类别或者默认类别。根据本发明的另一种有利的扩展方案，针对语音合成设置有标准输出，该标准输出根据上下文在语音对话系统中输出编辑好的信息。这些标准输出例如包括开始通知、系统输出和应答输出。根据语音对话系统所处的状态，可以由语音合成系统为用户输出预先给定的标准输出或者利用编辑好的信息所组合的标准输出.按照根据本发明的用于为语音对话系统编辑信息的装置，该装置具有用于提供以表格形式显示的信息的装置。此外，还具有用于根据预先给定的准则来标准化以表格形式显示的信息和/或这些信息的显示的装置以及用于将这些信息以可访问的方式进行存储的装置。此外，该装置还具有用于将第一语法分配给水平和/或垂直的行列以及将第二语法分配给相应的行列中的表格元素的装置，其中第一和第二语法描述语音输入的结构和概念规则，借助这些规则能够识别所分配的行列和相应的行列的所分配的表格元素。因此，基于所分配的第一和第二语法，为语音对话系统编辑以表格形式显示的信息。根据按照本发明的用于在语音对话中以表格形式显示的信息的可询问性的语音对话系统，该语音对话系统具有以下组件语音识别单元，用于识别由用户进行的询问，对话机，用于确定由用户询问的以表格形式显示的信息，以及语音合成单元，用于输出被询问的信息。以下根据附图借助实施例来进一步阐述本发明。图1示出用于为语音对话系统编辑以表格形式显示的信息的方法的示意图，图2示出具有关于欧洲的国家的信息的标准化表格。图1以示意图示出一种用于为语音对话系统109编辑在因特网101中找到的、以表格形式显示的信息102的方法。为此，通过表格编译器103搜索因特网101中的表格，并且为语音对话系统109编辑表格。在表格爬虫(Tabellen-Crawler)104中，首先在因特网中搜索HTML表格，检验这些表格的可用性，并且将可用的表格进行本地存储。表格变换器105将可用的表格的显示以及相应的文本表格元素标准化。语法猜测器(GrammarGuesser)106基于用于表格内容的合适的数据库IIO确定适当的语法，随后根据这些语法生成用于语音对话系统109的语音识别器的语音模型。提示生成器107根据内容以及必要时根据表格的标题生成所有对于应用来说所必需的输出。在应用生成器108中，表格变换器105、语法猜测器106和提示生成器IO7的结果以预先给定的数据结构被组合成所期望的语音对话应用，使得表格本身被转化为逻辑数据结构，相应的询问可以在该逻辑数据结构上被分析。对话机109在运行的系统中识别用户的自由的、自然语言的询问，将这些询问翻译为表格询问，并且最后以自然语言再现所找到的解决方案。以下再此详细地描述图1中所示的根据本发明的方法的各个组件。一旦表格爬虫104被启动，它就依次访问在列表中被预先给定的因特网地址，例如http://www,sportl-de和http://www.koeliude。表格爬虫跟踪设定值(Vorgabe)内的链接，并且在所有的页面中搜索根据〈table〉和〈/table〉的HTML表格格式而成帧的HTML对象。所找到的表格被自动地检查其可用性，例如检查其表格元素是否包含足够的文本。随后，基于不同的试探法(Heuristik)来确定表格的定向。例如，第一列中的粗体相对于其余列中的正常字体给出强烈的指示在第一列中是标题，也即表格水平定向。相反，第一行中的粗体和其余行中的正常字体指示表格的垂直定向。如果表格是多维的，例如在距离表格时常常情况如此，则该表格按照预先给定的方案被展开。类似地，嵌套表格、也即表格中的表格以合适的方式被展开。所找到的并且以可访问的形式存储的表格随后通过表格变换器105被标准化。为此，例如将垂直定向的表格变换为水平定向的表格。此外，将缩写解析或者统一，以及根据预先给定的试探法通过所定义的字母数字链来替代在文本部分中出现的特殊符号(例如缩写点或者序数点)。此外，未知的符号通过空白字符来替代。所有找到的并且以可访问的形式存储的表格都被类似地处理。在下一步骤中，通过语法猜测器106为语音识别器确定应用特定的词汇表，用户在对话中可以通过该词汇表访问表格元素的值。为此，首先给标准化表格的每个表格元素分配类别。存在句法类别和语义类别。句法类别例如是所有种类的日期说明、时间和尺寸。如果表格元素中的文本例如由具有随后的"平方公里"的基数构成，则将类别"面积量度"分配给该表格元素。语义类型通过本体(0ntologien)而确定。为此，具有可扩展的本体集合的的数据库可供该方法使用。这些本体是确定的语义类别的所有所属元素的简单列表。例如，针对"地球上的所有国家，，的本体是地球上的所有国家的列表，由阿富汗开始直到塞浦路斯。分配现在通过相应的表格元素中的文本与这些列表的简单调整来实现。相应的表格元素得到所有语义类别，在这些语义类别的本体中，出现相应的表格元素的文本。例如，将类别"地球上的所有国家，，以及"欧洲的所有国家"分配给具有文本"法国"的表格元素。随后，确定行的类别。为此，收集这些行的各个表格元素的类别，并且基于不同的试探法来确定整个行的最可能的类别。例如，具有表格元素"法国，，和"意大利"的行将被分配类别"欧洲的所有国家"，因为这是被分配给该行的大多数表格元素的最小的类别。如果句法类别和语义类别都不能被分配给表格元素或者行，则该表格元素或者行获得预先给定的默认类别或者标准类别。在该过程结束并且表格的每一行都唯一地被分配类别之后，确定对于语音对话系统的语音模型来说所必需的语法。为此，表格编译器拥有具有语法的另一数据库。这些语法描述当用户想知道关于确定的主题的一些内容时他在自由对话中将使用的词链。这些词链并不描述完整的句子，而是仅仅描述表达的部分。例如在用户表达"法国有多大？"中，词链"多大，，由第一语法描述，而词链"法国"由第二语法描述。表格编译器的语法原则上根据是涉及对值的询问还是涉及用于值的过滤器而不同。对值的询问在下面被称为触发语法，而用于值的过滤器被称为过滤器语法。触发语法提供占位符作为触发值，该占位符在分析中用行的相应的标题来替代。过滤器语法提供过滤值作为结果，该过滤值与表格元素中的标准化的条目进行比较。过滤器语法的一部分是简单的词列表，这些词列表基本上对应于本体的列表。例如,过滤器语法被设置用于地球上的所有国家，该过滤器语法在其变型方案中也包含地球上的所有国家的名称。因此，词链"美利坚合众国"、"合众国"或者"USA"例如都提供相同的值"USA"。同样，表格元素中的例如"合众国"的所有条目都被标准化为值"USA"。过滤器语法的另一部分描述被用于数值的词链、例如"三十万平方公里"。这是用于尺寸、日期、时间等等的过滤器语法。过滤器语法的其它组成部分是用于比较结构的词链、例如"大于三十万平方公里"或者"最大"。此外，也存在描述表格元素彼此之间的比较结构的过滤器语法，例如用于诸如"哪个国家比意大利更大？"的表达。为此，设置有特别的形式，该形式引入占位符，比较措词与该占位符相关联，并且该占位符在实际的表达中相应地被替代.从该语法数据库中选择最适合当前应用的语法。为此，使用不同的试探法，这些试探法考虑行的类别、行的标题以及在数值情况下考虑其最小值和最大值。由此，每行都被分配触发语法和过滤器语法。此外可以规定，为了将语音识别器的总词汇量保持尽可能小，将过滤器语法中的数值限制为有意义的取整(Rundung)。针对被分配默认类别的行，产生默认语法。作为默认触发语法，获取行的标题，并且将"哪个"置于其前面。作为默认过滤器语法，获取所涉及的行的表格元素。语法猜测器以这种方式为每个应用提供触发语法和过滤器语法的集合，这些触发语法和过滤器语法在其整体上描述用户能够通过相应的表格在自由对话中问明的内容。在下一步骤中，由提示生成器生成针对应用的提示或者陈述。在此情况下，设置有三种提示开始消息提示、系统提示和应答提示。开始消息提示用于通知用户，他可以在应用中关于因特网中的哪个主题进行聊天。系统例如利用以下的开始消息提示来通知用户"已找到关于欧洲的国家的新表格。在该表格中编行列了关于国家、首都、面积和象征的信息。"该开始消息提示通过以下方式被自动生成，即给表格的标题"欧洲的国家"配备前缀"我...关于...新的表格"。随后，给行标题配备前缀"找到了。在该表格中有关于…的信息"，随后各个行标题通过逗号和最后的"以及"来分开列举。如果表格没有标题，则相应地不同地生成开始消息提示。系统提示在一般的对话状况中、例如当用户的表达未被理解时或者当用户调用了帮助功能时被播放。应答提示在该实施例中有两个任务一方面它直接确认用户说了什么，或者语音识别器理解了什么，并且另一方面它回答问题。例如，用户询问"法国的首都叫什么？"，于是系统利用应答提示"关于你对法国首都的询问，我找到如下答案巴黎"来回答。该应答提示通过以下方式来生成，即首先将由过滤器语法所识别的过滤值作为过滤器进行存储，在该例子中为过滤值"法国"。类似地，存储触发语法，例如在该例子中"首都叫什么？"。随后，根据所存储的触发语法和过滤器语法来建立数据结构，该数据结构作为询问被发送给具有其所存储的、编辑好的表格的应用。接着，用言辞表达所得到的结果值、触发值和过滤值，使得上述答案能够被输出。对于值的言辞表达，存在合适的标准提示，使得例如"五七五九零零零零零"不被读出，而是"五亿七千五百九十万"。提示生成器107因此为每个应用提供提示集合，该集合为用户介绍应用的内容，对标准状况作出反应，以及以自然语言呈现所找到的答案。在应用生成器108中，将由语法猜测器106和提示生成器107所生成的数据结构组合为对于语音对话应用来说可用的结构。首先，如果表格标题不可识别，则为应用给出名称，该名称对应于表格标题或者辅助结构。以该名称编制目录并且产生配置文件。在应用目录中生成四个子目录，这四个子目录包括包含对话流的描述和提示的子目录，包含对后台系统(在此情况下是作为数据结构被适当地编辑的表格)的访问描述的子目录，语法所在的子目录，以及由此生成的语音模型所在的子目录。利用该数据结构，语音对话应用被完整地描述，并且可以被加栽到所期望的语言平台上，例如加载到PDA或者车头单元上。语音对话系统109—般由语音识别单元、语音合成单元以及对话机组成。下面借助图2介绍一些对话序列，这些对话序列可以基于由图1中的表格编译器所生成的语音对话应用利用语音对话系统来实施。1."关于法国，你知道什么？，，在这种情况下，询问过滤值，因此法国所在的列207的所有表格元素都被读出(巴黎，544，000平方公里，58，850，000，雄鸡)。2."在欧洲有哪些首都？"在这种情况下，询问触发值，因此具有标题首都的行202的所有表达元素都被读出(巴黎，罗马)。3."意大利的首都叫什么？"在这种情况下，询问触发值和过滤值，因此在行首都202和列意大利206的交叉处出现的表格元素(罗马)被读出。4."意大利多大并且首都叫什么？"在这种情况下，询问两个不同的触发值和一个过滤值，因此读出在行首都202和列意大利206的交叉处出现的表格元素，以及读出在行面积203和列意大利206的交叉处出现的表格元素(301，336平方公里，罗马)。5."关于巴黎，你知道什么？"在这种情况下，询问过滤值，因此在此实际上读出整个列巴黎207的表格元素。然而有意义的是引入限制，使得这里仅仅读出在参考行国家201和列巴黎207的交叉处出现的表格元素(法国)。6."关于欧洲的国家，你知道什么？"在这种情况下，既不询问过滤值也不询问触发值，因此在此实际上读出整个表格。然而有意义的是引入限制，使得仅仅输出参考行国家201的表格元素，并且系统在这种情况下以"等等，，结束(法国，意大利等等)。本发明并不限于这里所描述的实施例。权利要求1.一种用于为语音对话系统编辑信息的方法，其中-提供以表格形式显示的信息，-以表格形式显示的信息和/或该信息的显示根据预先给定的准则来标准化并且以可访问的形式被存储，-表格元素的水平的和/或垂直的行列被分配第一语法，并且相应的行列中的表格元素被分配第二语法，-第一和第二语法描述语音输入的结构规则和概念规则，借助这些规则，能够识别所分配的行列和相应的行列的所分配的表格元素，-基于所分配的第一和第二语法，为语音对话系统编辑以表格形式显示的信息。2.根据权利要求l所述的方法，其中，以表格形式显示的信息在至少一个可预先给定的数据库中被确定。3.根据权利要求1所述的方法，其中，-水平定向的表格在第一列中具有标题，-用于标准化所确定的以表格形式显示的信息的预先给定的准则是水平定向的表格。4.根据权利要求1所述的方法，其中，用于标准化所确定的以表格形式显示的信息的预先给定的准则是信息的文字显示的统一。5.根据权利要求1所述的方法，其中，借助表格元素中的条目来产生第一和第二语法。6.根据权利要求1所述的方法，其中，借助数据库来确定第一和第二语法。7.根据权利要求1所述的方法，其中，-表格元素分别被分配给至少一个类别，-根据所分配的类别和被标准化的信息，表格元素的水平的和/或垂直的行列被分配给一个类别，-借助所分配的类别来确定笫一和第二语法。8.根据权利要求1所述的方法，其中，所分配的类别包括句法类别、语义类别和标准类别。9.根据权利要求1所述的方法，其中，能够访问至少一个具有本体和/或语法的数据库。10.根据权利要求1所述的方法，其中，能够扩展具有本体和/或语法的数据库。11.根据权利要求1所述的方法，其中，针对语音合成设置有标准输出，该标准输出根据上下文在语音对话系统中输出编辑好的信息。12.—种用于为语音对话系统编辑信息的装置，其中该装置具有-用于提供以表格形式显示的信息的装置，-用于根据预先给定的准则来标准化以表格形式显示的信息和/或该信息的显示的装置以及用于将该信息以可访问的形式进行存储的装置，-用于将第一语法分配给水平和/或垂直的行列以及将笫二语法分配给相应的行列中的表格元素的装置，其中所述语法描述语音输入的结构和概念规则，借助这些规则能够识别所分配的行列和相应的行列的所分配的表格元素，使得基于所分配的第一和第二语法为语音对话系统编辑以表格形式显示的信息。13.—种用于在语音对话中以表格形式显示的信息的可询问性的系统，该系统具有以下组件-语音识别单元，用于识别由用户进行的询问，-对话机，用于确定由用户询问的以表格形式显示的信息，以及-语音合成单元，用于输出被询问的信息。全文摘要对于许多应用环境来说值得期望的是，提供对因特网页面上的表格的语音接入，其中用户以自然语言提出与主题有关的问题，并且获得以自然语言读出的表格中的合适答案。本发明实现一种用于为语音对话系统编辑以表格形式显示的信息的方法，使得可以在用户对话中有目的地询问表格中的信息。文档编号G06F17/27GK101366076SQ200680052491公开日2009年2月11日申请日期2006年10月25日优先权日2006年2月10日发明者H·-U·布洛克,M·格尔克,S·沙克特尔申请人:西门子公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：H.-U.布洛克;M.格尔克;S.沙克特尔
技术所有人：西门子公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。