用于处理口述信息的方法和系统的制作方法

文档序号：2833690阅读：359来源：国知局

专利名称：用于处理口述信息的方法和系统的制作方法
用于处理ロ述信息的方法和系统本申请是申请日为2006年10月16日，申请号为200680039718.5的发明专利申
请的分案申请。本发明整体涉及通过语音识别来创建文档的领域。更具体地说，本发明涉及ー种方法和系统，用于将口述信息处理到动态表格中，因此提高了以该口述的表格为基础的识别精确度(学习或自适应)，甚至更具体地，涉及将文档内容链接到通用关系数据库。如今语音识别系统变得越来越有效，并且在多种行业内得以广泛应用。语音识别(SR)是由计算机把通过麦克风接收的声音信号转换成文档的处理，该文档包括ー组单词。然后，可以因不同目的而将这些识别后的单词用于多种应用中。自动语音识别系统将语音转换成文本，其导致成本高效的报告创建以及高抄录能力。这些报告是信息财富这一事实增加了对于以易于收集有利信息的方式进行信息处理的需求，其中该信息财富非常难于获得且在获得时容易产生错误。已知口述报告的主要方法通常是口述纯文本。这要求用户清楚他要口述的文档结构，并使用完全符合语法和语义的正确句子。从语音识别的观点来看，纯文本口述是直接传递的，但是无法实现特定改善，这是因为语音识别(SR)引擎无法做到对报告结构干扰可靠性。另ー种口述方法是表格填充，它尽可能地采用模板。根据该方法，将最常用的报告转换成表格，以便使用户确切地知道在哪里口述什么。这还使更易于从报告中提取信息，这是因为该报告表格为用户所知。虽然这在“常用”报告中是没有问题的，但它或者不能处理较为不常见的情况，或者难以覆盖所有可能性从而使其变得不实用。从语音识别的观点来看，表格填充口述可以提高精确度，这是因为可以将上下文和语法精细调整为单独的字段。但是该精确度是以开发复杂度的代价实现的，这是因为通常在客户端确定表格，这要求聪明的算法和/或易于使用的工具来将该表格转换成能由SR引擎和SR应用软件所使用的格式。在过去几年里，已经提出了对改进报告口述和处理方法的几个观念。在US6813603中已经公开了ー种实例，其公开了ー种系统和方法，用于由用户控制在用户选定的字段内插入标准化文本，同时口述文本条目以完成表格。还已知诸如医学报告那样的常用报告中的信息是难以格式化的且具有少量或甚至没有用于自动处理的结构，这使得难以从完成后的报告中收集可能有益的信息，例如处方药、特定条件下的诊断次数等。还可以根据完成后的报告的内容来对其列帐单(编码)，这非常难以通过单独对该报告进行语法分析来实现。一个问题在于识别后的文本并不容易处理。为此目的，存在诸如编码工具那样昂贵且容易出现错误的工具，而这些并不是最佳选择。另ー个问题在于报告的结构。通常集中地确定有关口述报告的原则，而且作者在口述时并不总是保持这些原则。另外，每ー个作者具有他/她自己的口述风格。通常作者使用相同的报告结构和甚至是相同的字句。某些作者一次又一次地口述相同的事情。他们还可能忘记口述或处理某些需要的点。在卫生保健领域还存在隐私问题，这是因为文档、医学报告是完全隐私的健康信息，它需要受到道徳上和法律上的保护。因而，一种改进的用于处理口述信息的方法将会是有利的。因此，本发明优选地通过提供ー种方法和系统，来设法缓和、减轻或消除以上确定的现有技术中的一个或多个缺点以及独有的或是在任何组合中的不利点，并解决或至少是部分地解决上述问题中的至少ー个问题，其中，根据附带的专利权利要求，该方法和系统能够将口述信息处理到动态表格中，并将在该动态表格中的口述信息链接到外部数据库。本发明能够提供一种用于创建文档报告的方法，其中标记所有相关数据，并将其链接到外部数据库。根据本发明的系统提供了ー种报告模板，其包含由语音宏自动创建的构件。该语音宏定义了将由作者填充的工作类型字段，以致于作者由于可以看到这些工作类型字段，他/她就不会忘记要口述的或往该字段内填充的是什么。例如，一旦作者口述他/她想要口述病人的胸部X射线，就自动插入这ー报告的相关构件。这些构件还包括用于在文档完成时在该文档内创建不同节点的标记。采用通用标记语言来创建所述节点，例如扩展标记语言(xml)。照这样，可以毫无错误地将文档的具体部分映射到外部数据库，因而不需要语法分析或编码。根据本发明的ー个方面，提供了ー种用于将口述信息处理到动态表格中的方法。该方法包括向用户显示属于ー个图像范畴的图像。该方法还包括口述与所述图像范畴相关的第一部分语音，并且在语音识别引擎中将所述第一部分语音处理为计算机命令，所述计算机命令指示具有与所述第一部分语音相关联的先前定义的文档结构的相应电子文档；按照指示得到所述电子文档，由此使所述文档结构与所述图像相关联，其中，所述文档结构包括至少ー个文本字段；在显示单元上显示具有所述文档结构的所述电子文档的至少ー个部分；口述第二部分语音，并在语音识别引擎中将所述第二部分语音处理为口述的文本；使所述口述的文本与所述文本字段相关联；并且将所述图像链接到具有所述文档结构和所述口述的文本的所述电子文档，并在数据库中存储所述图像和所述电子文档。根据本发明的另ー个方面，提供了ー种用于将口述信息处理到动态表格中的系统。该系统包括用于向用户显示属于ー种图像范畴的图像的装置。该系统还包括用于ロ述与所述图像范畴相关的第一部分语音的装置；用于借助于语音识别处理所述第一部分语音以将其转换为计算机命令的装置，所述计算机命令指示具有与所述第一部分语音相关联的先前定义的文档结构(4)的相应电子文档；用于得到所述电子文档，由此使所述文档结构(4)与所述图像(3)相关联的装置，其中，所述文档结构包括至少ー个文本字段；显示单元(5)，用于显示具有所述文档结构(4)的所述电子文档的至少一部分；用于口述第二部分语音的装置；语音识别引擎出)，用于将所述第二部分语音处理为口述的文本；用于使所述口述的文本与所述文本字段相关联的装置；以及用于将所述图像(3)链接到具有所述文档结构(4)和所述口述的文本的所述电子文档，并在数据库(8)中存储所述图像(3)和所述电子文档的装置。例如，本发明超越现有技术的优势在于在通过SR创建的文档中，可以标记所有的相关数据，并将其链接到外部数据库。另外，同一解决方案还可以将文档段落的顺序和结构与内容分离。作者可以按照任何他喜欢的顺序来口述，如果他希望的话，就使用可供选择的关键词，而且最終的文档看起来仍然可以是一致的。
本发明能够实现的这些及其他方面、特征和优势将根据以下參照附图对本发明实施例的描述而清晰且得以阐明，其中

图1是以流程图的方式表示根据本发明的口述链的示意图。以下的描述集中在本发明的ー个实例，其适用于在医学情况下(即，在非限制性实例中为MRI (核磁共振成像)检查中)将口述信息处理到动态表格中，更具体的，用于将该动态表格中的口述信息链接到外部数据库。然而，将理解本发明并不局限于该应用，而可以应用于其他许多口述链，例如法律和保险的情況。将理解该附图仅仅是示意性的。在图1中显示了根据本发明的口述链。该链开始于作者2，在此情况下为医生；接收图像3，在此情况下是在MRI (核磁共振成像)检查期间由MRI形式创建的图像，例如病人的头部。该图像还可以来源于其他医学图像形式，例如计算机断层造影术(CT)或超声机。医生研究该图像，例如在医学工作站的显示器上。然后，医生口述ー个语音宏“MRI报告”，其被发送到模板数据库(未显示)。例如，该语音宏被记录为通过SR引擎中的麦克风和运行在医学工作站或另一个计算机上的SR应用软件所接收的声学信号，其中，例如，该计算机分布在网络中，并可由医生进行访问来进行口述。由SR引擎来处理该声学信号，并将其转换成与该声学语音宏相对应的计算机命令。在该实例中，语音宏指示应使用用于MRI检查的报告模板4。向模板数据库(未显示)请求模板4。然后得到报告模板4，并且接收来自模板数据库的报告模板4并将其显示在屏幕5上，例如上述医学工作站的屏幕。当在屏幕5上显示用于MRI检查的模板4吋，医生将相关的信息，例如纯文本或其他语音宏，口述到报告模板4中。在口述过程中，连续地将口述的信息发送到语音识别引擎6，在语音识别引擎6中处理该信息。语音识别引擎6还可以用于上述的语音宏的SR。最后确定的报告7与相关的图像3彼此链接并存储在数据库8中，然后可以将其发送给电子病历(EPR)，其可以例如作为医院信息系统(HIS)的一部分。现在提供关于上述处理的示范性实例。在报告模板中产生的文本如下所示临床说明[在此口述临床说明]历史比较该研究与在前的注明日期的研究[在此口述先前的研究数据]结论[在此口述医学结论]感想[口述从该研究中获得的感想]药物[列出处方药]粗体文本是从模板4中自动输入的，在中括号之间的斜体文本是将由医生通过ロ述来填充的工作类型字段。一般来说，SR引擎使用完整的放射学语言环境(数以万计的词汇和相关的统计模型)来在每一字段内进行识别。计算机系统的识别精确度越高，口述的文本就越清晰。这对于人类听众也是成立的，但由于不需要任何努力就可以完成，所以并不显著。作为实例，如果某人正在谈论他上个周末曾经去过的棒球赛，他不可能使用诸如“乳房X线照相木”或“纤维囊性的”之类的词汇。但最终他可能切换主题，而且仍然可以继续他正在讨论的内容，尤其是在已知他是医生且正在谈论某种他所确认的罕见情况下。在例如用软件来实现的方法中，通过以适应为目标的ConText来解决该问题。ConText可以定义为专用于某ー主题(即放射学)的数据集合，并且ConText包括极有可能在放射学报告中找到的词汇(专用词典和统计语言模型)和ー个关于可以如何使用这些单词的复杂的似然度统计模型。还可以创建所谓的SubConText (较大词典和统计语言模型的子集)。可以根据报告中的位置，精确且快速地对这些SubConText进行切換。这在根据本发明实施例的报告中是自动的，该报告的构件包括预定义的工作类型字段。例如，如果称该字段为“测试”，则极有可能是口述测量项的数字、数量、単位和类型。对ConText进行优化，显著地提高了识别速率。由于该软件清楚医生在该特定字段内正在口述的是什么，所以不必使用复杂的猜测算法。在ConText甚至更受限制的一些字段内，例如数据字段，SR引擎可以切換到用于该字段的SubConText或语法，并且SR精确度将急剧地提升。由语音宏定义的工作类型字段包含标记，其可以用于一旦完成报告就在xml文档中创建不同节点，从而不再需要语法分析。照这样，可以毫无错误地将具体部分映射到外部数据库，其包括但不局限于电子病历。包含在医学工作类型字段内的口述文本例如为药物[Medication AMedication BMedication C]将该信息作为文本输出到特定xml代码，并且标记变成该代码中的节点。从而使
得药物字段中的信息变成
权利要求
1.一种用于将口述信息处理到动态表格中的方法，所述方法包括以下步骤接收第一部分口述语音输入，并且在语音识别引擎中将所述第一部分口述语音输入处理为计算机命令，所述计算机命令指示具有先前定义的文档结构(4)的电子文档，其中，所述文档结构包括多个文本字段；在显示单元(5)上向用户显示所述动态表格,其中，所述动态表格包括具有所述文档结构(4)的所述电子文档的至少一个部分，并且其中，显示所述动态表格包括显示所述多个文本字段中的至少一个文本字段；接收第二部分口述语音输入，并在语音识别引擎￠)中将所述第二部分口述语音输入处理为口述的文本；当所述口述的文本为纯文本时，使所述口述的文本与所述电子文档的文本字段相关联；当所述口述的文本对应于计算机命令时，通过动态地增加或减少在向所述用户显示的所述动态表格中所显示的所述先前定义的文档结构(4)的文本字段的数量，来动态地扩大或缩小所述动态表格，由此管理所述用户所见的所述先前定义的文档结构(4)的复杂度。
2.如权利要求1所述的方法，进一步包括用标记来标识所述文本字段；将所标记的文本字段转换成代码串；在数据库(8)中存储所述代码串以及所述相关图像。
3.如权利要求2所述的方法，其中，用标记来标识所述文本字段的步骤包括利用所述标记自动执行对所述文本字段的所述标识。
4.如权利要求2或3所述的方法，其中，将所标记的文本字段转换成代码串的步骤包括输出所标记的文本字段作为文本，并将所述标记转换成在具有所述文档结构(4)的文档中由通用标记语言创建的节点。
5.如权利要求1所述的方法，其中，具有所述先前定义的文档结构(4)的所述电子文档与专用于某一主题的数据集合相关联，并且所述数据集合包含在基于所述先前定义的文档结构(4)的文档中极有可能出现的大量词语，并且其中，在语音识别引擎￠)中将所述第二部分口述语音输入处理为口述的文本的步骤包括使用关于如何使用这些词语的似然度统计模型。
6.如权利要求5所述的方法，其中，所述数据集合包括专用于在所述先前定义的文档结构(4)中的某个具体文本字段的数据子集，并且其中，所述方法进一步包括根据所述用户选定的当前文本字段，在所述数据子集之间进行自动切换，以便将文本口述到所述文本字段中。
7.如权利要求1所述的方法，其中，所述先前定义的文档结构(4)包括多个所述文本字段，并且所述方法进一步包括定义与所述多个文本字段中某个具体文本字段相关联的语音宏，从而使得在所述用户口述所述语音宏时，选择所述具体文本字段用以接收所述第二部分口述语音输入。
8.如权利要求7所述的方法，进一步包括按照所述用户对与所述多个文本字段中各个文本字段相对应的语音宏进行口述的顺序，来填充所述多个文本字段。
9.如权利要求1所述的方法，进一步包括在显示器上向所述用户显示属于一个图像范畴的图像(3)；将所述图像(3)链接到具有所述文档结构(4)和所述口述的文本的所述电子文档；以及在数据库(8)中存储所述图像(3)和所述电子文档。
10.如权利要求1所述的方法，其中，动态地增加或减少在所述动态表格中所显示的文本字段的数量包括按照从所述用户接收计算机命令的第一顺序来显示多个文本字段，所述第一顺序不同于在所述文档结构中显现所述多个文本字段的第二顺序。
11.如权利要求10所述的方法，进一步包括从所述用户接收关于存储所述动态表格的命令；将被口述到按照所述第一顺序显示的所述多个文本字段中的口述文本重新排序为所述第二顺序；以及存储按照所述第二顺序的口述文本。
12.一种用于将口述信息处理到动态表格中的系统，所述系统包括用于接收第一部分口述语音输入的装置；用于借助于语音识别处理所述第一部分口述语音输入以将其转换为计算机命令的装置，所述计算机命令指示具有先前定义的文档结构(4)的电子文档，其中，所述文档结构包括多个文本字段；显示单元(5)，用于向用户显示所述动态表格，其中，所述动态表格包括具有所述文档结构(4)的所述电子文档的至少一部分，并且其中，显示所述动态表格包括显示所述多个文本字段中的至少一个文本字段；用于接收第二部分口述语音输入的装置；语音识别引擎￠)，用于将所述第二部分口述语音输入处理为口述的文本；用于当所述口述的文本为纯文本时，使所述口述的文本与所述电子文档的第一文本字段相关联的装置；用于当所述口述的文本对应于计算机命令时，通过动态地增加或减少在向所述用户显示的所述动态表格中所显示的所述先前定义的文档结构(4)的文本字段的数量,来动态地扩大或缩小所述动态表格，由此管理所述用户所见的所述先前定义的文档结构(4)的复杂度的装置。
13.一种用于将口述信息处理到动态表格中的装置，所述装置包括用于接收第一部分口述语音输入并且在语音识别引擎中将所述第一部分口述语音输入处理为计算机命令的模块，所述计算机命令指示具有先前定义的文档结构(4)的电子文档，其中，所述文档结构包括多个文本字段；用于在显示单元(5)上向用户显示所述动态表格的模块，其中，所述动态表格包括具有所述文档结构(4)的所述电子文档的至少一部分，并且其中，显示所述动态表格包括显示所述多个文本字段中的至少一个文本字段；用于接收第二部分口述语音输入，并在语音识别引擎出)中将所述第二部分口述语音输入处理为口述的文本的模块；用于当所述口述的文本为纯文本时，使所述口述的文本与所述电子文档的第一文本字段相关联的模块；用于当所述口述的文本对应于计算机命令时，通过动态地增加或减少在向所述用户显示的所述动态表格中所显示的所述先前定义的文档结构(4)的文本字段的数量,来动态地扩大或缩小所述动态表格，由此管理所述用户所见的所述先前定义的文档结构(4)的复杂度的`装置。
全文摘要
本发明公开了一种用于将口述信息处理到动态表格中的方法和系统。所述方法包括向用户显示属于一个图像范畴的图像(3)；口述与所述图像范畴相关的第一部分语音；得到具有与所述第一部分语音相关联的先前定义的文档结构(4)的电子文档，由此使所述文档结构(4)与所述图像(3)相关联，其中，所述文档结构包括至少一个文本字段；在显示单元(5)上显示具有所述文档结构(4)的所述电子文档的至少一个部分；口述第二部分语音，并在语音识别引擎(6)中将所述第二部分语音处理为口述的文本；并且使所述口述的文本与所述文本字段相关联。
文档编号G10L15/26GK103050117SQ20121052829
公开日2013年4月17日申请日期2006年10月16日优先权日2005年10月27日
发明者M·M·厄兹申请人:纽昂斯奥地利通讯有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M·M·厄兹
技术所有人：纽昂斯奥地利通讯有限公司
我是此专利的发明人

上一篇：一种说话人声音转换方法
上一篇：一种用于语音识别的Ngram模型改进方法