用于处理音频信号的方法、用于控制设备的方法及其系统与流程

文档序号:33558666发布日期:2023-03-22 13:11阅读:56来源:国知局
用于处理音频信号的方法、用于控制设备的方法及其系统与流程

1.本发明涉及一种用于处理包含操作人员的语音输入的音频信号的方法、一种基于此的用于控制设备的方法以及一种对应的系统。尤其地,本发明在此涉及用于控制医学设备的方法以及具有医学设备的对应的医学系统。


背景技术:

2.医学设备通常用于治疗和/或检查患者。为了检查患者,例如将医学成像模态用作医学设备。这种成像模态例如可以包括磁共振设备、计算机断层扫描设备、pet设备(正电子发射断层扫描设备)等。此外,为了治疗患者,使用介入和/或治疗设备、例如放疗或放射治疗设备、用于执行尤其微创手术的设备等。在此,借助于医学设备治疗和/或检查患者通常由操作人员支持,例如由护理人员、技术人员、x射线助理员工或医生支持。
3.在借助于这种医学设备执行患者的治疗和/或检查之前和期间,通常应对医学设备进行不同的设定,例如输入患者数据、设定不同的设备参数等。所述步骤通常由操作人员执行,其中进行医学设备的设定通常经由在设备处提供的物理用户界面来实现,操作人员可以在所述用户界面中进行输入。
4.为了经济地运行这种医学设备,期望顺畅的工作或方法流程。尤其应尽可能简单地设计设定的进行。在所述方面,de 10 2006 045 719 b4描述了具有语音输入设备的医学系统,其中可以借助于语音控制来激活和停用所述系统的特定功能。在此,借助于语音分析模块处理借助于语音输入设备检测的音频信号,以便求取操作人员的一个或多个语音指令。
5.在复杂的系统的语音控制的情况下,通常在对于许多应用所需的语音分析的速度与通过自然语言表达的操作人员的用户意图的尽可能正确和完整的检测之间产生目标冲突。过长的分析持续时间可能引起对于操作人员的不必要的等待时间,从而引起失望。相反,仅考虑速度的语音分析可能引起执行错误的或不完整的指令以及引起错误,这尤其在医学环境中通常是不可接受的。


技术实现要素:

6.因此,本发明的目的是,解决所述问题并且提供一种用于处理音频信号的方法,所述方法允许在所述方面改进的操作人员的语音指令的求取。这种方法尤其应将快速的处理持续时间与实际的用户意图的尽可能无错误的检测相结合。此外,本发明的目的是,基于此提出一种用于控制实体设备的方法,其中实体设备尤其可以具有医学设备。此外,本发明的目的是,提出包括实体设备和对应的(即执行所述方法的)语音分析设备的——尤其医学的——系统。
7.根据本发明,所提出的目的借助于根据本发明的用于处理音频信号的方法、用于控制实体设备的方法、语音分析设备、具有语音分析设备的系统、计算机程序产品以及计算机可读的存储介质来实现。有利的改进方案在下面的描述中说明。
以便中断语音输入。替代于此,基于持续的“预分析”来适配在音频信号内的与对于操作人员的语音输入的含义的进一步分析相关的时间段。
16.然后,基于这样规定的结束和识别出的开始来提供语音数据流。例如,语音数据流可以包括在识别出的开始与所规定的结束之间的音频信号或基于所述音频信号。根据一些实现方案,语音数据流可以包括在识别出的开始与所规定的结束之间的数字化音频信号或基于所述数字化音频信号。如果语音分析结果已经包括音频信号或呈文本形式的语音输入的文字记录,则语音数据流也可以包括这种文字记录或基于所述文字记录。例如可以以在识别出的开始与所规定的结束之间的音频信号和/或语音输入的记录的形式提供语音数据流。对应地,提供的步骤可以包括记录在识别出的开始与所规定的结束之间的音频信号和/或语音输入,并且将所述记录提供为语音数据流。在此,尤其可以提供语音数据流以用于进一步分析语音数据流,例如以便识别语音数据流中的一个或多个语音指令。对应地,提供的步骤可以包括为对应的语音识别模块或对应的(第二)计算机语言学算法提供语音数据流,或包括将语音数据流输入到语音识别模块或对应的(第二)计算机语言学算法中以用于识别语音数据流中的一个或多个语音指令。
17.上述特征协同地如下共同作用:可以根据迄今的语音输入动态地规定语音输入结束的决定。在此,对刚才口述的语音输入进行连续的评估和使用相关联的结果可以实现显著更可靠的语音结束识别和从而实现明显更好的和更可靠的可操作性。因此可行的是,根据迄今的语音输入符合要求地规定语音输入的结束。借此,例如可以避免过长时间地等待使用者的另外的语音,这意味着对于使用者而言不必要的等待时间。相反,也可以避免过早地将语音输入或记录视为结束,这可能引起不完整的指令的评价并且引起错误。换言之,所述方法步骤是用于根据所提供的语音数据流的整体的、即不持续的语音分析的实际语音识别的预处理。通过预处理,语音分析能够也支持更复杂的命令,而不会减慢针对对时间要求严格的命令的反应。因此,所述方法发挥纯处理之外的作用,因为可以提供更好地适配于条件并且可以实现更好的语音分析的语音数据流。所述方法的流程还通过语音分析方法之外的技术条件、即通过音频信号的信号特性(频率分量、幅值等)和操作人员的口述语言来确定。
18.根据一个实现方案,所述方法还包括基于语音数据流求取一个或多个语音指令。所述方法可选地还包括提供所求取的语音指令。
19.所述步骤涉及对所提供的(整个)语音数据流进行随后的处理。所述步骤尤其可以借助于应用到语音数据流上的单独的第二计算机语言学算法来执行。第二计算机语言学算法尤其可以具有语音至文本(软件)模块(英文:text-to-speech)。为了进一步分析以及辨识一个或多个语音指令,第二计算机语言学算法可以附加地或替选地具有语音识别(软件)模块(nlu模块),所述语音识别(软件)模块例如可以借助于lsi为语音数据流赋予含义。
20.通过两部分处理(部分1用于语音输入的符合需求的截断,和部分2用于语音输入的随后分析),可以实现语音指令的可靠的辨识(其通常需要分析整个语音输入)。同时,通过(呈语音数据流形式的)音频信号中的情景适配的局部,可以同样好地支持更长的和更短的语音输入。
21.例如可以将语音指令提供给进一步处理,尤其以用于基于语音指令产生用于设备的一个或多个控制信号。此外,可以将语音指令提供给操作人员,例如其方式为,经由用户
界面显示所述语音指令。然后,操作人员例如可以验证所提供的语音指令。
22.根据一个实现方案,所述方法还包括基于语音分析结果调整自适应时间段的步骤。规定语音输入的结束的步骤然后包括检测音频信号不包含语音输入的时刻,并且如果从所检测的时刻开始在自适应时间段内没有语音输入的新开始被识别到,则将语音输入的结束规定到所检测的时刻。
23.因此,根据所述实现方案,自适应时间段可以理解为可变的超时,在所述可变的超时结束之后可以假设,操作人员在语音输入结束之后将不再说话。尤其地,识别音频信号不包含语音输入的时刻可以如在上文中描述的识别语音输入的开始那样包括在音频信号中识别人声。这可以借助于信号分析机构来实现,例如其方式为,在音频信号中识别对于人声表征性的值,如频率、幅值、调制等。换言之,识别音频信号不包含语音输入的时刻也可以基于活动识别。借助于识别时刻,例如可以触发计时器,所述计时器测量自不再识别出人声以来经过的时间。如果经过的时间达到自适应时间段并且识别出没有另外的语音输入,则语音输入被视为结束。
24.使用自适应超时确保操作人员不会被“断词”,并且尽可能完整地检测语音输入。通过动态地调整自适应时间段,可以在其中必须考虑其他语音输入的情况下选择更长的超时。根据一些实现方案,例如当语音分析结果指示语音指令的立即实现时,也可以将自适应时间段置于零。
25.根据一个实现方案,所述方法还包括重复检测的步骤,直至从所检测的时刻开始在自适应时间段内识别出没有语音输入的新开始,其中在重复期间持续地执行分析的步骤,并且基于这样获得的语音分析结果持续地调整自适应时间段。
26.换言之,仅当当前超时结束而操作人员没有进行新的语音输入或在音频信号中未识别出人声时,语音输入才被视为结束。持续的分析在此确保自适应时间段在必要时可以适配于新的条件。
27.根据一个实现方案,所述方法包括基于语音分析结果调整自适应时间段,其中规定语音输入的结束的步骤包括在从识别出的语音输入的开始起自适应时间段结束之后规定语音输入的结束。
28.因此,换言之,在所述实现方案中不设置超时,而是定义了如下时间段:在所述时间段之后,语音输入被视为结束。自适应时间段在此也可以理解为“截止”。这可以带来如下优点:即使在持续的语音输入中,相关的语音输入也可以被视为结束。例如,如果迄今的语音输入建议立即执行指令(例如指令“停止”),则可以是这种情况。
29.在一些实现方案中,在最小时间段与最大时间段内调整自适应时间段。
30.借此可以确保,既不过长时间地等待另外的语音输入,也不过快地中断语音输入。如果自适应时间段涉及超时,则最小时间段例如可以确定到250ms和750ms之间的值,并且例如可以为500ms。最大时间段例如可以确定到1000ms和2000ms之间的值,并且例如可以为1500ms。如果自适应时间段涉及截止,则最小时间段例如可以确定到500ms和3000ms之间的值,并且例如可以为1000ms。最大时间段例如可以确定到1000ms和10000ms之间的值,并且例如可以为5000ms。
31.在一些实现方案中,例如如果语音分析结果指示立即执行语音指令,则规定语音输入的结束可以包括语音输入的立即或直接结束(或设置语音输入的结束)。例如,如果在
迄今的语音输入中识别出关键词如“停止”、“快速”、“中止”等,则可以是这种情况。
32.在一些实现方案中,分析音频信号的步骤包括求取语音输入从识别出的开始起迄今的持续时间。因此,语音分析结果包括语音输入的迄今的持续时间。然后在调整的步骤中,根据迄今的持续时间适配自适应时间段,其中自适应时间段尤其适配成,使得自适应时间段至少分部段地随着迄今的持续时间增加。
33.换言之,自适应时间段在迄今的持续时间的至少一个子范围内(例如在最小时间段与最大时间段之间)随着迄今的持续时间增加。增加在此例如可以线性地、二次幂地、对数地或以其他方式设计。可以为应用情况个体化地选择并且在必要时由使用者配置增加的精确变化过程。
34.替代固定的时间段,现在根据语音输入的迄今的持续时间(即自识别出的语音输入开始以来经过的时间)选择所述自适应时间段。背后的假设是,尤其在更长的命令的情况下必须考虑思考停顿。因此,在所述实现方案中,在已经持续较长时间的指令的情况下,操作人员也被给予更多时间来结束语音输入。
35.根据一些实现方案,分析音频信号的步骤包括用于分割音频信号内的字母、单词和/或句子的标记化,并且语音分析结果包括相关联的标记化信息。
36.在计算机语言学中,标记化表示将文本分割成字母、单词和句子级别的单元。根据一些实现方案,标记化可以包括将包含在音频信号中的语音转换成文本。换言之,可以创建文字记录,然后对所述文字记录进行标记化。为此可以使用多种本身已知的方法,所述方法例如基于共振峰分析(formantanalyse)、隐藏马尔可夫模型(hidden-markov-modellen)、神经网络、电子词典和/或语言模型的使用。
37.通过使用标记化信息,可以在调整自适应时间段时考虑操作人员的语音输入的结构。借此,自适应时间段可以良好地匹配于推测的用户的意图。例如在一些实现方案中可设想,标记化信息指示操作人员是否已经说完当前句子。在确定的步骤中,如果标记化信息指示操作人员已经说完当前句子,则可以缩短自适应时间段。附加地或替选地,如果标记化信息指示操作人员尚未说完当前句子,则可以延长自适应时间段。尤其地,标记化的步骤可以与基于标记化信息调整自适应时间段以及与上述基于语音输入的迄今的持续时间调整自适应时间段相结合。
38.在此,句子是否结束例如可以借助于语法分析、例如利用语言模型或语法模型来分析。附加地或替选地,可以在当前语音输入结束时辨识指示句子尚未结束的信号词,例如“并且”、“更确切地说
……”
或“这意味着”。附加地或替选地,可以评估操作人员的语音旋律,因为在句子末尾处的音高通常下降。
39.根据一些实现方案,分析音频信号的步骤包括对音频信号进行语义分析以用于检测涉及操作人员的语音指令的用户意图。对应地,语音分析结果包括对应的语义信息。
40.换言之,语义分析适应于推断操作人员的语音输入的含义。尤其地,语义分析可以包括上游的语音识别步骤(语音至文本)和/或标记化步骤。尤其地,语义分析连带基于语义信息调整自适应时间段还可以与上述基于语音输入的迄今的持续时间调整自适应时间段相结合。
41.通过借助于语义信息考虑操作人员的语音输入的含义,自适应时间段可以根据操作人员的迄今所说内容以及尤其根据推测的意愿(用户意图)来调整。因此,语音识别(nlu)
被纳入到对刚刚口述的语音信号的连续评估以及使用结果以判断语音记录的结束中。借此可以实现更可靠的语音结束识别并且由此实现更好的和更可靠的可操作性。
42.根据一些实现方案,语义信息指示音频信号是否包含一个或多个用户意图,其中在确定的步骤中,如果语义信息指示音频信号包含至少一个用户意图,则缩短自适应时间段,和/或如果语义信息指示音频信号迄今不包含用户意图,则延长自适应时间段。
43.在此尤其地,用户意图可以是操作人员的涉及待确定(或待考虑)的一个或多个语音指令的语音输入。在此,语音指令尤其可以是对于控制特定实体设备(或装置)相关的语音指令。对应地,提供这种语义信息可以包括接收一个或多个可能的语音指令以及将一个或多个可能的语音指令与迄今的语音输入进行比较。例如,可以根据待通过语音输入控制的实体设备(或装置)来选择和/或预先确定一个或多个可能的语音指令。
44.根据一些实现方案,语义信息指示或包含在音频信号中包含的用户意图的至少一个特性,其中在确定的步骤中,基于所述至少一个特性适配自适应时间段。
45.因此,换言之,从语音输入中连续地提取特定的特征或特性,所述特定的特征或特性对自适应时间段和从而对当前口述的语音输入的结束产生影响。在此尤其地,在语义信息的范围内求取这种特性可以包括接收一个或多个可能的语音指令以及将所述一个或多个可能的语音指令与迄今的语音输入进行比较。例如可以根据待通过语音输入控制的实体设备(或装置)来选择和/或预先确定一个或多个可能的语音指令。然后根据比较可以推断出相关联的用户意图的特性。
46.在此尤其地,至少一个特性可以包括:相关联的用户意图有多复杂,相关联的用户意图是否完整,和/或相关联的用户意图有多紧迫。例如,在根据所述特性设定自适应时间段时,如果语义信息指示相关联的用户意图是完整的,则可以缩短自适应时间段。相反,例如如果语义信息指示相关联的用户意图是不完整的,则可以延长自适应时间段。此外,如果语义信息指示相关联的用户意图是紧迫的或指示紧迫的实现,则可以缩短自适应时间段。相反,例如如果语义信息指示相关联的用户意图指示没有紧迫的实现,则可以延长自适应时间段。此外,如果语义信息指示相关联的用户意图不那么复杂,则可以缩短自适应时间段。相反,例如如果语义信息指示相关联的用户意图是复杂的(并且可能需要其他解释),则可以延长自适应时间段。
47.根据另一方面,提出一种用于控制实体设备、尤其医学设备的方法。所述方法包括多个步骤。一个步骤涉及检测音频信号,所述音频信号包含设备的操作人员的涉及控制所述设备的语音输入。另一步骤涉及根据上述方面和必要时可行的实现方案处理音频信号。另一步骤涉及基于语音数据流求取一个或多个语音指令。另一步骤涉及基于一个或多个语音指令产生一个或多个控制信号,所述控制信号适合于对应于所求取的语音指令控制所述设备。另一步骤涉及将一个或多个控制信号输入到所述设备中。
48.检测音频信号可以基本上如上文中所描述的那样实现,并且例如可以包括借助于声学输入设备、如麦克风来记录声音信号。通过处理音频信号,提供语音数据流以用于进一步分析。与此相关的优点和可行的实现方案对应于上述方面的优点和可行的实现方案。
49.所述方法还提出,对通过处理音频信号提供的语音数据流进行进一步处理,以便辨识语音数据流中的对于控制实体设备相关的一个或多个语音指令。尤其分析语音数据流以用于辨识一个或多个语音指令。在此尤其可以再次应用语音识别(nlu)的方法。尤其可以
提出,识别语音数据流中的各个单词或词组并且将其与用于实体设备的预定义的一组可能的语音指令进行比较或相结合。例如,所述预定义的一组可能的语音指令可以以指令库的形式存在。
50.因此,换言之,实现两阶段式处理方案,所述处理方案将待分析的语音数据的情景截断与这样截断的语音数据的整体分析相结合。后者是有利的,因为可以通过整体分析获得额外的信息。因此,例如在分析涉及语音输入的词嵌入(worteinbettungen)时,可以在两个时间方向上访问文本上下文。
51.实体设备首先不受进一步限制,而是首先可以涉及任何设计用于语音控制的技术设备。这例如可以包括数字口述录音设备、计算机、车辆的车载计算机、机器人、机器等。在优选的实现方案中,实体设备包括医学设备。医学设备尤其可以构成用于执行和/或支持医疗程序。医疗程序可以包括成像的和/或介入的和/或治疗的程序,但是也包括对患者的监测。尤其地,医学设备可以包括成像模态,例如磁共振设备、单光子发射断层扫描设备(spect设备)、正电子发射断层扫描设备(pet设备)、计算机断层扫描仪、超声设备、x射线设备或构成为c型臂设备的x射线设备。成像模态也可以是组合式医学成像设备,其包括由所提及的成像模态中的多个成像模态构成的任意组合。此外,医学设备可以具有介入和/或治疗设备,例如活检设备、用于照射患者的放疗或放射治疗设备和/或用于执行手术、尤其微创手术的手术设备。根据其他实现方案,医学设备可以附加地或替选地包括患者监测模块、例如ecg设备,和/或患者护理设备、例如通气设备、输液设备和/或透析设备。
52.根据一些实现方案,分析音频信号的步骤包括将第一计算机语言学算法应用到音频信号上,并且求取一个或多个语音指令的步骤包括将第二计算机语言学算法应用到语音数据流上,其中第一计算机语言学算法不同于第二计算机语言学算法。
53.对应地,第一计算机语言学算法可以构成用于处理音频信号,使得提供语音数据流以用于通过第二计算机语言学算法进行进一步处理。对应地,第二计算机语言学算法可以构成用于,基于语音数据流辨识用于控制实体设备的一个或多个语音指令。根据一些实现方案,第一计算机语言学算法可以实现为所谓的前端算法,所述前端算法例如在本地计算单元中作为主控,例如在实体设备的控制单元或本地语音识别模块中作为主控。作为前端,处理尤其可以良好地实时地进行,使得实际在没有明显时间延迟的情况下可以获得结果。第二计算机语言学算法可以对应地实现为所谓的后端算法,所述后端算法例如在远程(英文:remote)计算装置中作为主控,例如在真实基于服务器的计算系统或虚拟云计算系统中作为主控。在后端实现方案中,尤其可以使用需要高的计算能力的复杂的分析算法。对应地,所述方法可以包括将语音数据流传送给远程计算装置并且从远程计算装置接收一个或多个分析结果,然后基于所述分析结果在产生的步骤中产生语音指令。替选地,也可以直接从远程计算装置接收语音结果。
54.在替选的实现方案中,第二计算机语言学算法也可以实现为前端算法。相反,第一计算机语言学算法也可以实现为后端算法。
55.根据其他实现方案,所述方法还包括从设备接收系统状态,所述系统状态包括关于设备的当前状态的信息,其中规定的步骤附加地基于系统状态来进行。
56.系统状态在此可以通过相应的工作步骤或设备恰好执行的工作步骤的顺序或序列来规定。通过考虑当前系统状态,语音输入的结束可以更有针对性地与相应的条件相协
调。
57.根据一些实施方式,系统状态设计成,使得其指示是否存在设备的如下状态:所述状态指示快速地实现一个或多个语音指令,其中在确定的步骤中,如果系统状态指示存在设备的指示快速地实现一个或多个语音指令的状态,则缩短自适应时间段;和/或如果系统状态指示不存在设备的指示快速地实现一个或多个语音指令的状态,则延长自适应时间段。
58.由此,可以在推测要求快速地实现操作人员的指令的系统状态的情况下快速地开始对语音数据流进行分析,并且改进处理的响应时间。
59.根据另一方面,提供用于处理音频信号的语音分析设备。语音分析设备具有用于接收音频信号的接口和控制设备,其中控制设备构成用于,在音频信号中识别操作人员的语音输入的开始,从识别出的语音输入的开始起基本上实时地分析音频信号以提供语音分析结果,基于语音分析结果规定、尤其可变地规定语音输入的结束,以及基于在识别出的开始与所规定的结束之间的音频信号来提供语音数据流。
60.控制设备可以构成为中央式或分布式计算单元。计算单元可以具有一个或多个处理器。处理器可以构成为中央处理单元(对此的英文专业表述是“central processing unit”,简称cpu)和/或图形处理器(对此的英文专业表述是“graphics processing unit”,简称gpu)。尤其地,控制设备可以实现为待通过语音输入控制的实体设备或所述实体设备的一部分。替选地,控制装置可以实现为本地的、真实的和/或基于云的处理服务器。此外,控制装置可以包括一个或多个虚拟机。根据其他实现方案,语音分析设备还具有语音识别模块,所述语音识别模块构成用于,基于语音数据流求取一个或多个语音指令。
61.接口通常可以构成用于在控制设备与其他部件之间进行数据交换。接口可以以一个或多个单个数据接口的形式实现,所述接口可以具有硬件接口和/或软件接口,例如pci总线、usb接口、fire-wire接口、zigbee接口或蓝牙接口。接口还可以具有通信网络的接口,其中通信网络可以具有局域网(lan),例如内联网,或广域网(wan)。对应地,一个或多个数据接口可以具有lan接口和/或无线lan接口(wlan或wi-fi)。接口还可以构成用于经由用户界面与操作人员进行通信。对应地,控制装置可以构成用于,经由用户界面显示语音指令并且经由用户界面接收关于此的用户输入。接口尤其可以包括用于记录音频信号的声学输入设备。
62.所提出的设备的优点基本上对应于所提出的方法的优点。特征、优点或替选的实施方式/方面同样可以转用于其他要求保护的主题,并且反之亦然。
63.根据另一方面提供一种医学系统,所述医学系统包括根据上述方面的语音分析设备和上述用于执行医疗程序的医学设备。
64.在另一方面中,本发明涉及一种计算机程序产品,所述计算机程序产品包括程序并且可以直接加载到可编程控制装置的存储器中并且具有程序机构、例如库和辅助功能,以便当执行计算机程序产品时,执行尤其根据上述实现方案/方面的用于处理音频信号的方法或用于控制设备的方法。
65.此外,在另一方面,本发明涉及一种计算机可读的存储介质,在所述存储介质上存储有可读和可执行的程序段,以便当由控制装置执行程序段时,执行根据上述实现方案/方面的用于处理音频信号的方法的所有步骤或用于控制设备的方法。
66.在此,计算机程序产品可以包括:具有源代码的软件,所述源代码还必须编译和链接或仅必须解释;或可执行的软件代码,所述软件代码为了执行仅还应加载到处理单元中。通过计算机程序产品,可以快速地、可相同重复地且鲁棒地执行所述方法。计算机程序产品配置成,使得所述计算机程序产品可以借助于计算单元执行根据本发明的方法步骤。在此,计算单元必须分别具有先决条件,例如对应的工作存储器、对应的处理器、对应的显卡或对应的逻辑单元,使得可以高效地执行相应的方法步骤。
67.计算机程序产品例如存储在计算机可读的存储介质上或保存在网络或服务器上,从那里,所述计算机程序产品可以加载到相应的计算单元的处理器中,所述处理器可以直接与计算单元连接或构成为计算单元的一部分。此外,计算机程序产品的控制信息可以存储在计算机可读的存储介质上。计算机可读的存储介质的控制信息可以构成为,使得当在计算单元中使用数据载体时,所述控制信息执行根据本发明的方法。计算机可读的存储介质的示例是dvd、磁带或usb记忆棒,在其上存储有电子可读的控制信息、尤其软件。当从数据载体中读取所述控制信息并将其存储到计算单元中时,可以执行在上文中描述的方法的根据本发明的所有实施方式/方面。因此,本发明也可以基于所述计算机可读的介质和/或所述计算机可读的存储介质。所提出的计算机程序产品或相关联的计算机可读的介质的优点基本上对应于所提出的方法的优点。
附图说明
68.本发明的其他特点和优点从下面根据示意图对实施例的阐述中可见。在所述上下文中提及的改型方案可以分别彼此组合,以便构成新的实施方式。在不同的附图中,相同的附图标记用于相同的特征。
69.附图示出:
70.图1示出根据一个实施方式的用于控制医学设备的系统的示意性方框图;
71.图2示出根据另一实施方式的用于控制医学设备的系统的示意性方框图;
72.图3示出根据一个实施方式的用于控制医学设备的方法的示意性流程图;
73.图4示出根据一个实施方式的用于处理音频信号的方法的示意性流程图;
74.图5示出一个示例性的音频信号的示意图;
75.图6示出另一示例性的音频信号的示意图;
76.图7示出根据一个实施方式的根据操作人员的语音输入的迄今的持续时间的自适应时间段的图表;
77.图8示出根据一个实施方式的用于处理音频信号的方法的示意性流程图;以及
78.图9示出一个示例性的音频信号的示意图。
具体实施方式
79.图1示意性地示出用于对患者执行医疗程序的系统100的功能方框图。系统100具有用于对患者执行医疗程序的医学设备1。医疗程序可以包括成像的和/或介入的和/或治疗的过程。
80.医学设备1尤其可以包括成像模态成像模态通常可以构成用于,当患者被引入到成像模态的检测区域中时,对所述患者的解剖学区域进行成像。成像模态例
如是磁共振设备、单光子发射断层扫描设备(spect设备)、正电子发射断层扫描设备(pet设备)、计算机断层扫描设备、超声设备、x射线设备或构成为c型臂设备的x射线设备。成像模态也可以是组合式医学成像设备,其包括由所提及的成像模态中的多个成像模态构成的任意组合。
81.此外,医学设备可以具有介入和/或治疗设备。介入和/或治疗设备通常可以构成用于,对患者执行介入的和/或治疗的医疗程序。例如,介入和/或治疗设备可以是用于提取组织样本的活检设备、用于照射患者的放疗或放射治疗设备和/或用于执行手术、尤其微创手术的手术设备。根据实施方式,介入和/或治疗设备可以是自动化的或至少部分自动化的以及尤其是机器人控制的。放疗或放射治疗设备例如可以具有医学线性加速器或其他射束源。手术设备例如可以具有导管机器人、微创外科机器人、内窥机器人等。
82.根据其他实施方式,医学设备1可以附加地或替选地具有支持医疗程序的执行的模块、例如尤其可至少部分自动化地控制的患者支承设备和/或用于监测患者的状态的监测设备、例如ecg设备,和/或患者护理设备、例如通气设备、输液设备和/或透析设备。
83.根据本发明的实施方式,医学设备1的一个或多个部件应可以通过操作人员的语音输入来操控。为此,系统100具有声学输入设备2和语音分析设备10。
84.声学输入设备2用于记录或检测音频信号e1,即用于记录由系统100的操作人员产生的口述声音。输入设备2例如可以实现为麦克风。输入设备2例如可以固定地设置在医学设备1处或另一部位处,例如设置在操作室中。替选地,输入设备2也可以便携式地实现,例如可以实现为可以由操作人员携带的头戴式耳机的麦克风。在所述情况下,输入设备2有利地具有用于无线的数据传输的发送器21。
85.语音分析设备10具有用于接收信号的输入端31和用于提供信号的输出端32。输入端31和输出端32可以形成语音分析设备10的接口装置。语音分析设备10通常设立用于执行数据处理过程以及产生电信号。为此,语音分析设备10可以具有计算单元3。计算单元3例如可以包括处理器、例如呈cpu等形式的处理器。计算单元3可以构成为中央控制单元、例如具有一个或多个处理器的控制单元。计算单元3尤其可以构成为医学设备1的控制计算机或所述控制计算机的一部分。根据其他实现方案,计算单元3的功能性和部件可以以分散的方式分布到系统100的多个计算单元或控制装置上。
86.此外,语音分析设备10具有数据存储器4,更确切地说尤其具有可通过计算单元3读取的非易失性数据存储器,如硬盘、cd-rom、dvd、蓝光光盘、软盘、闪存等。在数据存储器4上通常可以存储有软件a1、a2,所述软件a1、a2设立用于使计算单元3执行方法的步骤。
87.如在图1中示意性地示出,语音分析设备10的输入端31与输入设备2和医学设备1连接。输入端31可以设立用于无线的或有线的数据通信。输入端31例如可以具有总线端子。相对于有线端子替选地或附加地,输入端31也可以具有用于无线数据传输的接口、例如接收器34。例如,如在图1中所示,接收器34可以与输入设备2的发送器21进行数据通信。例如可以将wifi接口、蓝牙接口等设置为接收器34。
88.语音分析设备10的输出端32与医学设备1连接。输出端32可以设立用于无线的或有线的数据通信。输出端32例如可以具有总线端子。相对于有线端子替选地或附加地,输出端32也可以具有用于无线数据传输的接口,例如wifi接口、蓝牙接口等。
89.语音分析设备10设立用于,产生用于控制医学设备1的一个或多个控制信号c1并
且将其提供给输出端32。控制信号c1使医学设备1执行特定的工作步骤或一系列步骤。以实施为mr设备的成像模态为例,这种步骤例如可以涉及通过mr设备的发生器回路执行具有特定磁场激励的特定扫描序列。此外,这种步骤可以涉及医学设备1的可移动的系统部件的移动、例如患者支承设备的移动或成像模态的发射或探测器部件的移动。
90.为了提供一个或多个控制信号c1,计算单元3可以具有不同的模块m1-m3。在下文中称为语音分析模块m1的第一模块m1构成用于,从音频信号e1中确定(计算)包含操作人员的相关语音指令的语音数据流e2。语音分析模块m1尤其构成用于,借助于对音频信号e1进行持续分析确定在音频信号e1内与控制医学设备1相关的口述表达(语音输入)的开始be和结束en并且基于开始be与结束en之间的音频信号e1来提供语音数据流e2。为此,语音分析模块m1可以构成用于,根据通过语音分析模块m1执行的语音分析动态地确定自适应时间段azs。为此,语音分析模块m1可以构成用于,将语音分析算法a1(第一计算机语言学算法)应用到音频信号e1上。语音分析模块m1(例如通过执行语音分析算法a1)尤其可以构成用于执行方法步骤s40-a至s40-e(参见图4和图8)。
91.随后可以将语音数据流e2输入到计算单元3的另一模块m2中,所述另一模块m2在下文中也被称为语音识别模块m2。语音识别模块m2构成用于基于语音数据流e2辨识一个或多个语音指令sb。为此,语音识别模块m2可以将语音识别算法a2(第二计算机语言学算法)应用到语音数据流e2上,所述语音识别算法a2构成用于在这种语音数据流中识别一个或多个语音指令。语音识别模块m2(例如通过执行语音识别算法a2)尤其可以构成用于执行方法步骤s50。语音识别模块m2优选地不持续地(即近似实时地)分析所提供的信号,而是作为整体以封闭的方式分析所提供的信号。这具有更精确的分析结果的优点。因此,尤其可以更系统地检测词嵌入(而不仅基于当前词向后)。
92.语音指令sb被输入到另一模块m3中,所述另一模块m3在下文中也被称为指令输出模块m3。指令输出模块m3构成用于基于语音指令sb提供一个或多个控制信号c1,所述一个或多个控制信号c1适合于对应于所辨识的语音指令sb来控制医学设备1。
93.所进行的细分成模块m1-m3在此仅用于更简单地解释计算单元3的工作方式而不应被理解为限制性的。模块m1-m3或其功能也可以组合在一个元件中。在此尤其地,模块m1-m3也可以理解为计算机程序产品或计算机程序段,所述计算机程序产品或计算机程序段当在计算单元3中执行时实现以下描述的功能或方法步骤中的一个或多个功能或方法步骤。
94.图2示意性地示出根据另一实施方式的用于对患者执行医疗程序的系统100的功能方框图。在图2中示出的实施方式与在图1中示出的实施方式的不同之处在于,语音识别模块m2的功能性至少部分地被转移到在线语音识别模块om2中。除此以外,相同的附图标记表示相同的或功能相同的部件。
95.在线语音识别模块om2可以存储在服务器61上,语音分析设备10可以经由互联网连接和服务器61的接口62与所述服务器61进行数据交换。语音分析设备10可以对应地构成用于将语音数据流e2传送给在线语音识别模块om2。在线语音识别模块om2可以构成用于,基于语音数据流e2直接辨识一个或多个语音指令sb,并且将其返回给语音分析设备10。对应地,在线语音识别模块om2可以构成用于使语音识别算法a2在合适的在线存储器中可用。在线语音识别模块om2在此可以被理解为针对多个、尤其本地客户端提供语音识别服务的中央装置(语音分析设备10在所述意义上可以被理解为本地客户端)。使用中央在线语音识
别模块om2可以是有利的,因为可以应用更高性能的算法以及可以消耗更多的计算能力。
96.在替选的实现方案中,在线语音识别模块om2也可以“仅”返回语音数据流e2的文字记录t。文字记录t然后可以包含语音数据流已被转换成的机器可用的文本。然后,基于所述文字记录t,计算单元3的模块m2例如可以辨识语音指令sb。如果语音指令sb与在线语音识别模块om2无法访问的和/或在线语音识别模块om2没有准备考虑的医学设备1的条件相关,则这种设计方案可以是有利的。于是利用在线语音识别模块om2的性能来创建文字记录t,否则在语音分析设备10内确定语音指令。
97.但是相反地,根据未示出的另一修改方案,语音分析设备10的其他功能也可以在中央服务器中执行。因此可考虑,在在线语音识别模块om2中语音分析算法a1也作为主控。然后将音频信号e1提供给在线语音识别模块om2,然后在在线语音识别模块om2中对音频信号e1进行进一步处理。然后将返回文字记录t或同样返回语音指令sb。
98.在图1和图2中示例性示出的系统100中,对医学设备1的控制可以通过在图3中示例性示出为流程图的方法来进行。方法步骤的顺序既不通过所示出的顺序也不通过所选择的编号限制。因此,必要时,步骤的顺序可以交换并且可以省去个别步骤。
99.在此通常提出,操作医学设备1的操作人员用声音或语音地表达命令,例如其方式为,所述操作人员说出句子、如“开始扫描序列x”或“将患者引入到起始位置中”,输入设备2检测和处理相关联的音频信号e1,并且语音分析设备10分析所检测的音频信号e1并且产生用于操纵医学设备1的对应的控制命令c1。所述方式的优点是,操作人员也可以在说话期间完成其他任务,例如从事于患者的准备。这有利地加速工作流程。此外,可以由此至少部分地以“无接触”的方式控制医学设备1,由此改进医学设备1处的卫生。
100.在步骤s10中,首先借助于输入设备2检测音频信号e1。音频信号e1在输入端31处提供给语音分析设备10,或者语音分析设备10经由输入端31接收音频信号e1(步骤s20)。
101.在可选的步骤s30中,可以求取医学设备1的当前系统状态s1。例如,医学设备1的系统状态s1可以通过医学设备1的待机运行给定或通过如下方式来给定:医学设备1恰好执行操作(例如扫描序列或系统部件的移动)或处于用于执行预先确定的操作的准备状态中。系统状态s1通常通过相应的工作步骤或医学设备1恰好执行或应执行的工作步骤的顺序或序列来确定。从中得出,医学设备1可能潜在地执行哪些其他工作步骤和从而可以如何操纵所述医学设备1以及操纵对时间要求多严格。例如,可以将系统状态s1作为输入变量输送给查找表,在所述查找表中包含有用于操控医学设备1的对于不同的系统状态所需的信息。医学设备1在语音分析设备10的输入端31处提供所述系统状态s1,例如作为数据信号。
102.在步骤s40中,语音分析设备10从所检测的音频信号e1中产生语音数据流e2。因此,换言之,步骤s40包括从整个音频信号e1中提取对于控制医学设备1相关的语音表达作为语音数据流e2。尤其地,产生语音数据流e2包括不同的子步骤,在所述子步骤中,在音频信号e1内探测或确定与控制医学设备1相关的语音表达(或语音输入)的开始be和结束en。在此可以可选地考虑系统状态s1。这例如可以通过存储在数据存储器4上的并且使计算单元3执行所述步骤的软件a1来实现。替选地,可以在可选的在线语音识别模块om2中存储对应的软件,所述软件对应地使可选的在线语音识别模块om2执行所述步骤。在下文中参照图4至图6详细地描述用于从音频信号e1中产生语音数据流e2的步骤的不同的设计方案。此外,可以可选地在步骤s40中提出使用模数转换器(未示出),所述模数转换器将模拟音频信
号e1数字化。还可选地,可以在步骤s40中记录语音数据流e2,例如以用于进一步处理。
103.在步骤s50中,从语音数据流e2(或文字记录t)中求取操作人员的一个或多个语音指令sb。为此,可以将语音识别算法a2应用到语音数据流e2上。语音识别算法a2例如可以构成用于,识别在语音数据流e2(或文字记录t)中是否包含对于控制医学设备1相关的一个或多个语音指令sb。语音识别算法a2例如可以作为软件包含在数据存储器4上。在替选的实施方式中,语音识别算法a1也可以保存在在线语音识别模块om2中。
104.为此,语音识别算法a2例如可以构成用于,求取是否可以将包含在医学设备1的指令库50中的一个或多个语音指令与语音数据流e2(或文字记录t)相关联。这可以基于规则根据语音数据流e2的信号特性来实现。指令库50可以包含可以分别与操作人员的语音数据流e2的一个或多个信号分量相关联的语音指令sb的选择。信号分量在此可以是操作人员的由一个或多个单词构成的语言表述。根据一些实现方案,指令库50还可以包含根据医学设备1的当前系统状态s1从指令数据库5中加载的用于医学设备1的语言指令的选择。然后为相应的系统状态s1临时生成指令库50,并且例如可以将其作为临时文件加载到计算单元3的工作存储器中。从指令数据库5中加载指令库50的内容、即其中语音指令分别与一个或多个信号模式或语言表述相关联的各个数据集。将指令数据库5中的哪些数据集加载到指令库50中与医学设备1的系统状态s1相关。例如,在执行特定操作时,医学设备1仅可以执行特定的另外的或其他工作步骤。所述信息可以与引起产生对应于工作步骤的控制命令c1的语音指令sb一起保存在指令数据库5中。
105.根据一些实现方案,语音识别算法a2可以具有作为软件的通过机器学习训练的识别功能。识别功能可以构成用于识别语音数据流e2中的一个或多个语言表达并且例如将对应的(例如呈文字记录t形式的)识别信号经由输入端31输送给语音分析设备10。这样求取的语言表达然后可以在语音分析设备10中被转换成语音指令sb,例如利用上文中详细阐述的指令库。
106.如果语音识别功能a2在在线语音识别模块om2中作为主控,则步骤s50还可以包括以下子步骤中的一个或多个子步骤:通过语音分析设备10将语音数据流e2传送给在线语音识别模块om2的可选的子步骤s50-a;计算语音数据流e2的文字记录t(即将语音数据流e2转换成文本)的可选的子步骤s50-b;通过语音分析设备10从在线语音识别模块om2接收文字记录t的可选的子步骤s50-c;以及基于接收到的文字记录t辨识一个或多个语音指令sb的可选的子步骤s50-d。
107.根据其他实施方式,也可以省去步骤s50,或者可以将步骤s50的功能性集成到步骤s40中。换言之,步骤s40的结果可以直接用于进一步处理。例如,语音指令也可以在步骤s40中直接导出。对应地,语音分析算法a1例如也可以构成用于,识别在语音数据流e2(或文字记录本t)中是否包含对于控制医学设备1相关的一个或多个语音指令sb。
108.在步骤s60中,基于在步骤s50中识别的语音指令sb来确定用于医学设备1的一个或多个控制信号c1。为此,识别出的语音指令sb例如可以以输入变量的形式输送给指令输出模块m3(或例如存储在数据存储器4上的对应的软件),所述语音指令然后使计算单元3产生一个或多个控制信号c1。控制信号c1适合于根据一个或多个语音指令sb来控制医学设备1。最后,在步骤s70中,控制信号c1被传送给医学设备1(以用于对其进行控制)。
109.图4示出用于处理音频信号e1和尤其用于从音频信号e1中确定语音数据流e2的方
法的一个实施方式的流程图。方法步骤的顺序既不受所示出的顺序也不受所选择的编号限制。因此,必要时,步骤的顺序可以交换并且可以省去个别步骤。在图4中示出的步骤尤其可以在图3中的步骤s40的过程中执行。
110.在图4中示出的方法步骤旨在动态地识别操作人员何时完成语音输入以及可以开始对语音输入进行全面分析(例如在步骤s50的过程中)。根据待执行的指令,语音输入可以更短或更长。换言之,图4中的方法步骤描绘系统100何时停止侦听说话的操作人员并且何时开始评估语音输入并且必要时将其转换成控制信号c1的判断过程。因此,从音频信号e1中产生根据语音输入动态地改变的时间长度的语音数据流e2,然后在步骤s50中将所述语音数据流e2输送给进一步的分析。在此,在图4示出的处理基于自适应时间段的设置,所述自适应时间段用作变可变的“超时”,在所述超时结束之后,如果在所述流程期间没有检测到操作人员的新的语音输入,则语音输入被视为结束。在图5和图6中示意性地示出音频信号e1和由其提供的语音数据流e2。
111.在第一步骤s40-a中,在音频信号e1中识别操作人员的语音输入的开始be。这例如可以根据音频信号e1通过如下方式进行:例如检测对于自然语音表征性的信号分量。替选地,可以通过如下方式来检测语音输入的开始be:将包含在音频信号e1中的声音信息转换成文本信息(即文字记录t)并且根据文字记录t来确定语音输入的开始。所述功能性可以通过存储在数据存储器4上并且使计算单元3执行所述步骤的对应的软件模块来执行。软件模块例如可以是语音分析算法a1或语音识别算法a2的一部分。替选地可以使用由在线语音识别模块om2提供的文字记录t。
112.在步骤s40-b中,通过语音分析算法a1持续地并且基本上实时地进行音频信号e1的分析。由此,语音分析算法a1提供语音分析结果,基于所述语音分析结果,可以求取操作人员的语音输入是否结束并且尤其可以通过语音识别算法a2开始对操作人员的语音输入进行进一步分析。
113.为此,在步骤s40-c中基于语音分析结果来确定自适应时间段azs。在所述实施方式中,所述自适应时间段用作超时。如果通过活动识别从某一时刻t0开始在音频信号e1中不再确定有人声,则从所述时刻t0开始,等待自适应时间段azs过去(参见图5和图6)。如果在自适应时间段azs过去期间确定没有新开始的语音输入,则语音输入视为结束,并且基于迄今的语音输入形成语音数据流e2(参见图5)。相反,如果在自适应时间段azs内识别出新开始的语音输入,则语音输入不视为结束,并且新的语音输入与语音数据流e2相关联(参见图6)。同时,继续对语音输入进行持续的分析,并且持续地调整自适应时间段azs。以图6为例,这可能引起改变的、在所述示例情况下更长的自适应时间段azs'。在下文中,在所述上下文中解释可以如何调整自适应时间段azs。
114.在简单的情况下,语音分析结果可以包括从识别出的语音输入的开始be起操作人员的语音输入的迄今的持续时间d。语音输入是否仍持续例如可以如在检测语音输入的开始be时根据音频信号e1本身来识别。对应地,步骤s40-b可以包括(例如基于从音频信号中提取的文本输入)检测语音输入的迄今的持续时间d的可选的步骤s40-b-0。语音输入已经持续的时间越长,在步骤s40-c中可以设置的自适应时间段azs就越长。
115.背景是,在趋势上更长时间的语音输入的情况下,通常传递更复杂的事实,所述事实证明直至可以开始进一步分析的更长的等待时间。此外,在已经持续更长时间的语音输
入的情况下可行的是,操作人员思考停顿。通常可以提出,自适应时间段azs仅在最小时间段azs_min与最大时间段azs_max之间改变,以便一方面确保最小侦听持续时间,而另一方面不过长时间地等待操作人员的进一步输入。根据迄今的持续时间d转移到调整自适应时间段azs例如可以意味着,自适应时间段azs在最小时间段azs_min与最大时间段azs_max之间随着迄今的持续时间d——即至少在迄今的持续时间d的子范围中增加(参见图7)。所述增加在此可以基本上线性地进行。
116.根据其他实现方案,语音识别算法a1也可以具有语音理解模块,所述语音理解模块构成用于理解自然语言(对此的英文表达是:natural language understanding)。
117.语音理解模块在此可以构成用于,首先将包含在音频信号e1中的声音信息转换成文本信息(即产生文字记录t)。尤其地,语音理解模块还可以构成用于,对音频信号e1或操作人员的语音输入或文字记录t进行标记化。标记化在此表示语音输入的分割,即将说出的文本分割成单词或句子级别的单元。对应地,语音分析结果可以包括标记化信息,所述标记化信息例如指示操作人员是否已经说完当前句子。
118.对应地,步骤s40-b可以包括将包含在音频信号e1中的声音信息转换成文本信息(或产生文字记录t)的可选的步骤s40-b-1。此外,步骤s40-b可以包括对语音输入或音频信号e1或文字记录t进行标记化以用于提供标记化信息的可选的步骤s40-b-2。
119.在步骤s40-c中可以使用标记化信息,以便以情景合适的方式调整自适应时间段azs。例如,如果操作人员尚未说完句子,则可以延长自适应时间段azs,以便给操作人员足够的时间来结束语音输入。相反,如果操作人员已经说完句子,则可以缩短自适应时间段azs。
120.附加地或替选地,根据其他实现方案,语音理解模块可以构成用于对音频信号e1或操作人员的语音输入或文字记录t执行语义分析。对应地,语音分析结果可以包括操作人员的语音输入的语义信息。语义分析在此涉及将语音输入与含义相关联。为此,例如可以与医学设备1的上文中提及的指令数据库5或指令库50进行比较。尤其地,语音理解模块可以求取,文字记录t是否可以与包含在医学设备1的指令库50中的一个或多个语音指令sb相关联。如果情况如此,则可以识别涉及语音指令sb的用户意图。替选地,为了进行语义分析,可以与独立于医学设备1的库进行比较,在所述库中例如记录指示特定用户意图的一般关键词(例如“停止”、“开始”等)。
121.对应地,步骤s40-b可以包括对语音输入或文字记录t进行语义分析以用于提供语义信息的可选的步骤s40-b-3。
122.尤其地,语义信息可以包括在音频信号e1或文字记录t中识别出的一个或多个用户意图。如果识别出一个或多个用户意图,则语义信息还可以分别包括所述用户意图的一个或多个特性。例如,这种特性可以说明用户意图有多复杂。这例如可以通过用于医学设备1的相关联的控制指令sb的复杂性来确定。此外,用户意图的特性可以说明所述语音指令sb或相关联的语音指令sb是否完整,或用户意图或语音指令sb有多紧迫。
123.在步骤s40-c中可以使用语义分析,以便合适地调整自适应时间段azs。例如,如果不能确定用户意图,则可以延长自适应时间段azs,以便等待用户意图。同样,如果用户意图不完整或属于复杂的语音指令sb,则可以延长自适应时间段azs。相反,如果用户意图指示紧迫地、待快速地执行的语音指令sb,则可以缩短自适应时间段azs。
124.根据其他实现方案,还可以在步骤s40-c中考虑医学设备1的系统状态s1。系统状态s1例如可以指示医学设备1恰好处于必须及时实现语音指令的状态中。例如,这在恰好移动系统部件时会是这种情况。然后,例如必须以一定概率顺畅地实现停止指令。因此应缩短自适应时间段azs,以便快速地继续进一步处理。相反,如果系统状态s1指示医学设备1处于空闲或待机模式中,则必要时可以延长自适应时间段azs。
125.借助于在步骤s40-c中确定的自适应时间段azs,在步骤s40-d中规定语音输入的结束en。为此,步骤s40-d可以具有子步骤s40-d-0、s40-d-1、s40-d-2。原则上,在所述实施例中,如果在操作人员在时刻t0设定说话活动之后在自适应时间段azs内在音频信号e1中确定不再有另外的语音输入,则语音输入被视为结束。为此,在步骤s40-d-0中,首先确定音频信号e1不包含语音输入的时刻t0。在技术上,在此可以如在步骤s40-a中那样使用活动识别。在步骤s40-d-1中触发“计时器”,所述计时器测量自在音频信号e1中识别出不再有人声以来的时间。如果所述时间达到自适应时间段azs,则语音输入被视为结束,并且可以将时刻t0设置为语音输入的结束en。否则,处理经由重复步骤s40-d-2再次跳回至步骤s40-b。
126.在步骤s40-e中,基于识别出的结束en提供语音数据流e2。语音数据流e2在此对应于在识别出的语音输入的开始be与语音输入的根据语音输入的内容动态地规定的结束en之间的音频信号e1。根据一些实现方案,语音数据流e2可以包括在开始be与结束en之间的(可能数字化的)音频信号e1。根据其他实现方案,语音数据流e2可以包括在开始be与结束en之间的文本信息(即文字记录t)。
127.然后在随后的步骤s50中进一步分析语音数据流e2,以便求取一个或多个语音指令。与在步骤s40中“滚动式”分析以用于动态地规定自适应时间段azs相比,这具有为分析提供至少略微更多的时间的优点。因此,借助于音频信号e1的这种两阶段式分析,“侦听持续时间”的符合需求的调整可以与在侦听持续时间中记录的语音输入的随后的高质量的评估相结合。
128.图8示出用于处理音频信号e1和尤其用于从音频信号e1中确定语音数据流e2的方法的另一实施方式的流程图。方法步骤的顺序既不受所示出的顺序也不受所选择的编号限制。因此,必要时,步骤的顺序可以交换并且可以省去个别步骤。在图8中示出的步骤尤其可以在图3中的步骤s40的过程中执行。用与在图4中表示的步骤相同的附图标记表示与图4中相同的方法步骤。
129.在图8中示出的方法步骤同样旨在动态地识别操作人员的语音输入何时结束并且何时可以开始对语音输入进行全面分析(例如在步骤s50的过程中)。在图9中示意性地示出音频信号e1和由其提供的语音数据流e2。
130.在第一步骤s40-a中,在音频信号e1中识别操作人员的语音输入的开始be。步骤s40-a在此对应于图4中的步骤s40-a。在步骤s40-b中,通过语音分析算法a1持续地并且基本上实时地进行音频信号e1的分析。步骤s40-b在此对应于图4中的步骤s40-b。
131.在步骤s40-c'中,基于语音分析结果确定自适应时间段azs。与上述实施方式不同,在步骤s40-c'中确定的自适应时间段azs不用作超时,而是用作绝对“截止”,在所述截止结束之后,操作人员的语音输入被视为结束并且语音输入被中断(参见图9)。由此必要时可以中断持续的语音输入。可选地,可以在步骤s40中判断利用超时(即根据图4-选项1)还是截止(即根据图8-选项2)来使语音输入结束。这例如可以基于系统状态s1或语音输入的
持续分析来进行。例如,如果探测到要求立即实现语音指令的关键状态,则可以选择选项2。
132.自适应时间段azs如何也可以在图8的过程中确定再次对应于结合图4描述的实施方式。尤其可以使用迄今的持续时间d、标记化信息和/或语义信息,以便合适地规定自适应时间段azs。
133.借助于在步骤s40-c'中确定的自适应时间段azs,在步骤s40-d'中规定语音输入的结束en。在步骤s40-d'中,如果从识别出的语音输入的开始be起经过自适应时间段azs,则语音输入被视为结束。
134.在步骤s40-e中,基于此提供语音数据流e2,其中图8中的步骤s40-e对应于图4中的步骤s40-e。
135.虽然尤其已经参照附图详细地描述了实施例,但应注意的是,多个改型方案是可行的。此外应注意的是,示例性的实施方案仅为示例,其不应以任何方式限制保护范围、应用或构造。更确切地说,通过上文中的描述,为本领域技术人员提供用于实现至少一个实施例的指南,其中可以按照本领域技术人员的期望进行各种改型,尤其所描述的组成部分的功能和/或布置的替选的或附加的特征和/或改型,而在此不与在所附权利要求中分别规定的主题及其法律上等效方案偏离和/或不脱离其保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1