语音识别系统以及用于运行语音识别系统的方法与流程

文档序号:12485345阅读:377来源:国知局
语音识别系统以及用于运行语音识别系统的方法与流程

本发明涉及一种语音识别系统,其具有移动单元和外部服务器。移动单元在此包括存储单元,在该存储单元上存储有语音模块数据,其包含具有语句的至少一个语句集合。移动单元还包括:语音识别单元,可通过语音识别单元借助语音模块数据对于探测的语音输入数据产生识别的文本;和数据接口,通过该数据接口可至少暂时建立与外部服务器的数据接口的数据连接。本发明还涉及一种用于运行语音识别系统的方法,该语音识别系统具有移动单元和外部服务器。在此,在移动单元的存储单元上存储有语音模块数据,其包含具有语句的至少一个语句集合。借助语音模块数据可关于探测的语音输入数据产生识别的文本。在此,至少暂时建立与外部服务器的数据接口的数据连接。



背景技术:

语音识别系统在操作系统中有很广的应用范围。这同样涉及设备的操作以及借助于语音计算机(例如电话银行)执行通过电话的任务。通过语音输入操纵车辆的装置还已经作为当前用户界面的重要的特征设立在车辆中。例如,为了输入复杂的情况,相应的信息通过语音对话系统连续由用户查询。

在此有决定性意义的是,尽可能无缺陷且快速地实现用户的语音输入的识别和解读。为此虽然已经提出了各种方法,然而为了实现而需要的大的计算能力使得难于实现常见地使用例如在移动设备的领域中或在车辆中。用来解决这一问题的一种方法是,将计算任务转移到可通过因特网访问的服务器上。

然而这基于语音识别系统可随时与服务器交换数据,这尤其在具有有缺陷的移动网络覆盖的区域中不能随时得到保证。

已经提出了各种解决方案,其设置成使语音识别系统动态地匹配相应的要求并且由此改善语音识别。尤其可扩宽可通过系统识别的语音输入的范围。

对于在文献WO2011/054324A1中说明的方法,基于存在的结构化的例如源自因特网的数据建立语法说明并且将其传输给语音识别应用。

文献DE19942869A1说明了一种方法,在其中语音控制系统通过有适应性的转录学习新的语音模式。例如转录和存储通过RDS (radio data system)接收的广播电台的名字,从而其随后可被识别为指令。新的语音模式还可通过因特网发送。

对于在文献DE102009017177A1中提出的车辆中的语音识别组件,将语音指令传输给车外语音识别系统。在车外确定语音指令的语音表达和含义并且将其传达给车载系统。在此可存储语音指令的语音表达和含义。因此,车载系统从车外语音识别的事件中来学习。

在文献EP2273491A1中说明的用来提供用于导航仪的语音操纵的系统设置成,语音识别借助动态生成的语法实现。在此可限制语法的大小,以便可实现要求的系统不是太大。升级可通过服务器提供,尤其根据语音输入的地理的情景。



技术实现要素:

因此,本发明的目的是提供一种语音识别系统和用于运行语音识别系统的方法,通过其可可靠地且节省资源地执行语音识别。

根据本发明,该目的通过具有权利要求1的特征的语音识别系统以及根据权利要求9所述的用于运行语音识别系统的方法实现。有利的设计方案和改进方案从从属权利要求中得到。

上述类型的根据本发明的语音识别系统的特征在于,外部服务器包含具有事件数据的数据库,对该事件数据分配时间数据和语句。通过外部服务器经由比较对事件数据分配的时间数据与当前的时刻可产生对语音模块数据的更新数据,其至少包含对数据库的事件数据分配的语句。更新数据可通过服务器的数据接口传输给移动单元的数据接口。借助更新数据可将传输的语句添加到语句集合中。

根据本发明,词“语句集合”表示词和语句量,其提供用于执行语音识别的语音识别单元。措辞“语句”在此尤其表示代表的单个词、词组和语言结构,但也表示单个词或词组彼此的统计的关系。语句的整体形成语句集合。这被所使用的语音模块包括,其用于语音识别,其中,在语音模块中,语句集合可通过其他数据进行补充。

在本发明中,除了执行真正的语音识别的移动单元之外,设置有外部服务器,通过其可更新移动单元的语音模块数据。在此将语句添加到语句集合中,其从服务器的数据库中提取出来。以这种方式添加的语句的选择借助相联系的时间数据实现。数据库尤其包含事件数据,对该事件数据分配的是时间数据和语句。

事件数据在此涉及“事件”,其根据本发明可包含各种数据。尤其可理解成这样的过程,其可带到时间情景中。事件例如可以是活动,例如音乐会。

在这种情况下,时间数据可包含活动的开始和结束。可对事件分配该事件涉及的语句,例如参与者的名字、表演的乐曲名、表演地点的名称以及术语,其涉及到活动的说明和例如说明了音乐风格。在另一示例中,事件可为运动事件,对该运动事件分配的是开始时刻和预计的结束时刻。还可分配这样的语句,其涉及到运动事件运动类型,例如参加的运动员和团体的名字、运动场所名称、比赛规则的术语以及对于说明相应的运动类型典型的术语。

事件例如还可从新闻中得悉。分配的语句例如可涉及政治事态,例如政客或其他参与者和组织的名字、在报道中提到的地点或专业术语。时间数据可在这种情况下例如相应于报道的日期。

因此,对事件分配有时刻和/或时段,例如事件发生的日期或事件的持续时间。还对事件数据分配这样的语句,其例如与相应的事件相关。语句例如可包含于事件相关的名称和标记,也包含事件属于的领域的术语和语句。

通过添加与更新时刻有时间关系的语句,可确保语句集合提供尽可能相关的语句,以保证可靠的语音识别。比较对事件数据分配的时间数据与当前的时刻可在此以不同的方式实现:时间数据包含时刻,因此可确定在该时刻和更新时刻之间的时间间隔。尤其可在此确定,是否对事件分配在更新时刻之前存在的时刻。事件例如可已经在过去发生并且因此不再相关。时间数据还可包含时段并且可确定更新时刻存在于该时段之前、之后或中。这还能确定相应的事件是否相关以及是否应考虑该事件。

尤其可通过阈值确定,事件在将来有多大程度存在且可能仍然相关,或者过去的事件是否(仍然)相关。

对事件分配的语句可包含不同的词和语言结构,其出现对相应的事件而言很有可能的。就该事件而言,例如可包含参与者的名字、场所名称、目的地以及其他语句。因此,添加的语句有针对性地扩展了语句集合,使得可实现特别好的且可靠的语音识别。可提供的资源被有效利用,因为语句集合不必一开始涵盖所有的可能性并且其范围仅以添加的相关的语句增长。

在一种根据本发明的语音识别系统的构造方案中,还可借助更新数据删除语句集合的语句的子集。由此可有利地减小语句集合的大小。所有的语句集合的大小尤其可通过添加一条语句和删除另一语句基本上保持恒定。

随着提供用于语音识别的语句集合的大小的渐增,对语音识别系统的计算能力的要求也随之提升。这尤其在移动应用中典型地导致的困难是,提供的计算能力对于大的语句集合并不足够。因此,必须限制语句集合的范围。

根据本发明,尤其可将不那么相关或不相关的语句从语句集合中去除,其中,待删除的语句通过更新数据预定。例如可由此去除这样的语句,该语句在更早的时刻是相关的,但其例如对在过去存在的事件分配。

因此,更新数据可不仅说明应从语句集合中删除的语句,而且应说明应添加的语句。

因此,通过在更新时同时添加和删除语句可避免语句集合的过度增长。由此可优化语音识别系统的可靠性和反应速度。

更新尤其还可包括语句集合的一般的升级,其中,除了根据本发明结合时间数据确定的语句之外还可添加或去除其他语句。在此尤其将升级考虑为应在确定的时刻执行的事件。这使得能够实现高效低执行系统的更新。

在一种改进方案中,传输的语句还包含对事件数据分配的时间数据。由此可有利地确定哪些时刻或时段分配相应的语句。

尤其还可由此在没有访问服务器的情况下确定,确定的语句是否仍是最新的,即,该语句在当前的时刻处于哪个时间间隔中。例如可在此去除与过去存在的事件相关的语句。

在另一设计方案中,移动单元还包括更新单元,利用该更新单元可通过语音模块数据产生状态数据并且可将其传输给外部服务器。状态数据包含关于语句集合通过服务器的更新数据的过去进行的改变的信息和/或关于语句集合的当前的范围的信息。更新数据还可借助状态数据产生。由此可有利地在产生更新数据时告知服务器,语句集合在更新之前如何得到,例如语句集合包含哪些和多少语句。

尤其可由此确定上次更新过去了多长时间。这使得易于确定必须添加或去除的语句,以便将系统带到当前的状态。还可借助当前的语句集合的大小确定是否应通过进一步添加语句来扩容或是否应缩小语句的数量。

在一种构造方案中,可通过移动单元的情景探测单元探测情景数据并且可将其传输给外部服务器。接着取决于情景数据产生更新数据。这有利地允许以特别高的相关性确定待添加或待删除的语句。

情景数据在此尤其可涉及用户、移动单元和移动单元的环境。因此,例如可探测用户和/或移动单元的识别。这允许个性化地更新语音识别系统,其中,可考虑到用户的特别的设定、嗜好和习惯。用户的特征(例如个人数据,如年龄、性别和出生)还可使得能够改善地预测哪些语句对于用户是相关的。关于移动单元的情景数据例如可包含激活或可提供哪些装置和应用。以这种方式可调整提供给移动单元的其他应用的更新数据。

确定关于移动单元的环境的情景数据例如可借助移动单元的地理的位置实现,例如还可通过提供关于环境的数据的传感机构实现。因此,其他移动单元的靠近例如可借助具有短的有效距离的信号传输来确定。

在一种构造方案中,可探测其他装置、尤其导航仪和/或电子式备忘录的情景数据。由此可有利地以很高的可能性确定确定的语句和事件是否相关。

由导航仪探测的情景数据例如可包含移动单元的当前位置、路线的计划的目的地或关于移动单元的环境的地理信息。通过电子式备忘录可探测具有时间数据的事件数据,其尤其对用户分配。例如可探测即将来临的期限的地点和时间并且然后可产生更新数据,使得针对该期限将相关的语句添加给语句集合。反之,例如可将与过去的期限相关的语句去除。

在一种构造方案中,还对数据库的事件数据分配地理的位置数据。借助于位置确定单元可确定移动单元的当前位置并且可将其传输给外部服务器。更新数据还通过比较对事件数据分配的地理的位置数据与位置产生。

这还使得能够借助移动单元的位置更精确地确定事件的相关性,尤其结合导航仪的情景数据。然而还可借助其他方法进行确定,例如通过与在已知位置的位置固定的站的无线连接或借助用户的输入。

尤其可将这样的事件识别为是相关的,其地理的位置数据并未超过相对于移动单元的位置的预定的最大距离。尤其可设定成,比起临近的事件,相对于用户在更大的空间距离中的事件相关性更低。反之,可借助在移动单元和事件之间的空间上的接近推出,必须以很高的可能性使用和识别与事件相关的语句。例如,如果音乐会发生在用户的更近的环境中,可为音乐会确定很高的相关性,而在距离大的运动事件并未归类为是相关的。

在另一构造方案中,还可代替移动单元的当前的位置将过去的位置传输给外部服务器。以这种方式可将在回顾时相关的事件数据识别为相关,例如以允许用户参考过去的事件来输入。

此外,还可代替移动单元的当前的位置将将来可到达的位置传输给外部服务器,例如当前在导航系统中激活的路线的目的地。这尤其允许识别涉及的事件的语音输入,对于该事件,用户恰好在路上。

在一种改进方案中,通过语音识别单元还可探测探测的语音输入数据的统计数据并且可将其传输给服务器。

此时,更新数据可通过服务器取决于统计数据产生。这有利地允许语音识别系统的高的人格化。

尤其可在此确定用户在过去的语音输入中需要的确定的语句的频率。频繁使用的语句可指明,该语句在将来也有很高的可能性被使用。而很少使用的语句可表示低的相关性。由此可确保,极少使用或不使用的语句从语句集合中去除,而经常使用的语句未被去除和/或可添加其他的例如使用的语句。

除了统计上的分析之外还可使用机器学习的方法,以识别出相关的词并且将不相关的词删除。

在一种构造方案中,移动单元布置在车辆中。用户在此尤其可为车辆的驾驶员。这有利地允许借助于语音控制操纵车辆的装置。

语音识别系统在此可访问数据布置在车辆中的其他装置。因此,语音识别系统的可靠的和快速的功能性在车辆中具有特别的意义,因为车辆的驾驶员应尽可能少地从交通事件分心。此外,由于车辆的运动必须考虑到,各个语句的相关性可取决于地理的位置和时间变化。在嵌入车辆中的计算系统的受限的能力的情况下,这意味着,如果语句集合的范围不应太大,必须一直更新语句集合。

上述类型的根据本发明的方法的特征在于,外部服务器包含具有事件数据的数据库,对该事件数据分配有时间数据和语句。通过外部服务器经由比较对事件数据分配的时间数据与当前的时刻产生对语音模块数据的更新数据,其至少包含对数据库的事件数据分配的语句并且将其传输给移动单元。

借助更新数据紧接着将传输的语句添加到语句集合中。根据本发明的方法尤其用于运行根据本发明的语音识别系统。因此,方法具有和根据本发明的语音识别系统相同的优点。

在一种改进方案中,借助更新数据还删除语句集合的语句的子集。由此可有利地缩小语句集合的范围。

附图说明

现在借助实施例参考附图阐述本发明。

图1示出了根据本发明的语音识别系统的实施例,

图2示出了根据本发明的方法的实施例。

具体实施方式

参考图1阐述根据本发明的语音识别系统的实施例。

语音识别系统包括移动单元1和外部服务器10。移动单元1包括具有麦克风2a的语音探测单元2。用户可在示出的实施例中通过以下方式发出开始语音输入的信号,即,用户按压按键通话(push-to-talk)开关(PTT),接着语音探测单元2探测并且记录用户讲出的语音输入数据。将进行暂存,从而语音输入数据可用于其他用途。

与语音探测单元2耦联的是语音识别单元3。通过语音识别单元可借助探测的语音输入数据产生识别出的机器可读的文本。为此使用语音模块数据SM,其存储在存储单元4上。语音模块数据SM在此包含具有语句的至少一个语句集合Ai。语句集合Ai的语句尤其说明了用于识别文本的词和语句量。语音模块数据SM的整体用作用于语音识别的语音模块。

移动单元1还包括更新单元5,其与移动单元的数据接口6a耦联。移动单元1还包括情景探测单元8,其在示出的情况下与语音识别单元3、更新单元5和其他四个装置7a至7d耦联。装置7a至7d中的一个是导航仪,另一装置是电子备忘录。

通过移动单元1的数据接口6a可至少暂时建立与外部服务器10的数据接口6b的数据连接。外部服务器10包括数据库9。数据连接可尤其无线地进行,例如通过局域网或广域网,例如因特网。连接还可通过电信网络(例如电话网)或无线的无线局域网(WLAN)建立。还可通过数据线的端口实现数据连接。连接还可通过其他单元建立,其本身可建立与外部服务器10的连接。例如可存在在移动单元1和与因特网连接的移动电话之间的数据连接,例如通过数据线或无线连接,例如通过蓝牙。尤其通过因特网建立与外部服务器10的连接。

参考图1和图2阐述根据本发明的方法的实施例。

如上面已经阐述的那样,在存储单元4上存储有语音模块数据SM,其包含语句集合Ai。通过移动单元1和服务器10的数据接口6a和6b建立数据连接,从而可更新语音模块数据SM。为此,更新单元5产生关于语音模块数据SM的状态数据SD。状态数据SD尤其包含以下信息:在哪个时刻进行语音模块数据SM的上次的更新、语句集合Ai有多大以及哪个是语句集合Ai的最大期望的参数。

此外,通过情景探测单元8探测情景数据KD,其中,尤其探测其他装置7a至7d的数据。

情景数据KD尤其包含移动单元1的地理位置、路线(其在此时通过导航系统发布)以及关于环境的地理信息。此外,情景数据KD包含备忘录的数据,尤其时间、地理位置和等候处理的日程的说明文本。情景数据KD还包含以下统计数据:在过去的语音输入中使用的语句集合Ai的各语句的频率。尤其包含语句集合Ai的特别频繁或特别少地使用的语句。

状态数据SD和情景数据KD传输给服务器10。服务器包含具有事件数据的数据库9。数据组尤其相应于各事件。对事件数据分配的是时间数据,例如将来的事件的时刻和/或事件的持续时间。还对事件数据分配语句。尤其是对于结合相应的事件的语音输入特别相关的语句。

在示出的示例中,事件中的一个是音乐会,该事件在用户的日程安排中提到并且为此可在服务器上提供附加的信息。在这种情况下,时间数据包含音乐会的开始和结束。对音乐会分配的是这样的语句,例如演员的名字、表演的和其他乐曲的名称、表演场所以及术语,其典型地用在音乐的说明中,尤其对于音乐风格的说明。

还示例性地包括运动事件,对其分配开始时刻和预计结束的时刻。还分配有这样的语句,其涉及运动事件和运动类型,例如运动员和团体的名字、比赛场地、比赛规则以及对于说明相应的运行类型典型的术语。

还从新闻中得悉事件。在此,分配的语句例如涉及政治事态,例如政客的名字、在报道中提到的地点或专业术语。时间数据在此相应于报道的日期并且确定“截止日期”,在该截止日期结束之后该事件解读为不那么或不再相关。

现在产生更新数据AD。该更新数据至少包含在数据库中对事件分配的语句Aj。在示出的示例中,为此借助当前的时刻,即,借助更新的时刻,将每个事件考虑为很相关,其时间数据可识别出事件仍是当前的,并且在其中,地理的位置数据并未与移动单元1的当前的位置离得太远,或在由导航仪确定的路线结束时并未与目标位置离得太远。尤其考虑将来的或持续时间尚未结束的事件。在这种持续时间不可明确定义的事件中,例如对于来自新闻的信息,将限定的时间间隔(例如始于关于该事件的报道的时刻)确定为持续时间。

更新数据AD还包含以下信息:哪些语句Ak应从语句集合Ai中删除。这例如可为语句的集合,其在更早地更新时添加并且其不再存在现实意义。此外,这例如可为罕见使用或不使用的语句。更新数据AD从服务器10传输给移动单元1。更新单元5借助更新数据AD改变语音模块数据SM,其中,尤其删除语句集合Ai的子集AK,而重新添加语句Aj。在此尤其保持语句集合Ai的范围基本上恒定。

在另一实施例中将移动单元1布置在车辆中。装置7a至7d在这种情况下为车辆的其他装置,其中包括车辆的各种行驶辅助系统、导航系统、信息娱乐系统和传感器。因此,情景探测单元8尤其可更有针对性地确定情景数据KD,使得以更高的精度针对相应的情况产生更新数据AD。

语音识别系统尤其可用在车辆中,以探测用户的语音输入来控制车辆的装置7a至7d,例如导航仪。尤其在此如此确定更新数据AD,即,语句集合Ai使得能够结合在计划的路线的环境中的目的地实现可靠且快速的语音识别。

附图标记列表

1 移动单元

2 语音探测单元

2a 麦克风

3 语音识别单元

4 存储单元

5 更新单元

6a 移动单元的数据接口

6b 外部服务器的数据接口

7a、7b、7c、7d 装置

8 情景探测单元

9 数据库

10 外部服务器

Ai 语句集合

Aj 数据库的语句

Ak 待删除的语句

AD 更新数据

KD 情景数据

SD 状态数据

SM 语音模块数据

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1