具有同时文本编辑的语音识别方法和系统的制作方法

文档序号：9872437阅读：631来源：国知局

具有同时文本编辑的语音识别方法和系统的制作方法
【技术领域】
[0001]本发明一般地涉及用于将语音(S卩，所听写的词汇)转换成书面文本的方法和系统。在这样的方法或系统中使用的工具一般地被称作听写工具。本发明尤其关系到在将语音转换成文本的同时允许编辑文本的更加用户友好的方法和系统。
【背景技术】
[0002]在广泛的各种应用中使用将语音或所听写的词汇转换成书面文本的听写工具。一个示例是医学报告的创建。这样的报告的作者，例如放射线学者、心脏病学者、技术人员等，使用语音识别以采用预定义的格式和文本填写医学报告中的某些字段。用户听写词汇，通过话音识别引擎识别这些词汇并将它们转换成被插入到所选择的字段中的文本。
[0003]现存的听写工具代表性地具有其中语音被记录并被转换成文本的记录模式，以及其中可以编辑书面文本的编辑模式。如果用户期望操作文本，例如选择文本的一部分、删除词汇、重新听写在句子中的一组词汇等，那么必须停止记录模式，必须开始编辑模式，必须在编辑模式中执行文本操作，并且一旦完成文本编辑就必须重新开始记录模式。必须多次点击允许重新开始记录模式的记录按钮，尤其是当需要多次文本操作时，作为这样的结果，现存的听写工具被认知为非用户友好的。
[0004]欧洲专利申请EP2261 893在段落
[0003]中承认到，现存听写系统的模式行为是低效率的，因为词汇的改正需要来自用户的太多的动作或点击。EP2 261 893因此描述了一种用于将音频转换成文本的系统，其具有其中对语音排队的被称作听写模式的记录模式，其中在回放语音的同时显示文本使用户能够回顾文本的同时再现模式，以及其中用户可以改正文本中的词汇的编辑模式。在EP2 261 893中，通过使实现在同时再现模式期间的编辑文本改进了系统的模式行为。然而用户仍不得不在每次期望文本操作时中断听写模式。这使报告创建减度。
[0005]本发明的目的是公开解决了此处上面辨别的现有技术解决方案的缺点的用于从所输入的语音生成书面文本的方法和系统。更特别地，其目的在于定义一种增加用户友好度并基本上加速通过话音识别的报告创建的方法和系统。

【发明内容】

[0006]根据本发明，通过由权利要求1限定的用于从音频输入生成并编辑文本的方法来实现上面限定的目的，该方法包括:
-将来自用户的语音排队在音频队列中；
-通过语音识别将被存储在所述音频队列中的语音转换成文本；
-向所述用户显示所述文本；
-将文本编辑事件排队在所述音频队列中；
-即刻向所述用户显示由所述文本编辑事件导致的改变；
-当转换在所述音频队列中排队在所述文本编辑事件之前的所有语音时，停止所述语首识别；
-在将来自所述用户的另外的语音排队在所述音频队列中的同时处理所述文本编辑事件并编辑所述文本;以及
-当已经处理了所述文本编辑事件时恢复所述语音识别。
[0007]因此，本发明使用户能够在他/她处于语音记录模式的同时编辑文本。当在音频队列中记录另外的语音的同时，用户可以将光标重新放置在所显示的文本中，选择所显示的文本的部分，删除所显示的文本的部分，重新听写所选择的文本部分等。语音将持续地被记录在音频队列中，同时使由编辑事件导致的文本操作在所显示的文本中即刻可见。例如在重新放置光标的情况中，光标已经可见地被移动到在所显示的文本中的新的位置，而仍正被转换成文本的所听写的语音被添加到先前的位置。在文本编辑事件之前听写并记录的所有语音一被转换成所显示的书面文本，就处理所排队的文本编辑事件。作为其的结果，将向语音识别引擎通知关于在文本中由文本编辑事件导致的改变。在处理文本编辑事件的同时听写的另外的语音在此期间被记录在音频队列中。只要正在处理文本编辑事件就停止语音识别，并且一处理了文本编辑事件就自动地再次恢复语音识别。
[0008]根据本发明的方法显著地提高了听写工具的用户友好度，因为用户不再必须在记录模式和编辑模式之间切换。从而避免了过多的按钮点击或其它手动的模式切换指令。用户开始记录一次并停止记录一次。在这之间，针对文本操作仅需要按钮点击、按键、鼠标点击、或屏幕触摸，而不切换模式。由于用户可以在听写另外的词汇的同时编辑或改正他的报告，因此本发明还显著地加速报告创建。
[0009]根据依照本发明的方法的可选方面，文本编辑事件包括话音命令。
[0010]的确，可以通过按钮点击、按键、鼠标点击、屏幕触摸或通过使用其它外围设备来键入文本编辑事件。然而替换地，可以通过话音命令在被转换成文本的所听写的词汇之间输入文本编辑事件。当语音识别引擎识别这样的话音命令时，将话音命令排队到音频队列中，然而即刻显示由话音命令导致的改变。音频队列中在话音命令之前记录的所有语音一被转换成所显示的文本，就处理话音命令并向语音识别引擎通知由话音命令导致的改变。在处理话音命令期间，停止语音识别。
[0011 ]根据依照本发明的方法的进一步可选的方面，文本编辑事件包括以下中的一个或多个:
-在所述文本中的导航指令；
-针对所述文本的一部分的选择和编辑指令；
-针对所述文本的部分的选择和格式化指令；
-针对所述文本的部分的选择和删除指令；
-针对来自下拉列表的字段值的选择指令；
-用于将预定义的文本部分插入到所述文本中的指令;以及 -针对已经被选择的所述文本的部分的取消选择指令。
[0012]除了如由权利要求1限定的方法之外，本发明还涉及用于从音频输入生成和编辑文本的对应的系统，该系统包括:
-音频队列，被配置成存储来自用户的语音；
-语音识别引擎，被配置成将被存储在所述音频队列中的语音转换成文本； -用户视图引擎和显示器，用于向所述用户显示所述文本；以及 -事件处理器，用于处理由所述用户输入的文本编辑事件，
其中
-所述音频队列被适配成对所述文本编辑事件排队；
-所述用户视图引擎和显示器被适配成即刻向所述用户显示由所述文本编辑事件导致的改变；
-所述事件处理器被适配成当转换在所述音频队列中排队在所述文本编辑事件之前的所有语音时停止由所述语音识别引擎的语音识别；
-所述事件处理器还被配置成在将来自所述用户的另外的语音存储在所述音频队列中的同时处理所述文本编辑事件并编辑所述文本;以及
-所述事件处理器被适配成当已经处理了所述文本编辑事件时恢复由所述语音识别引擎的语音识别。
【附图说明】
[0013]图1图解在本发明的实施例中的语音识别引擎和用户视图引擎之间的通信流程；
图2是根据本发明的用于从音频输入生成并编辑文本的系统的实施例的功能性框图；
以及
图3A-3G图解在本发明的实施例中的用户视图和语音配置引擎视图的演进。
【具体实施方式】
[0014]本发明通过将在文本中的每个用户编辑动作排队到音频队列中使听写工具的用户能够同时地记录语音和编辑所显示的文本。使由在文本中的编辑动作导致的改变即刻对用户可见，

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J.范霍伊维斯恩;G.雷纳德;
技术所有人：爱克发医疗保健公司;
我是此专利的发明人

上一篇：用于促进浏览器导航的装置和方法
上一篇：用于确定数据点流内被平滑数据点的方法和设备的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。