一种基于语音的文件生成方法及装置的制造方法

文档序号：9434113阅读：417来源：国知局

一种基于语音的文件生成方法及装置的制造方法
【技术领域】
[0001]本发明实施例涉及语音识别技术领域，尤其涉及一种基于语音的文件生成方法及
目.0
【背景技术】
[0002]文字撰写对于大部分人来说都是不可避免的，在日常的工作生活中每个人都难免有写博客、写读书心得、写报告，甚至是写文案、公文等的需要。在进行大量文字工作时，需要长时间坐在书桌或电脑前进行文字的录入工作，长期的伏案作业会对人的身体健康带来一定损害。而且在劳动或者健身等碎片的业余时间中产生的想法难以记录下来，很多时候转眼即忘。
[0003]目前通过语音识别技术录入文字信息时，需要先将录入的文字信息存储到剪贴板上，再转到其它软件或者网站上进行编辑，即，现有的基于语音的文字录入、编辑过程较繁琐，用户体验较差。

【发明内容】

[0004]本发明提供一种基于语音的文件生成方法及装置，以简化基于语音的文字录入、编辑过程。
[0005]第一方面，本发明实施例提供了一种基于语音的文件生成方法，该方法包括:
[0006]将用户的语音信息转换为文字信息；
[0007]采用通用文件格式存储得到的文字信息；
[0008]获取用户的语音口令，并对通用文件格式的文字信息执行所述语音口令对应的编辑操作。
[0009]第二方面，本发明实施例还提供了一种基于语音的文件生成，该装置包括:
[0010]转换模块，用于将用户的语音信息转换为文字信息；
[0011]存储模块，用于采用通用文件格式存储得到的文字信息；
[0012]语音口令获取模块，用于获取用户的语音口令，并对通用文件格式的文字信息执行所述语音口令对应的编辑操作。
[0013]本发明实施例提供的技术方案，通过将用户录入的语音信息转换为文字信息，并且对所述文字信息采用通过文件格式进行保存，进而根据用户的语音口令，对通用文件格式的文字信息执行所述语音口令对应的编辑操作，简化了基于语音的文字录入、编辑过程，提升了用户体验。
【附图说明】
[0014]图1是本发明实施例一中的一种基于语音的文件生成方法的流程图；
[0015]图2是本发明实施例二中的一种基于语音的文件生成方法的流程图；
[0016]图3是本发明实施例三中的一种基于语音的文件生成方法的流程图；
[0017]图4是本发明实施例四中的一种基于语音的文件生成装置的结构框图。
【具体实施方式】
[0018]下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。
[0019]实施例一
[0020]图1为本发明实施例一提供的一种基于语音的文件生成方法的流程图。本实施例可适用于用户通过语音进行文字录入、编辑的情况。该方法可以由基于语音的文件生成装置来执行。参见图1，本实施例提供的基于语音的文件生成方法具体包括如下:
[0021 ] SI 10、将用户的语音信息转换为文字信息。
[0022]示例性的，将用户的语音信息转换为文字信息可以包括:依据设定的语音信息与候选文字信息之间的映射关系，将用户的语音信息转换为文字信息。
[0023]例如，用户录入的语音信息为“li xiang”，采用语音识别技术获得匹配的“理想”、“立项”、“李想”以及“李翔”等等。用户根据自己的需要选择某一匹配的文字信息，如选择的是“理想”，那么系统会建立并存储“li xiang”与“理想”之间的映射关系，从而当用户再次录入“li xiang”的时候，系统就会自动识别为“理想”，而不再将其识别为“立项”、“李想”或“李翔”等其它候选词汇。
[0024]在语音转换之间，很显然需要接收用户录入的语音信息，用户可以通过客户端内设置的语音输入设备录入，例如，手机内快速工具中的“语音文档”中的麦克风。
[0025]示例性的，在监测到用户中断录入语音的时间小于设定的停顿时间值时，实时获取用户的语音信息。所述停顿时间值可以是系统自动设置，也可以是用户根据自己的实际情况自行设置，例如，可以是30秒、I分钟或者2分钟，此停顿时间可以供用户用来思考，在停顿时间内系统将自动进入等待状态，等到用户再次说话时，系统再继续录音。在现有的语音录入过程中，一旦监测到用户中断录入语音，录音就会停止，需要用户再次启动录音功能才能继续录音，即，用户录一段文字时需要多次启动录音功能，本实施例相比于现有技术提高了用户操作的便捷性。
[0026]S120、采用通用文件格式存储得到的文字信息。
[0027]示例性的，采用通用文件格式存储得到的文字信息可以包括:通过注册自定义(URL Scheme)的方式调用文字应用程序；控制所述文字应用程序存储转换得到的文字信息。其中，所述文字应用程序可以包括word、pages Swps等。
[0028]S130、获取用户的语音口令，并对通用文件格式的文字信息执行所述语音口令对应的编辑操作。
[0029]当用户录入的语音信息被以通用文件格式保存完成后，用户可能会有对所述通用文件格式的文字信息进行编辑操作的需求，此时，用户可以通过录入语音口令的方式，对所述通用文件格式的文字信息进行编辑操作，相比于现有的用户人工地编辑文字，操作方便、快捷。
[0030]其中，所述编辑操作包括但不限于删除、高亮、缩进、行间距、字号或批注操作，还可以是设置字体、艺术字或者填充其它艺术效果的操作。
[0031]本实施例的技术方案，通过将用户录入的语音信息转换为文字信息，并且对所述文字信息采用通过文件格式进行保存，进而根据用户的语音口令，对通用文件格式的文字信息执行所述语音口令对应的编辑操作，简化了基于语音的文字录入、编辑过程，提升了用户体验。
[0032]实施例二
[0033]图2为实施例二提供的一种基于语音的文件生成方法的流程图，在上述实施例的基础上，本实施例中对SllO进行优化。这样优化的好处在于能够提高语音转换为文字的转换速度以及精度。参见图2，本实施例提供的基于语音的文件生成方法具体可以包括如下:
[0034]S210、将用户的语音信息转换为文字信息。
[0035]示例性的，将用户的语音信息转换为文字信息可以包括:依据设定的语音信息与候选文字信息之间的映射关系，将用户的语音信息转换为文字信息。
[0036]示例性的，将用户的语音信息转换为文字信息之后，还可以包括S211和S212:
[0037]S211、依据用户设定的模糊文字转换规则，将用户的语音信息转换为模糊文字信息。
[0038]S212、依据语料库，从得到的文字信息和模糊文字信息中确定所述用户的语音信息的文字转换结果。
[0039]例如，可以在系统的个性化设置中设定用户的模糊文字转换规则，主要是针对一些边音/鼻音不分、前鼻音/后鼻音不分或者h/f不分的用户。有这部分问题的用户，可以设置模糊边音/鼻音，前鼻音/后鼻音文字转换规则。例如当用户输入“lie rong zhenjiang jun”的时候，系统会同时转换为列荣臻将军和聂荣臻将军，进而将正确结果“聂荣臻将军”呈现给用户。而如果用同时设置了模糊边音/鼻音和模糊h/f时，当用户输入“woshi fu Ian ren”的时候，系统就会遍历fu/hu和nan/lan的排列组合，从而将正确的结果“我是湖南人”返回给用户。当然，对于没有这类问题的用户，系统则不会进行此类模糊匹配，从而提高语音转换的效率和准确性。
[0040]进一步的，将用户的语音信息转换为文字信息之后，可能所述文字信息不是用户想要的，此时，用户需要对所述文字信息进行校正，具体可以包括S213和S214:
[0041]S213、在监测到校正触发事件时，获取用户选择的文字信息，作为目标文字信息。
[0042]S214、获取用户输入的所述目标文字信息的校正文字信息，并建立所述校正文字信息与所述目标文字信息对应的语音信息之间的映射关系。
[0043]用户可以通过在需要校正的文字上滑动来触发校正事件，并对需要校正的文字进行选择。例如，用户在文字信息“王丽文”上滑动，这三个字上面就会出现输入框，在输入框中输入校正后的文字“王丽雯”，系统就会记住这个映射关系，下次用户再输入“wang Iiwen”的时候就，系统会自动转换成校正后的文字“王丽雯”。
[0044]S215、将得到的文字信息转换为回读语音信息，并播放转换得到的回读语音信息。
[0045]为了方便用户对文字进行初步校正，闭上眼睛也能校正，系统设置了回读模式，将用户的语音信息转换为文字信息之后，系统会将所述文字信息再转换为回读语音信息并以语音形式读出来，如果用户听到不正确的地方可以停下来进行修改。
[0046]S220、采用通用文件格式存储得到的文字信息。
[0047]S230、获取用户的语音口令，并对通用文件格式的文字信息执行所述语音口令对应的编辑操作。
[0048]本实施例的技术方案，通过将用户录入的语音信息依据用户设定的模糊文字转换规则转换为文字信息，并且在对所述文字信息进行校正的过程中记忆所述校正文字信息与所述语音信息之间的映射关系，并且以回读模式将转换后的文字信息以语音形式读出来，供用户再次校正，提高了文字转换速度及准确度，并提升了用户体验。
[0049]实施例三
[0050]图3为实施例三提供的一种基于语音的文件生成方法的流程图，在上述实施例的基础上，本实施例中对S130进行优化。这样优化的好处在于能够方便用户对文字信息进行排版，简化用户的排版操作。参见图3，本实施例提供的基于语音的文件生成方法具体可以包括如下:
[0051]S310、将用户的语音信息转换为文字信息。
[0052]S320、采用通用文件格式存储得到的文字信息。
[0053]S330、获取用户的语音口令，并对通用文件格式的文字信息执行所述语音口令对应的编辑操作。
[0054]优选的，用户可以预设一系列语音口令，如:新建文件、新建文件夹、打开文件、设置文件标题、重命名文件以及插入图片等；还可以预设一系列语音口令和手势相结合的操作，如选中文本，再输入语音□令，如“删除”、“高亮”以及“缩进”等，系统执行相应的操作，如果选中文本后输入“添加批注”的语音口令，即可输入批注框，并在批注框中输入批注内容。
[005

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王敏;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：声控方法、声控系统及能够进行声控的空调的制作方法
上一篇：小型语音识别装置的制造方法