用于语音转写的方法、装置、开发平台和存储介质与流程

文档序号：35707863发布日期：2023-10-12 08:39阅读：43来源：国知局

本申请涉及深度学习，具体而言，涉及一种用于语音转写的方法、装置、开发平台和存储介质。

背景技术：

1、目前，在语音转写这个细分领域中，语音转写项目的需求对接与实施交付过程中，主要有两点需求，一是针对不同行业会有很多的领域热词需要转写准确；二是客户有很多个性化的需求，而客户也很难一次性表达清楚所有的定制化需求。这就需要在语音转写项目的开发过程中不断的进行优化调整，这个过程中需要有产品或者项目交付人员进行维护。每一次迭代优化从发现到最后完成，中间需要很多时间，实效性低，人员投入高。

2、相关技术公开了一种用于语音转写结合用户文本的热词提取方法，方案包括：对用户提供的行业语音文本即用户文本，进行分词预处理；对用户文本的分词预处理结果进行词频分析，获取用户当前文本词频；分析获取在用户当前文本词频中大于设置的词频阈值n1，而在已有语音转写模型训练语料词频中小于设置的词频阈值n2的词，作为用户当前热词集；将用户当前热词集与历史热词库进行递归合并，重新调节热词的权重得到用户当前热词库；基于用户当前热词库，进行语音转文本。简述而言是结合用户提供的有关其行业的重点词汇，形成热词文本，从而在开发语音转写项目时，着重注意这些词汇的识别，从而提高了语音转写的准确率。

3、相关技术的问题在于，通过结合用户提供的热词文本，虽然提高了转写的准确性。但对于客户提出的个性化需求，还是需要多次进行迭代优化，这样就需要在模型完成后多次返工，导致项目周期较长，开发效率较低。

技术实现思路

1、为了对披露的实施例的一些方面有基本的理解，下面给出了简单的概括。所述概括不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围，而是作为后面的详细说明的序言。

2、本公开实施例提供了一种用于语音转写的方法、装置、开发平台和存储介质，可以缩短交付周期，提高开发效率。

3、在一些实施例中，用于语音转写的方法包括：

4、利用已配置的语音转写模型对测试语音进行识别和转写，并将转写结果呈现给用户；

5、在转写结果不满足用户需求的情况下，对语音转写模型进行调整；

6、在转写结果满足用户需求的情况下，发布语音转写模型；

7、基于发布的语音转写模型，进行语音转写。

8、可选地，按如下方式配置语音转写模型：

9、在平台上部署语音转写模型；

10、获取应用场景，并配置于语音转写模型；

11、获取热词词典，并配置于语音转写模型。

12、可选地，获取热词词典，包括：

13、新建热词词典，或；

14、获取转写需求，将转写需求转化为热词词典，或；

15、根据已配置的应用场景，在数据库中检索与应用场景匹配的热词词典。

16、可选地，对测试语音进行识别和转写，并将转写结果呈现给用户，包括：

17、接收用户上传的语音的测试语音，或；

18、根据已配置的应用场景，在数据库中检索对应场景的测试语音，或；

19、接收用户在线录制的测试语音。

20、可选地，在转写结果不满足用户需求的情况下，对语音转写模型进行调整，包括：

21、在转写结果不满足用户需求的情况下，根据用户的输入指令，对已配置于语音转写模型的热词词典进行修改，或；

22、在转写结果不满足用户需求的情况下，删除已配置于语音转写模型的热词词典，并根据用户的输入指令重新配置热词词典。

23、可选地，将转写结果呈现给用户，包括：

24、对输入的语音进行转写识别后，向用户显示未配置热词词典的转写结果和配置热词词典的转写结果。

25、可选地，用于语音转写的方法还包括：

26、将语音转写的测试语音和测试结果存储至应用场景对应的数据库，以便再次调用。

27、值得注意的是，本申请中提到的平台是指开发平台。平台是一个相对概念，任何软件都可以叫平台，也可以叫工具。一般理解的平台就是能够让用户自己在上面进行开发的软件。而开发平台可以是一种服务器、台式机、笔记本电脑上的某款软件等。可以通过连接互联网进行通信连接，具有智能控制，智能应用的特征，运作过程往往依赖于物联网、互联网以及电子芯片等现代技术的应用和处理。

28、在一些实施例中，所述用于语音转写的装置包括：处理器和存储有程序指令的存储器，所述处理器被配置为在运行所述程序指令时，执行上述的用于语音转写的方法。

29、在一些实施例中，所述开发平台包括：如上述实施例所述的用于语音转写的装置。

30、本公开实施例提供的用于语音转写的方法、装置、开发平台和存储介质，可以实现以下技术效果：

31、本发明采用深度学习技术领域的技术手段，是一种基于平台化配置的语音转写方法。首先基于平台部署通用的语音转写模型，进而对用户上传的语音进行识别和转写。在转写之后，可以基于平台将转写的结果同时呈现给用户，这样就可以了解用户是否满足当前的转写结果。如果客户认为转写结果不够精准或并不符合客户习惯，那么就可以立即对模型提出建议，从而开发人员可以立刻进行调整。最后将用户满意的语音转写模型在平台上发布。相关技术中都是直接用模型进行语音转写处理，不能很好的满足客户的个性化需求。而本申请是把语音转写模型部署于平台化配置，基于用户需求进行开发，从而使得让用户也参与了开发和测试的过程。让用户可以更加快速的提出建议，也方便开发人员进行优化，进而大大缩短交付周期，提高开发效率。

32、以上的总体描述和下文中的描述仅是示例性和解释性的，不用于限制本申请。

技术特征：

1.一种用于语音转写的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，按如下方式配置语音转写模型：

3.根据权利要求2所述的方法，其特征在于，所述获取热词词典，包括：

4.根据权利要求1所述的方法，其特征在于，所述对测试语音进行识别和转写，并将转写结果呈现给所述用户，包括：

5.根据权利要求1所述的方法，其特征在于，所述在转写结果不满足所述用户需求的情况下，对语音转写模型进行调整，包括：

6.根据权利要求1所述的方法，其特征在于，所述将转写结果呈现给所述用户，包括：

7.根据权利要求1至6中任一项所述的方法，其特征在于，还包括：

8.一种用于语音转写的装置，包括处理器和存储有程序指令的存储器，其特征在于，所述处理器被配置为在运行所述程序指令时，执行如权利要求1至7中任一项所述的用于语音转写的方法。

9.一种开发平台，其特征在于，包括：

10.一种存储介质，存储有程序指令，其特征在于，所述程序指令在运行时，执行如权利要求1至7任一项所述的用于语音转写的方法。

技术总结
本申请涉及深度学习技术领域，公开一种用于语音转写的方法，包括：利用已配置的语音转写模型对测试语音进行识别和转写，并将转写结果呈现给所述用户；在转写结果不满足所述用户需求的情况下，对语音转写模型进行调整；在转写结果满足所述用户需求的情况下，发布语音转写模型；基于发布的语音转写模型，进行语音转写。相较于相关技术，本申请是把语音转写模型部署于平台化配置，基于用户需求进行开发，从而使得让用户也参与了开发和测试的过程。让用户可以更加快速的提出建议，也方便开发人员进行优化，进而大大缩短交付周期，提高开发效率。本申请还公开一种用于语音转写的装置、开发平台和存储介质。

技术研发人员：朱会峰,李英汉,张俞静,刘莹,闫广群,吴明辉
受保护的技术使用者：北京明略昭辉科技有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱会峰李英汉张俞静刘莹闫广群吴明辉
技术所有人：北京明略昭辉科技有限公司
我是此专利的发明人

上一篇：用于钙钛矿电池的负性光阻胶的显影液、制备方法和应用与流程
上一篇：一种落桶收线机的制作方法