文本位置匹配方法、装置、电子设备和存储介质与流程

文档序号：37923324发布日期：2024-05-11 00:02阅读：11来源：国知局

本发明涉及计算机，尤其涉及一种文本位置匹配方法、装置、电子设备和存储介质。

背景技术：

1、随着在线学习的普及，越来越多的用户开始利用电子设备进行学习和背诵。在学习过程中，经常会使用朗读器或语音识别软件对预先设置好的文本内容进行朗读或背诵。在朗读或背诵的过程中，通过增加一些人机交互的过程可以增加用户的学习兴趣，例如，在用户朗读文本时，根据用户朗读内容实时高亮显示朗读文本的位置。然而，由于口音、语速、朗读背诵的质量以及跳读漏读等因素的影响，实际应用中往往会出现匹配出的文本结果与语音不完全匹配的情况，这给用户带来不便，导致用户体验较差。因此，亟需一种高效、准确的文本位置匹配方法，以提高用户朗读或背诵的效率和准确性。

技术实现思路

1、本发明提供一种文本位置匹配方法、装置、电子设备和存储介质，用以解决现有技术中朗读效果不佳的情况下，文本位置匹配结果不准确的缺陷。

2、本发明提供一种文本位置匹配方法，包括：

3、获取待匹配文本的音频，对所述音频中当前时段的音频段进行发音识别，得到当前时段的识别发音；

4、将所述当前时段的识别发音与发音图网络中的各节点进行匹配，得到所述识别发音在所述待匹配文本中所处位置的匹配结果，所述发音图网络中的各节点基于所述待匹配文本中各文字的发音构建；

5、基于所述发音图网络，对历史匹配结果进行回溯和修正，得到文本位置匹配结果，所述历史匹配结果包括所述当前时段的匹配结果和所述当前时段之前时段的匹配结果。

6、根据本发明提供的一种文本位置匹配方法，所述基于所述发音图网络，对历史匹配结果进行回溯和修正，得到文本位置匹配结果，包括：

7、确定所述历史匹配结果在所述发音图网络中的迭代路径；

8、基于所述迭代路径，对所述历史匹配结果进行回溯并修正，得到所述文本位置匹配结果。

9、根据本发明提供的一种文本位置匹配方法，所述确定所述历史匹配结果在所述发音图网络中的迭代路径，包括：

10、在所述音频传输未结束且所述历史匹配结果包括至少两个开始节点的情况下，将所述当前时段的匹配结果对应的节点作为迭代起点，上一次迭代起点作为迭代终点，得到所述历史匹配结果在所述发音图网络中的迭代路径；

11、在所述音频传输结束的情况下，将最后时段的匹配结果对应的节点作为迭代起点，第一时段的匹配结果对应的节点作为迭代终点，得到所述历史匹配结果在所述发音图网络中的迭代路径。

12、根据本发明提供的一种文本位置匹配方法，所述将所述当前时段的识别发音与发音图网络中的各节点进行匹配，得到所述识别发音在所述待匹配文本中所处位置的匹配结果，包括：

13、基于所述发音图网络的流向路径，将所述当前时段的识别发音与所述发音图网络中的各节点进行匹配，得到当前待匹配节点集合；

14、基于所述当前待匹配节点集合中各节点的匹配度，确定目标匹配节点，并对所述发音图网络中各节点的匹配度进行更新；

15、基于所述目标匹配节点，得到所述识别发音在所述待匹配文本中所处位置的匹配结果。

16、根据本发明提供的一种文本位置匹配方法，所述基于所述发音图网络的流向路径，将所述当前时段的识别发音与所述发音图网络中的各节点进行匹配，得到当前待匹配节点集合，包括：

17、在预设发音集合中不存在所述识别发音的情况下，将所述识别发音替换为混淆标签，所述预设发音集合基于所述待匹配文本中各文字的发音得到；

18、基于所述发音图网络的流向路径，将替换后的所述识别发音与所述发音图网络中的各节点进行匹配，得到所述当前待匹配节点集合，所述发音图网络中设置有与所述混淆标签对应的混淆节点。

19、根据本发明提供的一种文本位置匹配方法，所述基于所述当前待匹配节点集合中各节点的匹配度，确定目标匹配节点，包括：

20、基于所述发音图网络，获取所述当前待匹配节点集合中任一节点的多个尾节点；

21、基于各尾节点的匹配度以及所述各尾节点与所述任一节点之间连接弧的惩罚值，确定所述任一节点的匹配度；

22、将所述当前待匹配节点集合中匹配度最高的节点，作为所述目标匹配节点。

23、根据本发明提供的一种文本位置匹配方法，所述发音图网络的构建步骤包括：

24、将所述待匹配文本中各文字的发音作为发音节点，并将各发音节点进行两两双向连接；

25、在所述待匹配文本的各句子的句首设置开始节点，将所述各句子中首位文字的发音节点与所述各句子的开始节点连接，并将所述各句子中末位文字的发音节点与所述各句子之后任一句子的开始节点连接；

26、将各发音节点和各开始节点均与混淆节点连接，基于连接后的各节点，得到所述发音图网络。

27、根据本发明提供的一种文本位置匹配方法，所述各发音节点之间的连接弧、以及所述各句子中末位文字的发音节点与所述各句子之后任一句子的开始节点之间的连接弧均为惩罚弧，任一惩罚弧的惩罚值基于所述任一惩罚弧两端的节点所对应的文字在所述待匹配文本中的位置确定。

28、本发明还提供一种文本位置匹配装置，包括：

29、识别单元，用于获取待匹配文本的音频，对所述音频中当前时段的音频段进行发音识别，得到当前时段的识别发音；

30、匹配单元，用于将所述当前时段的识别发音与发音图网络中的各节点进行匹配，得到所述识别发音在所述待匹配文本中所处位置的匹配结果，所述发音图网络中的各节点基于所述待匹配文本中各文字的发音构建；

31、修正单元，用于基于所述发音图网络，对历史匹配结果进行回溯和修正，得到文本位置匹配结果，所述历史匹配结果包括所述当前时段的匹配结果和所述当前时段之前时段的匹配结果。

32、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述文本位置匹配方法。

33、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述文本位置匹配方法。

34、本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文本位置匹配方法。

35、本发明提供的文本位置匹配方法、装置、电子设备和存储介质，通过将当前时段的识别发音与发音图网络中的各节点进行匹配，可以实时获取当前发音在文本中所处位置的匹配结果，实现朗读文本位置的实时匹配，同时还可以基于发音图网络，对当前时段的匹配结果和当前时段之前时段的匹配结果进行动态修正，以得到最优的文本位置匹配结果，兼顾响应时间和匹配准确性，而且对跳读、漏读、回读、增读等非正常朗读有更好地兼容性。

技术特征：

1.一种文本位置匹配方法，其特征在于，包括：

2.根据权利要求1所述的文本位置匹配方法，其特征在于，所述基于所述发音图网络，对历史匹配结果进行回溯和修正，得到文本位置匹配结果，包括：

3.根据权利要求2所述的文本位置匹配方法，其特征在于，所述确定所述历史匹配结果在所述发音图网络中的迭代路径，包括：

4.根据权利要求1所述的文本位置匹配方法，其特征在于，所述将所述当前时段的识别发音与发音图网络中的各节点进行匹配，得到所述识别发音在所述待匹配文本中所处位置的匹配结果，包括：

5.根据权利要求4所述的文本位置匹配方法，其特征在于，所述基于所述发音图网络的流向路径，将所述当前时段的识别发音与所述发音图网络中的各节点进行匹配，得到当前待匹配节点集合，包括：

6.根据权利要求4所述的文本位置匹配方法，其特征在于，所述基于所述当前待匹配节点集合中各节点的匹配度，确定目标匹配节点，包括：

7.根据权利要求1至6任一项所述的文本位置匹配方法，其特征在于，所述发音图网络的构建步骤包括：

8.根据权利要求7所述的文本位置匹配方法，其特征在于，所述各发音节点之间的连接弧、以及所述各句子中末位文字的发音节点与所述各句子之后任一句子的开始节点之间的连接弧均为惩罚弧，任一惩罚弧的惩罚值基于所述任一惩罚弧两端的节点所对应的文字在所述待匹配文本中的位置确定。

9.一种文本位置匹配装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述文本位置匹配方法。

11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述文本位置匹配方法。

技术总结
本发明提供一种文本位置匹配方法、装置、电子设备和存储介质，其中方法包括：获取待匹配文本的音频，对音频中当前时段的音频段进行发音识别，得到当前时段的识别发音；将当前时段的识别发音与发音图网络中的各节点进行匹配，得到识别发音在待匹配文本中所处位置的匹配结果，发音图网络中的各节点基于待匹配文本中各文字的发音构建；基于发音图网络，对历史匹配结果进行回溯和修正，得到文本位置匹配结果，历史匹配结果包括当前时段的匹配结果和当前时段之前时段的匹配结果。本发明提供的方法、装置、电子设备和存储介质，可以支持文本位置在线实时匹配，并支持匹配结果动态修正，从而提高文本位置匹配的准确性和稳定性。

技术研发人员：苏涛,杨康,李宝善,王超,王慧娟,张凯波,吴奎
受保护的技术使用者：科大讯飞股份有限公司
技术研发日：
技术公布日：2024/5/10

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苏涛,杨康,李宝善,王超,王慧娟,张凯波,吴奎
技术所有人：科大讯飞股份有限公司
我是此专利的发明人