页面朗读方法、装置、终端及存储介质与流程

文档序号：36998439发布日期：2024-02-09 12:41阅读：25来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请实施例涉及计算机，特别涉及一种页面朗读方法、装置、终端及存储介质。

背景技术：

1、在终端的使用过程中，用户常常具有听书的需求。例如，在用户视觉疲劳时需要将网页的文字转换为音频进行播放，或是在驾车场景下收听公众号的内容等等。

2、相关技术中，可能采用光学字符识别技术(optical character recognition,ocr)对当前页面的内容进行截屏以获取待朗读的文本，并将当前页面的文字转换成音频进行播放。

技术实现思路

1、本申请实施例提供了一种页面朗读方法、装置、终端及存储介质。所述技术方案如下：

2、一方面，本申请实施例提供了一种页面朗读方法，所述方法包括：

3、对屏幕截图进行文本提取，得到所述屏幕截图中的第一文本；

4、获取当前页面中的第二文本，所述第二文本为所述当前页面中的待朗读文本；

5、对所述第一文本和所述第二文本进行文本匹配，确定所述第二文本中的起始朗读位置，所述起始朗读位置为所述第一文本中的有效文本在所述第二文本中的起始位置，所述有效文本为需要被朗读的文本；

6、以所述起始朗读位置为起点，播放所述第二文本对应的朗读音频。

7、另一方面，本申请实施例提供了一种页面朗读装置，所述装置包括：

8、第一文本获取模块，用于对屏幕截图进行文本提取，得到所述屏幕截图中的第一文本；

9、第二文本获取模块，用于获取当前页面中的第二文本，所述第二文本为所述当前页面中的待朗读文本；

10、文本匹配模块，用于对所述第一文本和所述第二文本进行文本匹配，确定所述第二文本中的起始朗读位置，所述起始朗读位置为所述第一文本中的有效文本在所述第二文本中的起始位置，所述有效文本为需要被朗读的文本；

11、音频播放模块，用于以所述起始朗读位置为起点，播放所述第二文本对应的朗读音频。

12、另一方面，本申请实施例提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上述方面所述的页面朗读方法。

13、另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上述方面所述的页面朗读方法。

14、另一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。终端的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该终端执行如上述方面所述的页面朗读方法。

15、本申请实施例中，通过对第一文本和第二文本进行文本匹配，确定第一文本中的有效文本在第二文本中的起始朗读位置，可以从起始朗读位置开始播放第二文本对应的朗读音频，由于第二文本的准确度高于第一文本，因此可以提升朗读音频的准确度；同时，在播放完屏幕截图中的文本对应的朗读音频后，可以继续播放当前页面的后续文本对应的朗读音频，无需再次通过屏幕截图对文本进行提取，从而降低了时延。

技术特征：

1.一种页面朗读方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述第一文本和所述第二文本进行文本匹配，确定所述第二文本中的起始朗读位置，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述第一文本中第一滑动窗口内的文本，以及所述第二文本中第二滑动窗口内的文本进行文本匹配之前，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述最长公共字符串，确定所述第二文本中的窗口滑动起点，包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

6.根据权利要求2所述的方法，其特征在于，所述基于最高文本相似度对应的所述第二滑动窗口的窗口位置，确定所述第二文本中的所述起始朗读位置，包括：

7.根据权利要求2所述的方法，其特征在于，所述第一滑动窗口从所述第一文本的头部开始滑动；

8.根据权利要求2所述的方法，其特征在于，所述对所述第一文本中第一滑动窗口内的文本，以及所述第二文本中第二滑动窗口内的文本进行文本匹配，得到文本相似度，包括：

9.根据权利要求1所述的方法，其特征在于，所述对所述第一文本和所述第二文本进行文本匹配，确定所述第二文本中的起始朗读位置，包括：

10.根据权利要求1至9任一所述的方法，其特征在于，所述对屏幕截图进行文本提取，得到所述屏幕截图中的第一文本，包括：

11.根据权利要求10所述的方法，其特征在于，所述通过光学字符识别，对所述屏幕截图进行文本提取，得到所述第一文本，包括：

12.根据权利要求10所述的方法，其特征在于，所述以所述起始朗读位置为起点，播放所述第二文本对应的朗读音频，包括：

13.根据权利要求1至9任一所述的方法，其特征在于，所述对屏幕截图进行文本提取，包括：

14.一种页面朗读装置，其特征在于，所述装置包括：

15.一种终端，其特征在于，所述终端包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如权利要求1至13任一项所述的页面朗读方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至13任一项所述的页面朗读方法。

17.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中；终端的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述终端执行如权利要求1至13任一项所述的页面朗读方法。

技术总结
本申请实施例公开了一种页面朗读方法、装置、终端及存储介质，涉及计算机技术领域。包括：对屏幕截图进行文本提取，得到屏幕截图中的第一文本；获取当前页面中的第二文本，第二文本为当前页面中的待朗读文本；对第一文本和第二文本进行文本匹配，确定第二文本中的起始朗读位置，起始朗读位置为第一文本中的有效文本在第二文本中的起始位置，有效文本为需要被朗读的文本；以起始朗读位置为起点，播放第二文本对应的朗读音频。采用本申请实施例的方法，可以提升朗读音频的准确性。

技术研发人员：赵师毅
受保护的技术使用者：OPPO广东移动通信有限公司
技术研发日：
技术公布日：2024/2/8

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵师毅
技术所有人：OPPO广东移动通信有限公司
我是此专利的发明人

上一篇：一种舵机位置采集电路切换系统的制作方法
上一篇：一种文档切分方法、装置、设备及可读存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。