本申请涉及教学设备,尤其涉及一种文本去重合并方法、装置、电子设备和存储介质。
背景技术:
1、宽笔头的词典笔等电子设备能够一次扫描到多行文本的内容,从而提高了用户输入效率。然而,前后的两次扫描很可能会扫描到重复的内容,直接拼接扫描到的文本会引入大量重复内容,最终导致文本检索效率和准确率的下降。针对这个问题,现有技术通常会将扫描到的多张图像拼接成一张图像,然后再进行ocr识别处理,这样能够获得没有重复内容的文本。然而,图像拼接会产生耗时长和功耗高的问题,无法满足电子设备低功耗实时获取扫描文本的需求。
技术实现思路
1、有鉴于此,本申请实施例提供了一种文本去重合并方法、装置、电子设备和存储介质,能够对电子设备扫描到的文本进行去重,且不会产生耗时长和功耗高的问题。
2、本申请实施例的第一方面提供了一种文本去重合并方法,包括:
3、获取当次扫描的目标文本和前一次扫描的文本去重合并结果;
4、对目标文本与前一次扫描的文本去重合并结果进行文本去重合并处理,得到当次扫描的文本去重合并结果。
5、在本申请实施例中,在获得当次扫描的目标文本后,会对目标文本与前一次扫描的文本去重合并结果进行文本去重合并处理,从而得到当次扫描的文本去重合并结果。通过这样设置,可以预见在获得下一次扫描的文本时,会对下一次扫描的文本与当次扫描的文本去重合并结果进行文本去重合并处理,从而得到下一次扫描的文本去重合并结果,也即在每次扫描后都能获得相应的文本去重合并结果,因此实现了文本去重的效果。另外,由于上述过程执行的只是文本去重与合并处理,无需进行图像拼接,因此也不会产生耗时长和功耗高的问题,能够满足电子设备低功耗实时获取扫描文本的需求。
6、在本申请实施例的一种实现方式中,对目标文本与前一次扫描的文本去重合并结果进行文本去重合并处理,得到当次扫描的文本去重合并结果,包括:
7、按顺序从前一次扫描的文本去重合并结果中选取一个当前文本行;
8、检测当前文本行是否与目标文本的任一文本行重复;
9、若当前文本行与目标文本的任一文本行重复,则从当前文本行和该任一文本行中选取一个文本行,添加至去重结果队列,并删除目标文本中的该任一文本行;
10、若当前文本行与目标文本的任一文本行均不重复,则将当前文本行添加至去重结果队列;
11、若已按顺序选取完前一次扫描的文本去重合并结果中的所有文本行,则将目标文本中剩余的文本行添加至去重结果队列,并将去重结果队列确定为当次扫描的文本去重合并结果,否则返回执行按顺序从前一次扫描的文本去重合并结果中选取一个当前文本行的步骤以及后续步骤。
12、在本申请实施例的一种实现方式中,检测当前文本行是否与目标文本的任一文本行重复,包括:
13、将当前文本行分别与目标文本的每个文本行进行重合度比对,得到目标文本的每个文本行与当前文本行的文本重合度;
14、若目标文本中存在任一文本行的文本重合度高于设定阈值,则确定当前文本行与该任一文本行重复。
15、在本申请实施例的一种实现方式中,令目标文本行表示目标文本的任一文本行;将当前文本行分别与目标文本的每个文本行进行重合度比对,得到目标文本的每个文本行与当前文本行的文本重合度,包括:
16、将当前文本行切分为第一字符数组,以及将目标文本行切分为第二字符数组;
17、构建第一字符数组和第二字符数组的比对矩阵;
18、根据比对矩阵,确定当前文本行和目标文本行的公共子串;
19、根据公共子串的长度、第一字符数组的长度和第二字符数组的长度,计算得到目标文本行与当前文本行的文本重合度。
20、在本申请实施例的一种实现方式中,根据比对矩阵,确定当前文本行和目标文本行的公共子串,包括:
21、从比对矩阵中查找数值连续的各个元素段,作为公共子串。
22、在本申请实施例的一种实现方式中,从当前文本行和该任一文本行中选取一个文本行,添加至去重结果队列,包括:
23、若当前文本行和该任一文本行的长度不同,则从当前文本行和该任一文本行中选取长度较长的文本行,添加至去重结果队列;
24、若当前文本行和该任一文本行的长度相同,则将当前文本行添加至去重结果队列。
25、在本申请实施例的另一种实现方式中,对目标文本与前一次扫描的文本去重合并结果进行文本去重合并处理,得到当次扫描的文本去重合并结果,包括:
26、将前一次扫描的文本去重合并结果添加至去重结果队列;
27、按顺序从目标文本中选取一个当前文本行;
28、检测当前文本行是否与前一次扫描的文本去重合并结果的任一文本行重复;
29、若当前文本行与前一次扫描的文本去重合并结果的任一文本行重复,则删除目标文本中的当前文本行;
30、若已按顺序选取完目标文本中的所有文本行,则将目标文本中剩余的文本行添加至去重结果队列,并将去重结果队列确定为当次扫描的文本去重合并结果,否则返回执行按顺序从目标文本中选取一个当前文本行的步骤以及后续步骤。
31、本申请实施例的第二方面提供了一种文本去重合并装置,包括:
32、文本获取模块,用于获取当次扫描的目标文本和前一次扫描的文本去重合并结果;
33、文本去重合并模块,用于对目标文本与前一次扫描的文本去重合并结果进行文本去重合并处理,得到当次扫描的文本去重合并结果。
34、本申请实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例的第一方面提供的文本去重合并方法。
35、本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本申请实施例的第一方面提供的文本去重合并方法。
36、本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行如本申请实施例的第一方面提供的文本去重合并方法。
37、可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
1.一种文本去重合并方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,所述对所述目标文本与所述前一次扫描的文本去重合并结果进行文本去重合并处理,得到当次扫描的文本去重合并结果,包括:
3.如权利要求2所述的方法,其特征在于,所述检测所述当前文本行是否与所述目标文本的任一文本行重复,包括:
4.如权利要求3所述的方法,其特征在于,令目标文本行表示所述目标文本的任一文本行;所述将所述当前文本行分别与所述目标文本的每个文本行进行重合度比对,得到所述目标文本的每个文本行与所述当前文本行的文本重合度,包括:
5.如权利要求4所述的方法,其特征在于,所述根据所述比对矩阵,确定所述当前文本行和所述目标文本行的公共子串,包括:
6.如权利要求2至5任一项所述的方法,其特征在于,所述从所述当前文本行和所述任一文本行中选取一个文本行,添加至去重结果队列,包括:
7.如权利要求1所述的方法,其特征在于,所述对所述目标文本与所述前一次扫描的文本去重合并结果进行文本去重合并处理,得到当次扫描的文本去重合并结果,包括:
8.一种文本去重合并装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的文本去重合并方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的文本去重合并方法。