本申请涉及数据检索,尤其涉及一种文本检索方法、装置、电子设备及存储介质。
背景技术:
1、为了方便理解文本语义,长篇文本在存储时会被断句或者添加标点符号、特殊字符等,例如通过语音识别得到的文本,其中包含大量的标点符号。同时,对长篇文本进行断句或者添加标点符号,也有利于从中召回只包含目标关键词的最小文本单句。在某些场景下,可能需要筛选出文本的一部分内容,比如包括某些关键词的文本内容,然后以高亮等特殊符号将关键词突出显示。因此,如何从文本中检索出想要的文本内容成为研究的热点问题。
2、通常的文本检索方法是将想要检索的内容作为检索关键词,然后以检索关键词为检索条件从文本中检索包含该检索关键词的文本内容。但是,这种文本检索方案的检索效果不佳,通常无法准确地召回包含检索关键词的文本句。
技术实现思路
1、基于上述技术现状,本申请提出一种文本检索方法、装置、电子设备及存储介质,以期降低文本断句和特殊字符对文本检索的影响,提高文本检索效果。
2、本申请第一方面提供了一种文本检索方法,包括:根据检索关键词构建正则表达式;其中,所述正则表达式用于检索所述检索关键词以及预设字符串,所述预设字符串由所述检索关键词包括的字符和预设字符组成;在所述预设字符串中所述预设字符位于所述检索关键词中任意两个相邻字符之间;从目标文本中检索与所述正则表达式相匹配的目标字符串;所述目标文本具有属于同一词的相邻两个字符被所述预设字符隔开的特点;从所述目标文本中确定出包含检索到的所述目标字符串的文本句。
3、本申请第二方面提供了一种文本检索装置,包括:检索准备单元,用于根据检索关键词构建正则表达式;其中,所述正则表达式用于检索所述检索关键词以及预设字符串,所述预设字符串由所述检索关键词包括的字符和预设字符组成;在所述预设字符串中所述预设字符位于所述检索关键词中任意两个相邻字符之间;文本检索单元,用于从目标文本中检索与所述正则表达式相匹配的目标字符串;所述目标文本具有属于同一词的相邻两个字符被所述预设字符隔开的特点;检索处理单元,用于从所述目标文本中确定出包含所述目标字符串的文本句。
4、本申请第三方面提供了一种电子设备,包括:存储器和处理器;其中,所述存储器与所述处理器连接,用于存储计算机程序;所述处理器,用于通过运行所述存储器中的计算机程序,实现上述的文本检索方法。
5、本申请第四方面提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现上述的文本检索方法。
6、本申请提出的文本检索方法在从目标文本中检索关键词时,并非直接用检索关键词对目标文本进行检索,而是先根据检索关键词构建一个正则表达式,该正则表达式不仅可以从目标文本中检索出上述的检索关键词,该可以检索出由上述检索关键词包括的字符和预设字符组成的预设字符串的正则表达式;进一步的根据该正则表达式,从目标文本中检索与该正则表达式相匹配的目标字符串。最后,从目标文本中确定出包含检索到的目标字符串的文本句,即可到与检索关键词对应的检索结果。
7、由于使用正则表达式进行字符串检索的宽容性和灵活性更高,因此,当该文本检索方法应用于具有属于同一词的相邻两个字符被预设字符隔开的特点的目标文本时,该检索方法不仅能够从目标文本中检索命中检索关键词,即便检索关键词在目标文本中与预设字符中的一个或多个相混杂,该检索方法也能够从目标文本中将包含检索关键词以及预设字符的字符串命中,从而提高了对检索关键词的召回率。将该检索方法应用于具有断句或分段的文本检索场景中,可以避免标点符号或分段符、断句符等字符对检索关键词的检索造成影响,从而显著改善文本检索效果。
1.一种文本检索方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据检索关键词构建正则表达式,包括:
3.根据权利要求2所述的方法,其特征在于,所述预设字符包括预设标点符号和预设标识字符中任意一个或多个。
4.根据权利要求1所述的方法,其特征在于,所述目标文本包括多个文本单句,所述从所述目标文本中确定出包含所述目标字符串的文本句,包括:
5.根据权利要求4所述的方法,其特征在于,所述目标字符串在所述目标文本中的位置信息包括:所述目标字符串在所述目标文本中的起始位置和结束位置,和/或所述目标字符串所处的文本单句的序号;所述目标文本中的各个文本单句在所述目标文本中的位置信息包括:所述各个文本单句在所述目标文本中的起始位置和结束位置,和/或所述各个文本单句在所述目标文本中的序号。
6.根据权利要求5所述的方法,其特征在于,所述目标文本为第一类文本集合、第二类文本集合和第三类文本集合中的任意一个集合中的文本;
7.根据权利要求4所述的方法,其特征在于,所述根据确定出的目标文本单句,构建得到包含检索到的所述目标字符串的文本句,包括:
8.根据权利要求6所述的方法,其特征在于,所述目标文本单句的数量为多个;所述根据确定出的目标文本单句,构建得到包含所述目标字符串的文本句,包括:
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
10.一种文本检索装置,其特征在于,包括:
11.一种电子设备,其特征在于,包括:
12.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时,实现如权利要求1至9中任意一项所述的文本检索方法。