本技术涉及计算机,尤其涉及一种文本处理方法、装置、电子设备及存储介质。
背景技术:
1、随着深度学习模型的普及,语音识别技术(asr)也从早起的基于统计的模型转变到基于端到端的模型,从支持一种语言到多种语言。然而无论哪种模型,语音识别技术输出的文本是不包含标点的,因学术界和研究界均提出不同的方法为语音识别后的文本添加标点,即语音识别后处理之-标点预测任务。目前主流方法是基于中文文本特征的方法进行标点预测,将标点预测任务视为序列标注(sequence labeling)问题,基于神经网络(neuralnetwork)模型预测标点。文本的敏感词过滤是一比较常见的任务,通常采用确定有限自动机(deterministic finite automation,dfa)来过滤敏感词。但随着日常用语中包含非中文(例如英文)的情况增多,以及asr技术的发展,asr输出文本也会包含非中文(例如英文)。当前技术已经不能满足应用的需求,无法对asr输出文本包含中文和非中文(例如英文)进行合适处理,正确呈现文本,以实现中文和非中文(例如英文)文本的可读性。
技术实现思路
1、为解决相关技术问题,本技术实施例提供一种文本处理方法、装置、电子设备及存储介质。
2、本技术实施例的技术方案是这样实现的:
3、本技术实施例提供了一种文本处理方法,包括:
4、获取第一文本;所述第一文本不包含标点;
5、确定所述第一文本中包括的至少一个文本段以及所述至少一个文本段中的每个文本段对应的标点标签;
6、将所述每个文本段与预设敏感词库进行匹配,得到所述每个文本段中的敏感词;所述预设敏感词库至少包括:中文敏感词、非中文敏感词和中文与非中文混合敏感词;
7、在所述每个文本段中采用预设的替代标志替换所述敏感词,得到替换后的每个文本段;
8、基于所述标点标签对所述替换后的每个文本段中的字符进行拼接,得到每个呈现文本段;
9、将所述每个呈现文本段按顺序进行连接,得到呈现文本。
10、上述方案中,所述确定所述第一文本中包括的至少一个文本段以及所述至少一个文本段中的每个文本段对应的标点标签,包括:
11、对所述第一文本进行标点预测,得到所述第一文本对应的标签集合;所述标签集合包括第一类型标签和第二类型标签;所述第一类型标签表征无标点;所述第二类型标签表征有标点;
12、根据所述第二类型标签在所述文本中的位置对所述文本进行切分,得到所述至少一个文本段以及所述每个文本段对应的标点标签。
13、上述方案中,所述方法还包括:
14、获取包括多个预设敏感词的预设敏感词表;
15、将所述预设敏感词表中的每个预设敏感词按照中文单元和/或英文空格进行切分,获得对应的切分词;
16、将所述每个预设敏感词和所述对应的切分词添加到字典树中,得到所述预设敏感词库;其中,所述每个预设敏感词作为所述字典树中的一个节点,所述对应的切分词作为所述节点的子节点。
17、上述方案中,所述基于所述标点标签对所述替换后的每个文本段中的字符进行拼接,得到每个呈现文本段,包括:
18、对所述替换后的每个文本段中的字符进行语言判定,获得表征所述字符对应语言类型的判断结果;
19、根据所述判断结果确定所述字符之间的连接方式以及所述标点标签对应的标点类型;
20、基于所述连接方式和所述标点类型对所述字符进行拼接,得到所述呈现文本段。
21、上述方案中,所述根据所述判断结果确定所述字符之间的连接方式以及所述标点标签对应的标点类型,包括:
22、在所述判断结果表明所述字符对应语言类型均为英文的情况下,确定所述连接方式为空格连接以及所述标点类型为英文标点;
23、基于所述连接方式和所述标点类型对所述字符进行拼接,得到所述呈现文本段,包括:
24、将所述字符之间以空格连接,并添加所述英文标点,得到所述呈现文本段。
25、上述方案中,所述根据所述判断结果确定所述字符之间的连接方式以及所述标点标签对应的标点类型,包括:
26、在所述判断结果表明所述字符对应语言类型均为中文的情况下,确定所述连接方式为直接连接以及所述标点类型为中文标点;
27、基于所述连接方式和所述标点类型对所述字符进行拼接,得到所述呈现文本段,包括:
28、将所述字符之间直接连接,并添加所述中文标点,得到所述呈现文本段。
29、上述方案中,所述根据所述判断结果确定所述字符之间的连接方式以及所述标点标签对应的标点类型,包括:
30、在所述判断结果表明所述字符对应语言类型为中英文混合的情况下,确定所述标点类型为中文标点;
31、判断所述字符中是否存在相邻的两个英文字符;
32、在所述字符中存在相邻的两个英文字符的情况下,确定所述相邻的两个英文字符之间的连接方式为空格连接、所述字符中除所述相邻的两个英文字符以外的字符之间的连接方式为直接连接;
33、所述基于所述连接方式和所述标点类型对所述字符进行拼接,得到所述呈现文本段,包括:
34、将所述相邻的两个英文字符之间以空格连接,所述字符中除所述相邻的两个英文字符以外的字符之间直接连接,并添加所述中文标点,得到所述呈现文本段。
35、上述方案中,所述方法还包括:
36、在所述字符中不存在相邻的两个英文字符的情况下,确定所述字符之间的连接方式为直接连接;
37、基于所述连接方式和所述标点类型对所述字符进行拼接,得到所述呈现文本段,包括:
38、将所述字符之间直接连接,并添加所述中文标点,得到所述呈现文本段。
39、本技术实施例还提供了一种文本处理装置,包括:
40、获取单元,用于获取第一文本;所述第一文本不包含标点;
41、确定单元,用于确定所述第一文本中包括的至少一个文本段以及所述至少一个文本段中的每个文本段对应的标点标签;
42、匹配单元,用于将所述每个文本段与预设敏感词库进行匹配,得到所述每个文本段中的敏感词;所述预设敏感词库至少包括:中文敏感词、非中文敏感词和中文与非中文混合敏感词;
43、替换单元,用于在所述每个文本段中采用预设的替代标志替换所述敏感词,得到替换后的每个文本段;
44、拼接单元,用于基于所述标点标签对所述替换后的每个文本段中的字符进行拼接,得到每个呈现文本段;
45、连接单元,用于将所述每个呈现文本段按顺序进行连接,得到呈现文本。
46、本技术实施例还提供了一种电子设备,包括:
47、存储器,用于存储可执行指令;
48、处理器,用于执行所述存储器中存储的可执行指令时,实现上述所述方法的任一步骤。
49、本技术实施例还提供一种计算机可读存储介质,存储有可执行指令,用于被处理器执行时,实现上述所述方法的任一步骤。
50、本技术实施例提供的文本处理方法、装置、电子设备及存储介质,其中,方法包括:获取第一文本;所述第一文本不包含标点;确定所述第一文本中包括的至少一个文本段以及所述至少一个文本段中的每个文本段对应的标点标签;将所述每个文本段与预设敏感词库进行匹配,得到所述每个文本段中的敏感词;所述预设敏感词库至少包括:中文敏感词、非中文敏感词和中文与非中文混合敏感词;在所述每个文本段中采用预设的替代标志替换所述敏感词,得到替换后的每个文本段;基于所述标点标签对所述替换后的每个文本段中的字符进行拼接,得到每个呈现文本段;将所述每个呈现文本段按顺序进行连接,得到呈现文本,本技术实施例的方案,通过确定所述第一文本中包括的至少一个文本段以及所述至少一个文本段中的每个文本段对应的标点标签;将所述每个文本段与预设敏感词库进行匹配,得到所述每个文本段中的敏感词;所述预设敏感词库至少包括:中文敏感词、非中文敏感词和中文与非中文混合敏感词;从而对asr输出文本包含中文和非中文(例如英文)进行分文本段(句段)后再过滤敏感词处理,避免了一个敏感词命中两个不同的文本段(句段)以及英文中词被过滤的缺陷,从而正确呈现文本,以实现包括中文和非中文(例如英文)文本呈现时的可读性。