文本处理方法及装置与流程

文档序号:33936183发布日期:2023-04-22 15:31阅读:49来源:国知局
文本处理方法及装置与流程

本申请涉及计算机,特别涉及一种文本处理方法。本申请同时涉及一种文本处理装置、一种计算设备,以及一种计算机可读存储介质。


背景技术:

1、随着互联网技术的发展,自然语言处理(nlp,natural language processing)的文本处理任务中,由于文本的内容通常较多、篇幅较长,为了方便用户获取文本中的有效信息,在处理文本之前,可以对文本进行分词,因此,文本分词逐渐成为自然语言处理任务中的研究重点。

2、现有技术中,通常采用深度学习的方法,将分词问题转化为一个序列标注问题,对文本中的每个字标注其属性,获得分词结果。

3、然而,上述深度学习的方案速度较慢,过于耗费算力和内存,导致文本处理的效率低且准确性不高。


技术实现思路

1、有鉴于此,本申请实施例提供了一种文本处理方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本处理装置,一种计算设备,以及一种计算机可读存储介质。

2、根据本申请实施例的第一方面,提供了一种文本处理方法,包括:

3、提取待处理文本中的目标文本段;

4、基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;

5、将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;

6、在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。

7、根据本申请实施例的第二方面,提供了一种文本处理装置,包括:

8、提取模块,被配置为提取待处理文本中的目标文本段;

9、分词模块,被配置为基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;

10、合并模块,被配置为将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;

11、获得模块,被配置为在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。

12、根据本申请实施例的第三方面,提供了一种计算设备,包括:

13、存储器和处理器;

14、所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述文本处理方法的步骤。

15、根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文本处理方法的步骤。

16、根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述文本处理方法的步骤。

17、本申请提供的文本处理方法,提取待处理文本中的目标文本段;基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。通过对目标文本段进行分词,获得初始文本段和预设数量的初始分词,将初始分词中的指定分词与初始文本段进行合并,对目标文本段进行更新,仅关注文本的局部语义,实现了高效、准确的文本处理。



技术特征:

1.一种文本处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述提取待处理文本中的目标文本段,包括:

3.根据权利要求2所述的方法,其特征在于,所述以所述目标分词为分割点,对所述待处理文本进行分割,获得所述目标文本段,包括:

4.根据权利要求3所述的方法,其特征在于,所述在达到预设分词停止条件的情况下,获得所述待处理文本对应的分词集合之后,还包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述目标文本段的字符顺序,对所述目标文本段进行分词,获得初始文本段和预设数量的初始分词,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述目标文本段的字符顺序和词特征库中各词语的特征信息,对所述目标文本段进行分词,获得初始文本段和预设数量的初始分词之前,还包括:

7.根据权利要求5所述的方法,其特征在于,所述基于所述目标文本段的字符顺序和词特征库中各词语的词特征信息,对所述目标文本段进行分词,获得初始文本段和预设数量的初始分词,包括:

8.根据权利要求1所述的方法,其特征在于,所述预设分词停止条件包括所述目标文本段中的字符均已被分词;所述在达到预设分词停止条件的情况下,获得所述待处理文本对应的分词集合,包括:

9.根据权利要求1所述的方法,其特征在于,所述预设分词停止条件包括预设迭代次数;所述在达到预设分词停止条件的情况下,获得所述待处理文本对应的分词集合,包括:

10.根据权利要求1所述的方法,其特征在于,所述预设分词停止条件包括预设阈值;所述在达到预设分词停止条件的情况下,获得所述待处理文本对应的分词集合,包括:

11.一种文本处理装置,其特征在于,包括:

12.一种计算设备,其特征在于,包括:

13.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至10任意一项所述文本处理方法的步骤。


技术总结
本申请提供文本处理方法及装置,其中所述文本处理方法包括:提取待处理文本中的目标文本段;基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。通过对目标文本段进行分词,获得初始文本段和预设数量的初始分词,将初始分词中的指定分词与初始文本段进行合并,对目标文本段进行更新,仅关注文本的局部语义,实现了高效、准确的文本处理。

技术研发人员:王焜,余赢超,王景峰
受保护的技术使用者:珠海金山数字网络科技有限公司
技术研发日:
技术公布日:2024/1/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1