文本处理方法、装置、设备以及存储介质与流程

文档序号:26142182发布日期:2021-08-03 14:26阅读:来源:国知局

技术特征:

1.一种文本处理方法,包括:

获取待处理文本集和结构化文本集;其中,所述待处理文本集包含多个待处理文本,所述结构化文本集包含多个参考结构化文本;

构建每个所述参考结构化文本对应的第一模板表示;并且,对每个所述待处理文本进行结构化处理,得到每个所述待处理文本的候选结构化文本,构建所述候选结构化文本对应的第二模板表示;

对所述第一模板表示和所述第二模板表示进行匹配,确定满足预设条件的模板匹配结果所对应的第二模板表示,将确定出的第二模板表示所对应的候选结构化文本添加至所述结构化文本集。

2.根据权利要求1所述的方法,其中,所述模板匹配结果包括语义相似度和支持度;

所述对所述第一模板表示和所述第二模板表示进行匹配,包括:

针对每个所述候选结构化文本,计算所述候选结构化文本对应的第二模板表示与每个所述第一模板表示之间的语义相似度;

基于所述语义相似度,计算满足语义相似度阈值的语义相似度所对应的第一模板表示的数量,得到所述候选结构化文本的支持度。

3.根据权利要求2所述的方法,其中,所述确定满足预设条件的模板匹配结果所对应的第二模板表示,包括:

在所述候选结构化文本的支持度满足支持度阈值的情况下,将所述候选结构化文本对应的第二模板表示确定为满足预设条件的模板匹配结果所对应的第二模板表示。

4.根据权利要求1所述的方法,其中,所述构建每个所述参考结构化文本对应的第一模板表示,包括:

针对每个所述参考结构化文本,获取所述待处理文本集中与所述参考结构化文本相匹配的待处理文本;

基于与所述参考结构化文本相匹配的待处理文本,构建所述参考结构化文本对应的第一模板表示。

5.根据权利要求4所述的方法,其中,所述基于与所述参考结构化文本相匹配的待处理文本,构建所述参考结构化文本对应的第一模板表示,包括:

针对与所述参考结构化文本相匹配的待处理文本,获取所述待处理文本的页面浏览量;

在所述页面浏览量满足预设条件的情况下,构建所述参考结构化文本对应的第一模板表示。

6.根据权利要求4所述的方法,其中,所述基于与所述参考结构化文本相匹配的待处理文本,构建所述参考结构化文本对应的第一模板表示,包括:

将所述参考结构化文本作为第一插槽单元;

在与所述参考结构化文本相匹配的待处理文本中,确定出与所述参考结构化文本相匹配的第一文本单元;

在与所述参考结构化文本相匹配的待处理文本中,将所述第一文本单元替换为所述第一插槽单元,得到所述参考结构化文本对应的第一模板表示。

7.根据权利要求1所述的方法,其中,所述对每个所述待处理文本进行结构化处理,得到每个所述待处理文本的候选结构化文本,包括:

将所述待处理文本集中的每个所述待处理文本输入至训练好的语言模型,进行切词和重组处理,得到所述待处理文本的候选结构化文本。

8.根据权利要求1所述的方法,其中,所述构建所述候选结构化文本对应的第二模板表示,包括:

针对每个所述候选结构化文本,获取所述待处理文本集中与所述候选结构化文本相匹配的待处理文本;

基于所述待处理文本集中与所述候选结构化文本相匹配的待处理文本,构建所述候选结构化文本对应的第二模板表示。

9.根据权利要求8所述的方法,其中,所述基于所述待处理文本集中与所述候选结构化文本相匹配的待处理文本,构建所述候选结构化文本对应的第二模板表示,包括:

基于所述待处理文本集中与所述候选结构化文本相匹配的待处理文本,获取所述待处理文本的相关参数,所述相关参数包括所述待处理文本的页面浏览量和/或交易记录;

在所述待处理文本的相关参数满足预设条件的情况下,构建所述候选结构化文本对应的第二模板表示。

10.根据权利要求8所述的方法,其中,所述基于所述待处理文本集中与所述候选结构化文本相匹配的待处理文本,构建所述候选结构化文本对应的第二模板表示,包括:

将所述候选结构化文本作为第二插槽单元;

获取与所述候选结构化文本相匹配的待处理文本中与所述候选结构化文本相匹配的第二文本单元;

在与所述候选结构化文本相匹配的待处理文本中,将所述第二文本单元替换为所述第二插槽单元,得到所述候选结构化文本对应的第二模板表示。

11.根据权利要求1至10任一项所述的方法,其中,所述获取待处理文本集和结构化文本集,包括:

获取所述待处理文本集;

基于每个所述待处理文本,利用训练好的文本处理模型,提取出所述待处理文本对应的参考结构化文本;

基于所述参考结构化文本,构建所述结构化文本集。

12.一种文本处理模型的训练方法,包括:

利用待处理文本样本,确定目标结构化文本;

将所述待处理文本样本输入待训练的文本处理模型,得到预测结构化文本;

根据所述目标结构化文本和所述预测结构化文本的差异,对所述待训练的文本处理模型进行训练,直至所述差异在允许范围内。

13.一种文本处理装置,包括:

文本集获取模块,用于获取待处理文本集和结构化文本集;其中,所述待处理文本集包含多个待处理文本,所述结构化文本集包含多个参考结构化文本;

模板表示构建模块,用于构建每个所述参考结构化文本对应的第一模板表示;并且,用于对每个所述待处理文本进行结构化处理,得到每个所述待处理文本的候选结构化文本,构建所述候选结构化文本对应的第二模板表示;

匹配模块,用于对所述第一模板表示和所述第二模板表示进行匹配,确定满足预设条件的模板匹配结果所对应的第二模板表示,将确定出的第二模板表示所对应的候选结构化文本添加至所述结构化文本集。

14.根据权利要求13所述的装置,其中,所述模板匹配结果包括语义相似度和支持度;

所述匹配模块包括:

语义相似度计算子模块,用于针对每个所述候选结构化文本,计算所述候选结构化文本对应的第二模板表示与每个所述第一模板表示之间的语义相似度;

支持度计算子模块,用于基于所述语义相似度,计算满足语义相似度阈值的语义相似度所对应的第一模板表示的数量,得到所述候选结构化文本的支持度。

15.根据权利要求14所述的装置,其中,所述匹配模块还包括:

第二模板表示确定单元,用于在所述候选结构化文本的支持度满足支持度阈值的情况下,将所述候选结构化文本对应的第二模板表示确定为满足预设条件的模板匹配结果所对应的第二模板表示。

16.根据权利要求13所述的装置,其中,所述模板表示构建模块包括:

文本匹配子模块,用于针对每个所述参考结构化文本,获取所述待处理文本集中与所述参考结构化文本相匹配的待处理文本;

第一模板表示构建子模块,用于基于与所述参考结构化文本相匹配的待处理文本,构建所述参考结构化文本对应的第一模板表示。

17.根据权利要求16所述的装置,其中,所述第一模板表示构建子模块包括:

页面浏览量获取单元,用于针对与所述参考结构化文本相匹配的待处理文本,获取所述待处理文本的页面浏览量;

第一模板表示构建单元,用于在所述页面浏览量满足预设条件的情况下,构建所述参考结构化文本对应的第一模板表示。

18.根据权利要求16所述的装置,其中,所述第一模板表示构建子模块包括:

第一插槽单元确定单元,用于将所述参考结构化文本作为第一插槽单元;

第一文本单元确定单元,用于在与所述参考结构化文本相匹配的待处理文本中,确定出与所述参考结构化文本相匹配的第一文本单元;

第一模板表示构建单元,用于在与所述参考结构化文本相匹配的待处理文本中,将所述第一文本单元替换为所述第一插槽单元,得到所述参考结构化文本对应的第一模板表示。

19.根据权利要求13所述的装置,其中,所述模板表示构建模块包括:

候选结构化文本构建子模块,用于将所述待处理文本集中的每个所述待处理文本输入至训练好的语言模型,进行切词和重组处理,得到所述待处理文本的候选结构化文本。

20.根据权利要求13所述的装置,其中,所述模板表示构建模块包括:

文本匹配子模块,用于针对每个所述候选结构化文本,获取所述待处理文本集中与所述候选结构化文本相匹配的待处理文本;

第二模板表示构建子模块,用于基于所述待处理文本集中与所述候选结构化文本相匹配的待处理文本,构建所述候选结构化文本对应的第二模板表示。

21.根据权利要求20所述的装置,其中,所述第二模板表示构建子模块包括:

参数获取单元,用于基于所述待处理文本集中与所述候选结构化文本相匹配的待处理文本,获取所述待处理文本的相关参数,所述相关参数包括所述待处理文本的页面浏览量和/或交易记录;

第二模板表示构建单元,用于在所述待处理文本的相关参数满足预设条件的情况下,构建所述候选结构化文本对应的第二模板表示。

22.根据权利要求20所述的装置,其中,所述第二模板表示构建子模块包括:

第二插槽确定单元,用于将所述候选结构化文本作为第二插槽单元;

第二文本单元确定单元,用于获取与所述候选结构化文本相匹配的待处理文本中与所述候选结构化文本相匹配的第二文本单元;

第二模板表示构建单元,用于在与所述候选结构化文本相匹配的待处理文本中,将所述第二文本单元替换为所述第二插槽单元,得到所述候选结构化文本对应的第二模板表示。

23.根据权利要求13至22任一项所述的装置,其中,所述文本集获取模块包括:

待处理文本集获取子模块,用于获取所述待处理文本集;

参考结构化文本提取子模块,用于基于每个所述待处理文本,利用训练好的文本处理模型,提取出所述待处理文本对应的参考结构化文本;

结构化文本集构建子模块,用于基于所述参考结构化文本,构建所述结构化文本集。

24.一种文本处理模型的训练装置,包括:

目标结构化文本确定模块,用于利用待处理文本样本,确定目标结构化文本;

预测结构化文本获取模块,用于将所述待处理文本样本输入待训练的文本处理模型,得到预测结构化文本;

训练模块,用于根据所述目标结构化文本和所述预测结构化文本的差异,对所述待训练的文本处理模型进行训练,直至所述差异在允许范围内。

25.一种电子设备,其特征在于,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行权利要求1-12中任一项所述的方法。

27.一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述的方法。


技术总结
本公开提供了一种文本处理方法、装置、设备以及存储介质,涉及人工智能、自然语言处理、大数据领域。具体实现方案为:获取待处理文本集和结构化文本集;构建每个参考结构化文本对应的第一模板表示;并且,对每个待处理文本进行结构化处理,得到每个待处理文本的候选结构化文本,构建候选结构化文本对应的第二模板表示;对第一模板表示和第二模板表示进行匹配,确定满足预设条件的模板匹配结果所对应的第二模板表示,将确定出的第二模板表示所对应的候选结构化文本添加至结构化文本集。根据本公开的技术,提高了对自然语言文本的处理效率和结构化信息的提取精度,并且降低了人力成本。

技术研发人员:沈广策;吴建伟;熊健
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2021.05.10
技术公布日:2021.08.03
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1