一种文本处理方法及系统与流程

文档序号:36255005发布日期:2023-12-03 13:28阅读:43来源:国知局
一种文本处理方法及系统与流程

本发明涉及文本处理,具体涉及一种文本处理方法及系统。


背景技术:

1、随信息化而来的是激增的各类数据的流转、处理和存储过程,将各类数据进行准确的自动化分类是保证后步快速检索相关信息的重要前提,文本处理是自动化分类的一项重要内容。

2、传统应用于自动化分类的文本处理手段,依赖于大模型进行文本分选,算力需求量较大,导致面对批量的自动化分类时,存在响应速度差,处理效率低的缺点。


技术实现思路

1、本申请提供了一种文本处理方法及系统,用于针对解决现有技术用于自动化分类的文本处理由于算力需求量较大,导致存在应速度差,处理效率低的技术问题。

2、鉴于上述问题,本申请提供了一种文本处理方法及系统。

3、本申请的第一个方面,提供了文本处理方法,包括:对第一待处理文档进行一级特征解析,生成文档表格布局特征;结合所述文档表格布局特征,遍历表格模板库进行模板识别,生成表格模板匹配结果;当所述表格模板匹配结果的数量大于1,对所述表格模板匹配结果进行二级特征解析,生成模板文字语义向量和语义向量布局特征;结合所述模板语义向量和所述语义向量布局特征,对所述表格模板匹配结果进行分选,生成第一模板分选结果;当所述第一模板分选结果的数量大于1,遍历所述第一模板分选结果进行三级特征解析,生成第一填充文字属性向量和第一属性向量布局特征;对所述第一待处理文档进行四级特征解析,生成第二填充文字属性向量和第二属性向量布局特征;结合所述第一填充文字属性向量和所述第一属性向量布局特征,与所述第二填充文字属性向量和所述第二属性向量布局特征,对所述第一模板分选结果进行分选,生成第二模板分选结果;当所述第二模板分选结果的数量等于1,根据所述第二模板分选结果对所述第一待处理文档进行文本归类。

4、本申请的第二个方面,提供了文本处理系统,包括:第一特征处理单元,用于对第一待处理文档进行一级特征解析,生成文档表格布局特征;模板匹配单元,用于结合所述文档表格布局特征,遍历表格模板库进行模板识别,生成表格模板匹配结果;第二特征处理单元,用于当所述表格模板匹配结果的数量大于1,对所述表格模板匹配结果进行二级特征解析,生成模板文字语义向量和语义向量布局特征;第一分选单元,用于结合所述模板语义向量和所述语义向量布局特征,对所述表格模板匹配结果进行分选,生成第一模板分选结果;第三特征处理单元,用于当所述第一模板分选结果的数量大于1,遍历所述第一模板分选结果进行三级特征解析,生成第一填充文字属性向量和第一属性向量布局特征;第四特征处理单元,用于对所述第一待处理文档进行四级特征解析,生成第二填充文字属性向量和第二属性向量布局特征;第二分选单元,用于结合所述第一填充文字属性向量和所述第一属性向量布局特征,与所述第二填充文字属性向量和所述第二属性向量布局特征,对所述第一模板分选结果进行分选,生成第二模板分选结果;第一执行单元,用于当所述第二模板分选结果的数量等于1,根据所述第二模板分选结果对所述第一待处理文档进行文本归类。

5、本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:

6、本申请通过将文本特征分割为表格布局特征,未填写内容的模板类的语义特征和填写内容的语义特征三种特征信息,并构建三种特征信息的文本分选算法,逐层分选,首先根据表格布局特征分选,若归来结果不唯一,再激活未填写内容的模板类的语义特征进行分选,若归类结果还不唯一,最后再激活填写内容的语义特征进行分选。通过多级分选过程的算力需求逐渐增强,但是处理的数据量逐渐降低,相比于传统的文本单级处理,具有处理效率较高的技术效果。



技术特征:

1.一种文本处理方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,结合所述文档表格布局特征,遍历表格模板库进行模板识别,生成表格模板匹配结果,包括:

3.如权利要求2所述的方法,其特征在于,根据所述角点对齐结果,解析所述文档表格布局特征和所述第一模板表格布局特征的相似性,生成第一模板相似系数,包括:

4.如权利要求1所述的方法,其特征在于,结合所述模板语义向量和所述语义向量布局特征,对所述表格模板匹配结果进行分选,生成第一模板分选结果,包括:

5.如权利要求1所述的方法,其特征在于,结合所述第一填充文字属性向量和所述第一属性向量布局特征,与所述第二填充文字属性向量和所述第二属性向量布局特征,对所述第一模板分选结果进行分选,生成第二模板分选结果,包括:

6.如权利要求1所述的方法,其特征在于,还包括:

7.如权利要求1所述的方法,其特征在于,还包括:

8.文本处理系统,其特征在于,包括:


技术总结
本发明提供了文本处理方法及系统,涉及文本处理领域,包括:生成文档表格布局特征,匹配表格模板匹配结果;当数量大于1,对表格模板匹配结果特征解析,生成模板文字语义向量和语义向量布局特征;对表格模板匹配结果进行分选,生成第一模板分选结果;当数量大于1,遍历第一模板分选结果特征解析,生成第一填充文字属性向量和第一属性向量布局特征;对第一待处理文特征解析,生成第二填充文字属性向量和第二属性向量布局特征,对所述第一模板分选结果进行分选,生成第二模板分选结果;当第二模板分选结果的数量等于1,根据第二模板分选结果对所述第一待处理文档进行文本归类,解决了现有技术处理效率低的技术问题。

技术研发人员:储铭钧
受保护的技术使用者:上海诚狐信息科技有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1