文档处理方法和文档处理装置与流程

文档序号:36479938发布日期:2023-12-25 09:35阅读:51来源:国知局
文档处理方法和文档处理装置与流程

本公开涉及数据处理领域和大语言模型领域,尤其涉及一种文档处理方法和文档处理装置。


背景技术:

1、根据文档内容生成文档的标签是文档管理工具的必备功能之一,企业和用户能够根据文档的标签高效地进行文档筛选与管理。因此,文档标签的准确程度是影响文档管理效率的重要因素。


技术实现思路

1、本公开的一个方面提供了一种文档处理方法,包括根据待处理文档和多个代表文档,生成提示信息,提示信息表征待处理文档与多个代表文档对应的指定文档标签之间的相关性,多个代表文档包括多个指定文档标签各自对应的至少一个代表文档;以及通过多任务处理模型,基于提示信息,确定待处理文档的目标文档标签。

2、根据本公开实施例,根据待处理文档和多个代表文档,生成提示信息,包括:分别确定待处理文档与多个代表文档的多个文档相似度;根据多个文档相似度,从多个指定文档标签中确定至少一个与待处理文档满足相似度条件的初始文档标签;以及根据至少一个初始文档标签和至少一个初始文档标签与待处理文档的相似度,生成提示信息。

3、根据本公开实施例,根据多个文档相似度,从多个指定文档标签中确定至少一个与待处理文档满足相似度条件的初始文档标签,包括:基于多个代表文档与对应的指定文档标签之间的相关性,确定多个代表文档的多个代表权重;基于多个文档相似度和多个代表权重,确定多个指定文档标签与待处理文档的相似度;以及获得至少一个与待处理文档满足相似度条件的初始文档标签。

4、根据本公开实施例,根据至少一个初始文档标签和至少一个初始标签与待处理文档的相似度,生成提示信息,包括:将至少一个初始文档标签与待处理文档的相似度转换为至少一个概率词;以及根据至少一个概率词和至少一个初始文档标签,生成提示信息。

5、根据本公开实施例,根据待处理文档和多个代表文档,生成提示信息,包括:获取多个代表文档的多个代表文档数据,以及获取待处理文档的待处理文档数据,代表文档数据表征代表文档的文本特征和存储路径特征,待处理文档数据表征待处理文档的文本特征和存储路径特征;以及根据文本相关性和存储路径相关性,生成提示信息,其中,文本相关性表征了多个代表文档的文本特征与待处理文档的文本特征之间的相关性,存储路径相关性表征了多个代表文档的存储路径特征与待处理文档的存储路径特征之间的相关性。

6、根据本公开实施例,获取待处理文档对应的待处理文档数据,包括:基于待处理文档的文本信息,生成文本数据;基于待处理文档的存储路径信息,生成路径数据;以及拼接文本数据和路径数据,得到待处理文档数据。

7、根据本公开实施例,基于待处理文档的存储路径信息,生成路径数据,包括:获取存储路径信息的多个路径节点中每个路径节点的多个文件夹信息;对每个路径节点上的多个文件夹信息进行聚类分析,得到待处理文档在每个路径节点的节点数据;以及根据多个路径节点对应的多个节点数据,生成路径数据。

8、根据本公开实施例,通过多任务处理模型,基于提示信息,确定待处理文档的目标文档标签,包括:通过多任务处理模型,基于待处理文档数据、提示信息和多个标签数据,确定目标文档标签,目标文档标签包括第一目标文档子标签和第二目标文档子标签;其中,待处理文档数据是基于待处理文档获得的,多个标签数据是基于多个指定文档标签获得的;其中,第一目标文档子标签是基于提示信息和待处理文档数据确定的,第二目标文档子标签是基于第一目标文档子标签和多个标签数据之间的类别相关性确定的。

9、根据本公开实施例,通过多任务处理模型,基于待处理文档数据、提示信息和多个标签数据,确定目标文档标签,包括:通过多任务处理模型执行以下操作:根据类别相关性,确定多个关联标签数据,各关联标签数据对应于多个具有关联的指定文档标签;根据待处理文档数据、提示信息和多个关联标签数据,确定第一目标文档子标签;以及在确定第一目标文档子标签对应关联标签数据的情况下,确定第一目标文档子标签关联的指定文档标签为第二目标文档子标签。

10、本公开的另一方面提供了一种文档处理装置。文档处理装置包括生成模块,用于根据待处理文档和多个代表文档,生成提示信息,提示信息表征待处理文档与多个代表文档对应的指定文档标签之间的相关性,多个代表文档包括多个指定文档标签各自对应的至少一个代表文档;以及确定模块,用于通过多任务处理模型,基于提示信息,确定待处理文档的目标文档标签。

11、本公开的另一方面还提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上的文档处理方法。

12、本公开的另一方面提供了一种非易失性存储介质,存储有计算机可执行指令,指令在被执行时用于实现如上的文档处理方法。

13、本公开的另一方面提供了一种计算机程序,计算机程序包括计算机可执行指令,指令在被执行时用于实现如上的文档处理方法。



技术特征:

1.一种文档处理方法,包括:

2.根据权利要求1所述的方法,其中,所述根据待处理文档和多个代表文档,生成提示信息,包括:

3.根据权利要求2所述的方法,其中,所述根据多个所述文档相似度,从多个所述指定文档标签中确定至少一个与所述待处理文档满足相似度条件的初始文档标签,包括:

4.根据权利要求2所述的方法,其中,所述根据至少一个所述初始文档标签和至少一个所述初始标签与所述待处理文档的相似度,生成所述提示信息,包括:

5.根据权利要求1所述的方法,其中,所述根据待处理文档和多个代表文档,生成提示信息,包括:

6.根据权利要求5所述的方法,其中,所述获取所述待处理文档对应的待处理文档数据,包括:

7.根据权利要求6所述的方法,其中,所述基于所述待处理文档的存储路径信息,生成路径数据,包括:

8.根据权利要求1所述的方法,其中,所述通过多任务处理模型,基于所述提示信息,确定所述待处理文档的目标文档标签,包括:

9.根据权利要求8所述的方法,其中,所述通过所述多任务处理模型,基于待处理文档数据、所述提示信息和多个标签数据,确定所述目标文档标签,包括:

10.一种文档处理装置,包括:


技术总结
本公开提供了一种文档处理方法和文档处理装置。文档处理方法包括根据待处理文档和多个代表文档,生成提示信息,提示信息表征待处理文档与多个代表文档对应的指定文档标签之间的相关性,多个代表文档包括多个指定文档标签各自对应的至少一个代表文档;以及通过多任务处理模型,基于提示信息,确定待处理文档的目标文档标签。

技术研发人员:王新宇,孙佳
受保护的技术使用者:联想(北京)有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1