网页文本处理方法、装置、电子设备以及存储介质与流程

文档序号:35701247发布日期:2023-10-12 00:38阅读:37来源:国知局
网页文本处理方法、装置、电子设备以及存储介质与流程

本公开涉及人工智能,尤其涉及前端、大语言模型、自然语言处理。


背景技术:

1、随着互联网技术的发展,网页已经成为了用户获取信息的主要来源。网页的文本信息中往往充斥着大量的干扰、无效信息,使得用户获取、提取关键字等信息的行为较为低效。


技术实现思路

1、本公开提供了一种网页文本处理方法、装置、电子设备以及存储介质。

2、根据本公开的一方面,提供了一种网页文本处理方法,包括:响应于网页处理请求,对当前网页进行解析,得到多个网页文本字段和上述多个网页文本字段各自的网页标签;基于上述多个网页文本字段各自的网页标签的标签类型,确定上述多个网页文本字段各自的权重;以及利用大语言模型,基于上述网页处理请求携带的处理指令信息和上述多个网页文本字段各自的权重,处理上述多个网页文本字段,得到目标文本。

3、根据本公开的另一方面,提供了一种网页文本处理装置,包括:第一解析模块,用于响应于网页处理请求,对当前网页进行解析,得到多个网页文本字段和上述多个网页文本字段各自的网页标签;第一确定模块,用于基于上述多个网页文本字段各自的网页标签的标签类型,确定上述多个网页文本字段各自的权重;以及第一处理模块,用于利用大语言模型,基于上述网页处理请求携带的处理指令信息和上述多个网页文本字段各自的权重,处理上述多个网页文本字段,得到目标文本。

4、根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。

5、根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的方法。

6、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。

7、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种网页文本处理方法,包括:

2.根据权利要求1所述的方法,其中,所述网页标签的标签类型包括标准标签和语义化标签;

3.根据权利要求2所述的方法,其中,所述利用所述大语言模型处理所述网页标签,得到所述网页文本字段的权重,包括:

4.根据权利要求1所述的方法,还包括:

5.根据权利要求4所述的方法,其中,所述基于对所述当前网页和所述历史网页的相似度检测,确定所述多个网页文本字段各自的权重,包括:

6.根据权利要求5所述的方法,其中,所述基于对所述当前网页和所述历史网页的结构相似度检测,将所述多个网页文本字段划分为第一相似字段和第一差异字段,包括:

7.根据权利要求5所述的方法,其中,所述基于对所述第一差异字段和目标字段的文本相似度检测,将所述第一差异字段划分为第二相似字段和第二差异字段,包括:

8.根据权利要求1所述的方法,还包括:

9.根据权利要求8所述的方法,还包括:

10.一种网页文本处理装置,包括:

11.一种电子设备,包括:

12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。


技术总结
本公开公开了网页文本处理方法、装置、电子设备以及存储介质,涉及人工智能技术领域,尤其涉及前端、大语言模型、自然语言处理技术领域。具体实现方案为:响应于网页处理请求,对当前网页进行解析,得到多个网页文本字段和多个网页文本字段各自的网页标签;基于多个网页文本字段各自的网页标签的标签类型,确定多个网页文本字段各自的权重;以及利用大语言模型,基于网页处理请求携带的处理指令信息和多个网页文本字段各自的权重,处理多个网页文本字段,得到目标文本。

技术研发人员:毛烨阳
受保护的技术使用者:百度在线网络技术(北京)有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1