网页处理方法、装置、设备、存储介质及程序产品与流程

文档序号:36646401发布日期:2024-01-06 23:30阅读:21来源:国知局
网页处理方法、装置、设备、存储介质及程序产品与流程

本申请涉及人工智能技术,尤其涉及一种网页处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。


背景技术:

1、人工智能(ai,artificial intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。

2、相关技术中通过用手机扫码商品包装上的验真二维码,跳转到的网页,网页中会呈现重点信息,此处的重点信息包括商品名称、商品规格、商品所属品牌、商品所属企业、商品扫码次数、商品是否为正品、验真技术提供商等等,相关技术中需要对重点信息进行挖掘,为后续的更多应用,如真假产品识别、某品牌假货率计算、行业中假货率计算等等,提供强有力的基础数据支持,但是相关技术中存在重点信息挖掘召回率低、准确率低的问题。


技术实现思路

1、本申请实施例提供一种网页处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提高网页中信息抽取的准确度。

2、本申请实施例的技术方案是这样实现的:

3、本申请实施例提供一种网页处理方法,包括:

4、从网页中提取待处理文本,并获取符合信息抽取需求的指令文本;

5、对所述待处理文本以及所述指令文本进行拼接处理,得到融合文本;

6、对所述融合文本进行字符预测处理,得到所述待处理文本中符合所述指令文本的预测答案;

7、对所述预测答案进行文本解析处理,得到所述网页的且符合所述信息抽取需求的信息抽取结果。

8、本申请实施例提供一种网页处理装置,包括:

9、获取模块,用于从网页中提取待处理文本,并获取符合信息抽取需求的指令文本;

10、拼接模块,用于对所述待处理文本以及所述指令文本进行拼接处理,得到融合文本;

11、预测模块,用于对所述融合文本进行字符预测处理,得到所述待处理文本中符合所述指令文本的预测答案;

12、解析模块,用于对所述预测答案进行文本解析处理,得到所述网页的且符合所述信息抽取需求的信息抽取结果。

13、本申请实施例提供一种电子设备,包括:

14、存储器,用于存储计算机可执行指令;

15、处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的网页处理方法。

16、本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于引起处理器执行时,实现本申请实施例提供的网页处理方法。

17、本申请实施例提供一种计算机程序产品,包括计算机可执行指令,所述计算机可执行指令被处理器执行时,实现本申请实施例提供的网页处理方法。

18、本申请实施例具有以下有益效果:

19、通过本申请实施例从网页中提取待处理文本,并获取符合信息抽取需求的指令文本;对待处理文本以及指令文本进行拼接处理,得到融合文本,对融合文本进行字符预测处理,得到待处理文本中符合指令文本的预测答案,由于融合文本中包括指令文本,从而可以在进行字符预测处理时控制输出与指令文本相符合的预测答案,对预测答案进行文本解析处理,得到网页的且符合信息抽取需求的信息抽取结果,通过对预测答案进行文本解析,可以得到准确度高的信息抽取结果。



技术特征:

1.一种网页处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述从网页中提取待处理文本,包括:

3.根据权利要求1所述的方法,其特征在于,所述获取符合信息抽取需求的指令文本,包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述融合文本进行字符预测处理,得到所述待处理文本中符合所述指令文本的预测答案,包括:

5.根据权利要求4所述的方法,其特征在于,所述字符预测处理是通过语言模型实现的,所述语言模型包括编码网络、解码网络以及低秩网络;

6.根据权利要求5所述的方法,其特征在于,所述通过所述低秩网络对所述第一文本特征进行基于低秩矩阵的维度变换处理,得到所述第一文本特征的维度变换结果,包括:

7.根据权利要求1所述的方法,其特征在于,所述对所述融合文本进行字符预测处理是通过语言模型实现的,在对所述融合文本进行字符预测处理,得到所述待处理文本中符合所述指令文本的预测答案之前,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,所述通过所述语言模型对所述融合样本文本进行多次字符预测处理,得到每次字符预测过程涉及到的多个候选样本字符的预测概率,包括:

9.根据权利要求8所述的方法,其特征在于,所述语言模型包括预训练语言模型以及低秩网络;

10.根据权利要求7所述的方法,其特征在于,所述语言模型包括预训练语言模型以及低秩网络,所述基于所述综合损失对所述语言模型的参数进行更新,得到更新后的语言模型,包括:

11.一种网页处理装置,其特征在于,所述装置包括:

12.一种电子设备,其特征在于,所述电子设备包括:

13.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时实现权利要求1至11任一项所述的网页处理方法。

14.一种计算机程序产品,包括计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时实现权利要求1至11任一项所述的网页处理方法。


技术总结
本申请提供了一种网页处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品;方法包括:从网页中提取待处理文本,并获取符合信息抽取需求的指令文本;对所述待处理文本以及所述指令文本进行拼接处理,得到融合文本;对所述融合文本进行字符预测处理,得到所述待处理文本中符合所述指令文本的预测答案;对所述预测答案进行文本解析处理,得到所述网页的且符合所述信息抽取需求的信息抽取结果。通过本申请,能够提高网页中信息抽取的准确度。

技术研发人员:罗达志
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:
技术公布日:2024/1/5
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1