本发明实施例涉及大数据,具体涉及一种网页内容解析方法、装置、设备及计算机可读存储介质。
背景技术:
1、近年来,随着互联网的飞速发展,产生了海量的互联网数据,通过智能化数据分析的方法,可以从这些价值密度低的互联网数据中获取到价值密度高的信息。而网页作为互联网中信息展示与表达的重要方式之一,成为人们从互联网中获取信息的重要入口。
2、目前业界主要应用基于手工规则的网页内容解析或基于页面渲染的网页内容解析,本技术的发明人发现,基于手工规则的网页内容解析需要耗费大量人力物力,且时效性较差;基于页面渲染的网页内容解析则在渲染耗费的计算资源较多,且模型准确性和鲁棒性高度依赖于视觉特征的抽取,泛化能力和普适能力不足。
技术实现思路
1、鉴于上述问题,本发明实施例提供了一种网页内容解析方法、装置、设备及计算机可读存储介质,用于解决现有技术中存在的过多消耗人力物力和计算资源的问题。
2、根据本发明实施例的一个方面,提供了一种网页内容解析方法,所述方法包括:
3、将待解析网页转化为dom节点树;所述dom节点树包含多个目标节点;每个目标节点表征所述待解析网页的一个维度信息;
4、从所述dom节点树中确定各个所述目标节点的邻近节点;
5、将各个所述目标节点及对应的所述邻近节点输入图模型中,得到目标有效信息节点及对应的目标信息类别;所述图模型为预先根据网页样本数据进行训练得到;所述网页样本数据包括样本dom节点树中的多个样本节点及对应的信息类别标签;信息类别标签为表征所述样本节点包含的信息类别的标签;
6、根据各个所述目标有效信息节点及所述目标信息类别,确定所述待解析网页的解析信息。
7、在一种可选的方式中,所述图模型包括局部预测模块和关系预测模块;所述将各个所述目标节点及对应的所述邻近节点输入图模型中,得到目标有效信息节点及对应的目标信息类别,包括:
8、分别将每一个所述目标节点及对应的所述邻近节点的输入局部预测模块,得到各个目标节点集的局部预测结果;
9、将各个节点对输入关系预测模块,得到关系推理预测结果;所述节点对为各所述目标节点两两组合而成的,所述节点对包括第一节点和第二节点;
10、根据所述局部预测结果及所述关系推理预测结果,得到所述目标有效信息节点及所述目标信息类别。
11、在一种可选的方式中,所述分别将每一个所述目标节点及对应的所述邻近节点的输入局部预测模块,得到各个目标节点集的局部预测结果,包括:
12、获取每一个所述目标节点的目标节点文本特征;
13、获取所述邻近节点的邻近节点文本特征;
14、获取所述目标节点的目标节点离散特征;
15、根据所述目标节点文本特征、所述邻近节点文本特征、所述目标节点离散特征,确定所述目标节点与各所述信息类别标签的第一匹配度,根据所述第一匹配度得到所述目标节点的所述局部预测结果。
16、在一种可选的方式中,所述将各个节点对输入关系预测模块,得到关系推理预测结果,具体包括:
17、根据获取的所述第一节点的第一文本特征和第一离散特征,得到第一节点表征向量;
18、根据获取的所述第二节点的第二文本特征和第二离散特征,得到第二节点表征向量;
19、根据所述第一节点表征向量和所述第二节点表征向量,确定所述节点对与各信息类别标签的第二匹配度,根据所述第二匹配度得到所述节点对的关系推理预测结果;所述推理结果包括所述第一节点在所述节点对的信息类别标签和所述第二节点在所述节点对的信息类别标签。
20、在一种可选的方式中,所述从所述dom节点树中确定各个所述目标节点的邻近节点之前,所述方法还包括:
21、聚合所述dom节点树中各文本节点的xpath并统计xpath文本量;
22、根据xpath文本量从高至低筛选前n个xpath对应的节点作为所述目标节点;其中,n为正整数。
23、在一种可选的方式中,所述从所述dom节点树中确定各个所述目标节点的邻近节点,具体包括:
24、获取每一个所述目标节点的第一祖先节点集,从所述第一祖先节点集中确定出与所述目标节点距离不超过k的各个第一祖先节点,得到第二祖先节点集;其中,k为正整数;
25、获取所述第二祖先节点集中各所述第二祖先节点的后代节点集,保留除所述目标节点的文本节点,得到所述目标节点的各个所述邻近节点。
26、在一种可选的方式中,所述局部预测结果包括各个目标节点对应目标信息类别的得分;所述将各个节点对输入关系预测模块,得到关系推理预测结果之前,所述方法还包括:
27、根据所述局部预测结果,将各所述目标节点分为确定性信息类别和非确定性信息类别;
28、对所述非确定性信息类别的所述目标节点,取所述局部预测结果中所述目标节点的得分最高的前m个所述目标节点;其中,m为正整数;
29、根据所述确定性信息类别的所述目标节点及所述非确定性信息类别的前m个所述目标节点两两组合成节点对。
30、根据本发明实施例的另一方面,提供了一种网页内容解析装置,所述装置包括:转化模块、邻近节点确定模块、图模型模块和解析模块;
31、所述转化模块用于将待解析网页转化为dom节点树;所述dom节点树包含多个目标节点;每个目标节点表征所述待解析网页的一个维度信息;
32、所述邻近节点确定模块用于从所述dom节点树中确定各个所述目标节点的邻近节点;
33、所述图模型模块用于将各个所述目标节点及对应的所述邻近节点输入图模型中,得到目标有效信息节点及对应的目标信息类别;所述图模型为预先根据网页样本数据进行训练得到;所述网页样本数据包括样本dom节点树中的多个样本节点及对应的信息类别标签;信息类别标签为表征所述样本节点包含的信息类别的标签;
34、所述解析模块用于根据各个所述目标有效信息节点及所述目标信息类别,确定所述待解析网页的解析信息。
35、根据本发明实施例的另一方面,提供了一种网页内容解析设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
36、所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述一种网页内容解析方法的操作。
37、根据本发明实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在网页内容解析设备上运行时,使得网页内容解析计算设备执行上述一种网页内容解析方法的操作。
38、本发明实施例通过将网页内容解析以dom树为桥梁构建图模型,无需对网页渲染或下载附件,降低了存储和计算资源成本。
39、进一步地,通过节点自身文本特征、离散特征及邻近节点的文本特征来获取节点的局部预测结果,极大地提升了模型性能和稳定性。
40、进一步地,通过节点类别及对应xpath文本量对目标节点进行筛选,降低了训练成本。