本发明涉及计算机领域,尤其涉及一种网站结构化数据生成方法、装置、设备及存储介质。
背景技术:
1、结构化数据是指以一种有组织的方式标记网站内容的信息,网站结构化数据对于搜索引擎优化、提升用户体验、构建知识图谱和实现语义搜索等方面都具有重要性。通过标记网站内容,可以帮助搜索引擎和其他应用程序更好地理解和展示网站,为用户提供更有用和相关的信息。
2、目前生成网站结构化数据的方案无法处理复杂的网站结构或动态内容,或者其标记类型并不总能涵盖所有可能的情况。所以,现有方法的生成网站结构化数据效率低。
技术实现思路
1、本发明的主要目的在于解决网站结构化数据生成效率低的技术问题。
2、本发明第一方面提供了一种网站结构化数据生成方法,所述网站结构化数据生成方法包括:
3、获取网站源html文件,对所述网站源html文件进行解析,得到网站页面的源数据及网站页面模板,并将所述源数据打上属性标签;
4、获取目标页面模板,并新增占位符变量,将所述占位符变量插入到所述目标页面模板的html头部,所述目标页面模板是从所述网站页面模板中选择的需生成结构化数据的页面模板,所述占位符变量用于存储网站页面结构化数据;
5、当组装所述网站页面模板生成页面时,检测到所述占位符变量,则根据打上属性标签的源数据,生成结构化变量内容,并用所述结构化变量内容替换在html头部插入的所述占位符变量,生成目标结构化数据页面。
6、可选的,在本发明第一方面的第一种实现方式中,所述当组装网站页面模板生成页面时,检测到所述占位符变量,则根据打上属性标签的源数据,生成结构化变量内容,并用所述结构化变量内容替换在html头部插入的所述占位符变量,生成目标结构化数据页面包括:
7、当组装网站页面模板生成页面时,检测到所述占位符变量,则获取占位符变量中存在的变量标志;
8、根据所述变量标志的类型及打上属性标签的源数据,生成结构化变量内容;
9、用所述结构化变量内容替换在html头部插入的所述占位符变量,生成目标结构化数据页面。
10、可选的,在本发明第一方面的第二种实现方式中,所述根据所述变量标志的类型及打上属性标签的源数据,生成结构化变量内容包括:
11、判断所述变量标志的类型,若所述变量标志的类型是网络地址变量,则将网站的域名赋值给所述变量标志;
12、若所述变量标志的类型不是网络地址变量,则根据打上属性标签的源数据,获取变量标志对应的数据,将所述变量标志对应的数据赋值给所述变量标志;
13、根据赋值的变量标志,生成结构化变量内容。
14、可选的,在本发明第一方面的第三种实现方式中,所述用所述结构化变量内容替换在html头部插入的所述占位符变量,生成目标结构化数据页面包括:
15、通过验收准确性工具,对所述结构化变量内容进行准确性校验;
16、若准确性校验通过,则用所述结构化变量内容替换在html头部插入的所述占位符变量,生成目标结构化数据页面。
17、可选的,在本发明第一方面的第四种实现方式中,所述获取目标页面模板,并新增占位符变量,将所述占位符变量插入到所述目标页面模板的html头部之后,还包括:
18、对网站页面进行类型划分,获取不同类型的网站页面模板;
19、确定所述不同类型的网站页面模板中的html dom树结构规律,并根据所述htmldom树结构规律,对所述网站页面模板进行遍历组装,得到重新组装的网站页面。
20、可选的,在本发明第一方面的第五种实现方式中,所述确定所述不同类型的网站页面模板中的html dom树结构规律,并根据所述html dom树结构规律,对所述网站页面模板进行遍历组装,得到重新组装的网站页面包括:
21、确定所述不同类型的网站页面模板中的html dom树结构规律;
22、根据所述html dom树结构规律,获取所述不同类型的网站页面模板中的html标签;
23、根据所述网站源html文件及所述html标签,对所述页面模板进行遍历组装,得到重新组装的网站页面。
24、可选的,在本发明第一方面的第六种实现方式中,所述获取网站源html文件,对所述网站源html文件进行解析,得到网站页面的源数据及网站页面模板,并将所述源数据打上属性标签包括:
25、获取网站源html文件,对所述网站源html文件进行解析,获取网站页面的源数据及网站页面模板;
26、推送选择面板,所述选择面板上包括多个标签类型;
27、根据所述选择面板的标签类型选择结果,为所述源数据打上属性标签。
28、本发明第二方面提供了一种网站结构化数据生成设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述网站结构化数据生成设备执行上述的网站结构化数据生成方法。
29、本发明的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的网站结构化数据生成方法。
30、在本发明实施例中,获取网站源html文件,对所述网站源html文件进行解析,得到网站页面的源数据及网站页面模板,并将所述源数据打上属性标签;获取目标页面模板,并新增占位符变量,将所述占位符变量插入到所述目标页面模板的html头部,所述目标页面模板是从所述网站页面模板中选择的需生成结构化数据的页面模板,所述占位符变量用于存储网站页面结构化数据;当组装所述网站页面模板生成页面时,检测到所述占位符变量,则根据打上属性标签的源数据,生成结构化变量内容,并用所述结构化变量内容替换在html头部插入的所述占位符变量,生成目标结构化数据页面。本发明中,新增占位符变量,将占位符变量插入到目标页面模板的html头部,当组装网站页面模板生成页面时,检测到占位符变量,则根据打上属性标签的源数据,生成结构化变量内容,用结构化变量内容替换占位符变量,能通过增删占位符变量位置,即结构化数据变量位置,来删减结构化数据,而无需关注具体的网站代码,从而提高网站结构化数据生成效率。
1.一种网站结构化数据生成方法,其特征在于,所述网站结构化数据生成方法包括:
2.根据权利要求1所述的网站结构化数据生成方法,其特征在于,所述当组装网站页面模板生成页面时,检测到所述占位符变量,则根据打上属性标签的源数据,生成结构化变量内容,并用所述结构化变量内容替换在html头部插入的所述占位符变量,生成目标结构化数据页面包括:
3.根据权利要求2所述的网站结构化数据生成方法,其特征在于,所述根据所述变量标志的类型及打上属性标签的源数据,生成结构化变量内容包括:
4.根据权利要求2所述的网站结构化数据生成方法,其特征在于,所述用所述结构化变量内容替换在html头部插入的所述占位符变量,生成目标结构化数据页面包括:
5.根据权利要求1所述的网站结构化数据生成方法,其特征在于,所述获取目标页面模板,并新增占位符变量,将所述占位符变量插入到所述目标页面模板的html头部之后,还包括:
6.根据权利要求5所述的网站结构化数据生成方法,其特征在于,所述确定所述不同类型的网站页面模板中的html dom树结构规律,并根据所述html dom树结构规律,对所述网站页面模板进行遍历组装,得到重新组装的网站页面包括:
7.根据权利要求1所述的网站结构化数据生成方法,其特征在于,所述获取网站源html文件,对所述网站源html文件进行解析,得到网站页面的源数据及网站页面模板,并将所述源数据打上属性标签包括:
8.一种网站结构化数据生成装置,其特征在于,所述网站结构化数据生成装置包括:
9.一种网站结构化数据设备,其特征在于,所述网站结构化数据设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的网站结构化数据方法。