一种网页数据标记方法、装置、设备及存储介质与流程

文档序号:30607981发布日期:2022-07-01 22:53阅读:50来源:国知局
一种网页数据标记方法、装置、设备及存储介质与流程

1.本发明涉及信息处理技术领域,尤其涉及一种网页数据标记方法、装置、设备及存储介质。


背景技术:

2.随着信息技术的快速发展,人们获取数据的方式越来越多,例如从网页上获取需要的数据,这种获取数据的方式大大减少了人们日常工作的负荷。
3.系统会根据创建任务的关键词、搜索引擎、媒体平台等配置,单次或周期性的爬取数据,爬取得到源代码文件。但是,对于用户来说,源代码文件无法直观的看到数据的内容,用户在源代码中只能看到数据的来源地址等信息,而无法知晓网页上每次的搜索结果与搜索关键词之间的关系,导致数据的量虽然越来越多,但是数据都比较难被应用到日常工作中。


技术实现要素:

4.为了解决现有技术存在的问题,本发明的至少一个实施例提供了一种网页数据标记方法、装置、设备及存储介质。
5.第一方面,本发明实施例提供了一种网页数据标记方法,所述标记方法包括:
6.获取预设关键词对应的网页数据,并获取所述网页数据对应的源代码文件;
7.从所述源代码文件中,分别获取对应所述网页数据中各个搜索结果的符合预设解析规则的代码块,并在所述源代码文件中分别对应所述代码块添加位置属性;
8.根据所述代码块,得到对应的搜索结果与所述预设关键词的相关度,并得到相关度判断结果;
9.根据所述位置属性,在所述网页数据上的每个所述搜索结果上添加所述相关度判断结果,得到标记完成的网页数据。
10.基于上述技术方案,本发明实施例还可以做出如下改进。
11.结合第一方面,在第一方面的第一种实施例中,所述位置属性包括:搜索结果属性和排名属性;其中,所述搜索结果属性用于表示所述代码块与所述搜索结果相对应;所述排名属性用于表示所述代码块对应的搜索结果在所述网页数据中的排名顺序。
12.结合第一方面的第一种实施例,在第一方面的第二种实施例中,所述根据所述位置属性,在所述网页数据上的每个所述搜索结果上添加所述相关度判断结果,得到标记完成的网页数据,包括:
13.根据所述搜索结果属性,从所述源代码文件中确定代码块;
14.根据所述排名属性,确定所述代码块的排名顺序;
15.当每个所述搜索结果的排名顺序与对应的代码块的排名顺序一致时,分别对每个所述搜索结果添加对应的相关度判断结果,得到标记完成的网页数据。
16.结合第一方面,在第一方面的第三种实施例中,所述根据所述代码块,得到对应的
搜索结果与所述预设关键词的相关度,包括:
17.针对每个所述搜索结果,分别进行以下步骤:
18.获取所述搜索结果对应的代码块对应的描述文本数据;
19.将所述预设关键词与所述搜索结果对应的所述描述文本数据进行匹配,得到与所述预设关键词相关联的参考语句;
20.将所述参考语句进行分词、过滤,得到参考关键词;
21.获取每个所述参考关键词在预设相关度表中对应的相关度;
22.基于每个参考关键词在预设相关度表中对应的相关度,得到所述描述文本数据与所述预设关键词的相关度,作为所述搜索结果与所述预设关键词的相关度。
23.结合第一方面的第三种实施例,在第一方面的第四种实施例中,所述得到相关度判断结果,包括:
24.将所述相关度与预设相关度区间进行比较;
25.当所述相关度匹配所述预设相关度区间时,对应的所述搜索结果与所述预设关键词不相关;
26.当所述相关度大于所述预设相关度区间的最大值时,对应的所述搜索结果与所述预设关键词正相关;
27.当所述相关度小于所述预设相关度区间的最小值时,对应的所述搜索结果与所述预设关键词负相关。
28.结合第一方面的第三种实施例,在第一方面的第五种实施例中,所述基于每个参考关键词在预设相关度表中对应的相关度,得到所述描述文本数据与所述预设关键词的相关度,包括:
29.针对每个所述参考关键词,获取所述参考关键词在所述描述文本数据中的重要度;
30.针对每个所述参考关键词,将所述参考关键词在所述描述文本数据中的重要度和所述参考关键词在预设相关度表中对应的相关度相乘,得到参考相关度;
31.将所有所述参考关键词的参考相关度进行累加,得到累加相关度,作为所述描述文本数据与所述预设关键词的相关度。
32.结合第一方面的第五种实施例,在第一方面的第六种实施例中,所述针对每个所述参考关键词,获取所述参考关键词在所述描述文本数据中的重要度,包括:
33.针对每个所述参考关键词,获取所述参考关键词在所述描述文本数据中的词频和所述参考关键词在所有所述描述文本数据中的逆向文件频率;
34.针对每个所述参考关键词,根据所述参考关键词在所述描述文本数据中的词频和所述参考关键词在所有所述描述文本数据中的逆向文件频率,计算得到所述重要度;其中,所述重要度与所述词频呈正比,所述重要度与所述逆向文件频率呈正比。
35.第二方面,本发明实施例提供了一种网页数据标记装置,所述标记装置包括:
36.第一处理单元,用于获取预设关键词对应的网页数据,并获取所述网页数据对应的源代码文件;
37.第二处理单元,用于从所述源代码文件中,分别获取对应所述网页数据中各个搜索结果的符合预设解析规则的代码块,并在所述源代码文件中分别对应所述代码块添加位
置属性;
38.第三处理单元,用于根据所述代码块,得到对应的搜索结果与所述预设关键词的相关度,并得到相关度判断结果;
39.第四处理单元,用于根据所述位置属性,在所述网页数据上的每个所述搜索结果上添加所述相关度判断结果,得到标记完成的网页数据。
40.第三方面,本发明实施例提供一种设备,所述设备包括:处理器、存储器和通信总线,其中,处理器,存储器通过通信总线完成相互间的通信;
41.存储器,用于存放计算机程序;
42.处理器,用于执行存储器上所存放的程序时,实现第一方面中任一所述的网页数据标记方法。
43.第四方面,本发明实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一所述的网页数据标记方法。
44.本发明的上述技术方案与现有技术相比具有如下优点:本方案通过获取网页数据的源代码文件,在源代码文件中分别获取对应搜索结果的代码块,并对代码块添加位置属性以便于快速定位,同时,根据代码块得到搜索结果与预设关键词的相关度判断结果,根据在先添加的位置属性快速定位搜索结果并添加相关度判断结果,已得到便于用户直观查看的网页数据,提高用户的数据使用效率。
附图说明
45.图1是本发明实施例提供的一种网页数据标记方法流程示意图;
46.图2是本发明另一实施例提供的一种网页数据标记方法流程示意图;
47.图3是本发明又一实施例提供的一种网页数据标记方法流程示意图其一;
48.图4是本发明又一实施例提供的一种网页数据标记方法流程示意图其二;
49.图5是本发明又一实施例提供的一种网页数据标记方法流程示意图其三;
50.图6是本发明又一实施例提供的一种网页数据标记方法流程示意图其四;
51.图7是本发明又一实施例提供的一种网页数据标记装置结构示意图;
52.图8是本发明又一实施例提供的一种设备结构示意图。
具体实施方式
53.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
54.如图1所示,本发明实施例提供了一种网页数据标记方法。参照图1,控制方法包括如下步骤:
55.s11、获取预设关键词对应的网页数据,并获取网页数据对应的源代码文件。
56.在本实施例中,系统会根据创建任务的关键词、搜索引擎、媒体平台等配置,单次或周期性的爬取数据,爬取得到源网页文件。具体的,可以先创建任务,利用爬虫自动使用
关键词搜索到对应的网页数据,并获取网页数据对应的源代码文件;还可以在检索过后,按f12 按键也可以直接得到对应网页的源代码文件。
57.s12、从源代码文件中,分别获取对应网页数据中各个搜索结果的符合预设解析规则的代码块,并在源代码文件中分别对应代码块添加位置属性。
58.在本实施例中,网页是由使用html语言,将所需要表达的信息按某种规则写成html文件,通过专用的浏览器来识别,并将这些 html文件“翻译”成可以识别的信息,html称为超文本标记语言,是一种标识性的语言。它包括一系列标签,通过这些标签可以将网络上的文档格式统一,使分散的internet资源连接为一个逻辑整体,html 文本是由html命令组成的描述性文本,html命令可以说明文字,图形、动画、声音、表格、链接等。
59.在本实施例中,由于html命令具有固定的撰写要求,比如,调用函数、属性赋予等,所以,可以根据解析规则解析源代码,确定源代码中的代码区域,在本步骤中,从源代码文件中,确定对应各个搜索结果的代码块,比如,根据搜索结果所处位置和搜索结果的内容,在源代码中进行匹配,即可确定搜索结果在源代码中对应的位置;在确定了对应搜索结果的代码块后,针对每个代码块分别添加位置属性,以确定每个代码块的位置。
60.s13、根据代码块,得到对应的搜索结果与预设关键词的相关度,并得到相关度判断结果。
61.在本实施例中,代码块可以是源代码中对应搜索结果的链接中的文本内容,也可以是在网页上预览的数据,根据搜索结果对应的代码块,得到每个搜索结果与预设关键词的相关度,比如,根据代码块对应的描述文本数据中预设关键词的词频得到该代码块与预设关键词的相关度,作为搜索结果与预设关键词的相关度,并进一步得到相关度判断结果,用以参考该搜索结果与预设关键词的相关程度。
62.s14、根据位置属性,在网页数据上的每个搜索结果上添加相关度判断结果,得到标记完成的网页数据。
63.在本实施例中,根据在先步骤中对应代码块添加的位置属性,可以快速确定代码块,同时根据代码块定位在网页数据上的每个搜索结果,然后对应每个搜索结果添加上述步骤中得到的相关度判断结果,最后,得到添加标记了的网页数据;进一步,还可以对标记完成的网页数据进行截图,以便于用户直观的看到搜索结果与预设关键词的关系。
64.在本实施例中,还可以将本实施例中,搜索结果与预设关键词的相关度判断结果进行保存,在以后的标记过程中,在出现相同的预设关键词和搜索结果时,可以直接得到相关度判断结果,而不需要再重新计算或者重新获取相关度判断结果,提高数据处理效率。
65.在本实施例中,还可以根据上述步骤中得到的搜索结果与预设关键词的相关度进行排序,在对网页数据上的每个搜索结果添加相关度判断结果时,可以将相关度的排名在搜索结果上也进行标记,使得用户可以更加直观的确定每个搜索结果与预设关键词的相关性排序。
66.在本实施例中,本方案在对网页数据进行爬取时,通过获取网页数据的源代码文件,在源代码文件中分别获取对应搜索结果的代码块,并对代码块添加位置属性以便于快速定位,同时,根据代码块得到搜索结果与预设关键词的相关度判断结果,根据在先添加的位置属性快速定位搜索结果并添加相关度判断结果,以得到便于用户直观查看的网页数据,提高用户的数据使用效率。
67.具体的,在本实施例中,位置属性包括:搜索结果属性和排名属性;其中,搜索结果属性用于表示代码块与搜索结果相对应;排名属性用于表示代码块对应的搜索结果在网页数据中的排名顺序。
68.在本实施例中,首先为每个代码块添搜索结果属性,即确定该代码块是搜索结果,然后根据每个搜索结果的排名顺序,针对代码块添加相应的排名顺序,以避免后续添加相关度判断结果时出现错位。比如,由于解析规则的更新或者解析库的改动,针对同一源代码文件,前后两次解析的结果并不完全相同,此时,若在后续标记过程中解析结果不一致,而又没有添加位置属性的话,就会将第一次解析得到的代码块得到的相关度判断结果添加到第二次解析得到的代码块对应的搜索结果上,所以,一旦出现两次解析结果不一致,又没有添加位置属性的标记的话,就会出现标记错位问题。
69.比如,在本实施例中,可以将获取得到的网页数据中各个搜索结果的符合预设解析规则的代码块按结构化数据存储进数据库中,以便于用户直接查看该结构化数据,并针对每个结构化数据添加相关度判断结果,系统可以根据结构化数据上添加的相关度判断结果对已在搜索结果上添加的相关度判断结果进行修正,对未添加相关度判断结果的搜索结果,根据用户录入的相关度判断结果进行标记,以提高对于搜索结果标记的准确性。
70.如图2所示,本发明实施例提供了一种网页额数据标记方法,参照图2,与图1所示实施例相比,区别在于,标记方法包括如下步骤:
71.s21、根据搜索结果属性,从源代码文件中确定代码块。
72.在本实施例中,结合上述实施例中添加的位置属性中的搜索结果属性,确定源代码文件中对应搜索结果的代码块,相较于再次对源代码进行解析得到代码块,可以有效的提高数据处理效率。
73.s22、根据排名属性,确定代码块的排名顺序。
74.在本实施例中,结合上述实施例中添加的位置属性中的排名属性,确定本方案中每个代码块的排名顺序,通过排名顺序确定搜索结果的顺序是否发生变化,以避免相关性判断结果标记错位。
75.s23、当每个搜索结果的排名顺序与对应的代码块的排名顺序一致时,分别对每个搜索结果添加对应的相关度判断结果,得到标记完成的网页数据。
76.在本实施例中,若每个搜索结果的排名顺序与对应的排名顺序一致时,则说明搜索到的搜索结果的顺序并未发生变化,即可以直接将在先得到的相关度判断结果添加到相应的搜索结果上,以得到位置准确标记的网页数据。
77.在本实施例中,当出现搜索结果的排名顺序与对应的代码块的排名顺序不一致时,由于源代码中的代码块已对应添加了位置标记,则说明搜索结果或者源代码出现问题,比如,搜索结果或源代码被人为篡改或者非法人员入侵修改了搜索结果或源代码,此时,停止对网页数据中的搜索结果进行标记,以提高数据的安全性。
78.在本实施例中,在对源代码进行解析确定了对应搜索结果的结构数据后,通过对与源代码对应的代码块进行位置标记,以便于系统可以将位置准确的相关性判断结果添加到搜索结果上。
79.如图3所示,本发明实施例提供了一种网页数据标记方法。参照图3,标记方法包括如下步骤:
80.s31、获取预设关键词对应的网页数据,并获取网页数据对应的源代码文件。
81.有关步骤s31,详细可参见步骤s11中的描述,本实施例在此不再赘述。
82.s32、从源代码文件中,分别获取对应网页数据中各个搜索结果的符合预设解析规则的代码块,并在源代码文件中分别对应代码块添加位置属性。
83.有关步骤s32,详细可参见步骤s12中的描述,本实施例在此不再赘述。
84.s33、获取所述搜索结果对应的代码块对应的描述文本数据。
85.在本实施例中,由于代码块中撰写的是符合预设规则的代码,而展示到网页数据中的是代码中的字符串,而字符串在代码中可能只会写入关于搜索结果标题的字符串,而搜索结果内的文本数据在代码块中一般以链接的形式存储,所以,在本步骤中获取搜索结果对应的代码块对应的描述文本数据可以是代码块中显示在网页数据中的字符串,也可以是根据代码块中的链接得到的链接中的文本数据。
86.s34、将预设关键词与所述搜索结果对应的所述描述文本数据进行匹配,得到与预设关键词相关联的参考语句。
87.在本实施例中,将预设关键词在描述文本数据中进行匹配,从代码块中的字符串或者描述文本数据中的链接中的文本数据中得到与预设关键词相关联的参考语句,可以通过现有技术中结合上下文对文本进行分析,确定参考语句,本方案对此不做特别限定。
88.s35、将参考语句进行分词、过滤,得到参考关键词。
89.在本实施例中,通过对参考语句进行分词和过滤,剔除参考语句中的停用词、语气词等词语,减低数据处理量。
90.s36、获取每个参考关键词在预设相关度表中对应的相关度。
91.在本实施例中,针对每个参考关键词设置相应的预设相关度表,比如,针对某一产品名称作为预设关键词进行搜索,最终搜索出现的文档中表示产品质量好、产品质量较好、使用效果较佳等类型的参考关键词时,对应的相关度为正值,而若是出现表示产品质量差,产品效果不好等类型的参考关键词时,对应的相关度为负值,而一些中性词的相关度可以根据设置为0或者0附近的值。
92.s37、基于每个参考关键词在预设相关度表中对应的相关度,得到描述文本数据与预设关键词的相关度,作为描述文本数据对应的搜索结果与预设关键词的相关度;得到相关度判断结果。
93.在本实施例中,根据描述文本数据中的参考语句中的参考词语在预设相关度表中对应的相关度,最终得到该描述文本数据与预设关键词的相关度,比如,可以将所有参考关键词在预设相关度表中的相关度累加,得到描述文本数据与预设关键词的相关度,作为搜索结果与预设关键词的相关度,并根据该相关度得到相关度判断结果。
94.s38、根据位置属性,在网页数据上的每个搜索结果上添加相关度判断结果,得到标记完成的网页数据。
95.有关步骤s38,详细可参见步骤s14中的描述,本实施例在此不再赘述。
96.在本实施例中,通过将描述文本数据进行匹配和拆分,确定描述文本数据中的参考关键词,通过确定每个参考关键词在预设相关度表中的相关度,并进一步得到描述文本数据与预设关键词的相关度,作为搜索结果与预设关键词的相关度。
97.如图4所示,在本实施例,根据搜索结果与预设关键词的相关度得到相关度判断结
果,包括如下步骤:
98.s41、将相关度与预设相关度区间进行比较。
99.s42a、当相关度匹配预设相关度区间时,对应的搜索结果与预设关键词不相关。
100.s42b、当相关度大于预设相关度区间的最大值时,对应的搜索结果与预设关键词正相关。
101.s42c、当相关度小于预设相关度区间的最小值时,对应的搜索结果与预设关键词负相关。
102.在本实施例中,通过将相关度与预设相关度区间进行比较,根据上述实施例计算得到的相关度的值,确定相关度所对应的判断结果,判断结果包括:正相关、负相关和不相关等,其中,正相关为搜索结果为正面的表述,负相关为搜索结果为负面表述。
103.如图5所示,在本实施例中,s36中基于每个参考关键词在预设相关度表中对应的相关度,得到描述文本数据与预设关键词的相关度,包括如下步骤:
104.s51、针对每个参考关键词,获取参考关键词在描述文本数据中的重要度。
105.在本实施例中,相较于上述实施例,在本步骤中,在获取了参考关键词的相关度后,由于预设相关度表中的相关度的值是预定义的,即相关度是不变的,而不同关键词在一个文本数据中的重要性是不一致,所以,在本步骤中,还获取参考关键词在描述文本数据中的重要度,比如,一个词在一段文章中经常出现,就越说明该词对于该文章来说越重要。
106.s52、针对每个参考关键词,将参考关键词在描述文本数据中的重要度和参考关键词在预设相关度表中对应的相关度相乘,得到参考相关度。
107.在本实施例中,针对每个参考关键词,在获取该参考关键词的相关度后,进一步获取参考关键词的重要度,将参考关键词的重要度和相关度相乘,得到参考相关度,使得得到的相关度更加符合该关键词与预设关键词的相关情况。
108.s53、将所有参考关键词的参考相关度进行累加,得到累加相关度,作为描述文本数据与预设关键词的相关度。
109.在本实施例中,将描述文本数据中的各个参考关键词的参考相关度进行累加得到累加相关度,作为描述文本数据与预设关键词的相关度。
110.在本实施例中,在确定了参考关键词在预设相关度表中的相关度后,再引入参考关键词在描述文本数据中的重要度,结合参考关键词的词性的相关度和参考关键词对于描述文本数据的重要程度,进一步得到参考相关度,根据参考相关度得到描述文本数据与预设关键词的相关度。
111.如图6所示,在本实施例中,s51中针对每个参考关键词,获取参考关键词在描述文本数据中的重要度,包括如下步骤:
112.s61、针对每个参考关键词,获取参考关键词在描述文本数据中的词频和参考关键词在所有描述文本数据中的逆向文件频率。
113.s62、针对每个参考关键词,根据参考关键词在描述文本数据中的词频和参考关键词在所有描述文本数据中的逆向文件频率,计算得到重要度;其中,重要度与词频呈正比,重要度与逆向文件频率呈正比。
114.在本实施例中,词频(term frequency,tf)指的是某一个给定的词语在该文件中出现的频率。逆向文件频率(inverse documentfrequency,idf)是一个词语普遍重要性的
度量。
115.在本实施例中,如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类,如果包含词条t的文档n越少,也就是n越小, idf越大,则说明词条t具有很好的类别区分能力。如果某一类文档c 中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照idf公式得到的idf的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。
116.如图7所示,本发明实施例提供了一种网页数据标记装置,标记装置包括:第一处理单元11、第二处理单元12、第三处理单元13和第四处理单元14。
117.在本实施例中,第一处理单元11,用于获取预设关键词对应的网页数据,并获取网页数据对应的源代码文件;
118.在本实施例中,第二处理单元12,用于从源代码文件中,分别获取对应网页数据中各个搜索结果的符合预设解析规则的代码块,并在源代码文件中分别对应代码块添加位置属性;
119.在本实施例中,第三处理单元13,用于根据代码块,得到对应的搜索结果与预设关键词的相关度,并得到相关度判断结果;
120.在本实施例中,第四处理单元14,用于根据位置属性,在网页数据上的每个搜索结果上添加相关度判断结果,得到标记完成的网页数据。
121.在本实施例中,位置属性包括:搜索结果属性和排名属性;其中,所述搜索结果属性用于表示所述代码块与所述搜索结果相对应;所述排名属性用于表示所述代码块对应的搜索结果在所述网页数据中的排名顺序。
122.第二处理单元12,具体用于对每个代码块添加搜索结果属性和排名属性。
123.在本实施例中,第四处理单元14,具体用于根据搜索结果属性,从源代码文件中确定代码块;根据排名属性,确定代码块的排名顺序;当每个搜索结果的排名顺序与对应的代码块的排名顺序一致时,分别对每个搜索结果添加对应的相关度判断结果,得到标记完成的网页数据。
124.在本实施例中,第三处理单元13,具体用于获取所述搜索结果对应的代码块对应的描述文本数据;将预设关键词与搜索结果对应的描述文件数据进行匹配,得到与预设关键词相关联的参考语句;将参考语句进行分词、过滤,得到参考关键词;获取每个参考关键词在预设相关度表中对应的相关度;基于每个参考关键词在预设相关度表中对应的相关度,得到描述文件数据与预设关键词的相关度,作为搜索结果与预设关键词的相关度。
125.在本实施例中,第三处理单元13,具体用于将相关度与预设相关度区间进行比较;当相关度匹配预设相关度区间时,对应的搜索结果与预设关键词不相关;当相关度大于预设相关度区间的最大值时,对应的搜索结果与预设关键词正相关;当相关度小于预设相关度区间的最小值时,对应的搜索结果与预设关键词负相关。
126.在本实施例中,第三处理单元13,具体用于针对每个参考关键词,获取参考关键词在描述文件数据中的重要度;针对每个参考关键词,将参考关键词在描述文件数据中的重
要度和参考关键词在预设相关度表中对应的相关度相乘,得到参考相关度;将所有参考关键词的参考相关度进行累加,得到累加相关度,作为描述文件数据与预设关键词的相关度。
127.在本实施例中,第三处理单元13,具体用于针对每个参考关键词,获取参考关键词在描述文件数据中的词频和参考关键词在所有描述文件数据中的逆向文件频率;针对每个参考关键词,根据参考关键词在描述文件数据中的词频和参考关键词在所有描述文件数据中的逆向文件频率,计算得到重要度;其中,重要度与词频呈正比,重要度与逆向文件频率呈正比。
128.网页数据标记装置包括处理器和存储器,上述第一处理单元11、第二处理单元12、第三处理单元13和第四处理单元14等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
129.处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来精确截图标记,解决标记错位问题。
130.本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现网页数据标记方法。
131.本发明实施例提供了一种处理器,处理器用于运行程序,其中,程序运行时执行网页数据标记方法。
132.如图8所示,本发明实施例提供了一种设备70,设备70包括至少一个处理器701、以及与处理器701连接的至少一个存储器702、总线 703;其中,处理器701、存储器702通过总线703完成相互间的通信;处理器701用于调用存储器702中的程序指令,以执行上述的网页数据标记方法。本文中的设备70可以是服务器、pc、pad、手机等。
133.本技术还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
134.获取预设关键词对应的网页数据,并获取网页数据对应的源代码文件;
135.从源代码文件中,分别获取对应网页数据中各个搜索结果的符合预设解析规则的代码块,并在源代码文件中分别对应代码块添加位置属性;
136.根据代码块,得到对应的搜索结果与预设关键词的相关度,并得到相关度判断结果;
137.根据位置属性,在网页数据上的每个搜索结果上添加相关度判断结果,得到标记完成的网页数据。
138.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备70的处理器701以产生一个机器,使得通过计算机或其他可编程数据处理设备70的处理器701执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
139.在一个典型的配置中,设备70包括一个或多个处理器701(cpu)、存储器702和总线703。设备70还可以包括输入/输出接口、网络接口等。
140.存储器702可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)
和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器702包括至少一个存储芯片。存储器702是计算机可读介质的示例。
141.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘 (dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
142.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备70不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备70所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备70中还存在另外的相同要素。
143.本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质 (包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
144.以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1