基于网页正文提取方法、装置、设备及存储介质与流程

文档序号:32223094发布日期:2022-11-16 12:19阅读:38来源:国知局
基于网页正文提取方法、装置、设备及存储介质与流程

1.本发明涉及智能决策领域,尤其涉及一种基于网页正文提取方法、装置、设备及存储介质。


背景技术:

2.网页正文提取是指在浏览网页过程中过滤掉一些网页噪声仅提取网页正文的内容,比如,一些金融产品网页中通常包括:网页主题、网页正文内容、广告信息、外部连接及导航栏等信息,除了网页主题及网页正文内容,其余网页相关信息都可看作网页噪声。
3.传统的网页正文提取方法一般为基于网页模板的算法及基于统计的算法,但是这些传统方法存在两个问题,一方面由于基于模板的算法对于不同的网页模式或网页结构发生变化时需要重新编写包装器,使得网页正文提取的效率较低;另一方面,由于基于统计的算法是通过统计网页的文字数量、链接数量、标签字符数量等计算出对应的网页文本密度、链接密度,并根据文本密度计链接密度来确定网页正文的内容,使得在网页正文提取过程中常常将一些与网页正文不相关的内容进行提取,导致网页正文提取的准确率较低。


技术实现要素:

4.本发明提供一种基于网页正文提取方法、装置、设备及存储介质,其主要目的是提高网页正文提取的效率及准确率。
5.为实现上述目的,本发明提供了一种基于网页正文提取方法,包括:
6.获取待提取网页,将所述待提取网页进行特征提取,得到网页数据特征集,并将所述网页数据特征集进行编码,得到网页数据向量集;
7.对所述网页数据向量集进行召回处理,得到索引网页数据集,并通过分析所述索引网页数据集所属的分类标签,确定所述待提取网页对应的网页类型;
8.判断所述待提取网页的网页类型是否为文字型网页;
9.当所述待提取网页的网页类型不为文字型网页,则根据预设的正则规则提取所述待提取网页的网页正文;
10.当所述待提取网页的网页类型为文字型网页,则利用训练完成的网页正文提取模型提取所述待提取网页的网页正文。
11.可选地,所述对所述网页数据向量集进行召回处理,得到索引网页数据集,包括:
12.获取所述网页数据向量集的向量标签,根据所述向量标签利用预设的开源向量数据库创建分区区域;
13.将所述网页数据向量集存储至所述分区区域中,并为每个所述分区区域中的网页数据向量集创建索引,得到所述索引网页数据集。
14.可选地,所述通过分析所述索引网页数据集所属的分类标签,确定所述待提取网页对应的网页类型,包括:
15.获取所述待提取网页的网页数据,从所述索引网页数据集中选取与所述网页数据
最相似的索引网页数据作为预分类网页标签;
16.选取所述预分类网页标签中出现次数最多的网页标签作为所述待提取网页对应的网页类型。
17.可选地,所述利用训练完成的网页正文提取模型提取所述待提取网页的网页正文,包括:
18.利用训练完成的网页正文提取模型中的双向长短期记忆网络对所述待提取网页进行编码,得到编码数据集;
19.利用所述网页正文提取模型中的单向长短期记忆网络对所述编码数据集进行解码处理,得到解码数据集;
20.将所述解码数据集输入至预设激活函数中,得到激活概率值,并根据所述激活概率值得到网页正文。
21.可选地,所述利用训练完成的网页正文提取模型中的双向长短期记忆网络对所述待提取网页进行编码,得到编码数据集,包括:
22.利用所述双向长短期记忆网络中的输入门计算所述待提取网页的状态值;
23.利用所述双向长短期记忆网络中的遗忘门计算所述待提取网页的激活值;
24.根据所述状态值和所述激活值计算所述待提取网页的状态更新值;
25.利用所述双向长短期记忆网络中的输出门计算所述状态更新值对应的编码数据集。
26.可选地,所述根据预设的正则规则提取所述待提取网页的网页正文,包括:
27.获取所述待提取网页的网页源码,根据所述网页源代码确定所述待提取网页中的网页正文位置;
28.识别所述待提取网页为图像型网页时,利用预设的图像正则规则从所述网页正文位置进行正文提取,得到所述网页正文;
29.识别所述待提取网页为链接型网页时,利用预设的链接正则规则从所述网页正文位置进行网页链接提取,得到所述网页正文。
30.可选地,所述将所述待提取网页进行特征提取,得到网页数据特征集,包括:
31.将所述待提取网页转化为文本网页,对所述文本网页进行分词处理,得到分词文本集;
32.利用预设算法计算所述分词文本集中每个词语的权重,得到词语权重;
33.从所述分词文本集中提取所述词语权重大于预设阈值的词语作为网页关键词;
34.根据预设词典对所述网页关键词进行词性标注,确定所述网页关键词的词性;
35.根据所述网页关键词的词性,确定所述待提取网页的网页数据特征集。
36.为了解决上述问题,本发明还提供一种基于网页正文提取装置,所述装置包括:
37.网页特征提取模块,用于获取待提取网页,将所述待提取网页进行特征提取,得到网页数据特征集,并将所述网页数据特征集进行编码,得到网页数据向量集;
38.网页类型识别模块,用于对所述网页数据向量集进行召回处理,得到索引网页数据集,并通过分析所述索引网页数据集所属的分类标签,确定所述待提取网页对应的网页类型;
39.网页正文提取模块,用于判断所述待提取网页的网页类型是否为文字型网页;当
所述待提取网页的网页类型不为文字型网页,则根据预设的正则规则提取所述待提取网页的网页正文;当所述待提取网页的网页类型为文字型网页,则利用训练完成的网页正文提取模型提取所述待提取网页的网页正文。
40.为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
41.存储器,存储至少一个计算机程序;及
42.处理器,执行所述存储器中存储的计算机程序以实现上述所述的基于网页正文提取方法。
43.为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于网页正文提取方法。
44.本发明实施例中,首先通过将所述待提取网页进行特征提取,得到网页数据特征集,并将所述网页数据特征集进行编码,得到网页数据向量集,可以将待提取网页中的主要特征数据提取,并去除一些无用词,便于提高后续网页正文提取的效率;其次,通过对所述网页数据向量集进行召回处理,得到索引网页数据集,可以为每个网页数据向量创建索引,并通过分析所述索引网页数据集所属的分类标签,可以准确识别所述待提取网页对应的网页类型,便于后续对不同的网页类型应用不同的方法进行提取;最后,当识别网页类型不为文字型网页,通过利用正则规则提取网页正文,当识别网页类型为文字型网页,则利用训练完成的网页正文提取模型提取所述待提取网页的网页正文,可以避免提取过程中将一些与网页正文不相关的内容进行提取,提高网页正文提取的准确率,且不同的网页类型都可以应用不同的方法进行网页正文的针对性提取,对于不同的网页模式或网页结构发生变化时不需要重新编写包装器,提高了网页正文提取的效率。因此本发明实施例提出的基于网页正文提取方法、装置、设备及存储介质可以提高网页正文提取的效率及准确率。
附图说明
45.图1为本发明一实施例提供的基于网页正文提取方法的流程示意图;
46.图2为本发明一实施例提供的基于网页正文提取方法中一个步骤的详细流程示意图;
47.图3为本发明一实施例提供的基于网页正文提取方法中一个步骤的详细流程示意图;
48.图4为本发明一实施例提供的基于网页正文提取装置的模块示意图;
49.图5为本发明一实施例提供的实现基于网页正文提取方法的电子设备的内部结构示意图;
50.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
51.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
52.本发明实施例提供一种基于网页正文提取方法。所述基于网页正文提取方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种。换言之,所述基于网页正文提取方法可以由安装在终端设备或服务端
设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
53.参照图1所示的本发明一实施例提供的基于网页正文提取方法的流程示意图,在本发明实施例中,所述基于网页正文提取方法包括以下步骤s1-s5:
54.s1、获取待提取网页,将所述待提取网页进行特征提取,得到网页数据特征集,并将所述网页数据特征集进行编码,得到网页数据向量集。
55.本发明实施例中,所述待提取网页是基于实际业务场景确定的网页,比如,在金融领域中,待提取网页可以为关于各类金融产品的最新消息;所述网页数据特征集是指包含网页内容的相关特征,其中,该网页数据特征集可以包括文字信息特征、图片信息特征及链接信息特征及非链接信息特征等类别特征;所述网页数据向量集是指将网页数据特征集映射至空间向量中,以将网络数据转化成更深层次的深度语义信息。
56.本发明一实施例中,所述待提取网页可以利用预设的索引函数(如index)从业务数据库(如金融数据库、保险数据库等)中获取待提取网页。
57.本发明实施例通过将所述待提取网页进行特征提取,得到网页数据特征集,并将所述网页数据特征集进行编码,得到网页数据向量集,可以将待提取网页中的主要特征数据提取,并去除一些无用词,便于提高后续网页正文提取的效率。
58.作为本发明的一个实施例,所述将所述待提取网页进行特征提取,得到网页数据特征集,包括:
59.将所述待提取网页转化为文本网页,对所述文本网页进行分词处理,得到分词文本集;利用预设算法计算所述分词文本集中每个词语的权重,得到词语权重;从所述分词文本集中提取所述词语权重大于预设阈值的词语作为网页关键词;根据预设词典对所述网页关键词进行词性标注,确定所述网页关键词的词性;根据所述网页关键词的词性,确定所述待提取网页的网页数据特征集。
60.其中,所述预设算法可以为tfidf算法,所述词语权重是指该词语出现的频率;所述预设阈值可以为0.75,在词语权重大于0.75时,可以确定该词语为网页关键词;所述词性标注是指在词典中查找网页关键词的对应类别注释,当该网页关键词在词典中有匹配的词语时,将匹配的该词语类别注释作为网页关键词的词性,其中,所述预设词典可以为基于用户需求自定义的词典。
61.本发明一实施例中,由于网页关键词中与网页主要内容相关的词性主要为名词、动词、形容词等实词,而一些感叹词、介词、连词等虚词对后续确定网页类型并没有实际的意义和贡献,所以通过根据词典进行词性标注确定网页关键词的词性,可以提取待提取网页中的核心特征词,并剔除掉一些无用的虚词,可以减少特征提取的计算量,提高特征提取的效率。
62.进一步地,本发明实施例中,可以利用embedding模型将所述网页数据特征集进行特征编码,得到网页数据向量集,可以实现将网页数据特征集转换为更深层次的深度语义信息,进一步提高网页特征提取的准确率。
63.s2、对所述网页数据向量集进行召回处理,得到索引网页数据集,并通过分析所述索引网页数据集所属的分类标签,确定所述待提取网页对应的网页类型。
64.本发明实施例中,所述索引网页数据集是指网页数据向量集对应的各个数据特征
之间的关联数据;所述网页类型是指网页数据类型,其中,所述网页数据类型包括文字型网页、图像型网页及链接型网页。
65.本发明实施例通过对所述网页数据向量集进行召回处理,得到索引网页数据集,可以为每个网页数据向量创建索引,并通过分析所述索引网页数据集所属的分类标签,可以准确识别所述待提取网页对应的网页类型。
66.作为本发明的一个实施例,所述对所述网页数据向量集进行召回处理,得到索引网页数据集,包括:
67.获取所述网页数据向量集的向量标签,根据所述向量标签利用预设的开源向量数据库创建分区区域;将所述网页数据向量集存储至所述分区区域中,并为每个所述分区区域中的网页数据向量集创建索引,得到所述索引网页数据集。
68.其中,所述预设的开源向量数据库可以为milvus;所述分区区域可以看作向量标签的集合,根据不同的向量标签可以创建相应的分区区域,主要作用是避免将所有网页向量数据作为一个集合进行存储,当一个集合累积了大量数据之后,查询性能会逐渐下降,所以通过将所述网页数据向量集存储至所述分区区域中,可以将网页数据向量集根据不同的向量标签储存至milvus,便于后续提高索引的准确性。
69.本发明一实施例中,所述索引网页数据集可以通过索引函数create_index进行索引创建。
70.进一步地,如图2所示,所述通过分析所述索引网页数据集所属的分类标签,确定所述待提取网页对应的网页类型,包括以下步骤s21-s22:
71.s21、获取所述待提取网页的网页数据,从所述索引网页数据集中选取与所述网页数据最相似的索引网页数据作为预分类网页标签;
72.s22、选取所述预分类网页标签中出现次数最多的网页标签作为所述待提取网页对应的网页类型。
73.其中,所述预分类网页标签对应不同的网页类型,由于网页类型包括文字型网页、图像型网页及链接型网页等,所以预分类网页标签也包括文字型网页、图像型网页及链接型网页等网页标签。
74.本发明一实施例中,可以通过knn(k-nearest neighbor,近似近邻搜索)算法从所述索引网页数据集中选取与所述网页数据最相似的索引网页数据作为预分类网页标签,即选取最相似的索引网页数据的过程及为k值的选择过程;具体地,k值不同对应的标签也不一样,比如,k=3,对应的预分类网页标签为a类(即文字型网页类型);k=5,对应的预分类网页标签为b类(即图像型网页类型);k=10,对应的预分类网页标签为c类(即链接型网页类型)。
75.进一步地,可以选取所述预分类网页标签中出现次数最多的网页标签作为所述待提取网页对应的网页类型,所以预分类网页标签为c类(即链接型网页类型)即为待提取网页的网页类型。
76.本发明一可选实施例中,所述索引网页数据集的权重还可以基于索引网页数据集对应的各个数据类型在索引网页数据集的占比决定,其中,所述数据类型与网页类型一致,包括文字数据、图像数据及链接数据等。比如,索引网页数据集中存在十条数据,包括5条文字数据、3条图像数据及2条链接数据,则文字数据对应的权重为0.5、图像数据对应的权重
的0.3、链接数据对应的权重为0.2,则所述文字数据权重占比超过预设阈值0.4,则该索引网页数据集对应的网页类型为文字型网页。
77.s3、判断所述待提取网页的网页类型是否为文字型网页。
78.本发明实施中,所述文字型网页是指文字占主导的网页,如在金融领域中,与债券、金融产品相关的新闻网页。
79.本发明实施例通过判断所述网页类型是否为文字型网页,可以便于后续对不同的网页类型应用不同的方法进行提取。
80.本发明一实施例中,可以通过预设的查询语句(如sql查询语句)查询待提取网页的网页标签,根据网页标签可以确定文字型网页类型,具体地,当网页标签为a类,即为文字型网页类型;当网页标签为为b类,即为图像型网页类型;当网页标签为c类,即为链接型网页类型。
81.s4、当所述待提取网页的网页类型不为文字型网页,则根据预设的正则规则提取所述待提取网页的网页正文。
82.本发明实施例中,所述正则规则是一种字符串匹配的规则,其中,正则规则也是由普通字符以及特殊字符组成的字符模式。
83.本发明实施例中,当所述网页类型不为文字型网页表示当前待提取网页属于图像型网页类型或链接型网页类型,通过根据预设的正则规将提取所述待提取网页的网页正文,可以利用对应的正则规则针对图像型网页类型或链接型网页类型实现网页正文提取,对于不同的网页模式或网页结构发生变化时不需要重新编写包装器,提高网页正文提取的效率。
84.作为本发明的一个实施例,所述根据预设的正则规则提取所述待提取网页的网页正文,包括:
85.获取所述待提取网页的网页源码,根据所述网页源代码确定所述待提取网页中的网页正文位置;识别所述待提取网页为图像型网页时,利用预设的图像正则规则从所述网页正文位置进行正文提取,得到所述网页正文;识别所述待提取网页为链接型网页时,利用预设的链接正则规则从所述网页正文位置进行网页链接提取,得到所述网页正文。
86.其中,所述网页源码是指html的源代码;所述网页正文位置是指网页正文内容的起始位置及结束位置,且该网页正文位置可以通过识别html中各个标签位置与内容,并根据该标签生成各个标签对应的dom树,进一步遍历该dom树,得到各个标签对应的节点路径信息,根据该节点路径信息获取html对应的网页正文位置。
87.具体地,html各个标签位置可以为《html》、《body》、《div》、《/body》及《/html》等,其中,不同标签可包括不同位置的开始标签及结束标签,若从开始标签到结束标签中间存在内容,则将该内容分配至该标签;将每个标签看作一个节点,并根据网页的分布逻辑,将各个标签连接形成dom树;通过对dom树遍历,得到每个标签的节点路径信息,如:《html》、《body》、《div》、《div》、《p》、《/body》及《/html》等,根据该路径信息可以确定《body》到《/body》对应的网页正文的起始位置及结束位置。
88.本发明一实施例中,可以通过图像正则规则对图像型网页中的字符串进行首尾匹配以提取网页正文,具体地,图像正则规则可以为allfinds=(《body》《img》\(+?)《/body》《/img》),其中,allfinds可以为网页标题,《body》可以为网页正文起始位置,《img》可以为
正文中的图像起始位置,+?为懒惰限制符,表示接受正则规则中的限定符可以重复1次或更多次,《/body》可以为网页正文结束位置,《/img》可以为正文中的图像结束位置。
89.进一步地,所述链接正则规则与图像正则规则类似,只需根据需求修改正则规则的字符限制,此处不再赘述。
90.s5、当所述待提取网页的网页类型为文字型网页,则利用训练完成的网页正文提取模型提取所述待提取网页的网页正文。
91.本发明实施例中,所述训练完成的网页正文提取模型可以为bilstm模型构建所得,其中,bilstm为双向长短期记忆网络。
92.本发明一可选实施例中,当待提取网页的网页类型为文字型网页之后,可以对该网页的构建dom树,并通过babel遍历dom树,确定各个标签节点的路径,得到网页正文位置,并去除网页正文中的网页链接、脚本等无效节点信息,通过使用空白行代替网页链接、脚本等无效节点,保留网页剩余的文本信息,从而构成一个个的行数据的序列,最后将处理好的数据输入训练完成的网页正文提取模型,利用该模型识别网页正文中文字行和空白行的分布中哪些行属于真正的正文文字行,并将正文信息进行提取。
93.本发明实施例通过当所述网页类型为文字型网页,则利用训练完成的网页正文提取模型提取所述待提取网页的网页正文,可以直接通过模型精准提取待提取网页的网页正文,避免提取过程中将一些与网页正文不相关的内容进行提取,提高了网页正文提取的准确率。
94.作为本发明的一个实施例,如图3所示,所述利用训练完成的网页正文提取模型提取所述待提取网页的网页正文,包括以下步骤s51-s53:
95.s51、利用训练完成的网页正文提取模型中的双向长短期记忆网络对所述待提取网页进行编码,得到编码数据集;
96.s52、利用所述网页正文提取模型中的单向长短期记忆网络对所述编码数据集进行解码处理,得到解码数据集;
97.s53、将所述解码数据集输入至预设激活函数中,得到激活概率值,并根据所述激活概率值得到网页正文。
98.其中,通过采用训练完成的网页正文提取模型中的双向长短期记忆网络进行编码,之后再用单向长短期记忆网络对编码后的数据进行解码处理,并对进行维度压缩后经过激活函数得到落在每个区间上的概率,根据所述激活概率得到网页正文。其中,所述激活函数为softmax函数。
99.进一步地,所述利用训练完成的网页正文提取模型中的双向长短期记忆网络对所述待提取网页进行编码,得到编码数据集,包括:
100.利用所述双向长短期记忆网络中的输入门计算所述待提取网页的状态值;利用所述双向长短期记忆网络中的遗忘门计算所述待提取网页的激活值;根据所述状态值和所述激活值计算所述待提取网页的状态更新值;利用所述双向长短期记忆网络中的输出门计算所述状态更新值对应的编码数据集。
101.本发明一可选实施例中,所述状态值的计算方法包括:
[0102][0103]
其中,i
t
表示状态值,表示输入门中细胞单元的偏置,wi表示输入门的激活因子,ht-1
表示待提取网页在输入门t-1时刻的峰值,x
t
表示在t时刻的待提取网页,bi表示输入门中细胞单元的权重。
[0104]
本发明一可选实施例中,所述激活值的计算方法包括:
[0105][0106]
其中,f
t
表示激活值,表示遗忘门中细胞单元的偏置,wf表示遗忘门的激活因子,表示待提取网页在所述遗忘门t-1时刻的峰值,x
t
表示在t时刻输入的待提取网页,bf表示遗忘门中细胞单元的权重。
[0107]
本发明一可选实施例中,所述状态更新值的计算方法包括:
[0108][0109]
其中,c
t
表示状态更新值,h
t-1
表示待提取网页在输入门t-1时刻的峰值,表示待提取网页在遗忘门t-1时刻的峰值。
[0110]
本发明一可选实施例中,所述利用所述双向长短期记忆网络中的输出门计算所述状态更新值对应的编码数据集,包括:
[0111]
利用如下公式计算编码数据集:
[0112]ot
=tan h(c
t
)
[0113]
其中,o
t
表示编码数据集,tan h表示输出门的激活函数,c
t
表示状态更新值。
[0114]
本发明实施例中,首先通过将所述待提取网页进行特征提取,得到网页数据特征集,并将所述网页数据特征集进行编码,得到网页数据向量集,可以将待提取网页中的主要特征数据提取,并去除一些无用词,便于提高后续网页正文提取的效率;其次,通过对所述网页数据向量集进行召回处理,得到索引网页数据集,可以为每个网页数据向量创建索引,并通过分析所述索引网页数据集所属的分类标签,可以准确识别所述待提取网页对应的网页类型,便于后续对不同的网页类型应用不同的方法进行提取;最后,当识别网页类型不为文字型网页,通过利用正则规则提取网页正文,当识别网页类型为文字型网页,则利用训练完成的网页正文提取模型提取所述待提取网页的网页正文,可以避免提取过程中将一些与网页正文不相关的内容进行提取,提高网页正文提取的准确率,且不同的网页类型都可以应用不同的方法进行网页正文的针对性提取,对于不同的网页模式或网页结构发生变化时不需要重新编写包装器,提高了网页正文提取的效率。因此本发明实施例提出的基于网页正文提取方法可以提高网页正文提取的效率及准确率。
[0115]
本发明所述基于网页正文提取装置100可以安装于电子设备中。根据实现的功能,所述基于网页正文提取装置可以包括网页特征提取模块101、网页类型识别模块102、网页正文提取模块103,本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
[0116]
在本实施例中,关于各模块/单元的功能如下:
[0117]
所述网页特征提取模块101,用于获取待提取网页,将所述待提取网页进行特征提取,得到网页数据特征集,并将所述网页数据特征集进行编码,得到网页数据向量集。
[0118]
本发明实施例中,所述待提取网页是基于实际业务场景确定的网页,比如,在金融领域中,待提取网页可以为关于各类金融产品的最新消息;所述网页数据特征集是指包含网页内容的相关特征,其中,该网页数据特征集可以包括文字信息特征、图片信息特征及链
接信息特征及非链接信息特征等类别特征;所述网页数据向量集是指将网页数据特征集映射至空间向量中,以将网络数据转化成更深层次的深度语义信息。
[0119]
本发明一实施例中,所述待提取网页可以利用预设的索引函数(如index)从业务数据库(如金融数据库、保险数据库等)中获取待提取网页。
[0120]
本发明实施例通过将所述待提取网页进行特征提取,得到网页数据特征集,并将所述网页数据特征集进行编码,得到网页数据向量集,可以将待提取网页中的主要特征数据提取,并去除一些无用词,便于提高后续网页正文提取的效率。
[0121]
作为本发明的一个实施例,所述网页特征提取模块101通过执行下述操作将所述待提取网页进行特征提取,得到网页数据特征集,包括:
[0122]
将所述待提取网页转化为文本网页,对所述文本网页进行分词处理,得到分词文本集;
[0123]
利用预设算法计算所述分词文本集中每个词语的权重,得到词语权重;
[0124]
从所述分词文本集中提取所述词语权重大于预设阈值的词语作为网页关键词;
[0125]
根据预设词典对所述网页关键词进行词性标注,确定所述网页关键词的词性;
[0126]
根据所述网页关键词的词性,确定所述待提取网页的网页数据特征集。
[0127]
其中,所述预设算法可以为tfidf算法,所述词语权重是指该词语出现的频率;所述预设阈值可以为0.75,在词语权重大于0.75时,可以确定该词语为网页关键词;所述词性标注是指在词典中查找网页关键词的对应类别注释,当该网页关键词在词典中有匹配的词语时,将匹配的该词语类别注释作为网页关键词的词性,其中,所述预设词典可以为基于用户需求自定义的词典。
[0128]
本发明一实施例中,由于网页关键词中与网页主要内容相关的词性主要为名词、动词、形容词等实词,而一些感叹词、介词、连词等虚词对后续确定网页类型并没有实际的意义和贡献,所以通过根据词典进行词性标注确定网页关键词的词性,可以提取待提取网页中的核心特征词,并剔除掉一些无用的虚词,可以减少特征提取的计算量,提高特征提取的效率。
[0129]
进一步地,本发明实施例中,可以利用embedding模型将所述网页数据特征集进行特征编码,得到网页数据向量集,可以实现将网页数据特征集转换为更深层次的深度语义信息,进一步提高网页特征提取的准确率。
[0130]
所述网页类型识别模块102,用于对所述网页数据向量集进行召回处理,得到索引网页数据集,并通过分析所述索引网页数据集所属的分类标签,确定所述待提取网页对应的网页类型。
[0131]
本发明实施例中,所述索引网页数据集是指网页数据向量集对应的各个数据特征之间的关联数据;所述网页类型是指网页数据类型,其中,所述网页数据类型包括文字型网页、图像型网页及链接型网页。
[0132]
本发明实施例通过对所述网页数据向量集进行召回处理,得到索引网页数据集,可以为每个网页数据向量创建索引,并通过分析所述索引网页数据集所属的分类标签,可以准确识别所述待提取网页对应的网页类型。
[0133]
作为本发明的一个实施例,所述网页类型识别模块102通过执行下述操作对所述网页数据向量集进行召回处理,得到索引网页数据集,包括:
[0134]
获取所述网页数据向量集的向量标签,根据所述向量标签利用预设的开源向量数据库创建分区区域;
[0135]
将所述网页数据向量集存储至所述分区区域中,并为每个所述分区区域中的网页数据向量集创建索引,得到所述索引网页数据集。
[0136]
其中,所述预设的开源向量数据库可以为milvus;所述分区区域可以看作向量标签的集合,根据不同的向量标签可以创建相应的分区区域,主要作用是避免将所有网页向量数据作为一个集合进行存储,当一个集合累积了大量数据之后,查询性能会逐渐下降,所以通过将所述网页数据向量集存储至所述分区区域中,可以将网页数据向量集根据不同的向量标签储存至milvus,便于后续提高索引的准确性。
[0137]
本发明一实施例中,所述索引网页数据集可以通过索引函数create_index进行索引创建。
[0138]
进一步地,所述通过分析所述索引网页数据集所属的分类标签,确定所述待提取网页对应的网页类型,包括:
[0139]
获取所述待提取网页的网页数据,从所述索引网页数据集中选取与所述网页数据最相似的索引网页数据作为预分类网页标签;选取所述预分类网页标签中出现次数最多的网页标签作为所述待提取网页对应的网页类型。
[0140]
其中,所述预分类网页标签对应不同的网页类型,由于网页类型包括文字型网页、图像型网页及链接型网页等,所以预分类网页标签也包括文字型网页、图像型网页及链接型网页等网页标签。
[0141]
本发明一实施例中,可以通过knn(k-nearest neighbor,近似近邻搜索)算法从所述索引网页数据集中选取与所述网页数据最相似的索引网页数据作为预分类网页标签,即选取最相似的索引网页数据的过程及为k值的选择过程;具体地,k值不同对应的标签也不一样,比如,k=3,对应的预分类网页标签为a类(即文字型网页类型);k=5,对应的预分类网页标签为b类(即图像型网页类型);k=10,对应的预分类网页标签为c类(即链接型网页类型)。
[0142]
进一步地,可以选取所述预分类网页标签中出现次数最多的网页标签作为所述待提取网页对应的网页类型,所以预分类网页标签为c类(即链接型网页类型)即为待提取网页的网页类型。
[0143]
本发明一可选实施例中,所述索引网页数据集的权重还可以基于索引网页数据集对应的各个数据类型在索引网页数据集的占比决定,其中,所述数据类型与网页类型一致,包括文字数据、图像数据及链接数据等。比如,索引网页数据集中存在十条数据,包括5条文字数据、3条图像数据及2条链接数据,则文字数据对应的权重为0.5、图像数据对应的权重的0.3、链接数据对应的权重为0.2,则所述文字数据权重占比超过预设阈值0.4,则该索引网页数据集对应的网页类型为文字型网页。
[0144]
所述网页正文提取模块103,用于判断所述待提取网页的网页类型是否为文字型网页;当所述待提取网页的网页类型不为文字型网页,则根据预设的正则规则提取所述待提取网页的网页正文;当所述待提取网页的网页类型为文字型网页,则利用训练完成的网页正文提取模型提取所述待提取网页的网页正文。
[0145]
本发明实施中,所述文字型网页是指文字占主导的网页,如在金融领域中,与债
券、金融产品相关的新闻网页。
[0146]
本发明实施例通过判断所述网页类型是否为文字型网页,可以便于后续对不同的网页类型应用不同的方法进行提取。
[0147]
本发明一实施例中,可以通过预设的查询语句(如sql查询语句)查询待提取网页的网页标签,根据网页标签可以确定文字型网页类型,具体地,当网页标签为a类,即为文字型网页类型;当网页标签为为b类,即为图像型网页类型;当网页标签为c类,即为链接型网页类型。
[0148]
本发明实施例中,所述正则规则是一种字符串匹配的规则,其中,正则规则也是由普通字符以及特殊字符组成的字符模式。
[0149]
本发明实施例中,当所述网页类型不为文字型网页表示当前待提取网页属于图像型网页类型或链接型网页类型,通过根据预设的正则规将提取所述待提取网页的网页正文,可以利用对应的正则规则针对图像型网页类型或链接型网页类型实现网页正文提取,对于不同的网页模式或网页结构发生变化时不需要重新编写包装器,提高网页正文提取的效率。
[0150]
作为本发明的一个实施例,所述网页正文提取模块103通过执行下述操作根据预设的正则规则提取所述待提取网页的网页正文,包括:
[0151]
获取所述待提取网页的网页源码,根据所述网页源代码确定所述待提取网页中的网页正文位置;
[0152]
识别所述待提取网页为图像型网页时,利用预设的图像正则规则从所述网页正文位置进行正文提取,得到所述网页正文;
[0153]
识别所述待提取网页为链接型网页时,利用预设的链接正则规则从所述网页正文位置进行网页链接提取,得到所述网页正文。
[0154]
其中,所述网页源码是指html的源代码;所述网页正文位置是指网页正文内容的起始位置及结束位置,且该网页正文位置可以通过识别html中各个标签位置与内容,并根据该标签生成各个标签对应的dom树,进一步遍历该dom树,得到各个标签对应的节点路径信息,根据该节点路径信息获取html对应的网页正文位置。
[0155]
具体地,html各个标签位置可以为《html》、《body》、《div》、《/body》及《/html》等,其中,不同标签可包括不同位置的开始标签及结束标签,若从开始标签到结束标签中间存在内容,则将该内容分配至该标签;将每个标签看作一个节点,并根据网页的分布逻辑,将各个标签连接形成dom树;通过对dom树遍历,得到每个标签的节点路径信息,如:《html》、《body》、《div》、《div》、《p》、《/body》及《/html》等,根据该路径信息可以确定《body》到《/body》对应的网页正文的起始位置及结束位置。
[0156]
本发明一实施例中,可以通过图像正则规则对图像型网页中的字符串进行首尾匹配以提取网页正文,具体地,图像正则规则可以为allfinds=(《body》《img》\(+?)《/body》《/img》),其中,allfinds可以为网页标题,《body》可以为网页正文起始位置,《img》可以为正文中的图像起始位置,+?为懒惰限制符,表示接受正则规则中的限定符可以重复1次或更多次,《/body》可以为网页正文结束位置,《/img》可以为正文中的图像结束位置。
[0157]
进一步地,所述链接正则规则与图像正则规则类似,只需根据需求修改正则规则的字符限制,此处不再赘述。
[0158]
本发明实施例中,所述训练完成的网页正文提取模型可以为bilstm模型构建所得,其中,bilstm为双向长短期记忆网络。
[0159]
本发明一可选实施例中,当待提取网页的网页类型为文字型网页之后,可以对该网页的构建dom树,并通过babel遍历dom树,确定各个标签节点的路径,得到网页正文位置,并去除网页正文中的网页链接、脚本等无效节点信息,通过使用空白行代替网页链接、脚本等无效节点,保留网页剩余的文本信息,从而构成一个个的行数据的序列,最后将处理好的数据输入训练完成的网页正文提取模型,利用该模型识别网页正文中文字行和空白行的分布中哪些行属于真正的正文文字行,并将正文信息进行提取。
[0160]
本发明实施例通过当所述网页类型为文字型网页,则利用训练完成的网页正文提取模型提取所述待提取网页的网页正文,可以直接通过模型精准提取待提取网页的网页正文,避免提取过程中将一些与网页正文不相关的内容进行提取,提高了网页正文提取的准确率。
[0161]
作为本发明的一个实施例,所述网页正文提取模块103还可以用于执行下述操作利用训练完成的网页正文提取模型提取所述待提取网页的网页正文,包括:
[0162]
利用训练完成的网页正文提取模型中的双向长短期记忆网络对所述待提取网页进行编码,得到编码数据集;
[0163]
利用所述网页正文提取模型中的单向长短期记忆网络对所述编码数据集进行解码处理,得到解码数据集;
[0164]
将所述解码数据集输入至预设激活函数中,得到激活概率值,并根据所述激活概率值得到网页正文。
[0165]
其中,通过采用训练完成的网页正文提取模型中的双向长短期记忆网络进行编码,之后再用单向长短期记忆网络对编码后的数据进行解码处理,并对进行维度压缩后经过激活函数得到落在每个区间上的概率,根据所述激活概率得到网页正文。其中,所述激活函数为softmax函数。
[0166]
进一步地,所述利用训练完成的网页正文提取模型中的双向长短期记忆网络对所述待提取网页进行编码,得到编码数据集,包括:
[0167]
利用所述双向长短期记忆网络中的输入门计算所述待提取网页的状态值;利用所述双向长短期记忆网络中的遗忘门计算所述待提取网页的激活值;根据所述状态值和所述激活值计算所述待提取网页的状态更新值;利用所述双向长短期记忆网络中的输出门计算所述状态更新值对应的编码数据集。
[0168]
本发明一可选实施例中,所述状态值的计算方法包括:
[0169][0170]
其中,i
t
表示状态值,表示输入门中细胞单元的偏置,wi表示输入门的激活因子,h
t-1
表示待提取网页在输入门t-1时刻的峰值,x
t
表示在t时刻的待提取网页,bi表示输入门中细胞单元的权重。
[0171]
本发明一可选实施例中,所述激活值的计算方法包括:
[0172][0173]
其中,f
t
表示激活值,表示遗忘门中细胞单元的偏置,wf表示遗忘门的激活因子,
表示待提取网页在所述遗忘门t-1时刻的峰值,x
t
表示在t时刻输入的待提取网页,bf表示遗忘门中细胞单元的权重。
[0174]
本发明一可选实施例中,所述状态更新值的计算方法包括:
[0175][0176]
其中,c
t
表示状态更新值,h
t-1
表示待提取网页在输入门t-1时刻的峰值,表示待提取网页在遗忘门t-1时刻的峰值。
[0177]
本发明一可选实施例中,所述利用所述双向长短期记忆网络中的输出门计算所述状态更新值对应的编码数据集,包括:
[0178]
利用如下公式计算编码数据集:
[0179]ot
=tan h(c
t
)
[0180]
其中,o
t
表示编码数据集,tan h表示输出门的激活函数,c
t
表示状态更新值。
[0181]
本发明实施例中,首先通过将所述待提取网页进行特征提取,得到网页数据特征集,并将所述网页数据特征集进行编码,得到网页数据向量集,可以将待提取网页中的主要特征数据提取,并去除一些无用词,便于提高后续网页正文提取的效率;其次,通过对所述网页数据向量集进行召回处理,得到索引网页数据集,可以为每个网页数据向量创建索引,并通过分析所述索引网页数据集所属的分类标签,可以准确识别所述待提取网页对应的网页类型,便于后续对不同的网页类型应用不同的方法进行提取;最后,当识别网页类型不为文字型网页,通过利用正则规则提取网页正文,当识别网页类型为文字型网页,则利用训练完成的网页正文提取模型提取所述待提取网页的网页正文,可以避免提取过程中将一些与网页正文不相关的内容进行提取,提高网页正文提取的准确率,且不同的网页类型都可以应用不同的方法进行网页正文的针对性提取,对于不同的网页模式或网页结构发生变化时不需要重新编写包装器,提高了网页正文提取的效率。因此本发明实施例提出的基于网页正文提取装置可以提高网页正文提取的效率及准确率。
[0182]
如图5所示,是本发明实现基于网页正文提取方法的电子设备的结构示意图。
[0183]
所述电子设备可以包括处理器10、存储器11、通信总线12和通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于网页正文提取程序。
[0184]
其中,所述存储器11至少包括一种类型的介质,所述介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、本地磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如基于网页正文提取程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0185]
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者
多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如基于网页正文提取程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
[0186]
所述通信总线12可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述通信总线12总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0187]
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0188]
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
[0189]
可选地,所述通信接口13可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
[0190]
可选地,所述通信接口13还可以包括用户接口,用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
[0191]
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
[0192]
所述电子设备中的所述存储器11存储的基于网页正文提取程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
[0193]
获取待提取网页,将所述待提取网页进行特征提取,得到网页数据特征集,并将所述网页数据特征集进行编码,得到网页数据向量集;
[0194]
对所述网页数据向量集进行召回处理,得到索引网页数据集,并通过分析所述索引网页数据集所属的分类标签,确定所述待提取网页对应的网页类型;
[0195]
判断所述待提取网页的网页类型是否为文字型网页;
[0196]
当所述待提取网页的网页类型不为文字型网页,则根据预设的正则规则提取所述待提取网页的网页正文;
[0197]
当所述待提取网页的网页类型为文字型网页,则利用训练完成的网页正文提取模型提取所述待提取网页的网页正文。
[0198]
具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
[0199]
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取介质中。所述计算机可读介质可以是非易失性的,也可以是易失性的。所述计算机可读介质可以包括:能够携待所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
[0200]
本发明实施例还可以提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
[0201]
获取待提取网页,将所述待提取网页进行特征提取,得到网页数据特征集,并将所述网页数据特征集进行编码,得到网页数据向量集;
[0202]
对所述网页数据向量集进行召回处理,得到索引网页数据集,并通过分析所述索引网页数据集所属的分类标签,确定所述待提取网页对应的网页类型;
[0203]
判断所述待提取网页的网页类型是否为文字型网页;
[0204]
当所述待提取网页的网页类型不为文字型网页,则根据预设的正则规则提取所述待提取网页的网页正文;
[0205]
当所述待提取网页的网页类型为文字型网页,则利用训练完成的网页正文提取模型提取所述待提取网页的网页正文。
[0206]
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
[0207]
在本发明所提供的几个实施例中,应该理解到,所揭露的介质、设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0208]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0209]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0210]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
[0211]
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0212]
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用
密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0213]
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
[0214]
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1