网页目标信息的提取方法、装置及存储介质与流程

文档序号：15615849发布日期：2018-10-09 21:21阅读：207来源：国知局

本发明涉及数据处理技术领域，尤其涉及一种网页目标信息的提取方法、电子装置及计算机可读存储介质。

背景技术：

随着互联网技术和web技术的高速发展，互联网上网页的数量正在不断的增加。网络信息的增加大大方便了人们获取信息，但是过大的信息量也给人们处理信息带来了很多的困难。在这一背景下，传统靠人工的信息处理方式已经无法适应大量数据处理的要求。如何在海量的信息中将用户感兴趣的信息类型提取出来逐渐成为大家所关注的研究点。中文网页种类繁多，如何对网页进行自动分类，并准确获取网页中的目标信息，是组织和管理网络资源的关键。

技术实现要素：

鉴于以上内容，本发明提供一种网页目标信息的提取方法、服务器及计算机可读存储介质，其主要目的在于提高从目标网页提取目标信息的准确性。

为实现上述目的，本发明提供一种网页目标信息的提取方法，该方法包括：

分词步骤：接收从目标网页中提取目标信息的请求，获取所述目标网页的网页源码，对获取到的网页源码进行分词处理得到所述目标网页的可用词集合；

主题分类步骤：根据所述目标网页的可用词集合计算所述目标网页的词向量，将计算得到的词向量输入预先确定的各主题类别对应的分类模型，识别出所述目标网页所属的主题类别；

位置预测步骤：确定所述目标信息对应的第一标签，将所述目标网页的网页源码输入识别出的主题类别中所述第一标签对应的位置预测模型中，预测所述目标信息出现在不同位置的位置信息列表；及

信息提取步骤：从所述位置信息列表中筛选出预设数量的概率最高的位置，并从筛选出的位置提取信息作为目标信息。

此外，本发明还提供一种电子装置，其特征在于，该装置包括：存储器、处理器，所述存储器上存储有可在所述处理器上运行的网页目标信息的提取程序，所述网页目标信息的提取程序被所述处理器执行时，可实现如下步骤：

信息提取步骤：从所述位置信息列表中筛选出预设数量的概率最高的位置，并从筛选出的位置提取信息作为目标信息。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括网页目标信息的提取程序，所述网页目标信息的提取程序被处理器执行时，可实现如上所述网页目标信息的提取方法中的任意步骤。

本发明提出的网页目标信息的提取方法、电子装置及计算机可读存储介质，通过为不同的主题类别的网页构建不同的分类模型，利用不同主题类别对应的分类模型对目标网页进行分类，提高了目标网页主题分类的准确性；通过为不同主题类别的不同信息类别构建不同的位置预测模型，利用不同主题类别下不同信息类别对应的位置预测模型，预测目标网页中目标信息所在的位置的位置信息列表，提高了预测目标信息所在位置的准确性；选择位置信息列表中概率排序靠前且概率大于概率阈值的位置，从该位置提取信息作为目标信息，提高了目标信息提取的准确性。

附图说明

图1为本发明网页目标信息的提取方法较佳实施例的流程图；

图2为本发明电子装置较佳实施例的示意图；

图3为图2中网页目标信息的提取程序的程序模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种网页目标信息的提取方法。参照图1所示，为本发明网页目标信息的提取方法较佳实施例的流程图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，网页目标信息的提取方法包括步骤s1-s4：

s1、接收从目标网页中提取目标信息的请求，获取所述目标网页的网页源码，对获取到的网页源码进行分词处理得到所述目标网页的可用词集合；

信息提取请求中携带目标网页信息及待提取的目标信息，根据待提取的目标信息确定目标信息对应的标签。

利用爬虫工具爬取该目标网页的网页源码，并对目标网页的网页源码进行分词处理。具体地，提取目标网页的网页源码的原始数据，利用正则表达式去除原始数据中的无关数据，例如，javascript脚本代码、css样式代码和html标签数据等。对保留的数据通过分词工具进行分词，生成以空格分隔的初始词汇集合，按照预设的停用词词表，对初始词汇集合进行去停用词处理确定可用词集合，将可用词集合用于表征目标网页的内容。

s2、根据所述目标网页的可用词集合计算所述目标网页的词向量，将计算得到的词向量输入预先确定的各主题类别对应的分类模型，识别出所述目标网页所属的主题类别；

具体地，根据词频-逆文档频率指数(tf-idf)算法计算目标网页的可用词集合中各个词汇的重要程度，根据重要程度由高到低的顺序对目标网页的可用词集合中各个词汇进行排序。选择目标网页的可用词集合中的排序靠前的n个词汇作为目标网页的关键词，其中，n＞0，且n为整数。另外，基于中文维基百科语料库生成中文语料的词向量模型(word2vec模型)，通过该word2vec模型分别计算目标网页的可用词集合中的n个关键词的词向量，并利用上述步骤得到的n个关键词的词向量计算目标网页的词向量。

确定目标网页的词向量后，将目标网页的词向量依次输入预先训练好的不同主题类别对应的分类模型中，例如，旅游类对应的分类模型、经济类对应的分类模型、体育类对应的分类模型、政治类对应的分类模型、娱乐类对应的分类模型等，然后根据模型输出结果确定所述目标网页所属的主题类别。

需要说明的是，不同主题类别对应的分类模型的模型输出结果表示目标网页所属的主题类别为各主题类别的概率。因此，从不同主题类别对应的分类模型的输出结果中，选择概率最大值对应的主题类别，作为目标网页所属的主题类别。

可以理解的是，为了提高目标网页主题分类的准确性，预先设置一个预设阈值(例如，0.5)，选择各分类模型的输出结果中概率最大值与预设阈值进行比对，当概率最大值大于或等于预设阈值时，将概率最大值对应的主题类别，作为目标网页所属的主题类别。相反，当概率最大值小于预设阈值时，接收用户对目标网页所属主题类别的分类指令，根据分类指令中包含的主题类别确定目标网页所属的主题类别。

作为一种实施方式，所述预先确定的分类模型的训练步骤包括：

获取指定网页的网页源码，分别对每个指定网页的网页源码进行分词，得到每个指定网页的可用词集合，从可用词集合中提取关键词，并生成每个指定网页的词向量；

分别为每个指定网页标注第二标签，将所述词向量划分至不同第二标签对应的集合中，作为不同主题类别的样本数据；及

将所述集合中的样本数据划分为训练集及验证集，利用训练集对神经网络模型进行训练，利用验证集对神经网络模型进行验证，当验证结果满足第一预设条件时，确定所述不同主题类型对应的分类模型。

具体地，不同的第二标签表示网页所属的不同主题类别，例如，旅游类、经济类、体育类、政治类、及娱乐类等。分别将不同主题类别的网页的词向量作为各主题类别对应的正样本。为了保证分类模型的准确性，在模型训练之前，还需构建负样本。以政治类网页为例，将第二标签为政治类的网页的词向量作为正样本，将第二标签为其他类别的网页的词向量作为负样本，最终确定不同主题类别对应的样本集合[x,y]，其中，x为某一主题类别网页对应的词向量，y为词向量对应的主题类别。

从每个主题类别的样本集中抽取80％的数据作为训练集[x1，y1]，剩下20％的数据作为验证集[x2，y2]，利用训练集[x1，y1]对深度神经网络模型进行训练，构建分类模型，并对经过训练后的分类模型进行调优，利用验证集[x2，y2]对调优后的分类模型进行验证，直到满足第一预设条件(例如，准确率大于或等于95％)为止。重复上述步骤，确定每个主题类别对应的分类模型。不同主题类别对应不同的分类模型，提高了网页主题分类的准确性，为后续从目标网页中预测目标信息的位置、提取目标信息打下良好的基础。

s3、确定所述目标信息对应的第一标签，将所述目标网页的网页源码输入识别出的主题类别中所述第一标签对应的位置预测模型中，预测所述目标信息出现在不同位置的位置信息列表；

具体地，第一标签表示待提取的目标信息的类别。以旅游类网页为例，该类网页的第一标签包括：天数、时间、人均费用、同伴等。在本实施例中，同一主题类别不同第一标签对应不同的位置预测模型。因此，根据上述步骤确定目标网页所属的主题类别后，调用该主题类别中该第一标签对应的位置预测模型的模型文件，并将目标网页的网页源码输入该位置预测模型中，模型输出结果为目标信息可能出现在目标网页的网页源码中的不同位置的位置信息列表，及目标信息出现在不同位置的概率。

作为一种实施方式，所述位置预测模型的训练步骤包括：

分别为每个指定网页标注所述第二标签，根据第二标签将所述指定网页的网页源码划分至不同主题类别对应的集合中；

分别在每个指定网页的网页源码中标注不同的第一标签，分别将每个集合中的网页源码划分至各第一标签对应的子集合中，作为各主题类别下不同第一标签对应的样本数据；及

将所述子集合中的样本数据划分为训练集及验证集，利用训练集对循环神经网络模型进行训练，利用验证集对循环神经网络模型进行验证，当验证结果满足第二预设条件时，确定各主题类别下不同第一标签对应的位置预测模型。

需要说明的是，相同主题类别的网页有着类似的网页结构：标签(即为第一标签)及属性数据。例如，旅游类网页的第一标签包括：天数、时间、人均费用、同伴，以及主题和正文信息等；政治类网页的第一标签包括：主题、正文、时间、媒体以及相关信息；经济类网页的第一标签包括：经济政策、外交政策、股票信息、房产政策或者国家政策；体育类网页的第一标签包括：球星数据，球队比赛，比赛时间和比赛比分等；娱乐类网页的第一标签包括：明星，事件，时间等。因此，分别为上述指定网页的网页源码标注多个第一标签后，将某一主题类别的指定网页的网页源码中标注了同一第一标签的网页源码作为该主题类别中该第一标签对应的的位置预测模型的样本数据。需要说明的是，鉴于一个网页的网页源码中包含不同的第一标签，因此，同一个网页的网页源码可能同时出现在不同第一标签对应的样本数据中。另外，样本数据既包括正样本也包括负样本，这里不再说明。

从该主题类别中该第一标签的样本数据中抽取80％的数据作为训练集，剩下20％的数据作为验证集，利用训练集对循环神经网络模型进行训练，构建位置预测模型，并对经过训练后的位置预测模型进行调优，利用验证集对调优后的位置预测模型进行验证，直到满足第二预设条件(例如，准确率大于或等于95％)为止。重复上述步骤，确定每个主题类别中每个第一标签对应的位置预测模型。不同主题类别、不同的第一标签对应不同的位置预测模型，提高了位置预测的准确性，为后续从目标网页中提取目标信息打下良好的基础。

s4、从所述位置信息列表中筛选出预设数量的概率最高的位置，并从筛选出的位置提取信息作为目标信息。

获取上述位置信息列表，从位置信息列表中读取目标信息出现在不同位置的概率，根据概率对不同的位置进行排序，选择排序靠前的预设数量(例如，3个)的位置作为目标信息所在的位置，并提取该预设数量的位置的信息作为目标信息。

在其他实施例中，为了提高预测目标信息所在位置的准确性，可以预先设置一个位置概率阈值，从位置信息列表中读取目标信息出现在不同位置的概率，将排序靠前的预设数量(例如，3个)、且概率大于或等于位置概率阈值的位置作为目标信息所在的位置，并提取该位置的信息作为目标信息。

上述实施例提出的网页目标信息的提取方法，通过为不同的主题类别的网页构建不同的分类模型，利用不同主题类别对应的分类模型对目标网页进行分类，提高目标网页主题分类的准确性；通过为不同主题类别的不同信息类别构建不同的位置预测模型，利用不同主题类别下不同信息类别对应的位置预测模型，预测目标网页中目标信息所在的位置的位置信息列表，提高了预测目标信息所在位置的准确性；选择位置信息列表中概率排序靠前且概率大于概率阈值的位置，从该位置提取信息，作为目标信息，提高了目标信息提取的准确性。

基于上述实施例，还提出本发明网页目标信息的提取方法的另一较佳实施例。

在本实施例中，所述步骤s1、s3及s4的实施方式与上述实施例中的内容一致，与上述实施例的区别在于，所述步骤s2可以替换为：

分别计算所述目标网页的词向量与预先确定的各主题类别的词向量之间的相似度，当相似度最大值大于或等于预设相似度阈值时，将相似度最高的主题类别作为所述目标网页所属的主题类别；

当相似度最大值小于预设相似度阈值时，接收针对目标网页所属的主题类别的分类指令，根据分类指令中包含的主题类别作为目标网页所属的主题类别。

其中，所述预先确定的各主题类别的词向量通过以下步骤得到：

分别获取各主题类别下指定网页的网页源码，分别对所述网页源码进行分词处理，得到各网页的可用词集合。根据tf-idf算法计算各网页的可用词集合中各个词汇的重要程度，针对每个网页选择重要程度最高的前n个词汇作为该网页的关键词。针对每个网页，通过word2vec模型计算选择出的n个关键词的词向量，通过关键词的词向量计算网页的词向量。按照这种方式计算得到所有网页的词向量。

将每个主题类别中的所有网页的关键词汇总，分别统计各主题类别中所有网页的各关键词的词频，词频体现了该关键词的权重。选择m个词频最大的关键词作为各主题类别的关键词，通过word2vec模型分别计算主题类别中汇总的各个关键词的词向量，根据关键词的词向量和词频计算主题类别的词向量，将各主题类别的词向量作为各主题类别对应的聚类中心。

在确定各主题类别的词向量后，通过余弦相似度的计算公式，分别计算目标网页的词向量与上述各主题类别的词向量之间的相似度，并筛选出与目标网页的词向量相似度最大的主题类别的词向量。可以理解的是，相似度越高，目标网页主题分类准确性也越高，为了提高目标网页主题分类的准确性，预先设置一个相似度阈值，当相似度最大值大于或等于该相似度阈值时，将该相似度最大值对应的主题类别作为目标网页所属的主题类别；当相似度最大值小于该相似度阈值时，接收针对目标网页所属的主题类别的分类指令，根据分类指令中包含的主题类别作为目标网页所属的主题类别。

上述实施例提出的网页目标信息的提取方法，利用聚类方法，预先确定各主题类别对应的聚类中心(词向量)，通过计算目标网页的词向量与预先确定的各主题类别对应的聚类中心的相似度，选择满足预设条件的相似度最大值对应的主题类别作为目标网页所属的主题类别，使网页主题分类更准确。

本发明还提供一种电子装置。参照图2所示，为本发明电子装置1较佳实施例的示意图。

在本实施例中，电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有数据处理功能的终端设备，所述服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器。

该电子装置1包括存储器11、处理器12，通信总线13，及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，sd或dx存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备，例如该电子装置1上配备的插接式硬盘，智能存储卡(smartmediacard,smc)，安全数字(securedigital,sd)卡，闪存卡(flashcard)等。进一步地，存储器11还可以既包括该电子装置1的内部存储单元也包括外部存储设备。

存储器11不仅可以用于存储安装于该电子装置1的应用软件及各类数据，例如网页目标信息的提取程序10等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如网页目标信息的提取程序10等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如wi-fi接口)，通常用于在该电子装置1与其他电子设备之间建立通信连接。

图2仅示出了具有组件11-14的电子装置1，本领域技术人员可以理解的是，图2示出的结构并不构成对电子装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括显示器(display)、输入单元比如键盘(keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。

可选地，在一些实施例中，显示器可以是led显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(organiclight-emittingdiode，oled)触摸器等。其中，显示器也可以称为显示屏或显示单元，用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

在图2所示的电子装置1实施例中，作为一种计算机存储介质的存储器11中存储网页目标信息的提取程序10的程序代码，处理器12执行网页目标信息的提取程序10的程序代码时，实现如下步骤：

分词步骤：接收从目标网页中提取目标信息的请求，获取所述目标网页的网页源码，对获取到的网页源码进行分词处理得到所述目标网页的可用词集合。

信息提取请求中携带目标网页信息及待提取的目标信息，根据待提取的目标信息确定目标信息对应的标签。

主题分类步骤：根据所述目标网页的可用词集合计算所述目标网页的词向量，将计算得到的词向量输入预先确定的各主题类别对应的分类模型，识别出所述目标网页所属的主题类别。

需要说明的是，不同主题类别对应的分类模型的模型输出结果表示目标网页所属的主题类别为各主题类别的概率。

作为一种实施方式，所述预先确定的分类模型的训练步骤包括：

获取指定网页的网页源码，利用上述步骤计算预先确定的网页的词向量。然后，根据网页所属的主题类别为预先确定的网页标注第二标签。具体地，不同的第二标签表示网页所属的不同主题类别，例如，旅游类、经济类、体育类、政治类、及娱乐类等。分别将不同主题类别的网页及对应的词向量作为不同主题类别对应的正样本。为了保证分类模型的准确性，在模型训练之前，还需构建负样本。以政治类网页为例，将第二标签为政治类的网页的词向量作为正样本，将第二标签为其他类别的网页的词向量作为负样本，最终确定不同主题类别对应的样本集合[x,y]，其中，x为某一主题类别网页对应的词向量，y为词向量对应的主题类别。

位置预测步骤：确定所述目标信息对应的第一标签，将所述目标网页的网页源码输入识别出的主题类别中所述第一标签对应的位置预测模型中，预测所述目标信息出现在不同位置的位置信息列表。

作为一种实施方式，所述位置预测模型的训练步骤包括：

分别为每个指定网页标注所述第二标签，根据第二标签将所述指定网页的网页源码划分至不同主题类别对应的集合中；

信息提取步骤：从所述位置信息列表中筛选出预设数量的概率最高的位置，并从筛选出的位置提取信息作为目标信息。

上述实施例提出的电子装置1，通过为不同的主题类别的网页构建不同的分类模型，利用不同主题类别对应的分类模型对目标网页进行分类，提高目标网页主题分类的准确性；通过为不同主题类别的不同信息类别构建不同的位置预测模型，利用不同主题类别下不同信息类别对应的位置预测模型，预测目标网页中目标信息所在的位置的位置信息列表，提高了预测目标信息所在位置的准确性；选择位置信息列表中概率排序靠前且概率大于概率阈值的位置，从该位置提取信息，作为目标信息，提高了目标信息提取的准确性。

可选地，在其他的实施例中，网页目标信息的提取程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行，以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。例如，参照图3所示，为图2中网页目标信息的提取程序10的模块示意图，该实施例中，网页目标信息的提取程序10可以被分割为分词模块110、主题分类模块120、位置预测模块130及信息提取模块140，所述模块110-140所实现的功能或操作步骤均与上文类似，此处不再详述，示例性地，例如其中：

分词模块110，用于接收从目标网页中提取目标信息的请求，获取所述目标网页的网页源码，对获取到的网页源码进行分词处理得到所述目标网页的可用词集合；

主题分类模块120，用于根据所述目标网页的可用词集合计算所述目标网页的词向量，将计算得到的词向量输入预先确定的各主题类别对应的分类模型，识别出所述目标网页所属的主题类别；

位置预测模块130，用于确定所述目标信息对应的第一标签，将所述目标网页的网页源码输入识别出的主题类别中所述第一标签对应的位置预测模型中，预测所述目标信息出现在不同位置的位置信息列表；及

信息提取模块140，用于从所述位置信息列表中筛选出预设数量的概率最高的位置，并从筛选出的位置提取信息作为目标信息。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质中包括网页目标信息的提取程序10，所述网页目标信息的提取程序10被处理器执行时实现如下操作：

信息提取步骤：从所述位置信息列表中筛选出预设数量的概率最高的位置，并从筛选出的位置提取信息作为目标信息。

本发明之计算机可读存储介质的具体实施方式与上述网页目标信息的提取方法的具体实施方式大致相同，在此不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴壮伟
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人

上一篇：一种消息推送方法、存储介质和服务器与流程
上一篇：一种BB哨自动组装工艺的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。