网页的处理方法及装置、存储介质、电子装置与流程

文档序号：16248444发布日期：2018-12-11 23:47阅读：112来源：国知局

本发明涉及通信领域，具体而言，涉及一种网页的处理方法及装置、存储介质、电子装置。

背景技术

现有技术提供的提取网页文本内容的方案中，都是基于网页标签的内容统计推断网页内容是否为主体内容，该技术与人工设定的参数有很大的关联，需要根据经验对不同的网页设定不同的参。网页在浏览器中加载完毕后，将网页中的内容进行拆分，然后由浏览器中的匹配规则文件对网页内容进行定位，抽取出所需的字段内容并显示出来，从而用户可以看到文本筛选后的网页，使用户能够方便和专注的阅读。

中文网页文本主体内容提取可以看作一个分类问题，即对网页文本内容是否为主体内容进行分类，根据分类结果为主体内容进行提取。但现有技术与人工设定的参数有很大的关联，需要根据经验对不同的网页设定不同的参数，这些方法对参数的设置要求很高，若参数设置不当，则网页文本提取不准确。

针对相关技术中的上述问题，目前尚未存在有效的解决方案。

技术实现要素：

本发明实施例提供了一种网页的处理方法及装置、存储介质、电子装置，以至少解决相关技术中用于提取网页的参数是根据经验与网页结构的特点事先设置的，因此会由于参数设置的不当导致网页文本的提取的不准确的问题。

根据本发明的一个实施例，提供了一种网页的处理方法，包括：获取训练样本中存在第一语言的网页的文本属性值，其中，所述文本属性值包括：用于指示在所述网页中与所述第一语言对应的第一参数值、用于指示所述网页是否以第一语言为主体文本的第二参数值；将所述第一参数值作为感知器神经网络的输入变量以确定用于指示所述网页是否为以第一语言为主体文本的第三参数值；根据所述第二参数值和所述第三参数值确定所述感知器神经网络中种群个体的适应值；对所述种群中适应值最优的个体进行解码得到所述感知器神经网络的连接权值和偏置值；基于所述连接权值和偏置值确定待处理网页是否以第一语言为主体文本。

根据本发明的另一个实施例，提供了一种网页的处理装置，包括：第一获取模块，用于获取训练样本中存在第一语言的网页的文本属性值，其中，所述文本属性值包括：用于指示在所述网页中与所述第一语言对应的第一参数值、用于指示所述网页是否以第一语言为主体文本的第二参数值；第一确定模块，用于将所述第一参数值作为感知器神经网络的输入变量确定用于指示所述网页是否为以第一语言为主体文本的第三参数值；第二确定模块，用于根据所述第二参数值和所述第三参数值确定所述感知器神经网络中种群个体的适应值；解码模块，用于对所述种群中适应值最优的个体进行解码得到所述感知器神经网络的连接权值和偏置值；第三确定模块，用于基于所述连接权值和偏置值确定待处理网页是否以第一语言为主体文本。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，由获取训练样本中存在第一语言的网页的文本属性值，基于该确定感知器神经网络中种群个体的适应值，进而确定感知器神经网络的连接权值和偏置值，从而在有待处理的网页文本时，可以通过该感知器神经网络的连接权值和偏置值确定该新网页文本是否以第一语言为主体文本，可见，对于网页主体文本的确定不需要根据事先设置参数的来确定，而是通过训练的感知器神经网络确定网页的主体文本，从而解决了相关技术中用于提取网页的参数是是根据经验与网页结构的特点事先设置的，因此会由于参数设置的不当导致网页文本的提取的不准确的问题，达到了提高用户体验的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的网页的处理方法的终端的硬件结构框图；

图2是根据本发明实施例的网页的处理方法流程图；

图3是根据本发明实施例的网页的处理装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种网页的处理方法的终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的网页的处理方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(networkinterfacecontroller，简称为nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radiofrequency，简称为rf)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种网页的处理方法，图2是根据本发明实施例的网页的处理方法流程图，如图2所示，该流程包括如下步骤：

步骤s202，获取训练样本中存在第一语言的网页的文本属性值，其中，文本属性值包括：用于指示在网页中与第一语言对应的第一参数值、用于指示网页是否以第一语言为主体文本的第二参数值；

步骤s204，将第一参数值作为感知器神经网络的输入变量以确定用于指示网页是否为以第一语言为主体文本的第三参数值；

步骤s206，根据第二参数值和第三参数值确定感知器神经网络中种群个体的适应值；

步骤s208，对种群中适应值最优的个体进行解码得到感知器神经网络的连接权值和偏置值；

步骤s210，基于连接权值和偏置值确定待处理网页是否以第一语言为主体文本。

通过上述步骤s102至步骤s110，获取训练样本中存在第一语言的网页的文本属性值，基于该确定感知器神经网络中种群个体的适应值，进而确定感知器神经网络的连接权值和偏置值，从而在有待处理的网页文本时(新的网页文本)，可以通过该感知器神经网络的连接权值和偏置值确定该新网页文本是否以第一语言为主体文本，可见，对于网页主体文本的确定不需要根据事先设置参数的来确定，而是通过训练的感知器神经网络确定网页的主体文本，从而解决了相关技术中用于提取网页的参数是是根据经验与网页结构的特点事先设置的，因此会由于参数设置的不当导致网页文本的提取的不准确的问题，达到了提高用户体验的效果。

需要说明的是，本实施例中涉及到的第一语言可以是中文、韩文、日文等等，可以根据用户的需要进行设置。

在本实施例的可选实施方式中，对于本实施例步骤202中获取训练样本中存在第一语言的网页的文本属性值的方式，在本实施例中可以通过如下方式来实现：

步骤s202-1：获取存在第一语言的网页中第一语言的占比、第一语言的字符量、以及存在第一语言的网页的总的字符量；

步骤s202-2：根据占比和字符量确定占比的均值、占比的方差、字符量的均值、字符量的方差；

步骤s202-3：将第一语言的占比、第一语言的字符量、存在第一语言的网页的总的字符量、占比的均值、占比的方差、字符量的均值、字符量的方差作为第一参数值；

步骤s202-4：基于第一参数值确定第二参数值。

下面以第一语言为中文为例，对于上述步骤s202-1至步骤s202-4，下进行举例说明，该步骤s202-1至步骤s202-4在本实施例的可选实施方式中可以包括：

步骤1，对number个网页，对每一个网页根据html的结构提取每一个存在中文内容的标签(一般都存在div标签中),放入标签信息列表labellist＝{l(1),l(2),.....l(i),....l(num)}中,其中num为标签数量，l(i)＝{l(i,j)}为标签信息j＝1,2；l(i,1)存放标签内容，l(i,2)存放是否为主体文本状态字。

步骤2，计算每个标签中中文占比inta与存在的中文字符数量(chinesenumber)；

步骤3，根据中文字符的编码,统计l(ki)中的中文字符数量cn(ki),与整个标签内容的文本字符数量an(ki)；

从而计算l(ki)的中文占比inta(ki)值，计算公式为:

inta(ki)＝cn(ki)/an(ki)

步骤4，根据中文占比inta(ki)值与中文字符数量cn(ki)，计算文本属性值power(ki)；

计算方式为：先将inta与cn归一化，具体公式如下：

norinta(i)＝(inta(i)-intamean)/stdinta

norcn(i)＝(cn(i)-cnmean)/stdcn

power(ki)＝norinta(i)*norcn(i)

其中:intamean表示inta的均值,stdinta表示inta的方差,cnmean表示cn的均值,stdcn表示cn的方差；

步骤5、得到每个标签信息的vector＝{intamean，stdinta，cnmean，stdcn，an(ki)，cn(ki)，power(ki)，l(ki,2)}八个参数。

其中，intamean所有标签中文占比的均值，stdinta所有标签中文占比的方差，cnmean所有标签中文字符数量的平均值；stdcncnmean所有标签中文字符数量的方差，cn(ki)中文字符数量,整个标签内容的文本字符数量an(ki)，l(ki,2)存放是否为主体文本状态字。

在本实施例的另一个可选实施方式中，可以通过以下方法步骤产生步骤s202至步骤s210中用于确定感知器神经网络的连接权值和偏置值的种群，该方法的步骤包括：

步骤11，设置所述三层感知器神经网络的dim个优化设计参数的上界lbj和下界ubj，其中下标j＝1,2....d；

步骤12，随机产生一个个体数量为popsize的第一种群pt，其中，所述第一种群中的每一个个体都存储有待优化设计的dim个的参数；

其中，下标i＝1,2,...,popsize，并且为所述pt中的第i个个体。

可选地，随机初始化的公式为：其中，下标j＝1,2,...,d，rand(0,1)为在[0,1]之间服从均匀分布的随机实数产生函数。

在本实施例的另一个可选实施方式中，通过以下方法步骤产生对所述种群中适应值最优的个体进行解码得到所述三层感知器神经网络的连接权值和偏置值：

步骤20：设置最大评价次数max_fes，初始当前评价次数fes＝0，令当前演化代数t＝0，计算所述第一种群pt中每个个体的适应值；

步骤21：令当前评价次数fes＝fes+popsize，对所述每个个体的适应值中的最优个体best^t保存；

步骤22：计算当前万有引力常数gt以及所述第一种群pt中每个个体的质量，其中，所述当前万有引力常数gt通过以下公式确定：

步骤23：根据所述当前万有引力常数gt以及每个个体的质量确定所述第一种群pt中的当前精英个体数量kbestt，其中，所述当前精英个体数量kbestt通过以下公式确定：

步骤24：更新所述第一种群pt中的每一个个体的加速度、速度以及位置，得到第二种群，并计算所述第二种群中的每一个个体的适应值，令当前评价次数fes＝fes+popsize；

步骤25：在所述第二种群中生成中间混沌因子cf；

步骤26：在所述第二种群的[1,popsize]间随机产生一个正整数r1，在[1,popsize]间随机产生一个不等于所述r1的正整数r2，并计算所述中间混沌因子cf；

步骤27：生成个体u^t，其中，生成公式如下：

步骤28：计算所述个体u^t的适应值fit(u^t)，如果所述个体u^t的适应值fit(u^t)优于的适应值则转到步骤29，否则转到步骤26；

步骤29：令所述当前演化代数t＝t+1，保存所述第二种群中的最优个体best^t；在当前评价次数fes大于max_fes后，将得到的最优个体best^t解码为所述三层感知器神经网络的连接权值和偏置值。

另外，对于本实施例中确定中间混沌因子cf的方式可以是：

步骤30：初始化一个中间混沌因子，并设置所述初始化中间混沌因子的更新次数num；

步骤31：设置初始化中间混沌因子为第一范围值之间的随机实数，如果所述初始化中间混沌因子等于第二预设值则重新生成所述初始化中间混沌因子，直到所述初始化中间混沌因子不等于第二预设值，其中，所述第二预设值在所述第一范围值之中；

步骤32：令计算器ki＝1，如果所述计算器ki大于所述num，随机选择一个个体，对所述个体进行混沌局部搜索，否则转到步骤33；

步骤33：对所述初始换中间混沌因子进行更新，得到所述中间混沌因子cf，公式如下：cf＝4×cf×(1-cf)；

步骤34，如果计算器ki＝ki+1，转到步骤32。

下面结合具体的实施方式对本实施例中的方法步骤进行详细描述，该具体实施方式中提供了一种引力搜索优化的中文网页文本主体提取方法，该方法的步骤包括：

步骤s302，根据标签中的7个参数作为输入，一个参数作为输出进行文本训练；需要说明的是，本实施例中参数优选为7个，也可以根据需要设置其他个数。

步骤s304，根据文本训练结果得到神经网络模型；

步骤s306，新文本根据训练的神经网络模型确定所属文本类型。

首先，对于步骤s302中进行文本训练的方式包括以下方法步骤：

步骤s302-1，对number个网页，对每一个网页根据html的结构提取每一个存在中文内容的标签(一般都存在div标签中),放入标签信息列表labellist＝{l(1),l(2),.....l(i),....l(num)}中,其中num为标签数量，l(i)＝{l(i,j)}为标签信息j＝1,2；l(i,1)存放标签内容，l(i,2)存放是否为主体文本状态字。

步骤s302-2，计算每个标签中中文占比inta与存在的中文字符数量(chinesenumber)；

步骤s302-3，根据中文字符的编码,统计l(ki)中的中文字符数量cn(ki),与整个标签内容的文本字符数量an(ki)；

从而计算l(ki)的中文占比inta(ki)值，计算公式为：

inta(ki)＝cn(ki)/an(ki)；

步骤s302-4，根据中文占比inta(ki)值与中文字符数量cn(ki),计算文本属性值power(ki)；计算方式为：先将inta与cn归一化，具体公式如下：

norinta(i)＝(inta(i)-intamean)/stdinta

norcn(i)＝(cn(i)-cnmean)/stdcn

power(ki)＝norinta(i)*norcn(i)；

其中:intamean表示inta的均值,stdinta表示inta的方差,cnmean表示cn的均值,stdcn表示cn的方差。

步骤s302-5，得到每个标签信息的vector＝{intamean，stdinta，cnmean，stdcn，an(ki)，cn(ki)，power(ki)，l(ki,2)}八个参数。

intamean所有标签中文占比的均值，stdinta所有标签中文占比的方差，cnmean所有标签中文字符数量的平均值；stdcncnmean所有标签中文字符数量的方差，cn(ki)中文字符数量,整个标签内容的文本字符数量an(ki)，l(ki,2)存放是否为主体文本状态字。

对于步骤s304中训练神经网络模型的方式包括以下方法步骤：

步骤s304-1，提取训练样本，将前80％设置为神经网络的训练数据集，其中数据量为tranum组数据，后20％设置为测试数据集，其中数据量为testnum组数据；

步骤s304-2，用户初始化参数，种群大小popsize，最大评价次数max_fes，感知器神经网络隐含层神经元的个数hn，设置反向学习因子obl；

步骤s304-3，令当前演化代数t＝0，当前评价次数fes＝0；

步骤s304-4，令三层感知器神经网络的输入变量为{intamean，stdinta，cnmean，stdcn，an(ki)，cn(ki)，power(ki)}，输出为l(i,2)(主体标志)，然后确定三层感知器神经网络的隐含层和输出层的传递函数，并计算三层感知器的优化设计参数个数dim＝hn×8+1；

步骤s304-5，设置三层感知器的dim个优化设计参数的上界lbj和下界ubj，其中j＝1,2....d；

步骤s304-6，随机产生初始种群其中下标i＝1,2,...,popsize，并且为种群pt中的第i个个体，其随机初始化公式为：

其中j＝1,2,...,d，表示第i个个体的位置，存储了三层感知器的dim个优化设计参数的值，表示第i个个体在每一维度上的速度大小，rand(0,1)为在[0,1]之间服从均匀分布的随机实数产生函数；

步骤s304-7，计算种群pt中每个个体的适应值；

步骤s304-8，令当前评价次数fes＝fes+popsize；

步骤s304-9，保存种群pt中的最优个体best^t；

步骤s304-10，按以下公式计算当前万有引力常数gt：

步骤s304-11，计算种群中每个个体的质量；

步骤s304-12，按以下公式计算当前精英个体数量kbestt：

步骤s304-13，更新种群中的个体的加速度：

步骤s304-14，更新种群个体的速度与位置；

步骤s304-15，计算种群每个个体的适应值；

步骤s304-16，令当前评价次数fes＝fes+popsize；

步骤s304-17，生成中间混沌因子：包括以下步骤：

步骤s304-171，设置中间混沌因子更新次数num；

步骤s304-172，令中间混沌因子cf为[0,1]之间的随机实数，如果cf等于0.25，0.5或0.75则重新生成cf，直到cf不等于0.25，0.5或0.75。

步骤s304-173，令计算器ki＝1；

步骤s304-174，如计算器ki大于num，转到步骤s304-18，否则转到步骤s304-175。

步骤s304-175，对中间混沌因子cf进行更新，更新公式如下：

cf＝4×cf×(1-cf)

步骤s304-176，计算器ki＝ki+1，转到步骤s304-174。

步骤s304-18，随机选择一个个体，对该个体进行混沌局部搜索得到个体u^t，具体操作如下：

步骤s304-181，在[1,popsize]间随机产生一个正整数r1；

步骤s304-182，在[1,popsize]间随机产生一个不等于r1的正整数r2，计算中间混沌因子cf；

步骤s304-183，生成u^t，生成公式为：

其中kj＝1,2...d；

步骤s304-184，计算个体u^t的适应值fit(u^t)；如果u^t的适应值fit(u^t)优于的适应值则转到步骤s304-19，否则转到步骤s304-182；

步骤s304-19，令当前演化代数t＝t+1；

步骤s304-20，保存种群pt中的最优个体best^t；

步骤s304-21，重复步骤s304-1至步骤s304-21直至当前评价次数fes达到max_fes后结束，得到的最优个体best^t解码为三层感知器神经网络的连接权值和偏置值。

对于步骤s306中新文本根据训练的神经网络模型确定所属文本类型的方式包括以下方式：

每个标签信息的vector＝{intamean，stdinta，cnmean，stdcn，an(ki)，cn(ki)，power(ki)}；输入得到l，就可以判断该便签是否为主体，从而提取网页主体。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种网页的处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的网页的处理装置的结构框图，如图3所示，该装置包括：第一获取模块402，用于获取训练样本中存在第一语言的网页的文本属性值，其中，文本属性值包括：用于指示在网页中与第一语言对应的第一参数值、用于指示网页是否以第一语言为主体文本的第二参数值；第一确定模块404，与第一获取模块402耦合连接，用于将第一参数值作为感知器神经网络的输入变量确定用于指示网页是否为以第一语言为主体文本的第三参数值；第二确定模块406与第一确定模块404耦合连接，用于根据第二参数值和第三参数值确定感知器神经网络中种群个体的适应值；解码模块408，与第二确定模块406耦合连接，用于对种群中适应值最优的个体进行解码得到感知器神经网络的连接权值和偏置值；第三确定模块410，与解码模块408耦合连接，用于基于连接权值和偏置值确定待处理网页是否以第一语言为主体文本。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

步骤s1，将第一参数值作为感知器神经网络的输入变量以确定用于指示网页是否为以第一语言为主体文本的第三参数值；

步骤s2，根据第二参数值和第三参数值确定感知器神经网络中种群个体的适应值；

步骤s3，对种群中适应值最优的个体进行解码得到感知器神经网络的连接权值和偏置值；

步骤s4，基于连接权值和偏置值确定待处理网页是否以第一语言为主体文本。

可选地，在本实施例中，上述存储介质可以包括但不限于：u盘、只读存储器(read-onlymemory，简称为rom)、随机存取存储器(randomaccessmemory，简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张峰;聂颖;郑权
技术所有人：龙马智芯（珠海横琴）科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。