基于深度学习的网页模式识别方法及视觉结构学习方法

文档序号：9547266阅读：3017来源：国知局

基于深度学习的网页模式识别方法及视觉结构学习方法
【专利说明】
[0001]
技术领域
本发明涉及互联网的技术领域，具体说是一种基于深度学习的网页模式识别方法及视觉结构学习方法。
【背景技术】
[0002]网页识别是数据采集系统及搜索引擎中的关键步骤。目前，对网页识别大多采取如下方法:人工设定识别规则对网页进行识别或者基于其他非深度学习的机器学习方法对网页进行识别。
[0003]但出于自然语言具有高度抽象性，机器对纯文本的模式识别难以获得理想的识别效果。
[0004]

【发明内容】

本发明要解决的技术问题是提供一种基于深度学习的网页模式识别方法及视觉结构学习方法。
[0005]本发明为解决公知技术中存在的技术问题所采取的技术方案是:
本发明的基于深度学习的网页模式识别方法，包括以下步骤:
A、非格式化文本，以网页HTML的Text源码作为算法输入；
B、将上述网页HTML的Text源码进行预处理；
C、设计堆叠降噪自动编码器SDAE，作为网页特征的深度学习算法；采用神经网络语言模型对堆叠降噪自动编码器SDAE的输入进行初始化，上一步骤中得到的输出作为本步骤中神经网络语言模型的输入，得到Text源码的初始特征向量输出，并将此初始特征向量作为堆叠降噪自动编码器SDAE的输入，得到相应网页的特征向量；
D、采用Softmax回归对通过堆叠降噪自动编码器SDAE学习到的文本特征向量进行分类，特征向量的分类结果即为相应网页的识别结果；
E、将上述分类结果进行输出。
[0006]本发明还可以采用以下技术措施:
步骤B中，使用Text源码中的HTML语言标签作为原始文本进行机器学习。
[0007]步骤B中，使用包含所有自然语言内容及HTML语言标签的Text源码作为原始文本进行机器学习时，对Text源码进行分词处理。
[0008]步骤B中，使用包含自然语言内容及部分HTML语言标签的Text源码作为原始文本进行机器学习时，对Text源码进行分词处理。
[0009]步骤B中，使用Text源码的自然语言内容作为原始文本进行机器学习时，对Text源码进行分词处理。
[0010]采用海量分词算法对网页HTML的Text源码进行分词。
[0011]采用结巴分词算法对网页HTML的Text源码进行分词。
[0012]步骤C中，采用神经网络语言模型的文段转向量算法Paragraph2VeC对堆叠降噪自动编码器SDAE的输入向量进行初始化。
[0013]步骤D中采用L2正则随机梯度下降逻辑回归分类器对通过堆叠降噪自动编码器SDAE学习到的特征向量进行分类。
[0014]本发明的基于深度学习的网页视觉结构学习方法，用机器学习的方法学习HTML的Text源码的结构，并以此学习网页的视觉结构。
[0015]本发明具有的优点和积极效果是:
本发明的基于深度学习的网页模式识别方法及视觉结构学习方法中，用自然语言处理的方法处理Text源码，更为关注网页HTML的Text源码的结构而非内容，用深度学习的方法进行文本特征学习，对深度算法SDAE初始化方法的改进:使用Paragraph2Vec算法作为SDAE输入向量的初始化算法，从而取代SDAE惯用的随机初始化方法。从而可以最大化保留文本特征，减少特征丢失，有利于避免SDAE进入局部最优解，有效地保证SDAE的收敛。
[0016]本发明用自然语言处理(Natural Language Processing，简称NLP)的方法处理人工语言(Artificial Language，简称AL)，用深度学习(Deep Learning，DL)的方法及神经网络语言模型对HTML的Text源码进行特征学习，通过本发明的方法可对各类型网站，如博客、论坛、资讯等的网页模式进行精确识别，识别准确率达99.99%-100%，识别率达全球顶尖水平。
【具体实施方式】
[0017]以下对本技术方案进行详细说明:
本发明的基于深度学习的网页模式识别方法，包括以下步骤:
A、非格式化文本，以网页超文本语言(HypertextMarkup Language)即HTML的Text源码作为算法输入；
B、将上述网页HTML的Text源码进行预处理；
C、设计堆叠降噪自动编码器(StackingDenoising Autoencoders),简称SDAE，作为网页特征的深度学习算法；采用神经网络语言模型(Neural Network Language Model)，简称NNLM，对堆叠降噪自动编码器SDAE的输入进行初始化，上一步骤中得到的输出作为神经网络语言模型NNLM的输入，得到Text源码的初始特征向量输出，并将此初始特征向量作为堆叠降噪自动编码器SDAE的输入，得到相应网页的特征向量；
D、采用Softmax回归对通过堆叠降噪自动编码器SDAE学习到的文本特征向量进行分类，特征向量的分类结果即为相应网页的识别结果；
E、将上述分类结果进行输出。
[0018]在保留自然语言内容的预处理步骤中，需要使用分词，而在仅保留HTML语言标签时，无需分词。
[0019]步骤B中，使用Text源码中的HTML语言标签作为原始文本进行机器学习，此时无需分词，无需使用分词算法。
[0020]步骤B中，使用包含所有自然语言内容及HTML语言标签的Text源码作为原始文本进行机器学习时，对Text源码进行分词处理。
[0021]步骤B中，使用包含自然语言内容及部分HTML语言标签的Text源码作为原始文本进行机器学习时，对Text源码进行分词处理。
[0022]步骤B中，使用Text源码的自然语言内容作为原始文本进行机器学习时，对Text源码进行分词处理。
[0023]采用海量分词算法对网页HTML的Text源码进行分词。
[0024]采用结巴分词算法对网页HTML的Text源码进行分词。
[0025]选用海量分词算法或结巴分词算法对最终结果影响不大。
[0026]步骤C中，采用神经网络语言模型NNLM的文段转向量算法Paragraph2Vec对堆叠降噪自动编码器SDAE的输入向量进行初始化。
[0027]步骤D中采用L2正则随机梯度下降逻辑回归分类器(L2_Stochastic GradientDescent Logistic Regress1n)对通过堆叠降噪自动编码器SDAE学习到的特征向量进行分类。上述逻辑回归分类器是Softmax回归(η分类)分类中当η=2时的特殊形式。
[0028]步骤D中设置为二分类模式，两种类别分别对应于网页是导航页或非导航页。如果是多分类模式，如论坛页面/资讯页面/微博页面等等，则采用Softmax回归进行多类别分类。
[0029]本发明的基于深度学习的网页视觉结构学习方法，用机器学习的方法学习HTML的Text源码的结构，并以此学习网页的视觉结构。
[0030]以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例公开如上，然而，并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当然会利用揭示的技术内容作出些许更动或修饰，成为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均属于本发明技术方案的范围内。
【主权项】
1.一种基于深度学习的网页模式识别方法，包括以下步骤: A、非格式化文本，以网页HTML的Text源码作为算法输入； B、将上述网页HTML的Text源码进行预处理； C、设计堆叠降噪自动编码器SDAE作为网页特征的深度学习算法；采用神经网络语言模型对堆叠降噪自动编码器SDAE的输入进行初始化，上一步骤中得到的输出作为本步骤中神经网络语言模型的输入，得到Text源码的初始特征向量输出，并将此初始特征向量作为堆叠降噪自动编码器SDAE的输入，得到相应网页的特征向量； D、采用Softmax回归对通过堆叠降噪自动编码器SDAE学习到的文本特征向量进行分类，特征向量的分类结果即为相应网页的识别结果； E、将上述分类结果进行输出。2.根据权利要求1所述的基于深度学习的网页模式识别方法，其特征在于:步骤B中，使用Text源码中的HTML语言标签作为原始文本进行机器学习。3.根据权利要求1所述的基于深度学习的网页模式识别方法，其特征在于:步骤B中，使用包含所有自然语言内容及HTML语言标签的Text源码作为原始文本进行机器学习时，对Text源码进行分词处理。4.根据权利要求1所述的基于深度学习的网页模式识别方法，其特征在于:步骤B中，使用包含自然语言内容及部分HTML语言标签的Text源码作为原始文本进行机器学习时，对Text源码进行分词处理。5.根据权利要求1所述的基于深度学习的网页模式识别方法，其特征在于:步骤B中，使用Text源码的自然语言内容作为原始文本进行机器学习时，对Text源码进行分词处理。6.根据权利要求3、4或5所述的基于深度学习的网页模式识别方法，其特征在于:采用海量分词算法对网页HTML的Text源码进行分词。7.根据权利要求3、4或5所述的基于深度学习的网页模式识别方法，其特征在于:采用结巴分词算法对网页HTML的Text源码进行分词。8.根据权利要求1、2、3、4或5所述的基于深度学习的网页模式识别方法，其特征在于:步骤C中，采用神经网络语言模型的文段转向量算法Paragraph2VeC对堆叠降噪自动编码器SDAE的输入向量进行初始化。9.根据权利要求1所述的基于深度学习的网页模式识别方法，其特征在于:步骤D中采用L2正则随机梯度下降逻辑回归分类器对通过堆叠降噪自动编码器SDAE学习到的特征向量进行分类。10.一种基于权利要求1所述的基于深度学习的网页模式识别方法的网页视觉结构学习方法，其特征在于:用机器学习的方法学习HTML的Text源码的结构，并以此学习网页的视觉结构。
【专利摘要】一种基于深度学习的网页模式识别方法，包括以下步骤：以非格式化文本，网页的超文本标记语言的Text源码作为算法输入；将上述源码进行分词；设计堆叠降噪自动编码器，作为网页的特征学习算法；采用神经网络语言模型对SDAE的输入进行初始化；采用分类算法对通过SDAE学习到的文本特征向量进行分类；将上述分类结果进行输出。一种网页视觉结构学习方法，用机器学习的方法学习HTML的Text源码的结构，并以此学习网页的视觉结构。本发明用自然语言处理的方法处理人工语言，用深度学习的方法及神经网络语言模型对HTML的Text源码进行特征学习，通过本发明可对各类型网站，如博客、论坛、资讯等的网页模式进行精确识别。
【IPC分类】G06F17/27, G06F17/30, G06N3/08
【公开号】CN105302884
【申请号】CN201510670711
【发明人】李志杰, 刘丽丽, 张作职
【申请人】天津海量信息技术有限公司
【公开日】2016年2月3日
【申请日】2015年10月19日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李志杰;刘丽丽;张作职;
技术所有人：天津海量信息技术有限公司;
我是此专利的发明人

上一篇：一种全文数据的提取方法和装置的制造方法
上一篇：一种基于时间的媒体文件的管理方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。