基于深度学习的网页正文抽取方法与流程

文档序号：24726821发布日期：2021-04-16 16:16阅读：来源：国知局

技术总结
本发明公开了基于深度学习的网页正文抽取方法，包括如下步骤：1)根DOM节点到叶子DOM节点的数据集准备；2)根DOM节点到叶子DOM节点的数据集构建；3)对根DOM节点到叶子DOM节点的数据集中的数据进行标注；4)利用Fasttext对路径的标签进行预训练和编码；5)训练标签路径文本的LSTM分类模型；6)LSTM模型对标签路径文本进行预测；7)还原抽取到的网页正文。本发明属于互联网技术领域，具体是指提高简历网页正文抽取正确率的基于深度学习的网页正文抽取方法。法。法。

技术研发人员：陈前华
受保护的技术使用者：广东电子工业研究院有限公司
技术研发日：2021.01.09
技术公布日：2021/4/17