一种基于关键词匹配的正文抽取方法与流程

文档序号：11177250阅读：来源：国知局

技术特征：

技术总结
本发明公开了一种基于关键词匹配的正文抽取方法，通过统计网页源代码Keywords标签中的关键词并以该关键词建立标准库，再构建相应的DOM树；层次遍历DOM树，统计DOM树中所有节点包含关键词的数量，以节点与其父节点所含关键词数量的比率关系来计算节点的关键词权重，并通过对节点子女最大关键词权重的判断，有效甄别并定位包含正文文本的正文节点，完成正文抽取；针对关键词匹配方法不能有效抽取的短文本问题，提出相似度匹配方法，其将段落文本和页面标题转换成8位二进制数据，通过海明距离判断相似性实现短文本的正文抽取。本发明以网页自设置的关键词进行匹配，不需要训练数据，也不需要进行样本学习，脱离了网站结构的限制，具有较好的通用性。

技术研发人员：武小年;孟川;王青芝;叶志博;奚玉昂;张润莲
受保护的技术使用者：桂林电子科技大学
技术研发日：2017.03.07
技术公布日：2017.10.03

完整全部详细技术资料下载

当前第2页1 2