一种网页学术报告信息抽取方法和系统与流程

文档序号:11407247阅读:来源:国知局

技术特征:

技术总结
本发明公开了一种网页学术报告信息抽取方法和系统,包括:将学术报告网页html标签和学术报告的内容开头替换为对应的固定表示标记,根据相邻两个固定表示标记对学术报告进行分割,得到初步分割结果集合;删除初步分割结果集合中匹配预设黑名单的初步分割结果,得到有效分割结果集合;获取有效分割结果集合中各有效分割结果的开头位置和结尾位置,根据所述开头位置和结尾位置合并提取各有效分割结果对应的属性内容;当属性出现重复,根据属性排列方式将不同属性对应的属性内容分配到相应的学术报告中,并将多个报告中出现且仅出现一次的属性添加到本网页其他报告中;获取学术报告的报告人信息和时间并匹配到学术报告中报告人信息和时间中。

技术研发人员:赵姝;谭世成;陈洁;陈喜;唐杰;张燕平
受保护的技术使用者:安徽大学
技术研发日:2017.03.22
技术公布日:2017.09.01
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1