一种自动解析论坛网站数据的方法与流程

文档序号:19878320发布日期:2020-02-08 06:41阅读:889来源:国知局
一种自动解析论坛网站数据的方法与流程

本发明涉及互联网信息数据采集技术领域,具体涉及一种自动解析论坛网站数据的方法。



背景技术:

伴随着互联网的快速发展,社会公众和企业单位对互联网数据的依赖越来越强,互联网是提供信息的重要渠道,互联网上的信息数以亿计,由于硬件资源、网络资源的限制,人们很难快速准确的来获取自己关注的热点信息。

互联网上的论坛网站类型复杂,例如facebook、twitter等,除论坛网页信息外还会存在大量的的其它内容网页,这在一定程度上加大了用户搜索热点信息的难度。

目前存在的一些论坛采集工具,只可以在用户指定的论坛网站中进行搜索采集,有一定的局限性,而且通常也会对大量非论坛网页进行判断,从而大大降低了论坛数据采集的效率。



技术实现要素:

本发明旨在提供一种自动解析论坛网站数据,以解决目前论坛数据采集效率低下的问题。为此,本发明采用的具体技术方案如下:

根据本发明实施例,提供了一种自动解析论坛网站数据的方法,其中,所述方法包括以下步骤:

s1、生成论坛解析插件模板:收集论坛格式样例,生成论坛解析插件模板并存储在论坛解析插件模板中心库中;

s2、筛选论坛解析插件模板:获取待解析论坛网站的源码,根据源码从论坛解析插件模板中心库中筛选出合适的论坛解析插件模板;

s3、解析论坛网站数据:根据筛选好的论坛解析插件模板的解析规则对论坛网站数据进行解析并存储。

进一步地,s1的具体过程为:

s11:通过人工从互联网中收集大量论坛网站;

s12:对这些论坛网站的论坛格式进行分析,将具有共性的论坛网站整理成一个统一论坛格式,生成统一的版块页正则匹配规则、主题页正则匹配规则和回复页正则匹配规则;

s13:将这些论坛格式形成相应的论坛解析插件模板,每一种论坛格式都定义一个唯一标识,所述唯一标识都会生成一个对应的通用的论坛解析插件模板,并记录关联关系,存储于论坛解析插件模板中心库中。

进一步地,论坛格式可包括discuz、phpwind、byr、dvbbs、leadbbs、bbsxp、bbsmax和yxbbs等。

进一步地,s2的具体过程为:

s21:获取待解析论坛网站的网页源码,根据网站链接url判断该论坛网站是否已经有指定的论坛解析插件模板;若有,则退出筛选,进入s3;否则进入s22;

s22:加载论坛解析插件模板中心库中的所有论坛解析插件模板,存放在列表中,进入s23;

s23:扫描列表,判断是否已扫描到最后一个,若是,则进入s28,否则进入s24;

s24:根据论坛解析插件模板的版块页正则匹配规则对论坛网页进行版块页的提取,判断提取的版块页链接url个数是否大于0,若是,则进入s25;否则返回s23,扫描下一个论坛解析插件模板;

s25:随机选取s24提取的一个版块页链接url,根据论坛插件解析模板的主题页正则匹配规则对版块页进行主题页的提取,判断该版块页提取的主题页链接url个数是否大于0,若是,则进入s26;否则返回s23,扫描下一个论坛解析插件模板;

s26:随机选取s25提取的一个主题页链接url,根据论坛插件解析模板的回复页正则匹配规则对主题页进行回复页的提取,判断该主题页提取的回复页链接url个数是否大于0,若是,则进入s27;否则返回s23,扫描下一个论坛解析插件模板;

s27:指定该论坛插件解析模板为该论坛网站的论坛解析插件模板,并记录关联关系,以后该论坛网站都将默认用该论坛解析插件模块进行解析。

s28:对该论坛网站进行分析,形成一个新的论坛解析插件模板,并更新于论坛解析插件模板中心库中。

进一步地,步骤s3的具体过程为:

s31:获取论坛网页,下载论坛网页源码,将所述论坛网页源码放入待采集队列;

s32:从待采集队列获取起始采集网页链接url,根据指定的论坛解析插件模板中的版块页正则匹配规则,对起始采集网页提取版块页链接url,存放在第一队列中;

s33:从第一队列中逐个取出版块页链接url,根据指定的论坛解析插件模板中的主题页正则匹配规则,对版块页网页提取主题页链接url,存放在第二队列中;

s34:从第二队列中逐个取出主题页链接url,根据指定的论坛解析插件模板中配置好的主题页提取相关规则和回复页正则匹配规则,对主题页网页提取出主题页的标题、作者、发布时间、最后回复人、最后回复时间及回复页链接url,存放在第三队列中;

s35:从第三队列中逐个取出回复页链接url,根据指定的论坛解析插件模板中配置好的回复页提取相关规则,对回复页网页提取出回复人、回复内容和回复时间,生成结构化数据,记录主题页和回复页的结构化数据,并挖掘关联关系。

本发明采用上述技术方案,具有的有益效果是:本发明通过对互联网上面的论坛网站的网页数据进行判断,针对特定论坛网站筛选出了指定的论坛解析插件模板,为论坛网站数据的采集工作提供了精确的采集范围,同时更提高了对论坛网站数据采集的效率。

附图说明

为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。

图1是根据本发明实施例的一种自动解析论坛网站数据的方法的总体流程图;

图2是图1所示的方法的步骤s2的详细流程图;

图3是图1所示的方法的步骤s3的详细流程图。

具体实施方式

现结合附图和具体实施方式对本发明进一步说明。

如图1至3所示,根据本发明实施例的一种自动解析论坛网站数据的方法可包括以下步骤:

s1:收集论坛格式样例,生成论坛解析插件模板并存储在论坛解析插件模板中心库中。具体地,s1包括以下过程:

s11:通过人工从互联网中收集大量论坛网站,即,在互联网尽可能多的收集不同格式的论坛网站;

s12:对这些论坛网站的论坛格式进行分析,将具有共性的论坛网站整理成一个统一论坛格式,生成统一的版块页正则匹配规则、主题页正则匹配规则和回复页正则匹配规则;其中,论坛格式可包括discuz、phpwind、byr、dvbbs、leadbbs、bbsxp、bbsmax和yxbbs等;

s13:将这些论坛格式形成相应的论坛解析插件模板,每一种论坛格式都定义一个唯一标识,所述唯一标识都会生成一个对应的通用的论坛解析插件模板,并记录关联关系,存储于论坛解析插件模板中心库中。

s2:获取待解析论坛网站的网页源码,根据网页源码从论坛解析插件模板中心库中筛选出合适的论坛解析插件模板。具体地,s2可包括以下过程:

s21:获取待解析论坛网站的网页源码,根据网站链接url判断该论坛网站是否已经有指定的论坛解析插件模板;若有,则退出筛选,进入s3;否则进入s22;

s22:加载论坛解析插件模板中心库中的所有论坛解析插件模板,存放在列表list中,进入s23;

s23:扫描列表list,判断是否已扫描到最后一个,若是,则进入s28,否则进入s24;

s24:根据论坛解析插件模板的版块页正则匹配规则对论坛网页进行版块页的提取,判断提取的版块页链接url个数是否大于0,若是,则进入s25;否则返回s23,扫描下一个论坛解析插件模板;

s25:随机选取s24提取的一个版块页链接url,根据论坛插件解析模板的主题页正则匹配规则对版块页进行主题页的提取,判断该版块页提取的主题页链接url个数是否大于0,若是,则进入s26;否则返回s23,扫描下一个论坛解析插件模板;

s26:随机选取s25提取的一个主题页链接url,根据论坛插件解析模板的回复页正则匹配规则对主题页进行回复页的提取,判断该主题页提取的回复页链接url个数是否大于0,若是,则进入s27;否则返回s23,扫描下一个论坛解析插件模板。

s27:指定该论坛插件解析模板为该论坛网站的论坛解析插件模板,并记录关联关系,以后该论坛网站都将默认用该论坛解析插件模块进行解析。

s28:对该论坛网站进行分析,形成一个新的论坛解析插件模板,并更新于论坛解析插件模板中心库中。

通过上述筛选流程,可以找到论坛适应的论坛解析插件模板,针对现有的采集器,可以直接将论坛网站作为采集起始页进行采集提取,而筛选出来的论坛解析插件模板,根据论坛解析插件模板中配置好的版块页规则、主题页规则、回复页规则可以直接有效的对论坛网站实行自动采集流程,利用现有的自动提取机制,可以快速、准确的提取到论坛的具体内容,如标题、发布时间、发布内容、发布作者等。每一个论坛网站根据此流程筛选出对应的论坛解析插件模板,可以大大提升论坛数据采集的效率。

s3:根据筛选好的论坛解析插件模板的解析规则对论坛网站数据进行解析并存储。具体地,s3包括以下过程:

s31:获取论坛网页,下载论坛网页源码,将所述论坛网页源码放入待采集队列;

s32:从待采集队列获取起始采集网页链接url,根据指定的论坛解析插件模板中的版块页正则匹配规则,对起始采集网页提取版块页链接url,存放在第一队列中;

s33:从第一队列中逐个取出版块页链接url,根据指定的论坛解析插件模板的主题页正则匹配规则,对版块页网页提取主题页链接url,存放在第二队列中;

s34:从第二队列中逐个取出主题页链接url,根据指定的论坛解析插件模板中配置好的主题页提取相关规则和回复页正则匹配规则,对主题页网页提取出主题页的标题、作者、发布时间、最后回复人、最后回复时间及回复页链接url,存放在第三队列中;

s35:从第三队列中逐个取出回复页链接url,根据指定的论坛解析插件模板中配置好的回复页提取相关规则,对回复页网页提取出回复人、回复内容和回复时间,生成结构化数据,记录主题页和回复页的结构化数据,并挖掘关联关系。

本发明通过对互联网上面的论坛网站的网页数据进行判断,针对特定论坛网站筛选出了指定的论坛解析插件模板,为论坛网站数据的采集工作提供了精确的采集范围,同时更提高了对论坛网站数据采集的效率。

尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1