一种通用的新闻评论采集方法及装置制造方法

文档序号:6541832阅读:157来源:国知局
一种通用的新闻评论采集方法及装置制造方法
【专利摘要】本发明涉及一种通用的新闻评论采集方法及装置,包括以下步骤:获取用户输入的新闻链接地址及用户配置的采集配置文件;读取采集配置文件中的模板地址;根据新闻链接地址分析新闻链接地址对应的域名,从新闻评论链接采集配置文件中获取所述域名的新闻评论入口链接的模板地址,并获取新闻评论链接采集配置文件中的配置信息;逐条根据配置信息,在新闻页面或新闻链接地址中进行抽取,获得新的拼接参数,将获得的新拼接参数替换掉模板地址中原有的拼接参数;逐条获取新闻评论页面中的评论内容,直到所有新闻的评论内容全部采集完毕。本发明能够大幅提高新闻评论采集效率、实现新闻评论采集通用性,且具有准确性及稳定性。
【专利说明】一种通用的新闻评论采集方法及装置
【技术领域】
[0001]本发明涉及一种新闻评论采集方法,特别涉及一种通用的新闻评论采集方法及装置。
【背景技术】
[0002]网页信息采集一直是互联网技术中的一项重要研究课题。近年来,随着AJAX技术的普及,国内主流网站已进入WEB2.0的成熟时期,传统的网络爬虫(WEB Crawler)已不能完成这种采用异步交互模式获取数据的页面的采集工作。
[0003]方案一:目前国内外已有很多学者进行了研究,主流的解决方案是采用内置浏览器模块来模拟用户动作操作网页元素进行网页数据的获取的。
[0004]方案二:《一种网络评论的采集方法及系统》申请公开的专利,所述方法包括:获取一网页入口链接地址;判断所述网页入口链接地址对应的网页上是否有N个网络评论,其中,所述N为正整数;在有所述N个网络评论时,判断所述N个网络评论中是否有M个网络评论满足采集的条件,其中,所述M为小于或等于N的正整数;在有所述M个网络评论满足采集的条件时,采集所述M个网络评论。
[0005]方案一,采用模拟浏览器行为的方式,必然会导致大量的时间浪费在AJAX代码解析上。首先,虽然大部分网站都是用的AJAX技术,但是其框架并没有统一的协议,这为通用的代码解析器的研究带来很大的困难。其次,网页发起的异步请求并不一定是获取用户需要的数据,相反的,大部分请求都是返回表现层的代码或数据,这些数据交互和信息会占用大量的解析时间。
[0006]方案二,《一种网络评论的采集方法及系统》申请公开的专利,仅有简单的一种入口链接地址的获取方式,并且,对于页面内容的获取也是比较简单,对于目前复杂的WEB2.0时代来说,没有实践性。一方面无法实现通用可配置的入口连接地址的获取,另一方面,针对目前HTML和JSON为主的网页内容,没有针对性的采集方案,对于新评论的判断方案的效率也低于本发明。

【发明内容】

[0007]本发明所要解决的技术问题是提供一种能够大幅提高新闻评论采集效率、实现新闻评论采集通用性,且具有准确性及稳定性的通用的新闻评论采集方法及装置。
[0008]本发明解决上述技术问题的技术方案如下:一种通用的新闻评论采集方法,包括以下步骤:
[0009]步骤1:获取用户输入的新闻链接地址及用户配置的采集配置文件,所述采集配置文件包括用于配置新闻评论入口链接的模板地址的新闻评论链接采集配置文件,和用于新闻评论内容采集的内容采集配置文件;
[0010]步骤2:读取采集配置文件中的模板地址,所述模板地址中包含若干拼接参数;
[0011]步骤3:根据获取的新闻链接地址,分析新闻链接地址对应的域名,从新闻评论链接采集配置文件中获取所述域名的新闻评论入口链接的模板地址,并获取新闻评论链接采集配置文件中用于抽取模板地址中新的拼接参数的配置信息;
[0012]步骤4:逐条根据获取的配置信息,在新闻页面或新闻链接地址中进行抽取,获得新的拼接参数,将获得的新拼接参数替换掉模板地址中原有的拼接参数,得到新闻评论入口链接地址;
[0013]步骤5:根据新闻评论入口链接地址、内容采集配置文件及新闻评论页面的页面类型解析新闻评论页面,结合抽取配置文件及开源工具逐条获取新闻评论页面中的评论内容,直到所有新闻的评论内容全部采集完毕。
[0014]本发明的有益效果是:本发明完全绕过AJAX技术带来的内容采集屏障,回归最简单的页面内容采集。因为上面的方法针对的实际上是新闻的采集,而新闻评论的采集有其特殊性,因此本发明目的是:
[0015]首先,采集中不再使用AJAX解析相关技术,最重要的目标是最大幅度提高采集效率,并且实现评论采集的通用性。
[0016]其次,实现采集数据的准确性,无论是评论的内容或是作者、时间等信息都能准确无误地捕获;采集功能的稳定性,在高效率采集的基础上,保证采集器稳定的工作。
[0017]最后,通过配置文件预先人工干预的方式实现国内重要新闻网站采集的全覆盖。
[0018]在上述技术方案的基础上,本发明还可以做如下改进。
[0019]进一步,所述配置信息中包含评论定位配置信息和字段抽取配置信息。
[0020]进一步,所述步骤5中当新闻评论页面为HTML格式时,新闻评论过程进一步包括以下步骤:
[0021]步骤3.11:使用开源的HTMLParser解析工具类,将新闻评论页面转化为Parser对象;
[0022]步骤3.12:根据配置信息中包含的评论定位配置信息,建立NodeFiler对象,将由新闻评论页面转化成的Parser对象进行过滤,得到仅包含所有评论内容的由一组Node对象构成的NodeList对象;
[0023]步骤3.13:遍历NodeList对象中的每个Node对象,根据字段抽取配置信息,抽取每条评论中的ID、作者、内容和发布时间信息;
[0024]步骤3.14:将本次采集的所有评论的ID与已采集的ID列表进行比对查重,保留所有未重复的评论,并将这些未重复的ID存入ID列表。
[0025]进一步,所述步骤5中当新闻评论页面为JSON格式时,新闻评论过程进一步包括以下步骤:
[0026]步骤3.21:使用开源的JSON-LIB解析工具类,将新闻评论页面转化为JSON对象;
[0027]步骤3.22:根据配置信息中包含的评论定位配置信息,从JSON对象中定位得到仅包含评论内容的多个JSON对象;
[0028]步骤3.23:遍历每条评论的JSON对象,根据字段抽取配置信息,定位获取每条评论中的ID、作者、内容和发布时间信息;
[0029]步骤3.24:将本次采集的所有评论的ID与已采集的ID列表进行比对查重,保留所有未重复的评论,并将这些未重复的ID存入ID列表。
[0030]进一步,所述步骤3.22中,根据评论定位配置信息中包含的评论路径信息,从JSON对象中定位得到仅包含评论内容的多个JSON对象;
[0031]所述步骤3.23中,根据字段抽取配置信息中的字段路径信息,定位获取每条评论中的ID、作者、内容和发布时间信息。
[0032]进一步,一种通用的新闻评论采集装置,包括获取模块,配置模块,分析抽取模块,抽取替换模块和采集模块;
[0033]所述获取模块,用于获取用户输入的新闻评论链接地址,配置采集配置文件;
[0034]所述配置模块,用于读取获取模块配置的采集配置文件,在采集配置文件中配置模板地址,所述模板地址中包含若干旧拼接参数;
[0035]所述分析抽取模块,用于根据获取模块获取的新闻链接地址,分析其对应的域名,获得采集配置文件中具有相应域名的新闻评论链接地址,并抽取其配置信息;
[0036]所述抽取替代模块,用于逐条根据分析抽取模块抽取的每条新闻评论链接地址的配置信息,在新闻页面或新闻链接地址中进行抽取,获得新拼接参数,将获得的新拼接参数替换掉配置模块配置的模板地址中的旧拼接参数,得到新闻评论入口链接地址;
[0037]所述采集模块,根据抽取替代模块得到的新闻评论入口链接地址,逐条获取新闻评论页面中的评论内容,直到所有新闻的评论内容全部采集完毕。
[0038]进一步,所述配置信息中包含评论定位配置信息和字段抽取配置信息。
[0039]进一步,所述采集模块中当新闻评论页面为HTML格式时,采集模块进一步包括Parser转化子模块,建立过滤子模块,遍历抽取子模块和第一比对查重模块:
[0040]所述Parser转化子模块,用于使用开源的HTMLParser解析工具类,将新闻评论页面转化为Parser对象;
[0041]所述建立过滤子模块,用于根据配置信息中包含的评论定位配置信息,建立NodeFiler对象,将由新闻评论页面转化成的Parser对象进行过滤,得到仅包含所有评论内容的由一组Node对象构成的NodeList对象;
[0042]所述遍历抽取子模块,用于遍历NodeList对象中的每个Node对象,根据字段抽取配置信息,抽取每条评论中的ID、作者、内容和发布时间信息;
[0043]所述第一比对查重模块,用于将本次采集的所有评论的ID与已采集的ID列表进行比对查重,保留所有未重复的评论,并将这些未重复的ID存入ID列表。
[0044]进一步,所述采集模块中当新闻评论页面为JSON格式时,采集模块进一步包括JSON转化子模块,定位子模块,抽取定位子模块和第二比对查重子模块;
[0045]所述JSON转化子模块,用于使用开源的JSON-LIB解析工具类,将新闻评论页面转化为JSON对象;
[0046]所述定位子模块,用于根据配置信息中包含的评论定位配置信息,从JSON对象中定位得到仅包含评论内容的多个JSON对象;
[0047]所述抽取定位子模块:遍历每条评论的JSON对象,根据字段抽取配置信息,定位获取每条评论中的ID、作者、内容和发布时间信息;
[0048]所述第二比对查重子模块,用于将本次采集的所有评论的ID与已采集的ID列表进行比对查重,保留所有未重复的评论,并将这些未重复的ID存入ID列表。
[0049]进一步,所述定位子模块中,根据评论定位配置信息中包含的评论路径信息,从JSON对象中定位得到仅包含评论内容的多个JSON对象;[0050]所述抽取定位子模块中,根据字段抽取配置信息中的字段路径信息,定位获取每条评论中的ID、作者、内容和发布时间信息。
【专利附图】

【附图说明】
[0051]图1为本发明方法步骤流程图;
[0052]图2为本发明装置结构图;
[0053]图3为本发明新闻评论链接采集流程图;
[0054]图4为本发明新闻评论内容采集流程图。
[0055]附图中,各标号所代表的部件列表如下:
[0056]1、获取模块,2、配置模块,3、分析抽取模块,4、抽取替换模块,5、采集模块,3.1_1、Parser转化子模块,3.1_2、建立过滤子模块,3.1_3、遍历抽取子模块,3.1_4、第一比对查重模块,3.2-1、JSON转化子模块,3.2-2、定位子模块,3.2_3、抽取定位子模块,3.2_4、第二比对查重子模块。
【具体实施方式】
[0057]以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
[0058]如图1所示,为本发明方法步骤流程图;图2为本发明装置结构图;图3为本发明新闻评论链接采集流程图;
[0059]图4为本发明新闻评论内容采集流程图。
[0060]实施例1
[0061]一种通用的新闻评论采集方法,包括以下步骤:
[0062]步骤1:获取用户输入的新闻链接地址及用户配置的采集配置文件,所述采集配置文件包括用于配置新闻评论入口链接的模板地址的新闻评论链接采集配置文件,和用于新闻评论内容采集的内容采集配置文件;
[0063]步骤2:读取采集配置文件中的模板地址,所述模板地址中包含若干拼接参数;
[0064]步骤3:根据获取的新闻链接地址,分析新闻链接地址对应的域名,从新闻评论链接采集配置文件中获取所述域名的新闻评论入口链接的模板地址,并获取新闻评论链接采集配置文件中用于抽取模板地址中新的拼接参数的配置信息;
[0065]步骤4:逐条根据获取的配置信息,在新闻页面或新闻链接地址中进行抽取,获得新的拼接参数,将获得的新拼接参数替换掉模板地址中原有的拼接参数,得到新闻评论入口链接地址;
[0066]步骤5:根据新闻评论入口链接地址、内容采集配置文件及新闻评论页面的页面类型解析新闻评论页面,结合抽取配置文件及开源工具逐条获取新闻评论页面中的评论内容,直到所有新闻的评论内容全部采集完毕。
[0067]所述配置信息中包含评论定位配置信息和字段抽取配置信息。
[0068]进一步,所述步骤5中当新闻评论页面为HTML格式时,新闻评论过程进一步包括以下步骤:
[0069]步骤3.11:使用开源的HTMLParser解析工具类,将新闻评论页面转化为Parser对象;
[0070]步骤3.12:根据配置信息中包含的评论定位配置信息,建立NodeFiler对象,将由新闻评论页面转化成的Parser对象进行过滤,得到仅包含所有评论内容的由一组Node对象构成的NodeList对象;
[0071]步骤3.13:遍历NodeList对象中的每个Node对象,根据字段抽取配置信息,抽取每条评论中的ID、作者、内容和发布时间等信息;
[0072]步骤3.14:将本次采集的所有评论的ID与已采集的ID列表进行比对查重,保留所有未重复的评论,并将这些未重复的ID存入ID列表。
[0073]所述步骤5中当新闻评论页面为JSON格式时,新闻评论过程进一步包括以下步骤:
[0074]步骤3.21:使用开源的JSON-LIB解析工具类,将新闻评论页面转化为JSON对象;
[0075]步骤3.22:根据配置信息中包含的评论定位配置信息,从JSON对象中定位得到仅包含评论内容的多个JSON对象;
[0076]步骤3.23:遍历每条评论的JSON对象,根据字段抽取配置信息,定位获取每条评论中的ID、作者、内容和发布时间等信息;
[0077]步骤3.24:将本次采集的所有评论的ID与已采集的ID列表进行比对查重,保留所有未重复的评论,并将这些未重复的ID存入ID列表。
[0078]所述步骤3.22中,根据评论定位配置信息中包含的评论路径信息,从JSON对象中定位得到仅包含评论内容的多个JSON对象;
[0079]所述步骤3.23中,根据字段抽取配置信息中的字段路径信息,定位获取每条评论中的ID、作者、内容和发布时间等信息。
[0080]一种通用的新闻评论采集装置,包括获取模块1,配置模块2,分析抽取模块3,抽取替换模块4和采集模块5 ;
[0081]所述获取模块1,用于获取用户输入的新闻评论链接地址,配置采集配置文件;
[0082]所述配置模块2,用于读取获取模块I配置的采集配置文件,在采集配置文件中配置模板地址,所述模板地址中包含若干旧拼接参数;
[0083]所述分析抽取模块3,用于根据获取模块I获取的新闻链接地址,分析其对应的域名,获得采集配置文件中具有相应域名的新闻评论链接地址,并抽取其配置信息;
[0084]所述抽取替代模块4,用于逐条根据分析抽取模块3抽取的每条新闻评论链接地址的配置信息,在新闻页面或新闻链接地址中进行抽取,获得新拼接参数,将获得的新拼接参数替换掉配置模块2配置的模板地址中的旧拼接参数,得到新闻评论入口链接地址;
[0085]所述采集模块5,根据抽取替代模块4得到的新闻评论入口链接地址,逐条获取新闻评论页面中的评论内容,直到所有新闻的评论内容全部采集完毕。
[0086]所述配置信息中包含评论定位配置信息和字段抽取配置信息。
[0087]所述采集模块5中当新闻评论页面为HTML格式时,采集模块5进一步包括Parser转化子模块3.1-1,建立过滤子模块3.1-2,遍历抽取子模块3.1-3和第一比对查重模块
3.1_4:
[0088]所述Parser转化子模块3.1_1,用于使用开源的HTMLParser解析工具类,将新闻评论页面转化为Parser对象;[0089]所述建立过滤子模块3.1-2,用于根据配置信息中包含的评论定位配置信息,建立NodeFiler对象,将由新闻评论页面转化成的Parser对象进行过滤,得到仅包含所有评论内容的由一组Node对象构成的NodeList对象;
[0090]所述遍历抽取子模块3.1-3,用于遍历NodeList对象中的每个Node对象,根据字段抽取配置信息,抽取每条评论中的ID、作者、内容和发布时间等信息;
[0091 ] 所述第一比对查重模块3.1-4,用于将本次采集的所有评论的ID与已采集的ID列表进行比对查重,保留所有未重复的评论,并将这些未重复的ID存入ID列表。
[0092]所述采集模块5中当新闻评论页面为JSON格式时,采集模块5进一步包括JSON转化子模块3.2-1,定位子模块3.2-2,抽取定位子模块3.2-3和第二比对查重子模块3.2-4 ;
[0093]所述JSON转化子模块3.2-1,用于使用开源的JSON-LIB解析工具类,将新闻评论页面转化为JSON对象;
[0094]所述定位子模块3.2-2,用于根据配置信息中包含的评论定位配置信息,从JSON对象中定位得到仅包含评论内容的多个JSON对象;
[0095]所述抽取定位子模块3.2-3:遍历每条评论的JSON对象,根据字段抽取配置信息,定位获取每条评论中的ID、作者、内容和发布时间等信息;
[0096]所述第二比对查重子模块3.2-4,用于将本次采集的所有评论的ID与已采集的ID列表进行比对查重,保留所有未重复的评论,并将这些未重复的ID存入ID列表。
[0097]所述定位子模块3.2-2中,根据评论定位配置信息中包含的评论路径信息,从JSON对象中定位得到仅包含评论内容的多个JSON对象;
[0098]所述抽取定位子模块3.2-3中,根据字段抽取配置信息中的字段路径信息,定位获取每条评论中的ID、作者、内容和发布时间等信息。
[0099]新闻评论采集从结构上分为两个部分:新闻评论链接采集和新闻评论内容采集。
[0100]本发明提供的是一个通过java封装的通过API访问的JAR工具包,大致分为两个子功能:新闻评论链接采集和新闻评论内容采集。用户开发的外部程序一般可通过先调用新闻评论链接采集接口,后调用新闻评论内容采集接口的步骤完成新闻评论采集。
[0101]本发明需要首先配置好新闻评论链接采集和新闻评论内容采集的采集配置文件(本发明已预先提供相应的采集配置文件,为XML格式),并将采集配置文件放在用户开发的外部程序的程序根目录。此外,新闻链接地址是需要作为输入由用户提供的。
[0102]整体流程为:用户开发的外部程序需要提供新闻链接地址(单条URL字符串)作为输入参数,调用新闻评论链接采集模块接口,得到新闻评论入口链接地址(单条URL字符串)作为中间结果,然后将这一结果连同新闻链接地址作为输入参数调用新闻评论内容采集模块接口,得到最终的输出结果,输出结果为该新闻的全部评论信息(评论信息包含评论内容、作者和发布时间)。一次调用是对一条新闻进行评论采集,如要采集多条新闻的评论,则需要调用多次(这种多次调用并不会对资源有过多消耗)。
[0103]新闻评论入口链接地址的获取方法是:在采集配置文件中配置一个模板地址,该模板地址包含若干拼接参数,拼接参数的值需要新闻评论链接采集模块根据采集配置文件中相应的规则进行抽取获得,将获得的值替换掉模板地址中对应的拼接参数,即可得到新闻评论入口链接地址。
[0104]示例输入-新闻链接地址:[0105]
【权利要求】
1.一种通用的新闻评论采集方法,其特征在于,包括以下步骤: 步骤1:获取用户输入的新闻链接地址及用户配置的采集配置文件,所述采集配置文件包括用于配置新闻评论入口链接的模板地址的新闻评论链接采集配置文件,和用于新闻评论内容采集的内容采集配置文件; 步骤2:读取采集配置文件中的模板地址,所述模板地址中包含若干拼接参数; 步骤3:根据获取的新闻链接地址,分析新闻链接地址对应的域名,从新闻评论链接采集配置文件中获取所述域名的新闻评论入口链接的模板地址,并获取新闻评论链接采集配置文件中用于抽取模板地址中新的拼接参数的配置信息; 步骤4:逐条根据获取的配置信息,在新闻页面或新闻链接地址中进行抽取,获得新的拼接参数,将获得的新拼接参数替换掉模板地址中原有的拼接参数,得到新闻评论入口链接地址; 步骤5:根据新闻评论入口链接地址、内容采集配置文件及新闻评论页面的页面类型解析新闻评论页面,结合抽取配置文件及开源工具逐条获取新闻评论页面中的评论内容,直到所有新闻的评论内容全部采集完毕。
2.根据权利要求1所述的新闻评论采集方法,其特征在于:所述配置信息中包含评论定位配置信息和字段抽取配置信息。
3.根据权利要求2述的新闻评论采集方法,其特征在于,所述步骤5中当新闻评论页面为HTML格式时,新闻评论 采集过程进一步包括以下步骤: 步骤3.11:使用开源的HTMLParser解析工具类,将新闻评论页面转化为Parser对象;步骤3.12:根据配置信息中包含的评论定位配置信息,建立NodeFiler对象,将由新闻评论页面转化成的Parser对象进行过滤,得到仅包含所有评论内容的由一组Node对象构成的NodeList对象; 步骤3.13:遍历NodeList对象中的每个Node对象,根据字段抽取配置信息,抽取每条评论中的ID、作者、内容和发布时间信息; 步骤3.14:将本次采集的所有评论的ID与已采集的ID列表进行比对查重,保留所有未重复的评论,并将这些未重复的ID存入ID列表。
4.根据权利要求2述的新闻评论采集方法,其特征在于,所述步骤5中当新闻评论页面为JSON格式时,新闻评论采集过程进一步包括以下步骤: 步骤3.21:使用开源的JSON-LIB解析工具类,将新闻评论页面转化为JSON对象;步骤3.22:根据配置信息中包含的评论定位配置信息,从JSON对象中定位得到仅包含评论内容的多个JSON对象; 步骤3.23:遍历每条评论的JSON对象,根据字段抽取配置信息,定位获取每条评论中的ID、作者、内容和发布时间信息; 步骤3.24:将本次采集的所有评论的ID与已采集的ID列表进行比对查重,保留所有未重复的评论,并将这些未重复的ID存入ID列表。
5.根据权利要求4述的新闻评论采集方法,其特征在于: 所述步骤3.22中,根据评论定位配置信息中包含的评论路径信息,从JSON对象中定位得到仅包含评论内容的多个JSON对象; 所述步骤3.23中,根据字段抽取配置信息中的字段路径信息,定位获取每条评论中的ID、作者、内容和发布时间信息。
6.一种通用的新闻评论采集装置,其特征在于:包括获取模块(1),配置模块(2),分析抽取模块(3 ),抽取替换模块(4 )和采集模块(5 ); 所述获取模块(I ),用于获取用户输入的新闻评论链接地址,配置采集配置文件;所述配置模块(2),用于读取获取模块(I)配置的采集配置文件,在采集配置文件中配置模板地址,所述模板地址中包含若干旧拼接参数; 所述分析抽取模块(3),用于根据获取模块(I)获取的新闻链接地址,分析其对应的域名,获得采集配置文件中具有相应域名的新闻评论链接地址,并抽取其配置信息;所述抽取替代模块(4),用于逐条根据分析抽取模块(3)抽取的每条新闻评论链接地址的配置信息,在新闻页面或新闻链接地址中进行抽取,获得新拼接参数,将获得的新拼接参数替换掉配置模块(2)配置的模板地址中的旧拼接参数,得到新闻评论入口链接地址;所述采集模块(5),根据抽取替代模块(4)得到的新闻评论入口链接地址,逐条获取新闻评论页面中的评论内容,直到所有新闻的评论内容全部采集完毕。
7.根据权利要求6所述的新闻评论采集装置,其特征在于:所述配置信息中包含评论定位配置信息和字段抽取配置信息。
8.根据权利要求7所述的新闻评论采集装置,其特征在于:所述采集模块(5)中当新闻评论页面为HTML格式时,采集模块(5)进一步包括Parser转化子模块(3.1_1),建立过滤子模块(3.1-2),遍历抽取子模块(3.1-3)和第一比对查重模块(3.1-4): 所述Parser转化子模块(3.1_1),用于使用开源的HTMLParser解析工具类,将新闻评论页面转化为Parser对象; 所述建立过滤子模块(3.1-2),用于根据配置信息中包含的评论定位配置信息,建立NodeFiler对象,将由新闻评论页面转化成的Parser对象进行过滤,得到仅包含所有评论内容的由一组Node对象构成的NodeList对象; 所述遍历抽取子模块(3.1-3 ),用于遍历NodeLi St对象中的每个Node对象,根据字段抽取配置信息,抽取每条评论中的ID、作者、内容和发布时间信息; 所述第一比对查重模块(3.1-4),用于将本次采集的所有评论的ID与已采集的ID列表进行比对查重,保留所有未重复的评论,并将这些未重复的ID存入ID列表。
9.根据权利要求2述的新闻评论采集方法,其特征在于,所述采集模块(5)中当新闻评论页面为JSON格式时,采集模块(5)进一步包括JSON转化子模块(3.2-1),定位子模块(3.2-2),抽取定位子模块(3.2-3)和第二比对查重子模块(3.2-4); 所述JSON转化子模块(3.2-1),用于使用开源的JSON-LIB解析工具类,将新闻评论页面转化为JSON对象; 所述定位子模块(3.2-2),用于根据配置信息中包含的评论定位配置信息,从JSON对象中定位得到仅包含评论内容的多个JSON对象; 所述抽取定位子模块(3.2-3):遍历每条评论的JSON对象,根据字段抽取配置信息,定位获取每条评论中的ID、作者、内容和发布时间信息; 所述第二比对查重子模块(3.2-4),用于将本次采集的所有评论的ID与已采集的ID列表进行比对查重,保留所有未重复的评论,并将这些未重复的ID存入ID列表。
10.根据权利要求9所述的 新闻评论采集装置,其特征在于:所述定位子模块(3.2-2)中,根据评论定位配置信息中包含的评论路径信息,从JSON对象中定位得到仅包含评论内容的多个JSON对象; 所述抽取定位子模块(3.2-3)中,根据字段抽取配置信息中的字段路径信息,定位获取每条评论中的ID、作者、内容 和发布时间信息。
【文档编号】G06F17/30GK103886078SQ201410114600
【公开日】2014年6月25日 申请日期:2014年3月25日 优先权日:2014年3月25日
【发明者】李至立, 丁国栋, 公强, 刘玮 申请人:烟台中科网络技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1