基于页面分析的互联网信息发表时间提取方法

文档序号:6487875阅读:150来源:国知局
基于页面分析的互联网信息发表时间提取方法
【专利摘要】本发明是一种基于页面分析的互联网信息发表时间提取方法,该方法首先访问互联网根据网站类型加载目标页面得到网页文本源码集合S;其次根据标签的正则表达式结合各个网站类型的关键字识别出集合S中的时间,进而进行时间提取。对于新闻类网站,在集合S中利用正则表达式识别出信息标题,利用时间出现在标题附近这一特点,在标题附近进行时间正则表达式匹配。本发明方法对于论坛信息时间的提取结合关键字与时间正则表达式,能够达到良好的准确率,对信息发表时间能快速准确的提取。该方法采集效率高,在采集过程中,占用网络资源小。
【专利说明】基于页面分析的互联网信息发表时间提取方法
【技术领域】
[0001]本发明属于互联网信息采集领域,具体地说是ー种基于页面分析的互联网信息发表时间提取方法。
【背景技术】
[0002]随着社会信息化的迅猛发展,网络已经成为人们获取信息的重要来源。而网络信息具有海量,复杂,非结构化等特点,为网络信息的获取以及基于网络信息搜集的分析与研究工作都带来了很大困难。大量的实践也表明,在网络上对各种不同的信息载体(新闻网、博客、论坛、微博等)进行信息采集已经可以基本达到要求,但如果进ー步得到信息的发表时间还有一定的技术难题。特别是想要临时性的针对某个特定目标进行信息采集吋,对采集系统的适用能力、采集效率和准确率都提出了很高的要求。现有技术中还没有公开可以满足这些要求的互联网信息发表时间提取技木。

【发明内容】

[0003]本发明要解决的技术问题是针对现有技术存在的不足,提供ー种方法更为简単、可以对采集目标的发表时间进行准确提取的基于页面分析的互联网信息发表时间提取方法。
[0004]本发明所要解决的技术问题是通过下述技术方案来实现的。本发明是ー种基于页面分析的互联网信息发表时间提取方法,其特点是:首先访问互联网根据Url判断网站类型,加载目标页面得到网页文本源码集合S ;其次对于新闻类网站根据标签的正则表达式识别出集合S中的标题行L,并为标题行L中的每个符号节点进行分割,得到最大标题长度;其具体步骤如下:
A、根据Url判断网站类型,加载目标页面得到文本源码集合S;其操作步骤如下:
Al、输入网页地址,根据Url的一般表示习惯,判断出网站类型;
A2、输入网页地址,利用HttpClient获取原始HTML源码集合S ;
B、新闻类网站,识别并标记集合S中的标题行L,并匹配时间;其操作步骤如下:
B1、依据正则匹配文本源码集合S得到标题行L ;
B2、用标题行L中的符号对L进行分割,取到最大长度无符号标题T ;
B3、根据得到的标题T,在其500的字符内用时间正则表达式进行时间匹配;
B4、如果匹配不到时间,找集合S中出现的下一个标题,转B3,如果无下ー标题,则匹配失败;
C、论坛类网站,根据关键字匹配时间;其操作步骤如下:
Cl、根据论坛发表时间关键字集合后10个字符内匹配时间正则表达式;
C2、根据由Cl生成的新的正则表达式,对集合S进行匹配;
C3、若匹配到时间则成功,否则直接匹配时间格式,取最新时间;
D、对于其它网站的时间匹配,其操作步骤如下: D1、对于百度贴吧,根据特有的关键字进行时间匹配;
D2、对于微博,调用微博的API,进行时间提取;
D3、对于其它网站,直接对S进行时间正则表达式匹配;
至此,信息发表时间的自动提取结束。
[0005]本发明方法中,输入网页地址,根据Url的一般表示习惯,可以判断出网站类型,如包含关键字“bbs ”、“ forum”、“ cIub ”等可判断网站为论坛。
[0006]本发明方法是为了适应市场越来越多的需求,可以比较准确地对一些信息载体(新闻网、博客、论坛、微博等)进行时间提取。本发明信息发表时间的自动提取方法,一方面应用于舆情管理领域,使用在公安、安全、安监等政府部门,对监测内容的时间进行自动提取,对于政府部门来说时的确定监测内容的时间可帮助有有关总站及时做出反应,及时的确定监测内容的时间可帮助有有关总站及时做出反应;另一方面也可以使用在信息分析领域,如:电子商务行业。
[0007]与现有技术相比,本发明的一种基于页面分析的互联网信息发表时间提取方法具有以下技术优点:
1、本发明方法对信息发表时间能快速准确的提取;
2、本发明方法采集效率高:在采集过程中,占用网络资源小。
【专利附图】

【附图说明】
[0008]图1是本发明方法的一种流程框图;
图2是图1中步骤102所述的识别网站类型并得到集合S流程图;
图3是图1中步骤103所述的对于新闻类网站时间提取的流程图;
图4是图1中步骤104所述的是对论坛及普通网站时间提取的流程图。
【具体实施方式】
[0009]以下参照附图,进一步描述本发明的具体技术方案,以便于本领域的技术人员进一步地理解本发明,而不构成对其权利的限制。
[0010]实施例1,参照图1-图4,一种基于页面分析的互联网信息发表时间提取方法,首先访问互联网根据Url判断网站类型,加载目标页面得到网页文本源码集合S ;其次对于新闻类网站根据标签的正则表达式识别出集合S中的标题行L,并为标题行L中的每个符号节点进行分割,得到最大标题长度;其具体步骤如下:
A、根据Url判断网站类型,加载目标页面得到文本源码集合S;其操作步骤如下:
Al、输入网页地址,根据Url的一般表示习惯,判断出网站类型;
A2、输入网页地址,利用HttpClient获取原始HTML源码集合S ;
B、新闻类网站,识别并标记集合S中的标题行L,并匹配时间;其操作步骤如下:
B1、依据正则匹配文本源码集合S得到标题行L ;
B2、用标题行L中的符号对L进行分割,取到最大长度无符号标题T ;
B3、根据得到的标题T,在其500的字符内用时间正则表达式进行时间匹配;
B4、如果匹配不到时间,找集合S中出现的下一个标题,转B3,如果无下一标题,则匹配失败;C、论坛类网站,根据关键字匹配时间;其操作步骤如下:
Cl、根据论坛发表时间关键字集合后10个字符内匹配时间正则表达式;
C2、根据由Cl生成的新的正则表达式,对集合S进行匹配;
C3、若匹配到时间则成功,否则直接匹配时间格式,取最新时间;
D、对于其它网站的时间匹配,其操作步骤如下:
D1、对于百度贴吧,根据特有的关键字进行时间匹配;
D2、对于微博,调用微博的API,进行时间提取;
D3、对于其它网站,直接对S进行时间正则表达式匹配;
至此,信息发表时间的自动提取结束。
[0011]实施例2,參照图1-4,ー种基于页面分析的互联网信息发表时间提取方法进行的操作实验,步骤如下:
步骤101、根据Url判断网站类型,加载目标页面得到文本源码集合S ;其具体如下:
(I)输入网页地址,根据Url的一般表示习惯,可以判断出网站类型,如包含关键字“bbs,,、“forum”、“cIub”等可判断网站为论坛。
[0012](2)、输入网页地址利用HttpClient获取原始HTML源码集合S ;例如,通过互联网得到的原始HTML源码集合S如下:
<html>
〈head〉
〈title〉标题〈/title〉
时间
〈/head〉
<p id=〃content—id〃> 内容 </p>
〈/body〉
</html>
步骤102、识别出网站类型,得到源码集合S。参照图2,包括如下步骤:
步骤201、使用正则表达式r=“〈title>*〈/title>”识别集合S中的标签标题行L再根据符号分割得到最大长度标题T。例如:A1中所述的集合S中的〈title〉所对就的标题行L内容,,;
步骤202、若得到标题行L,如果是非空值,则说明在集合S已得到标题,即执行步骤203;匹配不到标题则失败,对标题根据符号进行分割,取最长字符串为标题T,执行步骤204 ;
步骤203、在标题后500字条匹配不到时间;
步骤204、若匹配不到时间,找下ー个标题,找到标题执行步骤203,找不到标题失败 步骤103、对于论坛网站进行关键字匹配,參照图3,包括如下步骤:
步骤301、根据生成的集合S,结合论坛类网站的关键字;
步骤302、利用关键字匹配时间;
步骤303、若匹配不到时间,刚直接时间正则表达式匹配,若得到两个时间,取最新的时间,若匹配不到时间,则失败;
步骤104、对于其它网站信息发表时间的自动提取,參照图4,包括如下步骤:步骤401、根据分析网站URL,判断网站类型下ー步骤402 ;
步骤402、对于百度贴吧,进行关键字匹配;
步骤403、对于微博,利用API调取时间;
步骤404、,对于其它网站,进行时正则表达式匹配,如步骤303。
【权利要求】
1.一种基于页面分析的互联网信息发表时间提取方法,其特征在于:首先访问互联网根据Url判断网站类型,加载目标页面得到网页文本源码集合S ;其次对于新闻类网站根据标签的正则表达式识别出集合S中的标题行L,并为标题行L中的每个符号节点进行分割,得到最大标题长度;其具体步骤如下: A、根据Url判断网站类型,加载目标页面得到文本源码集合S;其操作步骤如下: Al、输入网页地址,根据Url的一般表示习惯,判断出网站类型; A2、输入网页地址,利用HttpClient获取原始HTML源码集合S ; B、新闻类网站,识别并标记集合S中的标题行L,并匹配时间;其操作步骤如下: B1、依据正则匹配文本源码集合S得到标题行L ; B2、用标题行L中的符号对L进行分割,取到最大长度无符号标题T ; B3、根据得到的标题T,在其500的字符内用时间正则表达式进行时间匹配; B4、如果匹配不到时间,找集合S中出现的下一个标题,转B3,如果无下一标题,则匹配失败; C、论坛类网站,根据关键字匹配时间;其操作步骤如下: Cl、根据论坛发表时间关键字集合后10个字符内匹配时间正则表达式; C2、根据由Cl生成的新的正则表达式,对集合S进行匹配; C3、若匹配到时间则成功,否则直接匹配时间格式,取最新时间; D、对于其它网站的时间匹配,其操作步骤如下: D1、对于百度贴吧,根据特有的关键字进行时间匹配; D2、对于微博,调用微博的API,进行时间提取; D3、对于其它网站,直接对S进行时间正则表达式匹配; 至此,信息发表时间的自动提取结束。
【文档编号】G06F17/30GK103593360SQ201210290557
【公开日】2014年2月19日 申请日期:2012年8月16日 优先权日:2012年8月16日
【发明者】陈宗华, 陈永江, 葛恒虎, 刘永超, 乔磊 申请人:江苏金鸽网络科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1