基于互联网的事件发生时间采集方法

文档序号:9489454阅读:232来源:国知局
基于互联网的事件发生时间采集方法
【技术领域】
[0001]本发明涉及互联网的技术领域,具体说是一种基于互联网的事件发生时间采集方法。
【背景技术】
[0002]事件通常是指在某一特定时间和特定地点的特定事情,在互联网相对较为发达的今天,与各种事件相关联的网络新闻或文本信息不断通过互联网对外发布,而互联网的快速传播、迅速更新的特性使得网络与新闻的结合得到了巨大的成功。
[0003]将网络中发布的事件按照时间顺序进行记录汇总即可得到某一时间阶段内的某一事件或某类时间动态发展的走向,从而能够挖据出事件的发展脉络,从而分析得到重大事件的内因和外果,具有一定的指导意义。但为了追求时效性,大部分网络新闻和事件相关文本并不存在明确的点时间,而多采用段时间或时间偏移量的方式对事件进行描述,而新闻本身的受众为自然人,人可以通过新闻文本中的描述直接理解得到事件的发生时间,而计算机对新闻进行汇总时则不能对点时间之外的描述方式做出相对正确地记录反应。

【发明内容】

[0004]
本发明要解决的技术问题是提供一种基于互联网的事件发生时间采集方法。
[0005]本发明为解决公知技术中存在的技术问题所采取的技术方案是:
本发明的基于互联网的事件发生时间采集方法,包括以下步骤:
A、采集事件相关文档;
B、将文档分割,提取文档内明确时间信息,判断该时间信息是否合法,并将明确时间信息整理格式,即得事件发生时间;
C、文档中未提取到上述明确时间信息时,将采集到该文档的时间定义为基准时间;
D、对文档进行文字识别,提取文档中与时间描述相对应的时间词;
E、将时间词与上述基准时间进行关联,对基准时间按时间词进行相应修正,修正后的时间整理格式即得事件发生时间。
[0006]本发明还可以采用以下技术措施:
步骤B中,先提取文档内与年、月、日、时、分或秒各对应的明确时间信息;如由文档内未提取到年对应的明确时间信息时,将采集时对应年的信息补入;如由文档内未提取到年、月对应的明确时间信息时,将采集时对应年、月的信息补入;如由文档内未提取到年、月、日对应的明确时间信息时,将采集时对应年、月、日的信息补入。
[0007]如由文档内未提取到时、分、秒对应的明确时间信息时,将时、分、秒位置分别补零。
[0008]文档中未提取到明确时间信息时,文档出现在互联网上的时间定义为采集到该文档的时间。
[0009]文档中提取的时间词为距离基准时间的时间偏移量。
[0010]本发明具有的优点和积极效果是:
本发明的基于互联网的事件发生时间采集方法中,如能提取事件相关文档中的明确时间信息,则以整理格式后的明确时间信息作为事件发生时间,当明确时间信息无法获取,则通过文档中的时间词对基准时间即文档采集时间进行修正,以修正后的时间作为事件发生时间。通过本发明能够通过文档采集将互联网中记录的事件形成与时间对应相关联的事件列表,从而便于对事件记录进行后续的处理和应用。
【具体实施方式】
[0011]本发明的基于互联网的事件发生时间采集方法,包括以下步骤:
A、采集事件相关文档;
B、将文档分割,提取文档内明确时间信息,判断该时间信息是否合法,并将明确时间信息整理格式,即得事件发生时间;整理时间格式这一步骤中包括将文档中的时间描述方式修改为统一的格式,例如将“02:00ΡΜ”修改为“ 14:00”等;
C、文档中未提取到上述明确时间信息时,将采集到该文档的时间定义为基准时间;
D、对文档进行文字识别,提取文档中与时间描述相对应的时间词;时间词一般对应描述性的词汇,通常为距离基准时间的时间偏移量,如“几天前”、“几小时前”等;
E、将时间词与上述基准时间进行关联,对基准时间按时间词进行相应修正,修正后的时间整理格式即得事件发生时间。
[0012]步骤B中,先提取文档内与年、月、日、时、分或秒各对应的明确时间信息;如由文档内未提取到年对应的明确时间信息时,将采集时对应年的信息补入;如由文档内未提取至IJ年、月对应的明确时间信息时,将采集时对应年、月的信息补入;如由文档内未提取到年、月、日对应的明确时间信息时,将采集时对应年、月、日的信息补入。
[0013]如由文档内未提取到时、分、秒对应的明确时间信息时,将时、分、秒位置分别补零。
[0014]当对基准时间通过时间词进行修正时,对时分秒的修正仍按照以上规则。
[0015]文档中未提取到明确时间信息时,文档出现在互联网上的时间定义为采集到该文档的时间。
[0016]以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例公开如上,然而,并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰,成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明技术方案的范围内。
【主权项】
1.一种基于互联网的事件发生时间采集方法,包括以下步骤: A、采集事件相关文档; B、将文档分割,提取文档内明确时间信息,判断该时间信息是否合法,并将明确时间信息整理格式,即得事件发生时间; C、文档中未提取到上述明确时间信息时,将采集到该文档的时间定义为基准时间; D、对文档进行文字识别,提取文档中与时间描述相对应的时间词; E、将时间词与上述基准时间进行关联,对基准时间按时间词进行相应修正,修正后的时间整理格式即得事件发生时间。2.根据权利要求1所述的基于互联网的事件发生时间采集方法,其特征在于:步骤B中,先提取文档内与年、月、日、时、分或秒各对应的明确时间信息;如由文档内未提取到年对应的明确时间信息时,将采集时对应年的信息补入;如由文档内未提取到年、月对应的明确时间信息时,将采集时对应年、月的信息补入;如由文档内未提取到年、月、日对应的明确时间信息时,将采集时对应年、月、日的信息补入。3.根据权利要求2所述的基于互联网的事件发生时间采集方法,其特征在于:如由文档内未提取到时、分、秒对应的明确时间信息时,将时、分、秒位置分别补零。4.根据权利要求1、2或3所述的基于互联网的事件发生时间采集方法,其特征在于:文档中未提取到明确时间信息时,文档出现在互联网上的时间定义为采集到该文档的时间。5.根据权利要求1、2或3所述的基于互联网的事件发生时间采集方法,其特征在于:文档中提取的时间词为距离基准时间的时间偏移量。
【专利摘要】一种基于互联网的事件发生时间采集方法,包括以下步骤:采集事件相关文档;将文档分割,提取文档内明确时间信息,判断该时间信息是否合法,并将明确时间信息整理格式,即得事件发生时间;文档中未提取到上述明确时间信息时,将采集到该文档的时间定义为基准时间;对文档进行文字识别,提取文档中与时间描述相对应的时间词;将时间词与上述基准时间进行关联,对基准时间按时间词进行相应修正,修正后的时间整理格式即得事件发生时间。通过本发明能够通过文档采集将互联网中记录的事件形成与时间对应相关联的事件列表,从而便于对事件记录进行后续的处理和应用。
【IPC分类】G06F17/30
【公开号】CN105243092
【申请号】CN201510576507
【发明人】庞晓曦, 杨伟峰, 张作职
【申请人】天津海量信息技术有限公司
【公开日】2016年1月13日
【申请日】2015年9月11日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1