一种网络信息采集方法

文档序号:7770754阅读:150来源:国知局
一种网络信息采集方法
【专利摘要】本发明公开了一种网络信息采集方法,其属于网络信息【技术领域】;采用一个判断模块对多个网络账号进行筛选以找出关注账号,随后采用判断模块对被筛选出的网络账号所关联的网络信息进行筛选以找出关注信息;采用一个数据存储模块存储被筛选出的网络账号以及所关联的网络信息;判断模块与数据存储模块连接;上述技术方案的有益效果是:较精确地通过关键词查找相关网络信息,且查找方便,关键词设置准确;对于网络信息的获取实时性也较好。
【专利说明】一种网络信息采集方法
【技术领域】
[0001]本发明涉及网络信息【技术领域】,尤其涉及一种网络信息采集方法。
【背景技术】
[0002]现有技术中由于每时每刻发布的网络信息数量庞大,对其进行关键词匹配从而进行搜索较为困难,具体体现在:1)关键词范围难以确定;2)不能很好地抓取想要的网络数据;3)搜索出的数据可能不是最新的网络数据,即数据的实时性较差。
[0003]中国专利(CN101472250)公开了一种针对不良短消息的关键词防范方法,包括如下步骤:(1)运营商或者业务提供商预先提供一份针对不良短消息的关键词列表,关键词列表的每个条目包括两项内容:关键词、关键词的出现概率;(2)用户获得关键词列表的全部内容或者一个子集;(3)将已获得的关键词合并到用户手机内部的关键词列表中;(4)用户手机根据关键词列表直接过滤包含关键词的短消息。上述技术方案主要针对短消息防范,且对于关键词的选择并不能保证精确,无法解决现有技术中存在的问题。

【发明内容】

[0004]根据现有技术中存在的缺陷,现提供一种网络信息采集方法的技术方案,具体包括:
[0005]一种网络信息采集方法,其中,采用一个判断模块对多个网络账号进行筛选,随后采用所述判断模块对被筛选出的所述网络账号所关联的网络信息进行筛选;
[0006]采用一个数据存储模块存储被筛选出的所述网络账号以及所关联的所述网络信息;
[0007]所述判断模块与所述数据存储模块连接,;
[0008]所述网络信息采集方法具体包括:
[0009]步骤1,获取多个网络账号,以作为所述关注账号并保存;
[0010]步骤2,获取多个所述关注账号所发布的多条所述网络信息,以作为所述关注信息并保存;
[0011]步骤3,返回本次信息获取的所述网络信息的发布序号的最大值,并作为最大序号信息,并保存;
[0012]步骤4,经过一预设的第一时间间隔后,返回所述步骤I。
[0013]优选的,该网络信息采集方法,其中,在所述数据存储模块内设置多个第一存储空间;采用所述判断模块对多个所述网络账号进行筛选,并以被筛选出的所述网络账号作为关注账号;
[0014]每个所述第一存储空间用于保存一个所述关注账号。
[0015]优选的,该网络信息采集方法,其中,所述步骤I中,将多个所述关注账号所关联的所述网络账号作为所述关注账号,并保存入所述第一存储空间内。
[0016]优选的,该网络信息采集方法,其中,在所述数据存储模块内设置多个第二存储空间,采用所述判断模块对多个所述关注账号所关联的多条所述网络信息进行筛选,并以被筛选出的所述网络信息作为关注信息;
[0017]每个所述第二存储空间包括多个独立的存储块,每个所述存储块用于保存一个所述关注信息;每个所述第二存储空间对应一个所述第一存储空间。
[0018]优选的,该网络信息采集方法,其中,采用一个删除模块去除保存于多个所述第一存储空间中的所述关注账号;
[0019]所述删除模块连接所述数据存储模块;
[0020]若所述关注账号超过一预设的第二时间间隔未发布所述网络信息,则将所述关注账号从所述第一存储空间中去除。
[0021]优选的,该网络信息采集方法,其中,所述步骤I中,获取多个网络账号,以作为所述关注账号并保存的具体步骤包括:
[0022]步骤11,获取每个所述网络账号已经发布的所述网络信息;
[0023]步骤12,将每条所述网络信息与多个预设的关键词信息进行匹配;
[0024]若匹配成功,则转至步骤13 ;
[0025]若匹配失败,则退出;
[0026]步骤13,判断匹配成功的所述网络信息的出现频率;
[0027]若一个所述网络账号中,匹配成功的所述网络信息出现的频率大于一预设的频率时,则将所述网络账号作为所述关注账号并保存入所述第一存储空间中;随后转至步骤14;
[0028]若一个所述网络账号中,匹配成功的所述网络信息出现的频率小于一预设的频率时,则退出;
[0029]步骤14,将多个所述关注账号所关联的所述网络账号作为所述关注账号,并保存入所述第一存储空间中。
[0030]优选的,该网络信息采集方法,其中,在所述数据存储模块中设置多个第三存储空间,每个所述第三存储空间中保存有一个所述预设的关键词信息。
[0031]优选的,该网络信息采集方法,其中,所述步骤2中,获取多个所述关注账号所发布的多条所述网络信息,以作为所述关注信息并保存的具体步骤包括:
[0032]步骤21,获取每个所述关注账号发布的所述网络信息;
[0033]步骤22,获取每条所述网络信息的发布序号,并根据所述发布序号判断所述网络信息是否已经被获取;
[0034]若所述网络信息已经被获取,则退出;
[0035]若所述网络信息未被获取,则转至步骤b3 ;
[0036]步骤23,以多个所述预设的关键词信息对所述网络信息进行匹配;
[0037]若匹配成功,则转至步骤24 ;
[0038]若匹配不成功,则退出;
[0039]步骤24,将所述网络信息作为所述关注信息并保存入所述第二存储空间内。
[0040]优选的,该网络信息采集方法,其中,所述步骤22中,根据所述发布序号判断所述网络信息是否曾经被获取的过程具体包括:
[0041]将每个所述发布序号与上一次信息获取的所述最大序号信息进行匹配;[0042]若所述发布序号大于所述最大序号信息,则判断所述网络信息未被获取;
[0043]若所述发布序号小于所述最大序号信息,则判断所述网络信息已经被获取。
[0044]上述技术方案的有益效果是:较精确地通过关键词查找相关网络信息,且查找方便,关键词设置准确;对于网络信息的获取实时性也较好。
【专利附图】

【附图说明】
[0045]图1是本发明的较佳的实施例中,实现网络信息采集方法的基础结构示意图;
[0046]图2是本发明的较佳的实施例中,一种网络信息采集方法的流程示意图;
[0047]图3是本发明的较佳的实施例中,对于网络账号进行筛选的流程示意图;
[0048]图4是本发明的较佳的实施例中,对于网络信息进行筛选的流程示意图。
【具体实施方式】
[0049]下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
[0050]如图1所示,本发明的较佳的实施例中,对于一种网络信息采集方法,采用一判断模块I对多个网络账号进行筛选,并将筛选出的网络账号作为关注账号保存;
[0051]同样采用该判断模块I对多个关注账号所关联的网络信息进行筛选(本发明的较佳的实施例中,上述关注账号所关联的网络信息即为关注账号所发布的网络信息),并将筛选出的网络信息作为关注信息保存。
[0052]本发明的较佳的实施例中,上述判断模块I连接一个数据存储模块2 ;该数据存储丰旲块2中包括了:
[0053]多个第一存储空间21 ;采用判断模块对多个网络账号进行筛选,随后将经过筛选的多个网络账号作为关注账号并分别保存入对应的第一存储空间21中(说明书附图中仅示出一个)。本发明的较佳的实施例中,以微博账号为例,对多个微博账号进行筛选,并将经过筛选的微博账号作为关注账号保存入对应的第一存储空间中。
[0054]多个第二存储空间22 ;每个第二存储空间22 (说明书附图中仅示出一个)中包括了多个独立的存储块221 (说明书附图中仅示出一个);每个存储块221中保存有一个与一个关注账号所关联的经过筛选的关注信息。本发明的较佳的实施例中,以微博账号为例,采用上述判断模块I对多个关注账号所发布的网络信息进行筛选,并将经过筛选的网络信息作为关注信息保存入对应的存储块221中。本发明的较佳的实施例中,每个第二存储空间22与一个第一存储空间21相关联,即将每个关注账号所发布的多个关注信息与该关注账号关联保存。
[0055]多个第三存储空间23 ;每个第三存储空间23中(说明书附图中仅示出一个)用于保存一个预设的关键词信息。该预设的关键词信息供判断模块筛选出关注账号以及关注信
肩、O
[0056]本发明的较佳的实施例中,在数据存储模块上还连接一个删除模块3。该删除模块3用于去除不合要求的关注账号。具体而言,本发明的较佳的实施例中,删除模块3定期对保存于第一存储空间21的关注账号进行筛选,并从第一存储空间21中去除不合要求的关注账号。本发明的较佳的实施例中,以微博为例,删除模块3能够通过一定的筛选,定期将关注账号中活跃度不高的账号去除。[0057]于上述技术方案的基础上,上述基础结构及其连接关系,均可以通过硬件连接或者软件编程的方式实现,上述连接关系仅包括在本发明的较佳的实施例中,并非因此限定本发明的保护范围。
[0058]如图2所示,本发明的较佳的实施例中,采用上述基础结构对网络信息进行采集的方法包括:
[0059]步骤1,获取多个网络账号,以作为关注账号并保存;
[0060]本发明的较佳的实施例中,采用判断模块I对多个网络账号进行筛选,并获取经过筛选的多个网络账号作为关注账号;
[0061]步骤2,获取多个关注账号所发布的多条网络信息,以作为关注信息并保存;
[0062]本发明的较佳的实施例中,采用上述判断模块I对多个关注账号所发布的网络信息进行筛选,并获取到经过筛选的多条网络信息,以作为关注信息,并保存入与对应的关注账号相关联的第二存储空间22中;
[0063]步骤3,返回本次信息获取的网络信息的发布序号的最大值,并作为最大序号信息,并保存;
[0064]本发明的较佳的实施例中,信息发布时,其发布时间越晚,发布序号就越大;当一次信息获取完成之后,记录下本次信息获取中所获取过的网络信息的发布序号中的最大值;以微博为例,记录下本次所获取的微博信息的最大发布id,以作为最大序号信息并保存;
[0065]步骤4,经过一预设的第一时间间隔后,返回步骤I ;
[0066]本发明的较佳的实施例中,仍然以微博为例,当一次信息获取结束之后,经过一定的时间间隔(即给予关注账号一定的时间发送网络信息),进行下一次的信息获取。
[0067]本发明的较佳的实施例中,如图3所示,上述步骤I中,获取完了过账号以作为关注账号的步骤具体包括:
[0068]步骤11,获取每个网络账号已经发布的网络信息;
[0069]步骤12,将每条网络信息与多个预设的关键词信息进行匹配;
[0070]若匹配成功,则转至步骤13 ;
[0071]若匹配失败,则退出;
[0072]首先判断一个网络账号已经发布的网络信息中,是否有与预设的关键词信息匹配的;本发明的较佳的实施例中,以微博为例,关键词信息可以是本地信息(例如本地的地名等),或者行业信息,或者其他具有明显划分界限的关键词信息;采用判断模块I抓取每个网络账号已经发布的网络信息并根据关键词信息进行一一匹配;若有网络信息与关键词信息相匹配(例如网络信息中包含有本地的地名),则判断该网络账号曾经发布过与关键词信息相关联的网络信息,并进行下一步;若没有一条网络信息与关键词信息相匹配,则退出。
[0073]步骤13,判断匹配成功的网络信息的出现频率;
[0074]若一个网络账号中,匹配成功的网络信息出现的频率大于一预设的频率时,则将网络账号作为关注账号并保存入第一存储空间中;随后转至步骤14 ;
[0075]若一个网络账号中,匹配成功的网络信息出现的频率小于一预设的频率时,则退出;
[0076]本发明的较佳的实施例中,仍然以微博为例,若一个网络账号在一定的时间内发布了多条关键词信息相匹配的网络信息,例如频繁发送包含有本地地名的网络信息,则认为该网络账号为可以被列为关注的本地账号,即将该网络账号作为关注账号保存。
[0077]同样的,本发明的其他实施例中,若挑选的关键词信息为某个行业信息,则筛选出的网络账号为可以被列为关注的行业相关账号,同样作为关注账号保存。
[0078]步骤14,将多个关注账号所关联的网络账号作为关注账号,并保存入第一存储空间中。
[0079]于上述技术方案的基础上,上述关键词信息的选择以及相应的对网络账号进行筛选的方法仅包括在本发明的较佳的实施例中,并非因此限定本发明的保护范围。
[0080]如图4所示,本发明的较佳的实施例中,对于步骤2中所述的获取网络信息以作为关注信息,其具体包括:
[0081]步骤21,获取每个关注账号发布的网络信息;
[0082]本发明的较佳的实施例中,如上述步骤4中所述,判断模块I定期获取关注账号发布的网络信息,本步骤中仅指单独一次获取网络信息的过程。
[0083]步骤22,获取每条网络信息的发布序号,并根据发布序号判断网络信息是否已经被获取;
[0084]若网络信息已经被获取,则退出;
[0085]若网络信息未被获取,则转至步骤b3 ;
[0086]本发明的较佳的实施例中,对于网络信息的判断,首先判断其是否已经被获取过,以避免重复获取。
[0087]在获取每条网络信息的发布序号后,分别与上一次信息获取中的最大序号信息进行比对:
[0088]若该网络信息的发布序号大于上一次信息获取中的最大序号信息,则说明该网络信息晚于上一次信息获取之后发布,可以被获取;
[0089]若该网络信息的发布序号小于上一次信息获取中的最大序号信息,则说明该网络信息早于上一次信息获取之前发布,已经被获取过,本次信息获取无需再对其进行操作。
[0090]步骤23,以多个预设的关键词信息对网络信息进行匹配;
[0091]若匹配成功,则转至步骤24 ;
[0092]若匹配不成功,则退出;
[0093]步骤24,将网络信息作为关注信息并保存入第二存储空间内。
[0094]本发明的较佳的实施例中,上述预设的关键词信息与判断网络账号时所采用的关键词信息相同。当网络信息包括了预设的关键词信息时,将该网络信息作为关注信息并保存入相应的第二存储空间22中。
[0095]本发明的较佳的实施例中,仍然以微博为例,在关注账号所发布的网络信息中,以预设的关键词信息进行匹配(例如当关注账号分类为本地账号时,则以本地信息进行匹配),以找出与关键词信息相关联的网络信息,并以关注信息进行保存。上述关键词匹配的方法通过缩小范围的方式较为精确地匹配使用者的需求。
[0096]本发明的较佳的实施例中,可以对关注账号进行进一步的扩展,即将每个关注账号所关联的网络账号均作为关注账号保存于第一存储空间21中。本发明的较佳的实施例中,以微博为例,可以将一个关注账号的相关关注账号以及好友账号均列为关注账号。[0097]为了减轻数据存储的压力,并保持数据的实时性,本发明的较佳的实施例中,采用删除模块3定期对关注账号进行筛选,以去除一些实时性不高的关注账号。
[0098]本发明的较佳的实施例中,具体而言,采用删除模块3对关注账号进行筛选。若一个关注账号在预设的第二时间间隔内未发布新的网络信息,则判断该关注账号实时性不高,随后将其从第一存储空间中去除。
[0099]本发明的较佳的实施例中,以微博为例,若一个关注账号在7天内并未发布/转发新的网络信息,则将其从关注账号的列表中移除。
[0100]于上述技术方案的基础上,对于关键词信息以及筛选网络账号/网络信息的方式,以及其他可被选择的技术特征,均仅包含在本发明的较佳的实施例中,并非因此限制本发明的保护范围。
[0101]以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
【权利要求】
1.一种网络信息采集方法,其特征在于,采用一个判断模块对多个网络账号进行筛选,随后采用所述判断模块对被筛选出的所述网络账号所关联的网络信息进行筛选; 采用一个数据存储模块存储被筛选出的所述网络账号以及所关联的所述网络信息; 所述判断模块与所述数据存储模块连接,; 所述网络信息采集方法具体包括: 步骤1,获取多个网络账号,以作为所述关注账号并保存; 步骤2,获取多个所述关注账号所发布的多条所述网络信息,以作为所述关注信息并保存; 步骤3,返回本次信息获取的所述网络信息的发布序号的最大值,并作为最大序号信息,并保存; 步骤4,经过一预设的第一时间间隔后,返回所述步骤I。
2.如权利要求1所述的网络信息采集方法,其特征在于,在所述数据存储模块内设置多个第一存储空间;采用所述判断模块对多个所述网络账号进行筛选,并以被筛选出的所述网络账号作为关注账号; 每个所述第一存储空间用于保存一个所述关注账号。
3.如权利要求2所述的网络信息采集方法,其特征在于,所述步骤I中,将多个所述关注账号所关联的所述网络账号作为所述关注账号,并保存入所述第一存储空间内。
4.如权利要求3所述的网络信息采集方法,其特征在于,在所述数据存储模块内设置多个第二存储空间,采用所述判断模块对多个所述关注账号所关联的多条所述网络信息进行筛选,并以被筛选出的所述网络信息作为关注信息; 每个所述第二存储空间包括多个独立的存储块,每个所述存储块用于保存一个所述关注信息;每个所述第二存储空间对应一个所述第一存储空间。
5.如权利要求4所述的网络信息采集方法,其特征在于,采用一个删除模块去除保存于多个所述第一存储空间中的所述关注账号; 所述删除模块连接所述数据存储模块; 若所述关注账号超过一预设的第二时间间隔未发布所述网络信息,则将所述关注账号从所述第一存储空间中去除。
6.如权利要求3所述的网络信息采集方法,其特征在于,所述步骤I中,获取多个网络账号,以作为所述关注账号并保存的具体步骤包括: 步骤11,获取每个所述网络账号已经发布的所述网络信息; 步骤12,将每条所述网络信息与多个预设的关键词信息进行匹配; 若匹配成功,则转至步骤13; 若匹配失败,则退出; 步骤13,判断匹配成功的所述网络信息的出现频率; 若一个所述网络账号中,匹配成功的所述网络信息出现的频率大于一预设的频率时,则将所述网络账号作为所述关注账号并保存入所述第一存储空间中;随后转至步骤14 ; 若一个所述网络账号中,匹配成功的所述网络信息出现的频率小于一预设的频率时,则退出; 步骤14,将多个所述关注账号所关联的所述网络账号作为所述关注账号,并保存入所述第一存储空间中。
7.如权利要求6所述的网络信息采集方法,其特征在于,在所述数据存储模块中设置多个第三存储空间,每个所述第三存储空间中保存有一个所述预设的关键词信息。
8.如权利要求7所述的网络信息采集方法,其特征在于,所述步骤2中,获取多个所述关注账号所发布的多条所述网络信息,以作为所述关注信息并保存的具体步骤包括: 步骤21,获取每个所述关注账号发布的所述网络信息; 步骤22,获取每条所述网络信息的发布序号,并根据所述发布序号判断所述网络信息是否已经被获取; 若所述网络信息已经被获取,则退出; 若所述网络信息未被获取,则转至步骤b3 ; 步骤23,以多个所述预设的关键词信息对所述网络信息进行匹配; 若匹配成功,则转至步骤24; 若匹配不成功, 则退出; 步骤24,将所述网络信息作为所述关注信息并保存入所述第二存储空间内。
9.如权利要求8所述的网络信息采集方法,其特征在于,所述步骤22中,根据所述发布序号判断所述网络信息是否曾经被获取的过程具体包括: 将每个所述发布序号与上一次信息获取的所述最大序号信息进行匹配; 若所述发布序号大于所述最大序号信息,则判断所述网络信息未被获取; 若所述发布序号小于所述最大序号信息,则判断所述网络信息已经被获取。
【文档编号】H04L29/06GK104009970SQ201310424850
【公开日】2014年8月27日 申请日期:2013年9月17日 优先权日:2013年9月17日
【发明者】方净, 林启宏 申请人:宁波公众信息产业有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1