一种搜悦采集方法

文档序号:8395936阅读:234来源:国知局
一种搜悦采集方法
【技术领域】
[0001]本发明涉及一种采集方法,具体涉及一种搜悦采集方法。
【背景技术】
[0002]随着信息技技术与网络的发展,互联网已经成为人们生活密不可分的一部分。基于Internet的网络系统拥有者巨大的信息资源。但是这些资源大都形式分散,分布广,给用户查看信息带来了很大的难度。
[0003]搜索引擎则根据用户的需求,各种各样是搜索应用,使得用户可以快捷的查看的自己想要的数据。互联网中的资源信息,就像列表以不同的格式分散在成千上万的网页中,很好的采集这些数据以备使用就尤为重要。信息采集是一个重要的领域,它是以系统代替人工实现对网页的数据的采集、整理等处理,提高工作效率,节省劳动力。
[0004]但目前人们希望在手机端也可以随时查看相关信息,手机端APP随之产生。搜悦则在这样的背景下产生的,作为移动个人门户的入口,可以让用户感受到更好的新闻阅读体验。搜悦采集系统架构完成信息的采集、整理等工作,存储到搜悦检索库中,以备搜悦使用。搜悦采集系统的关键在于信息采集,缺点是网络中资讯信息噪音多,来源广泛且杂。

【发明内容】

[0005]为了克服上述现有技术的不足,本发明提供一种搜悦采集方法,能够高效、准确采集数据,数据来源准确,处理快速、结果更精准,避免了普通的采集资讯中大量噪音数据影响的不足。
[0006]为了实现上述发明目的,本发明采取如下技术方案:
[0007]本发明提供一种搜悦采集方法,所述方法包括以下步骤:
[0008]步骤1:监听数据,并对数据进行处理,得到待处理URL数据;
[0009]步骤2:对待处理URL数据进行下载、转码和抽取。
[0010]所述步骤I中,监听的数据来源包括以下三种:
[0011](I)统一资源定位器发送的Missing数据;
[0012](2)资讯排重系统发送的ADD数据;
[0013](3)重新处理已入库的数据,而发起的Refresh数据。
[0014]所述步骤I具体包括以下步骤:
[0015]步骤1-1:监听数据,校验后保存数据到数据文件;
[0016]步骤1-2:处理监听得到的数据文件。
[0017]所述步骤1-1中,监听端口接收数据后解析并校验得到URL数据,并将得到的URL数据根据各自的来源写入相应的数据文件,Missing数据、ADD数据和Refresh数据的处理优先级从左往右依次递减。
[0018]所述步骤1-2中,按照以上数据文件的处理优先级依次取得URL数据,将URL数据由黑名单过滤,且排重后得到URL数据增量,推入待下载任务队列;推入待下任务队列时依然按照Missing数据、ADD数据至Refresh数据的处理优先级,在待下载任务队列中排序,优先级高的数据放在队列头,以确保后续处理的优先级。
[0019]所述步骤2包括以下步骤:
[0020]步骤2-1:将待下载任务队列的URL数据推送到下载器,由下载器下载URL数据;
[0021]步骤2-2:从下载器得到下载结果,并校验处理,区分下载结果为图片或详情页;
[0022]步骤2-3:对图片的下载结果和详情页的下载结果分别进行处理,得到URL数据信息;
[0023]步骤2-4:分析URL数据信息。
[0024]所述步骤2-2中,针对图片的下载结果,首先分析图片信息,并处理图片尺寸,根据实践经验得到最小经验值,小于最小经验值尺寸的图片视为垃圾图片,则丢弃,根据需求,小于需求尺寸则无须压缩处理,而大于需求尺寸的图片则压缩到需求的尺寸;然后将符合要求的图片信息上传图片服务器,得到图片ID及图片地址,并将下载结果中原文的图片链接替换成处理后的图片地址。
[0025]所述步骤2-3中,针对详情页的下载结果,分析下载结果,并对下载结果进行转码,成功转码后,对其进行自动抽取,在下载结果中抽取出所需要的信息。任何一步失败则丢弃当前详情页,均直接执行步骤2-4。
[0026]所述步骤2-3中,在对图片的下载结果和详情页的下载结果分别进行处理的过程中,任何一步失败则丢弃当前图片或当前详情页,均直接执行步骤2-4。
[0027]所述步骤2-4中,首先查看URL数据信息是否有待处理的图片链接;然后查看URL数据信息是否有待处理的翻页链接;
[0028]如有待处理的图片链接或者翻页链接,则将URL数据信息推入待下载队列继续处理,重复以上各步骤;如无任何待处理的图片链接或者翻页链接,且URL数据信息完整,则写入发送文件,当前URL数据信息采集完成。
[0029]与现有技术相比,本发明的有益效果在于:
[0030]本发明中数据来源主要依赖资讯排重系统,资讯排重系统的数据经过前面的处理,信息更准确,质量更好,避免内容重复;从而采集过程中不需要担心劣质数据的混淆,减少噪音数据干扰。客户端的Missing数据的优先处理,即快速而又准确的补充了用户关心的部分漏缺数据。同时,该方法简单,速度快。
【附图说明】
[0031]图1是本发明实施例中搜悦采集方法流程图;
[0032]图2是本发明实施例中数据监听流程图;
[0033]图3是本发明实施例中数据采集流程图。
【具体实施方式】
[0034]下面结合附图对本发明作进一步详细说明。
[0035]如图1,本发明提供一种搜悦采集方法,所述方法包括以下步骤:
[0036]步骤1:监听数据,并对数据进行处理,得到待处理URL数据;
[0037]步骤2:对待处理URL数据进行下载、转码和抽取。
[0038]所述步骤I中,监听的数据来源包括以下三种:
[0039](I)统一资源定位器发送的Missing数据;
[0040](2)资讯排重系统发送的ADD数据;
[0041](3)重新处理已入库的数据,而发起的Refresh数据。
[0042]如图2,所述步骤I具体包括以下步骤:
[0043]步骤1-1:监听数据,校验后保存数据到数据文件;
[0044]步骤1-2:处理监听得到的数据文件。
[0045]所述步骤1-1中,监听端口接收数据后解析并校验得到URL数据,并将得到的URL数据根据各自的来源写入相应的数据文件,Missing数据、ADD数据和Refresh数据的处理优先级从左往右依次递减。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1