一种互联网采集b2b电商信息方法

文档序号:10471684阅读:255来源:国知局
一种互联网采集b2b电商信息方法
【专利摘要】B2B电商信息采集的方法,步骤1、确定需要进行信息采集的url及内容,包括客户信息、产品信息和行业信息等关键信息;步骤2、搭建反屏蔽组件,同时采用如下方法:方式1、维护代理IP池;代理IP是通过购买或采集免费代理IP获得,每日更新并测试,筛选出连接速度高的代理IP;方式2、断线重拨组件,当IP被封杀后,重启路由器即可更换IP地址的特点,当代理IP连接超时会自动重新拨号,使用新的IP进行抓取;方式3、压力测试,每次正式抓取前应做压力测试,测试在不同抓取频率下网站的反应,以达到频率和可采集性的平衡;步骤3、将采集结果形成报告发送到可视化平台。
【专利说明】
一种互联网采集B2B电商信息方法
技术领域
[0001]本发明涉及一种通过互联网采集B2B电商信息方法,尤其是采集竞争对手信息的方法。
【背景技术】
[0002]本发明涉及网络信息采集领域,具体而言,涉及一种通过互联网采集竞争对手信息的方法。B2B电商是指:以电子商务B2B平台以及大数据为基础,通过整合产业链上下游资源完成与企业之间的营销关系的电子商务活动,包括信息与交易服务、商业搜索引擎服务、金融服务、云端服务等。2014年中国电商B2B市场交易规模10万亿元,主要平台有阿里巴巴、慧聪网、中国制造网等数十家。对于从业者来说,通过合法途径采集竞争对手信息,做出商业决策,以达到知己知彼百战不殆是非常重要的。
[0003]url编码是一种浏览器用来打包表单输入的格式。浏览器从表单中获取所有的name和其中的值,将它们以name/value参数编码(移去那些不能传送的字符,将数据排行等等)作为URL的一部分或者分离地发给服务器。为及时、合法、有效地获得竞争对手信息,现提出了一种通过互联网url采集竞争对手信息并反馈的方法。

【发明内容】

[0004]本发明目的是,提出一种通过互联网采集B2B电商竞争对手信息的方法,也是一种B2B电商竞争对手情报分析方法,它通过执行定时采集任务及相关的一系列配置可实现对B2B电商竞争对手每日平台数据情况进行信息收集,并通过数据抽取、过滤、转换系统实现对手信息与自身数据的对比。对了解对手信息,知道自身发展可以起到相当重要的作用。
[0005]本发明技术方案是:一种B2B电商(竞争对手)信息采集的方法,包括:
[0006]步骤1、确定需要进行彳目息米集的urI及内容,包括客户彳目息、广品彳目息和行业彳目息等关键ig息O
[0007](I)需要配置进行信息采集url的规则:采集的url确定的html页面包含需要采集的信息且url能用通配符或正则表达式表达,以方便大规模采集,同时避免多次采集同一个url ο
[0008]B2B电商平台的url主要包括首页、产品页、会员详情页、产业目录页等,具有规则性,可利用通配符、正则表达式来表达不同类型页面的url。
[0009]需要配置进行信息采集url的的内容包括平台域名、产品页规则、会员页规则、产品详情页、会员详情页等。
[0010](2)会员信息采集:
[0011]B2B电商平台服务于大量会员,主要采集对手的会员总数、收费会员数、免费会员数,会员的省份、城市、行业分布,每天各类会员的数量。
[00?2 ] (3)行业彳目息米集:
[0013]B2B电商平台上的产品涉及到多个行业,因此主要采集B2B电商平台上对手的行业目录、目录变动情况。
[0014](2)、部署urI采集任务,定时执行采集程序。
[0015]因为B2B电商平台竞争对手信息每天都在更新,相应的采集程序也要在每天执行。
[0016]而且因为B2B电商平台拥有海量页面,同时采集的及时性需要越及时越好,然而同一个IP地址采集频率超过一定阈值后,采集失败率大幅增加。本文采用分布式采集的方案,即将采集任务分布到一个计算机集群,集群中各台计算机获得不同的IP地址,集群内部实时共享采集状态,这样实现了信息采集的及时性、提高了成功性。
[0017]步骤2、搭建反屏蔽组件,同时采用如下方法:
[0018]方式1、维护代理IP池。
[0019]代理IP是通过购买或采集免费代理IP获得,每日更新并测试,筛选出连接速度高的代理IP,加入代理IP池,当一个代理IP速度不够时,连接超时会自动退出代理IP池。
[0020]方式2、断线重拨组件
[0021]当IP被封杀后,重启路由器即可更换IP地址的特点,当代理IP连接超时会自动重新拨号,使用新的IP进行抓取。
[0022]方式3、压力测试
[0023]每次正式抓取前应做压力测试,测试在不同抓取频率下网站的反应,以达到频率和可采集性的平衡。
[0024]步骤3、将采集结果形成报告发送到可视化平台;
[0025]B2B电商平台的url采集执行最后,需要将采集结果发布到可视化平台,可视化平台可以对采集信息或数据进行多维分析,形成分析报表。同时还有一套相应的日志系统,方便采集人员查看采集记录。
[0026]进一步,搭建分布式采集系统,使用多台机器组成的集群进行对应网站的采集。其中,需要注意机器之间的通信,通过url规划避免同一url被多台机器重复采集、通过记录采集日志解决因网络拥塞、ip被封禁等原因导致的采集失败;
[0027]公司信息采集:首先提取公司详情页url的规则,按照规则配置通用的url列表,遍历url列表,采集公司的相关信息,如名称、省份、城市、会员级别;
[0028]产品信息采集:首先提取产品详情页url的规则,按照规则配置通用的url列表,遍历url列表,采集产品的相关信息,如名称、价格、规格、属性、所属行业目录等。
[0029]行业目录信息采集:行业目录数量不大有导航页,在导航页采集行业目录,每天采集并与上一次对比,监测竞争对手目录的变化。
[0030]本发明的有益效果:
[0031 ] 1、能够有效地采集到到每日B2B电商竞争对手的关键信息;
[0032]2、能够及时对B2B电商竞争对手的信息与自身进行对比;
[0033]3、全面的系统监控,提高了系统的可用性,也提高了系统维护的效率;
[0034]4、多种采集需求能够通过平台化统一完成,避免重复开发,降低成本。
【附图说明】
[0035]图1本实施例的一种B2B电商竞争对手信息采集方法处理流程图。
【具体实施方式】
[0036]如图1,本实施例一种B2B电商竞争对手信息采集方法处理流程,包括:
[0037]步骤1、确定待采集的url、客户信息、产品信息和行业信息等关键信息。
[0038]其中,确定待采集的url基本原则是,该url确定的html页面包含需要采集的信息且url能用通配符或正则表达式表达,以方便大规模采集,同时避免多次采集同一个url。
[0039]在确定待采集的客户信息、产品信息和行业信息等关键信息时,要注意根据业务合理制定采集目标。
[0040]步骤2、搭建反屏蔽组件[0041 ] 方式1、维护代理IP池。
[0042]代理IP是通过购买或采集免费代理IP获得,每日更新并测试,筛选出连接速度高的代理IP,加入代理IP池,当一个代理IP速度不够时,连接超时会自动退出代理IP池。
[0043]方式2、断线重拨组件
[0044]利用ADSL线路IP不固定,当IP被封杀后,重启路由器即可更换IP地址的特点,当代理IP连接超时会自动重新拨号,使用新的IP进行抓取。
[0045]方式3、压力测试
[0046]最好的反屏蔽方式还是降低采集频率,所以每次正式抓取前应做压力测试,测试在不同抓取频率下网站的反应,以达到频率和可采集性的平衡。
[0047]步骤3、搭建分布式采集系统,使用多台机器组成的集群进行对应网站的采集。
[0048]其中,需要注意机器之间的通信,通过url规划避免同一url被多台机器重复采集、通过记录采集日志解决因网络拥塞、ip被封禁等原因导致的采集失败。
[0049]具体方法如下:
[0050]公司信息:首先提取公司详情页url的规则,按照规则配置通用的url列表,遍历url列表,采集公司的相关信息,如名称、省份、城市、会员级别等,以第一次采集到的时间点为该公司加入竞争对手的日期。
[0051]产品信息:首先提取产品详情页url的规则,按照规则配置通用的url列表,遍历urI列表,采集产品的相关信息,如名称、价格、规格、属性、所属行业目录等。
[0052]行业目录信息:行业目录数量不大,往往有导航页,可以在导航页采集行业目录,每天采集并与上一次对比,可以监测竞争对手目录的变化。
[0053]步骤4、对采集信息进行多维分析,形成分析报表
[0054]例如分析竞争对手的会员情况,采集到的信息有:
[0055]I)会员公司名称、省份、城市、是否为收费会员
[0056]2)第一次进入采集信息的时间
[0057]3)会员所属的行业
[0058]4)会员的产品列表
[0059]对于上述信息,可以以时间、地址、行业为维度,分析竞争对手的会员数量、收费/免费会员情况,并与自身进行对比。
[0060]步骤5、生成报告,发送到高级管理人员。
[0061]对于B2B电商竞争对手信息的采集与分析有可能影响公司的战略决策,因此配置了一套报告自动生成系统,能够将分析内容生成文档,周期性地推送给高级管理人员。
【主权项】
1.一种B2B电商行业采集的方法,其特征是包括: 步骤1、确定需要进行?目息米集的ur I及内容,包括客户彳目息、广品彳目息和行业信息等关键?目息; (1)需要配置进行信息采集url的规则:采集的url确定的html页面包含需要采集的信息且url能用通配符或正则表达式表达,以方便大规模采集,同时避免多次采集同一个url; B2B电商平台的url主要包括首页、产品页、会员详情页、产业目录页等,具有规则性,利用通配符、正则表达式来表达不同类型页面的url; 需要配置进行信息采集url的的内容包括平台域名、产品页规则、会员页规则、产品详情页、会员详情页等; (2)会员信息采集: B2B电商平台服务于大量会员,主要采集对手的会员总数、收费会员数、免费会员数,会员的省份、城市、行业分布,每天各类会员的数量; (3)行业信息采集: B2B电商平台上的产品涉及到多个行业,因此主要采集B2B电商平台上对手的行业目录、目录变动情况; (2)、部署url采集任务,定时执行采集程序; 因为B2B电商平台竞争对手信息每天都在更新,相应的采集程序也要在每天执行; 采用分布式采集的方案,即将采集任务分布到一个计算机集群,集群中各台计算机获得不同的IP地址,集群内部实时共享采集状态,这样实现了信息采集的及时性、提高了成功性; 步骤2、搭建反屏蔽组件,同时采用如下方法: 方式1、维护代理IP池; 代理IP是通过购买或采集免费代理IP获得,每日更新并测试,筛选出连接速度高的代理IP,加入代理IP池,当一个代理IP速度不够时,连接超时会自动退出代理IP池; 方式2、断线重拨组件 当IP被封杀后,重启路由器即可更换IP地址的特点,当代理IP连接超时会自动重新拨号,使用新的IP进行抓取; 方式3、压力测试 每次正式抓取前应做压力测试,测试在不同抓取频率下网站的反应,以达到频率和可采集性的平衡; 步骤3、将采集结果形成报告发送到可视化平台; B2B电商平台的url采集执行最后,需要将采集结果发布到可视化平台,可视化平台可以对采集信息或数据进行多维分析,形成分析报表;同时还有一套相应的日志系统,方便采集人员查看采集记录。 分析报表由三大部分组成。第一部分是自身与竞争对手的概况对比,包括按时间维度统计的会员累计、新增、流失会员数量对比的柱状图以及明细表。 第二部分是自身与竞争对手的行业对比,包括各行业的会员数量、会员数累计占比、新增会员数量、新增会员占比、流失会员数量、流失会员占比。 第三部分是自身与竞争对手的省份城市对比,包括各省份城市的会员数量、会员数累计占比、新增会员数量、新增会员占比、流失会员数量、流失会员占比、会员倍数关系。 数据的以饼图、柱状图和明细表为主,既可以直观反映趋势、占比,亦能查看具体数据。2.根据权利要求1所述的信息采集的方法,其特征是搭建分布式采集系统,使用多台机器组成的集群进行对应网站的采集;其中,需要注意机器之间的通信,通过url规划避免同一 url被多台机器重复采集、通过记录采集日志解决因网络拥塞、ip被封禁等原因导致的采集失败; 公司信息采集:首先提取公司详情页url的规则,按照规则配置通用的url列表,遍历url列表,采集公司的相关信息,如名称、省份、城市、会员级别; 产品信息采集:首先提取产品详情页url的规则,按照规则配置通用的url列表,遍历url列表,采集产品的相关信息,如名称、价格、规格、属性、所属行业目录等; 行业目录信息采集:行业目录数量不大有导航页,在导航页采集行业目录,每天采集并与上一次对比,监测竞争对手目录的变化。
【文档编号】G06Q30/02GK105825399SQ201610148102
【公开日】2016年8月3日
【申请日】2016年3月15日
【发明人】郑扬, 陈静
【申请人】焦点科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1