商品自动化采集与迁移方法与流程

文档序号:17591415发布日期:2019-05-03 21:52阅读:192来源:国知局
商品自动化采集与迁移方法与流程

本发明属于商品数据采集与迁移技术领域,具体涉及一种商品自动化采集与迁移方法。



背景技术:

相关技术中,业内的商品数据采集方法可以具备采集淘宝、天猫、京东、国美在线、苏宁易购等一线电商平台中的商品数据的功能,包括商品标题、主图、价格等属性数据,其优点是已经满足了一线电商平台的在线商家的需求,使用起来也很方便。但是也存在一些不足,具体如下:

只支持固定页面格式的电商数据采集,如果电商平台页面结构发生变化,则此类采集方法会受到很大制约。另外,该采集方式也不支持二线电商平台的数据采集与自动化迁移,比如,某省或市县级的供销社电商平台中的商品数据就无法通过此类工具进行采集和数据迁移,如要完成此项工作,目前还是以人工重新录入、投入开发人员对接等方式来完成,无疑是增加了很大的成本。

商品详情页的数据不支持与原系统保持一致,特别是图文混排的详情数据,在导入新系统后往往还需要人工重新编辑一次。



技术实现要素:

有鉴于此,本发明的目的在于克服现有技术的不足,提供一种商品自动化采集与迁移方法,以解决现有技术中商品数据的采集方法不适用复杂多变的电商平台页面结构的技术问题,以及改善受制于该采集方法而增加劳动成本的弊端。

为实现以上目的,本发明采用如下技术方案:

本申请提供一种商品自动化采集与迁移方法,包括如下步骤:

s1,设置商品页面url规则以及url中的变量;

s2,遍历符合s1中设置好的url规则的所有变量的url的商品源数据,并将商品源数据存储到数据库一中;

s3,对数据库一中的商品源数据进行分析学习,将分析结果以数据包的形式存入数据库二中;

s4,将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包;

s5,将s4中的预设数据包迁移到预设平台页面。

进一步的,s2中所述商品源数据包括文字及商品图片信息;所述数据库一是nosql-mongodb数据库;所述数据库二是mysql和mongodb。

上述的商品自动化采集与迁移方法中,s2遍历过程中,遇到空的商品url,自动抛弃并记录。

上述的商品自动化采集与迁移方法中,s3中,分析学习的过程包括,对商品源数据进行学习,找到页面元素规律,分析得出的元素至少包括店铺、品牌、分类、标题、价格、主图和商品详情信息,将分析得出的所有元素形成数据包存储到数据库二中。

上述的商品自动化采集与迁移方法中,s4中所述将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包的方法是,将数据库二中的所述店铺、品牌、分类、标题、价格、主图和商品详情信息元素分别与预设平台页面相应区块进行匹配,形成预设数据包。

上述的商品自动化采集与迁移方法中,s5中所述将s4中的预设数据包迁移到预设平台页面之后,还包括在平台上发布的步骤s6:

迁移后为待发布状态,是否发布等待校核数据之后;如果数据校核成功,则在预设平台页面上发布;如果数据校核未成功,则暂缓发布。

上述的商品自动化采集与迁移方法中,s6中需要校核的数据包括:店铺信息确认、商品分类确认以及品牌信息确认。

上述的商品自动化采集与迁移方法中,所述店铺信息确认包括,检测预设平台页面中是否含有所述预设数据包中的店铺信息;如果预设平台页面中不存在该预设数据包中的店铺信息,则创建并初始化相关属性数据项,新创建的店铺信息默认为“待启用”状态,经管理审核后可批量启用;如果预设平台页面中存在该预设数据包中的店铺信息,则将该预设数据包中的店铺信息对应的批量商品匹配到预设平台页面中存在的店铺中。

上述的商品自动化采集与迁移方法中,所述商品分类确认包括,检测预设平台页面中是否含有所述预设数据包中的商品分类信息;如果预设平台页面中不存在该预设数据包中的商品分类信息,则创建并初始化相关属性信息项,新创建的商品分类信息默认为“待启用”状态,经管理审核后可批量启用。

上述的商品自动化采集与迁移方法中,所述品牌信息确认包括,检测预设平台页面中是否含有所述预设数据包中的品牌信息;如果预设平台页面中不存在该预设数据包中的品牌信息,则创建并初始化相关属性信息项,新创建的商品分类信息默认为“待启用”状态,经管理审核后可批量启用。

上述的商品自动化采集与迁移方法中,标题、价格、主图和商品详情信息元素属于商品数据。

上述的商品自动化采集与迁移方法中,待店铺信息、商品分类信息匹配完成后,商品数据匹配迁入到预设平台页面中;迁入的商品数据默认为“待审核”状态,经审核后在线上发布。

本发明采用以上技术方案,能够达到的有益效果包括:

省去了技术人员的开发对接工作,为异构系统之间的数据迁移节省了很大工作量,提高了劳动效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一种商品自动化采集与迁移方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。

本发明通过“数据采集”、“自动学习”、“数据迁入”三大步骤,主要思路就是先根据规则把要采集平台的商品数据全部采集并做保存,然后再对采集到的商品数据进行模拟学习并把学习成果保存后校核,确认之后再进行数据的迁入工作,迁入到预设平台页面。

下面结合附图介绍本申请实施例中提供的一个具体的商品自动化采集与迁移方法。

如图1所示,一种商品自动化采集与迁移方法,包括如下步骤:

s1,设置商品页面url规则以及url中的变量;

s2,遍历符合s1中设置好的url规则的所有变量的url的商品源数据,并将商品源数据存储到数据库一中;

s3,对数据库一中的商品源数据进行分析学习,将分析结果以数据包的形式存入数据库二中;

s4,将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包;

s5,将s4中的预设数据包迁移到预设平台页面。

上述的商品自动化采集与迁移方法中,设置商品页面url规则以及url中的变量的具体方式可以采用如下方式:

1、以商品url为采集思路,以下提供两种采集方式1.1和1.2:

1.1、url_part1+变量+url_part2,如:“http://product.gxyj.com/”+“*#n#*”+“.html”,并设置这里的变量n的范围,如000001到999999,可以根据此规则设置多个变量。

采集商品url的方式还可以采用如下办法:

1.2、批量导入完整的商品url,导入的格式可以是文本文件、excel。

2、以店铺url为采集思路,以下提供两种采集方式2.1和2.2::

2.1、url_part1+变量+url_part2,如:

“http://www.gxyj.com/shop/index.jhtml?shopid=”+“*#n#*”,并设置这里的变量n的范围,如000001到999999,可以根据此规则设置多个变量。机器人会自动识别每个店铺中的分类商品列表,并对商品信息逐一进行遍历采集。

采集店铺url的方式还可以采用如下办法:

2.2、批量导入完整的店铺url,导入的格式可以是文本文件、excel。

3、以商品分类url为采集思路,以下提供两种采集方式3.1和3.2:

3.1、url_part1+变量+url_part2,如:

“http://www.gxyj.com/searchproducts/pv.jhtml?searchtype=category&catid=”+“*#n#*”,这里需要设置变量n的范围,代表商品分类id的变化。机器人会自动根据变量范围进行商品遍历采集。

商品分类url的采集方式还可以是:

3.2、批量导入完整的商品分类url,导入的格式可以是文本文件、excel。

s2中所述的商品源数据包括商品分类url的文本文件或excel、店铺url的文本文件或excel和商品url的文本文件或excel。

数据库一可以是nosql-mongodb数据库,数据库二可以是是mysql和mongodb的组合;s2中所述商品源数据包括文字及商品图片信息,根据需要将商品源数据按照是否互为关系分类保存到不同的数据库中。

s3中,分析学习的过程包括,对商品源数据进行学习,找到页面元素规律,分析得出的元素至少包括店铺、品牌、分类、标题、价格、主图和商品详情信息,将分析得出的所有元素形成数据包存储到数据库二中。数据库二可以是是mysql和mongodb的组合。

商品详情信息包括文字描述和商品图片顺序。

对商品源数据进行学习,主要使用python和mapreduce技术,从mongodb中取出商品源数据进行分析学习,把分析结果数据存入mysql和mongodb数据库中,最后根据预设预设平台页面的商品规则生成符合预设平台页面的商品规范的数据包。生成的数据包包括pc端应用程序能够识别的数据包,也包括手机端应用程序能够识别的数据包。

s2遍历过程中,遇到空的商品url,自动抛弃并记录。

上述的商品自动化采集与迁移方法中,s4中所述将数据库二中的数据包按照预设平台页面规则进行匹配,形成预设数据包的方法是,将数据库二中的所述店铺、品牌、分类、标题、价格、主图和商品详情信息元素分别与预设平台页面相应区块进行匹配,形成预设数据包。

上述的商品自动化采集与迁移方法中,s5中所述将s4中的预设数据包迁移到预设平台页面之后,还包括在平台上发布的步骤s6:

迁移后为待发布状态,是否发布等待校核数据之后;如果数据校核成功,则在预设平台页面上发布;如果数据校核未成功,则暂缓发布。

上述的商品自动化采集与迁移方法中,s6中需要校核的数据包括:店铺信息确认、商品分类确认以及品牌信息确认。

上述的商品自动化采集与迁移方法中,所述店铺信息确认包括,检测预设平台页面中是否含有所述预设数据包中的店铺信息;如果预设平台页面中不存在该预设数据包中的店铺信息,则创建并初始化相关属性数据项,新创建的店铺信息默认为“待启用”状态,经管理审核后可批量启用;如果预设平台页面中存在该预设数据包中的店铺信息,则将该预设数据包中的店铺信息对应的批量商品匹配到预设平台页面中存在的店铺中。

上述的商品自动化采集与迁移方法中,所述商品分类确认包括,检测预设平台页面中是否含有所述预设数据包中的商品分类信息;如果预设平台页面中不存在该预设数据包中的商品分类信息,则创建并初始化相关属性信息项,新创建的商品分类信息默认为“待启用”状态,经管理审核后可批量启用。

上述的商品自动化采集与迁移方法中,所述品牌信息确认包括,检测预设平台页面中是否含有所述预设数据包中的品牌信息;如果预设平台页面中不存在该预设数据包中的品牌信息,则创建并初始化相关属性信息项,新创建的商品分类信息默认为“待启用”状态,经管理审核后可批量启用。

上述的商品自动化采集与迁移方法中,标题、价格、主图和商品详情信息元素属于商品数据。

上述的商品自动化采集与迁移方法中,待店铺信息、商品分类信息匹配完成后,商品数据匹配迁入到预设平台页面中;迁入的商品数据默认为“待审核”状态,经审核后在线上发布。

通过本发明的方法能够降低劳动复杂度,适应性广泛,省去了技术人员的开发对接工作,为异构系统之间的数据迁移节省了很大工作量,提高了劳动效率。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1