本发明涉及软件应用技术领域,特别涉及一种外贸集客营销系统及方法。
背景技术:
当前国内外贸行业计算机软件使用主要有以下两个方面:
1、公司网站,展示信息一般包含公司简介、产品展示、企业资质、客户留言、联系我们等信息。主要起到的作用的作为产品和联系方式的展示,待客户在互联网上查看并有意向后主动联系(添加qq好友、打电话、邮件咨询)外贸公司。通过询价多方筛选最后达成订单。以上方式的以上几个缺陷:
①网站没有抓住访客的黄金视觉区。以往技术都是将页面内容平铺在页面上,只是为了页面美观。而没有将网站最主要的内容放在黄金视觉区内。
②客户留言就是一个留言板的功能,网站访客遇到问题时,第一时间得不到反馈。达不到与客户直接实时互动。
③页面获取不到访客在网站上的访问轨迹。网站没有数据收集机制,完全不知道客户是在网站停留了多长时间、点击查看了哪些内容、对哪一类产品感兴趣等。
2、线索挖掘及元搜索,现有外贸公司网站只是做到了产品展示。而没有针对产品价格、同类排名、销售区域只能布局。
技术实现要素:
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种外贸集客营销系统方法,解决现有外贸公司网站只是做到了产品展示,而没有针对产品价格、同类排名、销售区域智能布局的问题。
为了实现上述目的,本发明提供一种外贸集客营销系统,包括数据挖掘系统,所述数据挖掘系统包括爬虫子系统、数据库存储中间件子系统、任务调度子系统、任务管理子系统、mongo数据库集群、数据检索子系统;
所述爬虫子系统用于实现任务分布式调度,使用消息队列实现消息分布式存储和处理,并配合数据检索子系统实现数据高速检索;
所述数据库存储中间件子系统用于将挖掘结果转移到消息队列中,保证数据不丢失,然后由数据库存储中间件子系统中的数据库存储中间件将数据分批取出并存储到mongo数据库集群中;
所述任务调度子系统用于远程启动爬虫子系统执行数据挖掘;
所述任务管理子系统用于对任务最终需求数据进行处理,如果已经有可以处理用户需求的爬虫,则指挥任务调度子系统直接启动挖掘任务;如果还没有相应的爬虫,则下达爬虫开发的指令,并等待爬虫开发完成后,再指挥任务调度子系统启动挖掘任务;
所述mongo数据库集群用于数据存储;
所述数据检索子系统用于对数据进行分布式检索,并将结果输送给展示平台。
进一步的,所述爬虫子系统采用scrapyd框架实现任务分布式调度。
进一步的,所述数据检索子系统使用elasticsearch框架的对数据进行分布式检索。
进一步的,所述任务调度子系统对于企业网站的分析步骤如下:
首先加载网站首页,然后解析出页面中导航栏,然后根据导航栏中出现的链接文本分析出关键页面的链接,
再进入对应的关键页面中取出网站中的关键信息;
接着根据关键信息分析客户信息。
进一步的,所述关键信息至少包括企业邮箱、社交平台信息、企业域名、企业名称;所述任务调度子系统通过企业邮箱得到邮箱验证信息,通过社交平台信息得到企业的组织架构,通过企业域名分析出未出现在网站中的联系人邮箱,通过企业名称分析企业所处行、工商信息,形成对企业的一个完整的信息画像。
本发明还提供一种外贸集客营销方法,包括以下步骤:
步骤s1,用户创建挖掘任务并填写任务原始需求信息;
步骤s2,任务调度子系统根据任务原始需求及与客户的沟通整理出数据挖掘系统可使用的加工后的任务最终需求数据,并提交给任务管理子系统;
任务管理子系统对任务最终需求数据进行处理,如果已经有可以处理用户需求的爬虫,则任务调度子系统直接启动挖掘任务;如果还没有相应的爬虫,则下达爬虫开发的指令,并等待爬虫开发完成后,再启动挖掘任务;
步骤s3,挖掘任务启动时,任务调度子系统远程启动爬虫子系统执行数据挖掘;
爬虫子系统根据用户提供的搜索需求而形成适合引擎抓取使用的关键词列表,并在搜索主站上执行广度优先搜索,并得到符合搜索关键词的网站或商家的店铺简要描述的搜索初步结果;
在根据搜索初步结果进一步分析是否需要更深层次数据挖掘和解析,经过几轮挖掘和解析的迭代,最终将有效数据打包作为挖掘结果传回至mongo数据库集群;
挖掘结果并非直接存储到mongo数据库集群中结束挖掘任务,而是先由数据库存储中间件子系统将挖掘结果转移到消息队列中,保证数据不丢失,然后由数据库存储中间件子系统中的数据库存储中间件将数据分批取出并存储到mongo数据库集群中的数据存储子系统中;
存储到mongodb数据库中的数据为挖掘的初始数据,有大量的不符合用户要求的数据,或存在信息不完整的数据,在此需要对数据进行清洗,补全,及邮箱有效性验证,经过这些处理之后的数据才能做为挖掘任务的最终结果;
步骤s4,最后由数据检索子系统使用elasticsearch框架的对数据进行分布式检索,并将结果输送给展示平台。
进一步的,在步骤s2中,所述任务调度子系统对于企业网站的分析步骤如下:
首先加载网站首页,然后解析出页面中导航栏,然后根据导航栏中出现的链接文本分析出关键页面的链接,
再进入对应的关键页面中取出网站中的关键信息;
接着根据关键信息分析客户信息。
进一步的,所述关键信息至少包括企业邮箱、社交平台信息、企业域名、企业名称;所述任务调度子系统通过企业邮箱得到邮箱验证信息,通过社交平台信息得到企业的组织架构,通过企业域名分析出未出现在网站中的联系人邮箱,通过企业名称分析企业所处行、工商信息,形成对企业的一个完整的信息画像。
进一步的,在步骤s3中,搜索主站至少包括谷歌、雅虎、百度、阿里巴巴国际站、yandex、whois。
本发明将挖掘的数据点和数据挖掘相结合,智能分析根据地域、访问次数、行为轨迹动态将主要内容放到黄金视觉区,针对产品价格、同类排名、销售区域进行智能布局。如遇问题用户可以与客户人员提供实时互动。
本发明通过大数据智能算法分析出哪一类产品是销量最高的,然后选择页面排序。还可以使买卖双方实时互动,解决了双方沟通上的信息延迟问题,提高询盘率。
本发明还可以存储访客的行为轨迹,从而可以帮助销售人员进行后续有针对性的跟进。同时结合大数据搜索,将整体的行业数据汇总排名分析。让算法更智能,页面展示更适合每一位访客。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明的结构框架图;
图2为本发明的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明提供一种外贸集客营销系统,如图1所示,包括数据挖掘系统,数据挖掘系统包括爬虫子系统1、数据库存储中间件子系统2、任务调度子系统6、任务管理子系统5、mongo数据库集群3、数据检索子系统4。
爬虫子系统1用于采用scrapyd框架实现任务分布式调度,使用消息队列实现消息分布式存储和处理,并配合数据检索子系统实现数据高速检索。
scrapyd框架是一种有名的爬虫框架,模块化、结构化相对做得很好。
数据库存储中间件子系统2用于将挖掘结果转移到消息队列中,保证数据不丢失,然后由数据库存储中间件子系统中的数据库存储中间件将数据分批取出并存储到mongo数据库集群中,mongo数据库集3群用于数据存储。。
mongo数据库集群是一个基于分布式文件存储的数据库集群。由c++语言编写,旨在为web应用提供可扩展的高性能数据存储解决方案。mongodb是一个高性能,开源,无模式的文档型数据库,是当前nosql数据库中比较热门的一种。
任务调度子系统6用于远程启动爬虫子系统执行数据挖掘。
任务管理子系统5用于对任务最终需求数据进行处理,如果已经有可以处理用户需求的爬虫,则指挥任务调度子系统直接启动挖掘任务;如果还没有相应的爬虫,则下达爬虫开发的指令,并等待爬虫开发完成后,再指挥任务调度子系统启动挖掘任务。
任务调度子系统对于企业网站的分析步骤如下:
首先加载网站首页,然后解析出页面中导航栏(根据导航常出现的模块名称,特殊标记,组成特点,内容规模),然后根据导航栏中出现的链接文本分析出关键页面(例如首页,产品,联系我们,关于我们,帮助等页面)的链接。
再进入对应的关键页面中取出网站中的关键信息,如:关于我们内容,企业名称,联系方式(联系人,电话,邮箱,地址),社交平台地址,企业产品列表,新闻列表。
接着根据关键信息分析客户信息,如:根据上面得到的邮箱可以用于后面的邮箱验证,社交平台信息可以查询出企业的组织架构,根据企业域名可以分析出未出现在网站中的联系人邮箱,根据企业名称可以继续分析也企业所处行业。对于个别国家的企业可以查询到企业的工商信息,并勾勒出企业与其它企业之间的往来关系,形成对企业的一个完整的信息画像。
数据检索子系统4用于使用elasticsearch框架对数据进行分布式检索,并将结果输送给展示平台。
elasticsearch是基于lucene开发的分布式搜索框架,具有分布式索引、搜索;索引自动分片、负载均衡;自动发现机器、组建集群;支持restful风格接口;配置简单等优点。
本发明还提供一种外贸集客营销方法,包括以下步骤:
步骤s1,用户创建挖掘任务并填写任务原始需求信息;
步骤s2,任务调度子系统根据任务原始需求及与客户的沟通整理出数据挖掘系统可使用的加工后的任务最终需求数据,并提交给任务管理子系统;
任务管理子系统对任务最终需求数据进行处理,如果已经有可以处理用户需求的爬虫,则任务调度子系统直接启动挖掘任务;如果还没有相应的爬虫,则下达爬虫开发的指令,并等待爬虫开发完成后,再启动挖掘任务;
步骤s3,挖掘任务启动时,任务调度子系统远程启动爬虫子系统执行数据挖掘;
爬虫子系统根据用户提供的搜索需求而形成适合引擎抓取使用的关键词列表,并在搜索主站(至少包括谷歌、雅虎、百度、阿里巴巴国际站、yandex、whois等)上执行广度优先搜索,并得到符合搜索关键词的网站或商家的店铺简要描述的搜索初步结果;
在根据搜索初步结果进一步分析是否需要更深层次数据挖掘和解析,经过几轮挖掘和解析的迭代,最终将有效数据打包作为挖掘结果传回至mongo数据库集群;
挖掘结果并非直接存储到mongo数据库集群中结束挖掘任务,而是先由数据库存储中间件子系统将挖掘结果转移到消息队列中,保证数据不丢失,然后由数据库存储中间件子系统中的数据库存储中间件将数据分批取出并存储到mongo数据库集群中的数据存储子系统中;
存储到mongodb数据库中的数据为挖掘的初始数据,有大量的不符合用户要求的数据,或存在信息不完整的数据,在此需要对数据进行清洗,补全,及邮箱有效性验证,经过这些处理之后的数据才能做为挖掘任务的最终结果;
步骤s4,最后由数据检索子系统使用elasticsearch框架的对数据进行分布式检索,并将结果输送给展示平台。
这里重点使用npl自然语义分析系统对数据进行分类建模,自我学习。
本发明将挖掘的数据点和数据挖掘相结合,智能分析根据地域、访问次数、行为轨迹动态将主要内容放到黄金视觉区。如遇问题用户可以与客户人员提供实时互动。
本发明通过大数据智能算法分析出哪一类产品是销量最高的,然后选择页面排序。还可以使买卖双方实时互动,解决了双方沟通上的信息延迟问题,提高询盘率。
本发明还可以存储访客的行为轨迹,从而可以帮助销售人员进行后续有针对性的跟进。同时结合大数据搜索,将整体的行业数据汇总排名分析。让算法更智能,页面展示更适合每一位访客。
本发明利用爬虫技术对海量网络信息进行规则爬取,利用hdfs进行海量数据的存储。再使用云计算技术对数据进行清洗。从而实现多维度数据的有效合并。例如海关数据,第三方数据库等。
本发明对多维数据进行统一格式整理,覆盖互联网数据,b2b,黄页,搜索引擎,社交网站,第三方数据,海关数据,工商税务接口等。从而实现一个企业的立体画像。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求极其等同限定。