一种基于知识图谱的销售线索识别方法及装置与流程

文档序号:16681096发布日期:2019-01-19 00:31阅读:856来源:国知局
一种基于知识图谱的销售线索识别方法及装置与流程

本申请实施例涉及数据处理技术领域,尤其涉及一种基于知识图谱的销售线索识别方法及装置。



背景技术:

销售工作是实现企业生产成果的活动,是每个企业的重中之重,而销售线索作为真正的销售机会产生前的环节,一般从市场活动,网络信息,电话咨询等方式获得,销售线索为销售机会提供了大量真假不一的信息源,如何从这些真假不一的信息源中获取准确的市场数据,以便为销售工作提供决策辅助和支持是每个企业面临的重要问题。

目前传统的获得销售线索的方法一般是基于线下消息来源或者线上人工收集,这种方法在目前数据呈爆发性增长的情况下,收集效率不够高效,且人工投入的成本较高的缺陷日益明显,不能很好地满足企业销售工作的需求。



技术实现要素:

有鉴于此,本申请实施例所解决的技术问题之一在于提供一种基于知识图谱的销售线索识别方法及装置,该方法及装置与已有的获取销售线索的方法相比,在数据范围广度,所获取的销售线索的准确性及实时性上都有很大程度的提高。

第一方面,本申请实施例提供一种基于知识图谱的销售线索识别方法,包括:

采集至少一个网页站点的市场数据;

根据所采集的市场数据,抽取所述市场数据中的包括项目地区,企业实体和项目名称的信息;

根据所抽取的包括项目地区,企业实体和项目名称的信息构建知识图谱,并从所述知识图谱中识别出销售线索。

可选地,所述采集至少一个网页站点的市场数据包括:

根据所述至少一个网页站点的覆盖区域和更新频率,为所述至少一个网页站点划分采集优先级;

根据划分的采集优先级,确定每个所述网页站点的采集频率;

根据确定的采集频率,采集所述至少一个网页站点的市场数据。

可选地,所述根据确定的采集频率,采集所述至少一个网页站点的市场数据包括:

根据网页站点的优先级,在一个采集周期内重复采集同一个网页站点的相同内容,并在采集周期结束后,对采集到的重复数据去重。

可选地,根据所采集的市场数据,抽取市场数据中的包括项目地区,企业实体和项目名称的信息包括:

基于命名实体识别算法,从采集到的所述至少一个网页站点的市场数据中抽取企业实体信息。

可选地,根据所抽取的包括项目地区,企业实体和项目名称的信息构建知识图谱,并从所述知识图谱中识别出销售线索之前包括:

根据所抽取的包括项目地区,企业实体和项目名称的信息,以企业实体和项目名称为点,企业实体和企业实体之间的关系、企业实体和项目名称之间的关系、项目名称和项目名称之间的关系为边,构建知识图谱。

可选地,企业实体和企业实体之间的关系包括公司关系,股东关系,投资关系。

可选地,根据所采集的市场数据,抽取所述市场数据中的包括项目地区,企业实体和项目名称的信息包括:

根据所采集的市场数据,抽取所述市场数据中的项目地区,企业实体,项目名称和行业分类信息。

第二方面,本申请实施例还提供了一种基于知识图谱的销售线索识别装置,包括市场数据采集模块,抽取模块和销售线索识别模块,其中:

市场数据采集模块,与抽取模块连接,用于采集至少一个网页站点的市场数据,并将采集到的市场数据发送给所述抽取模块;

抽取模块,与所述市场数据采集模块和销售线索识别模块连接,用于根据接收到的所述市场数据采集模块发送的市场数据,抽取所述市场数据中的包括项目地区,企业实体和项目名称的信息,并将抽取到的信息发送给所述销售线索识别模块;

销售线索识别模块,与所述抽取模块连接,用于根据从所述抽取模块抽取的包括项目地区,企业实体和项目名称的信息构建知识图谱,并从所构建的知识图谱中识别出销售线索。

可选地,所述市场数据采集模块具体用于:

根据所述至少一个网页站点的覆盖区域和更新频率,为所述至少一个网页站点划分采集优先级;

根据划分的采集优先级,确定每个所述网页站点的采集频率;

根据确定的采集频率,采集所述至少一个网页站点的市场数据。

可选地,所述市场数据采集模块根据确定的采集频率,采集所述至少一个网页站点的市场数据包括:

根据网页站点的优先级,在一个采集周期内重复采集同一个网页站点的相同内容,并在采集周期结束后,对采集到的重复数据去重。

由以上技术方案可见,本申请实施例通过对海量公开数据进行针对性的有效采集,并利用所采集的数据应用知识图谱技术构建出各个行业的市场全貌,进而从各个行业的市场全貌中识别出销售线索,与已有的获取销售线索的方法相比,在数据范围广度,所获取的销售线索的准确性及实时性上都有很大程度的提高。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种基于知识图谱的销售线索识别方法的流程示意图;

图2为本申请实施例中一种基于知识图谱的销售线索识别装置的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。

建立数字化,精细化以及智能化的销售管理机制,需要大量的市场数据支撑,除了企业的内部数据以外,还需要行业外部数据,而从大量公开、实时的渠道可以获得行业外部数据。本申请实施例基于海量公开数据,应用知识图谱相关技术,将这些海量数据进行收集,并从中抽取出有效的市场数据,进而识别出销售线索,在数据范围的广度上和线索的时效性上有了较大程度的提高。

请参阅图1,本申请实施例提供了一种基于知识图谱的销售线索识别方法,包括步骤s100~s300,具体地:

s100:采集至少一个网页站点的市场数据。

销售线索常见但不仅限于各类行业新闻,项目审批信息,招投标信息等,而各类行业新闻,项目审批信息,招投标信息等的信息源比较广且杂乱,但是为了得到全面的市场数据,本申请实施例采集至少一个网页站点的市场数据,比如采集各类行业新闻的市场数据,或采集各类行业新闻和项目审批信息两个网页站点的数据,亦或采集各类行业新闻,项目审批信息,招投标信息三个网页站点的市场数据。

需要说明的是,本申请实施例为了避免采集较多的无关数据,首先对各省市区县的政府招投标站点,项目审批以及行业新闻等站点列表进行梳理,比如,首先梳理出各省级政府招投标、项目审批以及行业新闻等网页站点,再从省级站点的站内链接中梳理出市级站点,进而从市级站点的站内链接中梳理出区级站点……直至覆盖县级站点。最后将各级站点进行汇总,形成本申请实施例采集市场数据的源头,以这种方式采集到的市场数据相对比较精准。

在上述实施例中,各个站点的覆盖区域和日均信息更新量是不同的,比如,省级站点的覆盖区域最大,区县级站点的覆盖区域最小,随机采集某一个时间段内的站点信息,可基于站点的信息发布数量计算站点的日均更新量,覆盖区域越大,日均信息更新量越大的站点在采集市场数据时的重要性就越高。

在一示例性实施例中,采集至少一个网页站点的市场数据包括:

根据至少一个网页站点的覆盖区域和更新频率,为至少一个网页站点划分采集优先级;

根据划分的采集优先级,确定每个网页站点的采集频率;

根据确定的采集频率,采集至少一个网页站点的市场数据。

具体在执行过程中,根据覆盖区域和日均信息更新量两个物理量来确定至少一个网页站点的采集优先级,如果想获得比较全面且实时性也很强的市场数据,可以设置日均信息更新量的采集优先级高于覆盖区域,即日均信息更新量越大,采集优先级越大,举例来说,省、市、区、县各级站点的日均信息更新量的排序为市>县>省>区,那么采集优先级的排序则为市>县>省>区,当然也可以设置覆盖区域的采集优先级高于日均信息更新量的优先级,即,采集优先级的排序为省>市>区>县。

实际操作中,也可以结合每个网页站点的特点,为每个网页站点设置不同的采集频率,比如,如果省、市、区、县各级站点的日均信息更新量分别为10条/天,5条/天,3条/天,2条/天,那么可以设定省、市、区、县各级站点的数据采集频率分别为没2.5个小时采集一次,每5个小时采集一次,每7.5个小时采集一次以及每12.5个小时采集一次。

为了避免采集过程中出现漏采数据的情况,在本申请的一示例性实施例中,可根据网页站点的优先级,在一个采集周期内重复采集同一个网页站点的相同内容,并在采集周期结束后,对采集到的重复数据去重。

且在因网站问题导致无法采集到市场数据时,本申请实施例会降低采集频率,直至网站问题得到修复,能够正常采集到市场数据为止,且在网站问题没有得到修复期间,本申请实施例在采集市场数据时,会在一个采集周期内重复采集相同的市场数据,并在构建知识图谱之前,去除冗余数据。

在一示例性实施例中,当在采集市场数据的过程中出现异常情况时,通过邮件,钉钉等方式通知到采集市场数据端,同时,在允许的情况下,本申请实施例通过降低数据的吞吐量来增加采集市场数据的稳定性和可靠性。

采集完至少一个网页站点的市场数据后,本申请实施例从这些市场数据中抽取出构建知识图谱所用到的信息,即执行步骤s200。

s200:根据所采集的市场数据,抽取市场数据中的包括项目地区,企业实体和项目名称的信息。

在采集到市场数据后,本申请基于命名实体识别算法,从采集到的至少一个网页站点的市场数据中抽取企业实体信息。

由于本申请实施例所采集的市场数据来源于招投标信息,项目审批信息等官方发布信息,这类官方发布消息描述相对比较完整,简称,代称等非官方名称较少出现,因此本申请实施例采用国家企业信用信息公示系统作为训练样本,共采集该系统中超过一亿的企业官方名称,基于crf++开源算法来完成企业实体的标注工作。经过实际测试,企业实体识别的准确率达到了93.6%。

在一示例性实施例中,本申请实施例根据采集到的市场数据中的地区标识,得到市场数据中的项目地区信息。

在一示例性实施例中,本申请实施例由标题通过正则去除常见尾次后获得。比如根据标题“xxx的公告”、“xxx的审批”中去除“的公告”、“的审批”之后获得项目名称。

从采集到的市场数据中抽取包括但不限于项目地区,企业实体和项目名称的信息后,执行步骤s300。

s300:根据所抽取的包括项目地区,企业实体和项目名称的信息构建知识图谱,并从知识图谱中识别出销售线索。

在从市场数据中得到包括项目地区,企业实体和项目名称的信息之后,本申请实施例对得到的这些信息进行知识融合,以构建知识图谱。

知识图谱的基本数据结构为图,图的基本要素为点和边,这些点和边的基本要素构成了图的拓扑结构。即,本申请实施例根据所抽取的包括项目地区,企业实体和项目名称的信息,以企业实体和项目名称为点,企业实体和企业实体之间的关系,企业实体和项目名称之间的关系,项目名称和项目名称之间的关系为边,构建知识图谱。

其中,企业实体和企业实体之间的关系可基于国家企业信用信息公示系统中的企业数据来建立联系,关系类型包括母子公司关系,股东关系,投资关系。

基于项目信息中的企业实体,可建立企业实体和项目名称之间的关系,关系类型包括项目甲方和项目乙方。

基于项目信息中的项目名称和地区特征建立项目名称和项目名称之间的关系,确切地说,是建立项目和项目之间的关系,比如,项目名称相似度在95%以上并且地区处于同一个区域的项目则确定为同一个项目。

通过以上实施例所建立的企业和企业之间的关系,企业和项目之间的关系以及项目和项目之间的关系,构建知识图谱,并根据所构建的知识图谱来识别销售线索。

需要说明的是,根据所采集的市场数据,还可以抽取市场数据中的项目地区,企业实体,项目名称和行业分类等信息,当然,还可以从市场数据中抽取到更多的项目信息,这样构建的知识图谱就会更加详细,从而识别出更加准确的销售线索。

以识别建筑工程领域的销售线索为例对本申请实施例进行说明。首先选取工程类招投标信息,土地审批信息,工程行业信息等作为采集建筑工程领域的市场数据源。然后对上述信息发布源进行梳理,实施采集信息,为了使得市场数据源更加准确,本申请实施例可以只选取省、市、区三级的发布站点,不再下沉,且每个站点也只覆盖相关栏目,不覆盖全站点。

针对有建筑行业相关资质的企业,扩充企业的联想词,别名库,构建企业库,以提高在构建知识图谱时企业和企业之间,企业和项目之间,以及项目和项目之间相互关联的准确性。

具体地,可以从建筑工程领域信息发布源的招投标信息中抽取项目名称,招标/中标企业名称,项目地区,行业分类等信息,从土地审批信息中抽取项目名称,地块地址,受让企业,土地用途等信息,从工程行业信息中抽取企业实体,信息标题等,从土地审批信息中抽取项目名称,项目地区和审批通过企业。

在实际操作中,把上述实施例采集到的信息中较为集中的企业实体和企业库中构建的企业实体相关联,如果采集信息中的企业实体使用了别名或者简称,可以通过构建的企业别名库或者联想词进行修正;如果采集信息中的企业实体不在所构建的企业库中,则将该企业实体写入到所构建的企业库。

将采集到的信息,基于项目名称/标题,企业实体,行业分类,项目地区等信息进行串联,构建建筑工程领域的知识图谱,以从构建的知识图谱中得到销售线索。

需要说明的是,为了保证所获取到的销售线索的时效性,本申请实施例针对知识图谱中所用到的所有数据进行定期更新,更新频率视具体情况而定。

由于本申请实施例从至少一个网页站点中得到行业外部数据,并根据从行业外部数据中抽取到的信息构建知识图谱,且以一定的采集频率不断采集新的行业外部数据作为知识图谱的数据源,数据范围广且实时性高,相比于已有技术中从线下获取销售线索的方式,在获取销售线索的实时性以及准确性上有了较大程度的提高。

基于同样的发明构思,如图2所示,本申请实施例还提供了一种基于知识图谱的销售线索识别装置20,包括市场数据采集模块210,抽取模块220和销售线索识别模块230,其中:

市场数据采集模块210,与抽取模块220连接,用于采集至少一个网页站点的市场数据,并将采集到的市场数据发送给抽取模块220;

抽取模块220,与市场数据采集模块210和销售线索识别模块230连接,用于根据接收到的市场数据采集模块210发送的市场数据,抽取市场数据中的包括项目地区,企业实体和项目名称的信息,并将抽取到的信息发送给销售线索识别模块230;

销售线索识别模块230,与抽取模块220连接,用于根据从抽取模块220抽取的包括项目地区,企业实体和项目名称的信息构建知识图谱,并从所构建的知识图谱中识别出销售线索。

在一示例性实施例中,市场数据采集模块210用于:

根据至少一个网页站点的覆盖区域和更新频率,为至少一个网页站点划分采集优先级;

根据划分的采集优先级,确定每个网页站点的采集频率;

根据确定的采集频率,采集至少一个网页站点的市场数据。

在一示例性实施例中,市场数据采集模块210根据确定的采集频率,采集至少一个网页站点的市场数据包括:

根据网页站点的优先级,在一个采集周期内重复采集同一个网页站点的相同内容,并在采集周期结束后,对采集到的重复数据去重。

在上述实施例中,市场数据采集模块210,抽取模块220和销售线索识别模块230用于执行上述基于知识图谱的销售线索识别方法实施例。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其他实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的功能模块及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其他的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读存储介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。

上述实施例仅用以说明本发明的技术方案,而非对其限制。尽管已描述了本申请实施例的优选实施例,但本领域内的普通技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请实施例权利要求及其等同技术的范围之内,则本申请实施例也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1