企业筛选方法及装置与流程

文档序号:20279259发布日期:2020-04-07 14:58阅读:474来源:国知局
企业筛选方法及装置与流程

本发明涉及数据处理领域,尤其涉及企业筛选方法及装置。



背景技术:

随着我国经济的发展,各种产业园区也逐渐增多。

产业园区常需要对企业进行招商,但各行各业的企业数量巨大,不同企业的情况也不尽相同,如果通过人工从海量的企业中筛选出所要招商的企业十分困难。

如何快速的对企业进行筛选仍旧是一个亟待解决的技术难题。

当然,除产业园区招商外,其他领域也可能存在相同问题。



技术实现要素:

鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的企业筛选方法及装置,方案如下:

一种企业筛选方法,包括:

获得各待筛选企业的多种类型的企业信息;

根据获得的所述企业信息,从全部待筛选企业中筛选出满足预设企业要求的企业;

根据筛选出的各企业的企业信息计算得到筛选出的各企业分别对应的企业评分;

将筛选出的各企业及对应的企业评分输出。

可选的,所述获得各待筛选企业的多种类型的企业信息,包括:

从各待筛选企业的相关网页中爬取获得所述相关网页的网页内容;

根据所述网页内容获得所述待筛选企业的多种类型的企业信息。

可选的,所述根据所述网页内容获得所述待筛选企业的多种类型的企业信息,包括:

识别所述网页内容中的结构化数据和非结构化数据;

从所述结构化数据中提取企业信息的类型标识以及与所述类型标识对应的企业信息;

识别所述非结构化数据中的企业信息,确定所述非结构化数据中的企业信息的类型。

可选的,在所述获得各待筛选企业的多种类型的企业信息后,所述方法还包括:

对每个待筛选企业:对获得的该待筛选企业的所述企业信息进行文本挖掘,获得与该待筛选企业相关的至少一个关键词;将获得的所述关键词输入企业标签模型中,获得所述企业标签模型输出的该待筛选企业的企业标签,其中,所述企业标签模型是通过对训练数据进行机器学习后获得的模型;

所述根据获得的所述企业信息,从全部待筛选企业中筛选出满足预设企业要求的企业,包括:

根据获得的所述企业标签从全部待筛选企业中筛选出满足预设企业要求的企业,其中,所述预设企业要求为预设的企业标签要求。

可选的,所述根据筛选出的各个企业的企业信息计算得到筛选出的各企业分别对应的企业评分,包括:

从筛选出的各企业的企业信息中获得至少一个评分项对应的企业信息,所述评分项为企业信息类型;

确定筛选出的各企业的各评分项对应的企业信息评分;

对每个筛选出的企业:根据该企业的各评分项的预设权重和对该企业的各评分项对应的企业信息评分进行加权计算,获得该企业对应的企业评分。

可选的,还包括:

获得目标产业园区的多种类型的园区信息;

根据获得的所述园区信息,确定与所述园区信息匹配的企业要求,将确定的企业要求确定为预设企业要求。

一种企业筛选装置,包括:第一信息获得单元、企业筛选单元、企业评分单元和评分输出单元,

所述第一信息获得单元,用于获得各待筛选企业的多种类型的企业信息;

所述企业筛选单元,用于根据获得的所述企业信息,从全部待筛选企业中筛选出满足预设企业要求的企业;

所述企业评分单元,用于根据筛选出的各企业的企业信息计算得到筛选出的各企业分别对应的企业评分;

所述评分输出单元,用于将筛选出的各企业及对应的企业评分输出。

可选的,还包括:第二信息获得单元和要求确定单元,

所述第二信息获得单元,用于获得目标产业园区的多种类型的园区信息;

所述要求确定单元,用于根据获得的所述园区信息,确定与所述园区信息匹配的企业要求,将确定的企业要求确定为预设企业要求。

一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在的设备执行上述的任一种企业筛选方法。

一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的任一种企业筛选方法。

借由上述技术方案,本发明提供的一种企业筛选方法及装置,可以获得各待筛选企业的多种类型的企业信息;根据获得的所述企业信息,从全部待筛选企业中筛选出满足预设企业要求的企业;根据筛选出的各企业的企业信息计算得到筛选出的各企业分别对应的企业评分;将筛选出的各企业及对应的企业评分输出。由于本发明可以自动获得企业信息并根据企业信息筛选企业,同时自动对企业进行评分,因此本发明可以使得用户根据筛选出的企业的评分快速确定满足自己需求的企业。可见,本发明实现了对企业的快速筛选。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种企业筛选方法的流程图;

图2示出了本发明实施例提供的另一种企业筛选方法的流程图;

图3示出了本发明实施例提供的另一种企业筛选方法的流程图;

图4示出了本发明实施例提供的将筛选出的企业及对应的企业评分输出的效果示意图;

图5示出了本发明实施例提供的另一种企业筛选方法的流程图;

图6示出了本发明实施例提供的另一种企业筛选方法的流程图;

图7示出了本发明实施例提供的一种企业筛选装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示,本发明实施例提供的一种企业筛选方法,可以包括:

s100、获得各待筛选企业的多种类型的企业信息;

其中,企业信息的种类可以有多种,例如:注册资本、分支机构数、招聘书、招标书、对外投资数、上市类型、股东数、专利数、著作权数、商标数、法律诉讼数、经营异常数、高管数、公司地址、所属行业、融资阶段、公司注册时间等。

在实际应用中,本发明可以从公开的网页中获得上述企业信息,例如:通过爬虫对上述企业信息进行爬取。

本发明实施例步骤s100获得的企业信息对应的待筛选企业的数量可以为第一数量,各待筛选企业可以为相同行业或不同行业的企业。

可选的,如图2所示,步骤s100可以具体包括:

s110、从各待筛选企业的相关网页中爬取获得所述相关网页的网页内容;

s120、根据所述网页内容获得所述待筛选企业的多种类型的企业信息。

具体的,待筛选企业的相关网页可以有多个,例如待筛选企业的官网、待筛选企业注册信息查询网站、带有待筛选企业的新闻的网页等。本发明实施例可以给定进行网页爬取的一个或多个入口网址并设定爬取规则,以从网页中爬取所需要的企业信息。

可选的,本发明可以使用垂直型爬虫对网页内容进行爬取。

具体的,步骤s110所爬取的网页内容可以包括:企业工商信息、知识产权信息、司法判决信息、招聘信息、上市公司财报、招投标资讯、公司新闻动态、社交媒体信息、公司高管重要活动/讲话、世界500强、中国500强等。

具体的,本发明实施例还可以对步骤s110所爬取的网页内容进行敏感词过滤、文本分类、广告去除、分页内容合并、垃圾清洗、网页去重等处理。上述处理可以将不需要的网页内容去除并提高所爬取的网页内容的有效性。进一步,步骤s120可以根据上述处理后的所述网页内容获得待筛选企业的多种类型的企业信息。

在实际应用中,不同网页中的网页数据可能为不同的形式,同时,同一网页中也可能同时包括多个不同形式的网页数据。其中,上述网页数据的形式可以包括:结构化数据和非结构化数据。

其中,结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

非结构化数据的数据结构不规则或不完整,它没有预定义的数据模型,不方便用数据库二维逻辑表来表现。非结构化数据包括所有格式的办公文档、文本、图片、xml、html、各类报表、图像、音频、视频等。

在实际应用中,对于非结构化数据,如针对某待筛选公司的新闻报道,本发明可以采集并保存该新闻报道的正文、标题、发布时间等。本发明实施例可以识别非结构化数据的企业信息类型,例如:企业信息类型为:媒体报道或企业年报等。

对于结构化数据,本发明可以识别结构化数据所包含的企业信息及各企业信息的类型,并对应保存识别的企业信息及类型。具体的,本发明可以将步骤s120获得的企业信息及类型对应保存到一个或多个数据库中。例如:本发明可以将根据静态网页中网页内容获得的企业信息及类型对应存入企业静态信息库中,还可以将根据动态网页中网页内容获得的企业信息及类型对应存入企业动态信息库中。

步骤s120可以具体包括:

识别所述网页内容中的结构化数据和非结构化数据;

从所述结构化数据中提取企业信息的类型标识以及与所述类型标识对应的企业信息;

识别所述非结构化数据中的企业信息,确定所述非结构化数据中的企业信息的类型。

具体的,本发明可以通过识别网页内容是否具有预设结构来识别网页内容中的结构化数据和非结构化数据。例如:当某网页内容具有表格结构时,说明该网页内容为结构化数据。如果某网页内容不具有预设结构,则本发明可以确定该网页内容为非结构化数据,例如:新闻报道不具有表格结构。当然,上述预设结构可以有多种,本发明并不仅限于表格结构一种。

需要说明的一点是,上述网页内容可以是一个完整网页中的全部或部分内容,本发明在此不做限定。

具体的,针对静态网页和动态网页,本发明可以有不同的爬取规则:本发明可以仅爬取一次静态网页中的网页内容。而对于动态网页,由于其网页内容会更新,因此本发明可以多次爬取动态网页中的网页内容。

当然,除爬取次数外,本发明的爬取规则还可以包括:爬取深度等,本发明对不同的网页可以有不同的爬取深度。

在实际应用中,本发明可以对步骤s100获得的企业信息进行一些数字化处理和结构化处理,并将处理后的结构化的企业信息存入数据库。由于通过数字化处理和结构化处理,本发明使得企业信息具有高度的结构性,可以很方便的存储并进行使用。

s200、根据获得的所述企业信息,从全部待筛选企业中筛选出满足预设企业要求的企业;

其中,步骤s200中的全部待筛选企业可以为步骤s100获得的企业信息所对应的各待筛选企业。例如:某产业园区提供了一个包括100个待筛选企业的企业列表,则本发明步骤s100可以获得这100个待筛选企业的企业信息。相应的,步骤s200可以从全部待筛选企业(即这100个待筛选企业)中筛选出满足预设企业要求的企业。

在实际应用中,本发明可以直接根据企业信息从全部待筛选企业中筛选出满足预设企业信息要求的企业。即:预设企业要求为预设企业信息要求。例如:对于注册资本这种企业信息,本发明可以从全部待筛选企业中筛选出满足预设注册资本要求的企业,例如:筛选出注册资本不低于500万人民币的企业。

当然,在本发明其他实施例中,也可以首先根据企业信息获得企业标签,然后根据企业标签来对企业进行筛选。或者,在获得企业标签后,同时根据企业标签和企业信息对企业进行筛选。

s300、根据筛选出的各企业的企业信息计算得到筛选出的各企业分别对应的企业评分;

如图3所示,步骤s300可以具体包括:

s310、从筛选出的各企业的企业信息中获得至少一个评分项对应的企业信息,所述评分项为企业信息类型;

在实际应用中,用户可以根据自己的需要设置评分项,本发明可以根据用户设置的评分项获得各评分项对应的企业信息。

例如:评分项为:注册资金,则本发明可以从a企业的各种企业信息中获得a企业的注册资金为:500万人民币。

可选的,本发明实施例中的评分项可以根据层次分析法、重要性排序法、统计回归分析法中的至少一种方法确定。在实际应用中,本发明实施例中的评分项可以包括:注册资本、分支机构数、招聘书、招标书、对外投资数、上市类型、股东数、专利数、著作权数、商标数、法律诉讼数、经营异常数、高管数中的至少一个。

s320、确定筛选出的各企业的各评分项对应的企业信息评分;

可选的,针对不同类型的评分项,本发明可以使用不同的评分标准进行评分。例如:对于注册资本,注册资本在100万人民币以下的给予注册资本评分1分,注册资本在100至200万人民币的给予注册资本评分2分,注册资本在200至500万人民币的给予注册资本评分3分,注册资本在500至1000万人民币的给予注册资本评分4分,注册资本在1000万人民币以上的给予注册资本评分5分。

s330、对每个筛选出的企业:根据该企业的各评分项的预设权重和对该企业的各评分项对应的企业信息评分进行加权计算,获得该企业对应的企业评分。

本发明实施例可以对不同的评分项设置不同的权重。

进一步,本发明还可以根据企业所属行业对评分项及权重进行调整。例如:对于采矿业,本发明将注册资本、分支机构数、招聘书、招标书、对外投资数、上市类型、股东数、法律诉讼数、经营异常数和高管数作为该行业的企业的评分项。同时,本发明将采矿业的企业的评分项中的注册资本和法律异常数的权重增加。而对于互联网行业,本发明将注册资本、分支机构数、招聘书、招标书、对外投资数、上市类型、股东数、专利数、著作权数、商标数、法律诉讼数、经营异常数和高管数作为该行业的企业的评分项。同时,本发明将互联网行业的企业的评分项中的专利数、著作权数和商标数的权重增加。

上述加权计算可以为加权求和或加权平均等算法。

s400、将筛选出的各企业及对应的企业评分输出。

可选的,本发明可以通过图4所示界面将筛选出的企业及对应的企业评分输出。如图4所示,用户可以点击相应的企业要求以对企业进行筛选。本发明还可以同时将部分企业信息输出。同时,当用户点击某企业的企业信息展示区域后,本发明可以进一步显示该企业的其他企业信息。

本发明提供的一种企业筛选方法,可以获得各待筛选企业的多种类型的企业信息;根据获得的所述企业信息,从全部待筛选企业中筛选出满足预设企业要求的企业;根据筛选出的各企业的企业信息计算得到筛选出的各企业分别对应的企业评分;将筛选出的各企业及对应的企业评分输出。由于本发明可以自动获得企业信息并根据企业信息筛选企业,同时自动对企业进行评分,因此本发明可以使得用户根据筛选出的企业的评分快速确定满足自己需求的企业。可见,本发明实现了对企业的快速筛选。

如图5所示,本发明实施例提供的另一种企业筛选方法,还可以包括:

s001、获得目标产业园区的多种类型的园区信息;

与图1所示步骤s100类似,本发明同样可以从目标产业园区的网站上爬取获得目标产业园区的园区信息。

其中,园区信息可以包括:园区类型(如软件园区、工业园区等)、园区规模、园区地址等。

s002、根据获得的所述园区信息,确定与所述园区信息匹配的企业要求,将确定的企业要求确定为预设企业要求。

图5中并未示出图1中的四个步骤,可以理解的是,图5所示方法中包括图1所示的四个步骤。

可以理解的是,不同的产业园区对其所招商的企业有不同的要求,因此本发明可以根据目标园区信息确定匹配的企业要求。例如:对于软件园区,本发明可以将所属行业为软件行业作为匹配的企业要求。

在实际应用中,用户可以对园区信息匹配的企业要求进行设置和修改。本发明可以对用户设置、修改后的园区信息及匹配的企业要求进行保存,以便于确定与园区信息匹配的企业要求。

在实际应用中,不同的产业园区的评分项及对应的权重可以相同或不同。

需要说明的一点是,步骤s001、步骤s002与图1所示的各步骤的执行顺序本发明不做限定。可选的,步骤s001和步骤s002在图1所示的步骤s200之前执行。

通过图5所示方法,本发明可以帮助产业园区确定符合该产业园区的要求的企业并通过企业评分来帮助用户快速从符合要求的企业中挑选出更优秀的企业进行招商,节省了用户的时间和精力。

如图6所示,本发明实施例提供的另一种企业筛选方法,可以包括:

s100、获得各待筛选企业的多种类型的企业信息;

具体的,图6所示实施例中步骤s100、s300和s400与图1所示实施例相同,不再赘述。

s180、对每个待筛选企业:对获得的该待筛选企业的所述企业信息进行文本挖掘,获得与该待筛选企业相关的至少一个关键词;将获得的所述关键词输入企业标签模型中,获得所述企业标签模型输出的该待筛选企业的企业标签,其中,所述企业标签模型是通过对训练数据进行机器学习后获得的模型;

具体的,文本挖掘技术可由底层技术、基础层技术和应用层技术三部分组成。底层技术是文本挖掘技术的基础领域,包括机器学习、数理统计和自然语言处理;底层技术的上层技术为:文本挖掘技术的基本技术,包括文本信息抽取、文本分类、文本聚类、文本数据压缩和文本数据处理;基本技术的上层技术为应用层技术,应用层技术有两个主要应用领域,包括信息访问和知识发现,信息访问领域的应用层技术包括信息检索、信息浏览、信息过滤和信息报告,知识发现领域的应用层技术包括数据分析和数据预测。

其中,上述关键词的形式本发明不做限定,为方便理解,下面举例说明:

步骤s100获得一篇对a企业的新闻报道,并将其作为a企业的媒体报道类型的企业信息进行保存。步骤s180可以通过文本挖掘技术对步骤s100获得新闻报道进行处理,获得了关键词为:“控股b公司”。

其中,上述训练数据为大量的关键词及对应的企业标签。本发明通过对上述训练数据进行机器学习,可以获得根据输入的关键词输出企业标签的企业标签模型。例如:当把关键词“控股b公司”输入企业标签模型后,本发明可以获得所述企业标签模型输出的企业标签为:控股类型公司。

当然,在实际应用中,本发明实施例的企业标签模型输出的企业标签可以有多种,例如:创新型公司、高科技公司、互联网公司、高耗能公司等。上述企业标签还可以为企业所属行业、与其他企业的关系(例如:c公司的全资子公司、d公司的生态链企业)等。

s210、根据获得的所述企业标签从全部待筛选企业中筛选出满足预设企业要求的企业,其中,所述预设企业要求为预设的企业标签要求。

其中,步骤s210为图1所示实施例中步骤s200的一种具体执行方式。

可以理解的是,在实际应用中,除可以单独使用企业标签或单独使用企业信息对企业进行筛选外,本发明还可以同时使用企业标签和企业信息对企业进行筛选。例如:筛选出注册资本不低于500万人民币且为d公司的生态链企业的公司。

s300、根据筛选出的各企业的企业信息计算得到筛选出的各企业分别对应的企业评分;

s400、将筛选出的各企业及对应的企业评分输出。

本发明图6所示实施例可以对企业信息进行挖掘并获得与企业相关的关键词,然后将关键词输入企业标签模型中获得待筛选企业的企业标签。本发明可以进一步根据企业标签对企业进行筛选,更加快捷和直观。

与本发明实施例提供的一种企业筛选方法相对应,本发明实施例还提供了一种企业筛选装置,如图7所示,该装置可以包括:第一信息获得单元100、企业筛选单元200、企业评分单元300和评分输出单元400,

所述第一信息获得单元100,用于获得各待筛选企业的多种类型的企业信息;

其中,企业信息的种类可以有多种,例如:注册资本、分支机构数、招聘书、招标书、对外投资数、上市类型、股东数、专利数、著作权数、商标数、法律诉讼数、经营异常数、高管数、公司地址、所属行业、融资阶段、公司注册时间等。

在实际应用中,本发明可以从公开的网页中获得上述企业信息,例如:通过爬虫对上述企业信息进行爬取。

其中,所述第一信息获得单元100可以具体包括:网页爬取子单元和第一信息获得子单元,

所述网页爬取子单元,用于从各待筛选企业的相关网页中爬取获得所述相关网页的网页内容;

具体的,待筛选企业的相关网页可以有多个,例如待筛选企业的官网、待筛选企业注册信息查询网站、带有待筛选企业的新闻的网页等。本发明实施例可以给定进行网页爬取的一个或多个入口网址并设定爬取规则,以从网页中爬取所需要的企业信息。

所述第一信息获得子单元,用于根据所述网页内容获得所述待筛选企业的多种类型的企业信息。

进一步,所述第一信息获得子单元可以包括:数据识别模块、信息提取模块和信息识别模块,

所述数据识别模块,用于识别所述网页内容中的结构化数据和非结构化数据;

所述信息提取模块,用于从所述结构化数据中提取企业信息的类型标识以及与所述类型标识对应的企业信息;

所述信息识别模块,用于识别所述非结构化数据中的企业信息,确定所述非结构化数据中的企业信息的类型。

在实际应用中,对于非结构化数据,如针对某待筛选公司的新闻报道,本发明可以采集并保存该新闻报道的正文、标题、发布时间等。本发明实施例可以识别非结构化数据的企业信息类型,例如:企业信息类型为:媒体报道或企业年报等。

对于结构化数据,本发明可以识别结构化数据所包含的企业信息及各企业信息的类型,并对应保存识别的企业信息及类型。

具体的,本发明可以通过识别网页内容是否具有预设结构来识别网页内容中的结构化数据和非结构化数据。例如:当某网页内容具有表格结构时,说明该网页内容为结构化数据。如果某网页内容不具有预设结构,则本发明可以确定该网页内容为非结构化数据,例如:新闻报道不具有表格结构。当然,上述预设结构可以有多种,本发明并不仅限于表格结构一种。

需要说明的一点是,上述网页内容可以是一个完整网页中的全部或部分内容,本发明在此不做限定。

具体的,针对静态网页和动态网页,本发明可以有不同的爬取规则:本发明可以仅爬取一次静态网页中的网页内容。而对于动态网页,由于其网页内容会更新,因此本发明可以多次爬取动态网页中的网页内容。

当然,除爬取次数外,本发明的爬取规则还可以包括:爬取深度等,本发明对不同的网页可以有不同的爬取深度。

所述企业筛选单元200,用于根据获得的所述企业信息,从全部待筛选企业中筛选出满足预设企业要求的企业;

在实际应用中,本发明可以直接根据企业信息从全部待筛选企业中筛选出满足预设企业信息要求的企业。即:预设企业要求为预设企业信息要求。例如:对于注册资本这种企业信息,本发明可以从全部待筛选企业中筛选出满足预设注册资本要求的企业,例如:筛选出注册资本不低于500万人民币的企业。

当然,在本发明其他实施例中,也可以首先根据企业信息获得企业标签,然后根据企业标签来对企业进行筛选。或者,在获得企业标签后,同时根据企业标签和企业信息对企业进行筛选。

所述企业评分单元300,用于根据筛选出的各企业的企业信息计算得到筛选出的各企业分别对应的企业评分;

可选的,所述企业评分单元300可以具体包括:第二信息获得子单元、评分确定子单元和加权计算子单元,

所述第二信息获得子单元,用于从筛选出的各企业的企业信息中获得至少一个评分项对应的企业信息,所述评分项为企业信息类型;

在实际应用中,用户可以根据自己的需要设置评分项,本发明可以根据用户设置的评分项获得各评分项对应的企业信息。

所述评分确定子单元,用于确定筛选出的各企业的各评分项对应的企业信息评分;

所述加权计算子单元,用于对每个筛选出的企业:根据该企业的各评分项的预设权重和对该企业的各评分项对应的企业信息评分进行加权计算,获得该企业对应的企业评分。

本发明实施例可以对不同的评分项设置不同的权重。进一步,本发明还可以根据企业所属行业对评分项及权重进行调整。

所述评分输出单元400,用于将筛选出的各企业及对应的企业评分输出。

可选的,本发明可以通过图4所示界面将筛选出的企业及对应的企业评分输出。如图4所示,用户可以点击相应的企业要求以对企业进行筛选。本发明还可以同时将部分企业信息输出。同时,当用户点击某企业的企业信息展示区域后,本发明可以进一步显示该企业的其他企业信息。

本发明提供的一种企业筛选装置,可以获得各待筛选企业的多种类型的企业信息;根据获得的所述企业信息,从全部待筛选企业中筛选出满足预设企业要求的企业;根据筛选出的各企业的企业信息计算得到筛选出的各企业分别对应的企业评分;将筛选出的各企业及对应的企业评分输出。由于本发明可以自动获得企业信息并根据企业信息筛选企业,同时自动对企业进行评分,因此本发明可以使得用户根据筛选出的企业的评分快速确定满足自己需求的企业。可见,本发明实现了对企业的快速筛选。

在本发明另一实施例中,图7所示装置还可以包括:标签获得单元,用于在所述信息获得单元100获得各待筛选企业的多种类型的企业信息后,对每个待筛选企业:对获得的该待筛选企业的所述企业信息进行文本挖掘,获得与该待筛选企业相关的至少一个关键词;将获得的所述关键词输入企业标签模型中,获得所述企业标签模型输出的该待筛选企业的企业标签,其中,所述企业标签模型是通过对训练数据进行机器学习后获得的模型。

在此基础上,企业筛选单元200可以具体用于:根据获得的所述企业标签从全部待筛选企业中筛选出满足预设企业要求的企业,其中,所述预设企业要求为预设的企业标签要求。

本发明实施例可以对企业信息进行挖掘并获得与企业相关的关键词,然后将关键词输入企业标签模型中获得待筛选企业的企业标签。本发明可以进一步根据企业标签对企业进行筛选,更加快捷和直观。

在本发明另一实施例中,图7所示装置还可以包括:第二信息获得单元和要求确定单元,

所述第二信息获得单元,用于获得目标产业园区的多种类型的园区信息;

所述要求确定单元,用于根据获得的所述园区信息,确定与所述园区信息匹配的企业要求,将确定的企业要求确定为预设企业要求。

其中,园区信息可以包括:园区类型(如软件园区、工业园区等)、园区规模、园区地址等。

可以理解的是,不同的产业园区对其所招商的企业有不同的要求,因此本发明可以根据目标园区信息确定匹配的企业要求。例如:对于软件园区,本发明可以将所属行业为软件行业作为匹配的企业要求。

在实际应用中,用户可以对园区信息匹配的企业要求进行设置和修改。本发明可以对用户设置、修改后的园区信息及匹配的企业要求进行保存,以便于确定与园区信息匹配的企业要求。

在实际应用中,不同的产业园区的评分项及对应的权重可以相同或不同。

本发明可以帮助产业园区确定符合该产业园区的要求的企业并通过企业评分来帮助用户快速从符合要求的企业中挑选出更优秀的企业进行招商,节省了用户的时间和精力。

所述企业筛选装置包括处理器和存储器,上述第一信息获得单元、企业筛选单元、企业评分单元和评分输出单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来对企业进行筛选和评分。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述企业筛选方法。

本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述企业筛选方法。

本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:

一种企业筛选方法,包括:

获得各待筛选企业的多种类型的企业信息;

根据获得的所述企业信息,从全部待筛选企业中筛选出满足预设企业要求的企业;

根据筛选出的各企业的企业信息计算得到筛选出的各企业分别对应的企业评分;

将筛选出的各企业及对应的企业评分输出。

可选的,所述获得各待筛选企业的多种类型的企业信息,包括:

从各待筛选企业的相关网页中爬取获得所述相关网页的网页内容;

根据所述网页内容获得所述待筛选企业的多种类型的企业信息。

可选的,所述根据所述网页内容获得所述待筛选企业的多种类型的企业信息,包括:

识别所述网页内容中的结构化数据和非结构化数据;

从所述结构化数据中提取企业信息的类型标识以及与所述类型标识对应的企业信息;

识别所述非结构化数据中的企业信息,确定所述非结构化数据中的企业信息的类型。

可选的,在所述获得各待筛选企业的多种类型的企业信息后,所述方法还包括:

对每个待筛选企业:对获得的该待筛选企业的所述企业信息进行文本挖掘,获得与该待筛选企业相关的至少一个关键词;将获得的所述关键词输入企业标签模型中,获得所述企业标签模型输出的该待筛选企业的企业标签,其中,所述企业标签模型是通过对训练数据进行机器学习后获得的模型;

所述根据获得的所述企业信息,从全部待筛选企业中筛选出满足预设企业要求的企业,包括:

根据获得的所述企业标签从全部待筛选企业中筛选出满足预设企业要求的企业,其中,所述预设企业要求为预设的企业标签要求。

可选的,所述根据筛选出的各个企业的企业信息计算得到筛选出的各企业分别对应的企业评分,包括:

从筛选出的各企业的企业信息中获得至少一个评分项对应的企业信息,所述评分项为企业信息类型;

确定筛选出的各企业的各评分项对应的企业信息评分;

对每个筛选出的企业:根据该企业的各评分项的预设权重和对该企业的各评分项对应的企业信息评分进行加权计算,获得该企业对应的企业评分。

可选的,还包括:

获得目标产业园区的多种类型的园区信息;

根据获得的所述园区信息,确定与所述园区信息匹配的企业要求,将确定的企业要求确定为预设企业要求。

本文中的设备可以是服务器、pc、pad、手机等。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:

一种企业筛选方法,包括:

获得各待筛选企业的多种类型的企业信息;

根据获得的所述企业信息,从全部待筛选企业中筛选出满足预设企业要求的企业;

根据筛选出的各企业的企业信息计算得到筛选出的各企业分别对应的企业评分;

将筛选出的各企业及对应的企业评分输出。

可选的,所述获得各待筛选企业的多种类型的企业信息,包括:

从各待筛选企业的相关网页中爬取获得所述相关网页的网页内容;

根据所述网页内容获得所述待筛选企业的多种类型的企业信息。

可选的,所述根据所述网页内容获得所述待筛选企业的多种类型的企业信息,包括:

识别所述网页内容中的结构化数据和非结构化数据;

从所述结构化数据中提取企业信息的类型标识以及与所述类型标识对应的企业信息;

识别所述非结构化数据中的企业信息,确定所述非结构化数据中的企业信息的类型。

可选的,在所述获得各待筛选企业的多种类型的企业信息后,所述方法还包括:

对每个待筛选企业:对获得的该待筛选企业的所述企业信息进行文本挖掘,获得与该待筛选企业相关的至少一个关键词;将获得的所述关键词输入企业标签模型中,获得所述企业标签模型输出的该待筛选企业的企业标签,其中,所述企业标签模型是通过对训练数据进行机器学习后获得的模型;

所述根据获得的所述企业信息,从全部待筛选企业中筛选出满足预设企业要求的企业,包括:

根据获得的所述企业标签从全部待筛选企业中筛选出满足预设企业要求的企业,其中,所述预设企业要求为预设的企业标签要求。

可选的,所述根据筛选出的各个企业的企业信息计算得到筛选出的各企业分别对应的企业评分,包括:

从筛选出的各企业的企业信息中获得至少一个评分项对应的企业信息,所述评分项为企业信息类型;

确定筛选出的各企业的各评分项对应的企业信息评分;

对每个筛选出的企业:根据该企业的各评分项的预设权重和对该企业的各评分项对应的企业信息评分进行加权计算,获得该企业对应的企业评分。

可选的,还包括:

获得目标产业园区的多种类型的园区信息;

根据获得的所述园区信息,确定与所述园区信息匹配的企业要求,将确定的企业要求确定为预设企业要求。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1