一种数据处理方法及服务器与流程

文档序号：13513724阅读：208来源：国知局

本申请涉及计算机领域，尤其涉及一种数据处理方法及服务器。

背景技术：

如今，随着时代的发展，公司之间的竞争愈发激烈，对公司来说想要更多的将产品销售出去就需要知道哪些是对公司产品感兴趣的潜在客户，所以能有效地搜集包括与客户相关的产品信息、人员招聘信息、项目需求信息以及公司投融资信息等在内的销售线索对公司来说至关重要。

当前，公司除了通过老客户介绍资源、电话咨询或者发布广告等传统方式外，由于信息时代的高速发展及互联网的普及，公司还可以通过销售人员查找互联网的方式获取到相关的销售线索，例如，一家生成电子元器件的公司，销售人员可以从互联网搜集哪些公司的产品需要用到电子元器件，对搜集到的信息进行筛选并确定潜在的客户即销售线索。

不过，由于互联网中的信息量非常庞大，想要获取到公司真正需要的销售线索往往要花费公司销售人员大量的时间上网进行信息的检索和筛选，导致公司搜集销售线索的效率较低。

技术实现要素：

本申请实施例提供了一种数据处理方法及服务器，用于提高搜集销售线索的效率。

本申请实施例第一方面提供的数据处理方法，包括：

服务器获取公司的公司标识；

所述服务器根据所述公司标识获取与所述公司标识对应的关键词，所述关键词用于指示所述公司的特征；

所述服务器生成多元组，所述多元组包括所述公司标识及所述关键词；

所述服务器确定与所述多元组对应的标签，所述标签用于指示所述多元组的类型，所述标签由人为拟定；

当所述标签与用户输入的目标标签匹配时，所述服务器输出所述多元组。

可选地，服务器获取公司的公司标识包括：

所述服务器根据企业工商数据库获取公司名称列表；

所述服务器从所述公司名称列表中选取公司名称。

可选地，服务器获取公司的公司标识包括：

所述服务器获取企业产品信息库；

所述服务器根据自然语言处理技术对所述企业产品信息库进行识别得到公司名称。

可选地，所述服务器根据所述公司标识获取与所述公司标识对应的关键词包括：

所述服务器通过搜索引擎获取与所述公司标识相关的互联网信息；

所述服务器利用文本分类texkrank算法从所述互联网信息中提取所述关键词。

可选地，所述服务器确定与所述多元组对应的标签包括：

所述服务器利用卡方校验算法计算得到与所述多元组对应的卡方值的集合，所述卡方值的集合用于表示所述多元组对应标签集合中每一个标签的可能性，所述卡方值越小则所述可能性越大，所述标签集合包括所述标签；

所述服务器确定所述卡方值的集合中最小的卡方值对应的标签为所述标签。

本申请实施例提供的服务器，包括：

第一获取单元，用于获取公司的公司标识；

第二获取单元，用于根据公司标识获取与所述公司标识对应的关键词，所述关键词用于指示所述公司的特征；

生成单元，用于生成多元组，所述多元组包括所述公司标识及所述关键词；

确定单元，用于确定与所述多元组对应的标签，所述标签用于指示所述多元组的类型，所述标签由人为拟定；

输出单元，用于当所述标签与用户输入的目标标签匹配时，输出所述多元组。

可选地，所述第一获取单元包括：

第一获取模块，用于根据企业工商数据库获取公司名称列表；

选取模块，用于从所述公司名称列表中选取公司名称。

可选地，所述第一获取单元包括：

第二获取模块，用于获取企业产品信息库；

识别模块，用于根据自然语言处理技术对所述企业产品信息库进行识别得到公司名称。

可选地，所述第二获取单元包括：

第三获取模块，用于通过搜索引擎获取与所述公司标识相关的互联网信息；

提取模块，用于利用textrank算法从所述互联网信息中提取所述关键词。

可选地，所述确定单元包括：

计算模块，用于利用卡方校验算法计算得到与所述多元组对应的卡方值的集合，所述卡方值的集合用于表示所述多元组对应标签集合中每一个标签的可能性，所述卡方值越小则所述可能性越大，所述标签集合包括所述标签；

确定模块，用于确定所述卡方值的集合中最小的卡方值对应的标签为所述标签。

从以上技术方案可以看出，本申请实施例具有以下优点：

本实施例中，服务器可以获取公司的公司标识，并且服务器可以根据公司标识获取与公司标识对应的关键词，之后服务器生成包括公司名称及关键词的多元组，服务器确定与多元组对应的标签，当该标签与用户输入的目标标签匹配时，服务器输出该多元组，与由此可以看出，用户输入的目标标签与服务器中记录的标签匹配时，用户可以获知服务器反馈的多元组，也就可以获知与该关键词位于同一多元组中的公司标识即销售线索，用户不用再亲自从信息量巨大网络信息中筛选可能存在的潜在客户的公司名称，提高了搜集销售线索的效率。

附图说明

图1为本申请实施例中数据处理方法的一个实施例示意图；

图2为本申请实施例中服务器与用户终端设备连接的示意图；

图3为本申请实施例中数据处理方法的另一实施例示意图；

图4为本申请实施例中卡方校验模型的示意图；

图5为本申请实施例中服务器的一个实施例示意图；

图6为本申请实施例中服务器的另一实施例示意图；

图7为本申请实施例中服务器的结构示意图。

具体实施方式

本申请实施例提供了一种数据处理方法及服务器，用于提高搜集销售线索的效率。

当前公司搜集销售线索主要还是依赖人工进行销售线索的搜集，如在已有的客户圈子里通过老客户介绍又或者通过电话咨询去获取销售线索，依靠这种方式能获得的销售线索有限，此外，公司的员工也可以通过互联网来搜集更多的销售线索，但是由于互联网中的信息量非常庞大，需要公司员工花费时间从大量的信息中去筛选有用的销售线索，使得搜集销售线索的效率很低。

为解决当前搜集销售线索效率低的问题，本申请实施例提供了一种数据处理方法，下面进行详细介绍：

请参阅图1，本申请实施例中数据处理方法的一个实施例包括：

101、服务器获取公司的公司标识。

本申请实施例中，服务器首先需要获取公司的公司标识，具体地，公司标识可以指公司的公司名称，公司名称可以是指公司的中文全称，除此之外，公司名称也可以是公司的外文名称，又或者公司的简称，具体此处不做限定。

102、服务器根据公司标识获取与公司标识对应的关键词。

服务器获取到公司标识后可以根据公司标识获取到与公司标识对应的关键词，其中，关键词是指一句话或者一段话中能够表达出这句话大致意思的一系列词，可以理解的是，与公司标识对应的关键词可以体现出公司的相关特征，例如下面一句话，“甲公司专注于为小企业提供一站式管理软件及电子商务服务，为政府及公共部门提供公共管理和服务平台软件”，其中“甲公司”为公司标识，那么这句话中与公司标识对应的关键词可以是“管理软件”、“电子商务服务”或“服务平台软件”这些可以体现甲公司特征的词。

103、服务器生成多元组。

本申请实施例中，服务器可以生成包括公司标识及关键词的多元组，可以理解的是，多元组内与公司标识对应到的关键词可以有一个也可以有多个，具体此处不做限定。

104、服务器确定与多元组对应的标签。

本申请实施例中，服务器生成多元组之后可以确定多元组对应的标签。

需要说明的是，该标签是由认为拟定的用来表示多元组类型的词组或短语，具体的，该标签可以包括：公司业务的技术领域、公司投融资信息、公司人员招聘信息、公司项目需求信息、公司管理层的变动信息、合约信息、技术更新信息、公司营销信息或公司预算信息等，通过这些标签用户可以根据自己的实际需求快速地找到相关的多元组并获知销售线索，例如，多元组为(a公司，管理软件)，那么该多元组对应的标签可以是公司业务的技术领域，可以理解的是，关于标签的拟定以实际应用为准，此处不做限定。

105、当标签与用户输入的目标标签匹配时，服务器输出多元组。

本申请实施例中，当标签与用户输入的目标标签匹配时，服务器输出多元组，其中，目标标签可以是服务器中已经记录的标签，进而服务器输出与该标签对应的多元组，此外，该目标标签也可以是用户任意输入的文字内容，服务器可以根据文字内容判断该文字内容是否有对应的标签，如果有那么服务器输出与该标签对应的多元组。

可以理解的是，用户可以通过用户终端设备获取到服务器反馈的多元组，其中，服务器与用户终端设备的连接关系如图2所示，服务器可以同时与多个用户终端设备进行数据传输，该用户终端设备可以是手机、电脑或笔记本电脑等，具体此处不做限定。

需要说明的是，用户可以直观地从多元组中区分出公司标识与关键词，例如，公司标识与关键词之间有标点或者空格做分隔，或者公司标识与关键词的显示颜色有区分，具体的区分方式此处不做限定。

本实施例中，服务器可以获取公司的公司标识，并且服务器可以根据公司标识获取与公司标识对应的关键词，之后服务器生成包括公司标识及关键词的多元组，服务器确定与多元组对应的标签，当该标签与用户输入的目标标签匹配时，服务器输出该多元组，与由此可以看出，用户输入的目标标签与服务器中记录的标签匹配时，用户可以获知服务器反馈的多元组，也就可以获知与该关键词位于同一多元组中的公司标识即销售线索，用户不用再亲自从信息量巨大网络信息中筛选可能存在的潜在客户的公司名称，提高了搜集销售线索的效率。

为便于理解，下面结合服务器获取公司标识以及关键词的具体实现方式对本申请实施例的数据处理方法进行详细描述：

请参阅图3，本申请实施例的数据处理方法另一实施例包括：

301、服务器获取企业工商数据库库。

本申请实施例中，服务器获取企业工商数据库，其中，企业工商数据库中包括已经公开的公司名称列表，公司的名称都已公司全称的形式来表示，同时企业工商数据库中还包括与公司名称对应的该公司的公司地址及法人信息。

302、服务器从企业工商数据库中确定公司名称。

本申请实施例中，服务器可以从企业工商数据库中的公司名称列表中提取公司名称并记录，可以理解的是，服务器会定期的访问企业工商数据库库获取最新的公司名称列表并更新本地数据。

需要说明的是，在实际应用时，步骤301和302是根据公开的全国企业工商数据库得到公司名列表，每个公司名都以公司全称的形式来表示，同时列表包括公司的法人和公司成立时间字段。然后，根据公司名全称在大量项目数据库网站中查询公司项目信息，得到公司列表中所有公司的现有项目信息。然后，基于公司的项目信息通过程序自动地在常用的搜索引擎中查询公司项目对应的新闻信息，在搜索的时候选取第一页搜到的新闻作为候选的线索分析新闻，搜索引擎采用百度新闻、谷歌新闻和必应新闻搜索。接着线索分析引擎使用自然语言处理技术对新闻进行分析，进而从中提取得到销售相关的线索。

303、服务器获取企业产品信息库。

本申请实施例中，服务器可以获取企业产品信息库，其中，企业产品信息库包括产品的分类名录，进一步也包括提供产品的供应商的公司名称及其他与产品相关的描述信息。

304、服务器根据自然语言处理技术对企业产品信息库进行识别得到公司名称。

本申请实施例中，服务器获取到企业产品信息库之后，可以根据自然语言处理技术对企业产品信息库中的信息进行识别得到公司名称，可以理解的是，企业产品信息库中包含有除了公司名称之外的其他文字信息，所以需要服务器根据自然语言处理技术识别出企业产品信息库中的公司名称。在实际应用时，本实施可从互联网外部数据中获取其中包含的企业名称，并输出每个输出名称与数据之间的关联程度以及输出的确信度。

需要说明的是，服务器可以根据自然语言处理技术中的命名实体识别技术对企业产品信息库中的文字信息进行识别，具体地，服务器使用大量已标注词性的互联网数据进行建模，根据观测到的数据(标注好的语料)对模型参数进行估计，即训练，之后训练得到二维隐马尔可夫模型，在此基础上构建分词词典，进一步使用条件随机场(conditionalrandomfield，crf)算法进行命名实体识别，提取疑似命名实体的所有名词，计算各种名词出现的概率，将概率最大的名词结果作为最终结果，即识别得到公司名称。

需要说明的是，服务器还可以将识别得到的公司名称与企业工商数据库中公开的公司名称列表进行比对核实公司名称的准确性。

305、服务器获取与公司名称相关的互联网信息。

本申请实施例中，服务器可以根据已经获取到的公司名称通过互联网搜索引擎获取到与公司名称相关的互联网信息。

需要说明的是，在实际应用时，根据获取的互联网外部数据，基于自然语言处理技术和企业产品信息库，对企业互联网外部数据进行分析和匹配，可以得到可能的对应企业缩略名或者全称。然后，再与企业工商信息的公司名列表进行匹配判断，从而提取得到销售线索。

306、服务器利用textrank算法从互联网信息中提取关键词。

本实施例中，服务器获取到与公司名称相关的互联网信息后，可以利用textrank算法从互联网信息中提取关键词，其中，关于关键词的描述与图1所示的实施例中步骤102类似，此处不再赘述。在实际应用时，本实施例可从互联网外部数据中获取指定数量的关键词和关键短语。

需要说明的是，textrank算法通过把文本分割成若干组成单元(单词、句子)并建立有向图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取，其中该textrank算法的公式具体为：

语料中词的关系可以用一个有向图来表示，vi代表有向图中一个顶点，其表示一个词i，ws(vi)是词i的重要性，也就是权重，值越高说明词i的重要性越高，ws(vj)是词j的重要性，d是阻尼系数，一般设置为0.85，in(vi)是指所有指向词i的词的集合，out(vj)是词j所指向的有向图中所有词的集合，wji表示滑动窗口中j与i直接的距离，如词j与i相距t个词，则wji＝t，t为整数。vj表示一个词j，其属于in(vi)；vk表示一个词k，其属于out(vj)。wjk表示滑动窗口中j与k直接的距离，如词j与k相距s个词，则wjk＝s，s为整数。其中，单篇文档本身分割为n个词，n为正整数，那么i∈[1，n]，i为正整数；in(vi)是指所有指向词i的词的集合，该集合中包含j个词，j为正整数；那么vj表示一个词j，其属于in(vi)，且j∈[1，j]，j为正整数；out(vj)是词j所指向的有向图中所有词的集合，该集合中包含k个词，k为正整数；vk表示一个词k，其属于out(vj)，且k∈[1,k],k为正整数。通过该算法可以得到每一条互联网信息中每一个词的权重，权重最大一个或多个词就是所需提取的关键词。关于关键词的数量可根据实际需要按照权重进行选取。

307、服务器生成多元组。

本申请实施例中，服务器可以生成包括公司名称及关键词的多元组，可以理解的是，多元组内与公司标识对应到的关键词可以有一个也可以有多个，具体此处不做限定。

308、服务器利用卡方校验算法确定与多元组对应的标签。

本申请实施例中，服务器生成多元组之后，利用卡方校验算法确定与多元组对应的标签，具体地，对于服务器提取到的每一条关键词，需要对其进行分类，这个过程需要人工完成标注，首先对一部分关键词进行人工标注其分类标签，得到卡方校验模型，对于未进行人工标注的关键词，可以使用得到的卡方校验模型进行分类，其中，卡方校验模型如图4所示，服务器可以计算得到多元组对应每一个标签的可能性，具体的计算公式为：

其中t表示需要比较的多元组中的关键词，其中c表示标签的类别，卡方值表示词t属于标签c类别的可能性，卡方值越小则可能性越大，a表示包含词t且分类为c的次数，d表示不包含词t，且分类不是c的次数。b表示包含词t且分类不是c的次数，c表示不包含词t且分类为c的次数，n表示a、b、c以及d次数相加总和。最终选择可能性最大的那组即为该多元组的标签。

309、当标签与用户输入的目标标签匹配时，服务器输出多元组。

本申请实施例中，步骤309与图1所示的实施例中步骤105的描述类似，具体此处不再赘述。

本实施例中，服务器可以获取公司的公司名称，并且服务器可以根据公司名称获取与公司名称对应的关键词，之后服务器生成包括公司名称及关键词的多元组，服务器确定与多元组对应的标签，当该标签与用户输入的目标标签匹配时，服务器输出该多元组，与由此可以看出，用户输入的目标标签与服务器中记录的标签匹配时，用户可以获知服务器反馈的多元组，也就可以获知与该关键词位于同一多元组中的公司名称即销售线索，用户不用再亲自从信息量巨大网络信息中筛选可能存在的潜在客户的公司名称，提高了搜集销售线索的效率。

上面对本申请实施例中的数据处理方法进行了描述，下面对本申请实施例中的服务器进行描述：

请参阅图5，本申请实施例中服务器的一个实施例包括：

第一获取单元501、用于获取公司的公司标识；

第二获取单元502、用于根据公司标识获取与公司标识对应的关键词，关键词用于指示公司的特征；

生成单元503、用于生成多元组，多元组包括公司标识及关键词；

确定单元504、用于确定与多元组对应的标签，标签用于指示多元组的类型，标签由人为拟定；

输出单元505、用于当标签与用户输入的目标标签匹配时，输出多元组。

本实施例中，第一获取单元501可以获取公司的公司名称，并且第二获取单元502可以根据公司名称获取与公司名称对应的关键词，之后生成单元503生成包括公司名称及关键词的多元组，确定单元504确定与多元组对应的标签，当该标签与用户输入的目标标签匹配时，输出单元505输出该多元组，与由此可以看出，用户输入的目标标签与服务器中记录的标签匹配时，用户可以获知服务器反馈的多元组，也就可以获知与该关键词位于同一多元组中的公司名称即销售线索，用户不用再亲自从信息量巨大网络信息中筛选可能存在的潜在客户的公司名称，提高了搜集销售线索的效率。

为便于理解，下面对本申请实施例中的服务器进行详细介绍，请参阅图6，本申请实施例中服务器的另一个实施例包括：

第一获取单元601、用于获取公司的公司标识；

第二获取单元602、用于根据公司标识获取与公司标识对应的关键词，关键词用于指示公司的特征；

生成单元603、用于生成多元组，多元组包括公司标识及关键词；

确定单元604、用于确定与多元组对应的标签，标签用于指示多元组的类型，标签由人为拟定；

输出单元605、用于当标签与用户输入的目标标签匹配时，输出多元组。

本实施例中，第一获取单元601进一步包括：

第一获取模块6011、用于根据企业工商数据库获取公司名称列表；

选取模块6012、用于从公司名称列表中选取公司名称；

第二获取模块6013、用于获取企业产品信息库；

识别模块6014、用于根据自然语言处理技术对企业产品信息库进行识别得到公司名称。

本实施例中，第二获取单元602进一步包括：

第三获取模块6021、用于通过搜索引擎获取与公司标识相关的互联网信息；

提取模块6022、用于利用textrank算法从互联网信息中提取关键词。

本实施例中，确定单元604进一步包括：

计算模块6041、用于利用卡方校验算法计算得到与多元组对应的卡方值的集合，卡方值的集合用于表示多元组对应标签集合中每一个标签的可能性，卡方值越小则可能性越大，标签集合包括标签；

确定模块6042、用于确定卡方值的集合中最小的卡方值对应的标签为标签。

上面从模块化功能实体的角度对本申请实施例中的服务器进行描述，下面从硬件处理的角度对本申请实施例中的服务器进行描述，请参阅图7，本申请实施例中的服务器另一实施例包括：

图7是本申请实施例提供的一种服务器结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessingunits，cpu)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器700上执行存储介质730中的一系列指令操作。

该中央处理器722可以根据指令操作执行如下步骤：

获取公司的公司标识；

根据公司标识获取与所述公司标识对应的关键词，所述关键词用于指示所述公司的特征；

生成多元组，所述多元组包括所述公司标识及所述关键词；

确定与所述多元组对应的标签，所述标签用于指示所述多元组的类型，所述标签由人为拟定；

当所述标签与用户输入的目标标签匹配时，输出所述多元组。

服务器700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，和/或，一个或一个以上操作系统741，例如windowsservertm，macosxtm，unixtm,linuxtm，freebsdtm等等。

上述实施例中由服务器所执行的步骤可以基于该图7所示的服务器结构。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曾晶;车进;张良杰;陈桓
技术所有人：金蝶软件（中国）有限公司
我是此专利的发明人

上一篇：一种快速获取商家名称及税号并开发票的方法、装置和系统与流程
上一篇：一种轨迹生成方法及系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。