一种基于自然语言处理的公司行业分类计算方法与流程

文档序号：17587423发布日期：2019-05-03 21:27阅读：569来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及互联网技术领域，特别是指一种基于自然语言处理的公司行业分类计算方法。

背景技术：

在数据搜索中，精准的行业定位，能帮助用户快速判断目标公司是否符合自己的需求。现有的行业分类主要采用包括人工方法标注公司行业类别，制定行业分类规则以判断公司行业或传统分类方法（如支持向量机/决策树等方法）来实现，存在以下问题：

（1）人工方法：各行之间存在知识壁垒，需要大量行业专家参与才能有效完成标注，耗费大量人力和物力；

（2）规则方法：公司数量庞大，很难兼顾所有公司特征制定行业分类规则；并且新公司层出不穷，难以及时更新；同时制定规则需要大量人员参与，实现难度高；

（3）传统分类方法：需要进行特征提取处理，处理后文档损失信息，容易导致分类精准度降低。

有鉴于此，本发明人针对上述问题未臻完善所导致的诸多缺失及不便，而深入构思，且积极研究改良试做而开发设计出本发明。

技术实现要素：

本发明的目的在于提供一种基于自然语言处理的公司行业分类计算方法，具有分类精准度高、适用性广的特点，并且本发明所需要的人工标注量少，可以节省人力物力。

为了达成上述目的，本发明的解决方案是：

1、一种基于自然语言处理的公司行业分类计算方法，包括以下步骤：

步骤1、数据获取

通过爬虫网页数据，获取包含对于预分类公司的产品或服务的文本描述的文本数据;

步骤2、数据分析

2.1特征提取：将所有预分类公司的文本数据总和作为语料库，每个预分类公司的文本数据作为一篇文章，对预分类公司的文本数据提取特征，所述特征包括公司的产品、数据来源、tfidf统计和bow统计;通过activelearning进行数据标注；将网页url分段作为特征，通过noisychannellayer处理，量化数据来源的噪音;

2.2数据清洗：通过去除纯数字文本、小写化、去除常见词、去除低频词、词形还原的方式清理文本数据；

2.3训练词向量：将清理后的文本数据用glove和word2vec做词向量训练得到词向量；

步骤3、深度学习框架

结合步骤2.1中提取的特征和步骤2.3中的词向量，应用elmo、ulmfit模型和wideanddeep模型，进行训练深度学习模型；

步骤4、层级化分类

通过训练好的深度学习模型，对文本数据进行计算得到一级分类；针对每个一级分类根据数据特征的不同采用不同的模型进行单独训练，得到二级分类的分类器；根据输出的一级分类选择进入的二级分类的分类器，实现对公司的行业分类。

所述网页数据来源于预分类公司的官网主页、一级页面、社交网络主页或者企业黄页。

采用上述方法后，本发明流程简单、效率高，通过采用语言模型和迁移学习预训练分类模型，从而大幅提高准确率，并且节省人力物力；本发明通过层级化分类体系可以得到约30个一级分类和约300个二级分类，大大提高了分类的精准度；本发明的模型可以接受不同长度、形式的文本输入，不需要对模型作出任何调整，应用范围更广、实用性更高。

此外，在数据标注的过程中采用了activelearning，以保证模型的实时更新，增加实时性，减少重复劳动力。

具体实施方式

为了进一步解释本发明的技术方案，下面通过具体实施例来对本发明进行详细阐述。

一个公司生产的产品或者其提供的服务体现了该公司的自有特征，可以通过计算该自有特征的相似程度来分析公司的行业分类。

本发明为一种基于自然语言处理的公司行业分类计算方法，包括以下步骤：

步骤1、数据获取

通过爬虫网页数据，获取包含对于预分类公司的产品或服务的文本描述的文本数据。

上述网页数据来源于预分类公司的官网主页、一级页面、社交网络主页或者企业黄页等预分类公司会发布其相关信息的平台。上述文本数据中包含的语义信息，可以用来做文本理解以及精准的行业分类。

步骤2、数据分析

2.1特征提取：将所有预分类公司的文本数据总和作为语料库，每个预分类公司的文本数据作为一篇文章，对预分类公司的文本数据提取特征，所述特征包括公司的产品、数据来源、tfidf统计和bow统计等。通过主动式推荐标准系统activelearning进行数据标注。将网页url分段作为特征，通过noisychannellayer处理，量化数据来源的噪音，以增加后续步骤中模型的准确率,如网页url为www.google.com，其分段为www|google|com。

2.2数据清洗：通过去除纯数字文本、小写化、去除常见词、去除低频词、词形还原（lemmatisation）等一系列自然语言处理的方式清理文本数据。

2.3训练词向量：将清理后的文本数据用glove和word2vec做词向量训练得到词向量，作为深度学习模型的输入。

步骤3、深度学习框架

结合步骤2.1中提取的特征和步骤2.3中的词向量，应用elmo、ulmfit模型和wideanddeep模型，进行训练深度学习模型。

本步骤中应用了elmo和ulmfit模型，准确率能在标准数据集上面做到最高的精准度。

步骤4、层级化分类

本发明流程简单、效率高，通过采用语言模型和迁移学习预训练分类模型，从而大幅提高准确率，并且节省人力物力；本发明通过层级化分类体系可以得到约30个一级分类和约300个二级分类，大大提高了分类的精准度；本发明的模型可以接受不同长度、形式的文本输入，不需要对模型作出任何调整，应用范围更广、实用性更高。

此外，在数据标注的过程中采用了activelearning，以保证模型的实时更新，增加实时性，减少重复劳动力。

上述实施例并非限定本发明的产品形态和式样，任何所属技术领域的普通技术人员对其所做的适当变化或修饰，皆应视为不脱离本发明的专利范畴。

技术特征：

技术总结
本发明公开了一种基于自然语言处理的公司行业分类计算方法，通过爬虫获取预分类公司的文本数据，对文本数据进行提取特征、降噪处理和训练词向量，并采用语言模型和迁移学习预训练分类模型后，对文本数据进行层级化分类，实现对目标公司的分类。本发明流程简单、效率高，节省人力物力；本发明通过层级化分类体系可以得到约30个一级分类和约300个二级分类，大大提高了分类的精准度；本发明的模型可以接受不同长度、形式的文本输入，不需要对模型作出任何调整，应用范围更广、实用性更高。

技术研发人员：王凯锋;吴承霖;金立达
受保护的技术使用者：厦门笨鸟电子商务有限公司
技术研发日：2018.12.28
技术公布日：2019.05.03

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王凯锋;吴承霖;金立达
技术所有人：厦门笨鸟电子商务有限公司
我是此专利的发明人

上一篇：一种水酶解法提取牡丹籽油和牡丹蛋白肽的方法与流程
上一篇：一种网络终端与物联网SIM卡认证的方法和系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。