一种企业实体名称分析识别系统的制作方法

文档序号:10612783阅读:948来源:国知局
一种企业实体名称分析识别系统的制作方法
【专利摘要】本发明涉及自然语言处理领域,特别涉及一种企业实体名称分析识别系统,所述系统包括双向递归神经网络模块,所述系统使用现有企业名称数据库中存储的企业名称标注训练样本来训练双向递归神经网络,所述双向递归神经网络识别出待处理文本中的企业名称,并将不属于现有企业名称的名称提取出来。本发明系统通过对文本的基本元素,比如字、词、标点符号等进行特征的自动学习并且应用了双向传播的RNN使得对待识别的自然语言序列的分类判断结果依赖了上下文信息,提取和判断的准备率更高,本发明系统通过已有数据特点来发现新的企业实体名称,在大数据分析领域特别是以企业为分析主体的数据分析领域中具有重要的应用价值。
【专利说明】
一种企业实体名称分析识别系统
技术领域
[0001] 本发明涉及自然语言处理领域,特别涉及一种企业实体名称分析识别系统。
【背景技术】
[0002] 随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于 大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等。这些互联网 产业的兴起于繁荣离不开大量的信息数据分析,而信息分析的价值在于准确和敏锐,敏锐 的分析要求及时快速的发现新的信息;但是直接从网页上获取到数据大部分都是非结构化 的,为了使用这些数据,数据清洗工作成了各大公司耗费时间精力最多的地方。而数据清洗 当中特定信息提取,特别是命名实体的提取又是经常发生的事情,比如做企业征信,最常见 的任务就是从大篇幅文本当中提取公司的名字。
[0003] 除了常见的按照"省市+关键字+行业+组织形式"的规则来命名之外,还存在大量 的例外,比如公司名没有使用省市作为开头,又或者在非正式文本里,公司名可能以简写、 缩写的方式出现,这直接导致了使用传统的方式来进行的信息解析的召回率不高。此外随 着市场经济的繁荣,新增加的企业主体不断出现,新的市场主体的也会随之出现在各种各 样的网络数据或媒体新闻中,从海量的网页资讯中快速准确的发现和提取出新的机构名 称,对于相关问题分析的及时性具有特别重要的意义。
[0004] 传统的自然语言处理方法使用条件随机场(CRF)对文本进行序列建模,进行文本 分析识别和发现公司名。使用条件随机场,首先需要根据待识别实体的特点来设计构建特 征模板,特征模板包括指定窗口大小上下文的一阶词或者多阶词组,词的前缀、后缀,词性 标注等状态特征;特征模板的构造非常耗时耗力,识别结果对特征模板的依赖程度极大,而 手动设置的特征模板往往仅依据部分样本的特点,通用性差;而且通常只能用到局部的上 下文信息,各个特征模板的使用也是相互独立的,预测不能依赖更长的历史状态信息,也无 法利用更长未来的信息反馈来纠正可能的历史错误;预测过程费时费力,预测结果难以实 现全局最优。
[0005] 为了及时敏锐的在海量信息中分析出新的信息主体,研发一套可以及时发现和搜 集新的企业名称的系统是很有价值的。

【发明内容】

[0006] 本发明的目的在于克服现有技术中所存在的上述不足,本发明提供一种企业实体 名称分析识别系统,利用已有的企业名称数据标注样本来训练所述双向递归神经网络,通 过递归神经网络来对文本中的企业主体名称进行预测,发现待处理文本中的企业名称,并 进一步提取出新的企业名称。
[0007] 为了实现上述发明目的,本发明提供了以下技术方案:
[0008] -种企业实体名称分析识别系统,所述系统包括双向递归神经网络模块,所述系 统使用现有企业名称数据库中存储的企业名称标注的训练样本来训练双向递归神经网络, 训练完成后的双向递归神经网络识别出待识别文本中的企业名称,并将不属于现有名称的 企业名称作为新的企业名称提取出来。所述系统使用现有企业名称数据库中存储的企业名 称标注训练样本时,将样本中的企业名称分段标注为:开始部分、中间部分和结束部分,将 不属于企业名称的标注为无关部分。
[0009] 具体的:所述双向递归神经网络模块,采用如下向前算法公式:
[0010]
[0011]
[0012]
[0013]
[0014]
[0015]
[0016] I为向量化的字或者词的维度,Η为隐含层的神经元个数,K是输出层神经元的个 数,其中4为正向输入时t时刻所述双向递归神经网络的隐含层神经元的输入,%为反向输 入时t时刻所述双向递归神经网络的输出层神经元的输入,$为正向输入时t时刻隐含层神 经元的输出,$为反向输入时t时刻隐含层神经元的输出,θ()为为隐含层神经元的非线性 激励函数,式为t时刻输出层神经元的输入,Μ为t时刻输出层神经元的输出,%为一个概 率值,表示第k个神经元的输出值相对于K个神经元输出值总和的比值;$和6^是各个维度 值均为〇的向量,其中T为输入文字序列的长度。
[0017]所述双向递归神经网络在预测各时刻输入向量数据的分类时,结合了正反向传播 时该时刻神经网络隐含层神经元的输出信号;正反向传播时各个时刻神经网络隐含层神经 元的输入信号除了包含向量化的字、词信号以外还包括上一时刻隐含层神经元的输出信 号。
[0018] 所述系统将双向递归神经网络预测结果中相邻的属于企业名称开始部分、K个中 间部分和结束部分对应的字词作为企业名称提取出来,其中K为多0的整数。
[0019] 进一步的,所述系统包括分词模块,所述分词模块对现有企业名称和待处理文本 进行分词,所述待处理文本包括训练样本和待识别文本。
[0020] 作为一种优选,所述分词模块为stanford-segmenter分词器。
[0021] 进一步的,所述系统包括词典映射模块,所述词典映射模块将待识别文本中经过 分词处理后的字、词或者标点转化成向量数据后输入所述双向递归神经网络中。
[0022] 进一步的、所述递归神经网络模块为加载有上述功能程序的计算机、服务器或者 移动智能终立而。
[0023] 进一步的、所述系统为加载有上述程序功能的计算机、服务器或者移动智能终端。
[0024] 与现有技术相比,本发明的有益效果:本发明提供一种企业实体名称分析识别系 统,利用已有的企业名称数据标注样本来训练所述双向递归神经网络,通过递归神经网络 来对文本中的企业主体名称进行预测,发现待处理文本中的企业名称,并进一步提取出新 的企业名称。使用时在一次向前算法中先将文本序列从头至尾依次正向输入所述递归神经 网络中,再从尾至头反向输入到所述递归神经网络中;在正向和反向输入的过程中各时刻 双向递归神经网络的输入信号还包括上一时刻递归神经网络的输出信号。这样在预测企业 主体名称时既依赖了前文信息又依赖了后文信息,预测的结果实现了全局优化,识别的可 靠性更高。而且通过双向递归神经网络的处理方式,无需手动设置特征模板,节省人力且通 用性更好,可以在各种类型的文本中发现并提取企业名称,识别的召回率较传统基于规则 的处理方法显著提高。本发明在发现企业名称的基础上,对比现有企业名称数据库,将不属 于现有数据的企业名称确定为新发现的企业名称,添加到企业名称数据库中,利用本发明 系统在海量互联网数据信息中快速的发现新的企业名称,为相关信息的及时捕捉提供了有 力工具。
【附图说明】:
[0025] 图1为本企业实体名称分析识别系统功能模块连接示意图。
[0026] 图2为本企业实体名称分析识别系统的实现企业实体名称识别的步骤示意图。
[0027] 图3为本企业实体名称分析识别系统实施例1的实现信号流程示意图。
[0028]应该明白本发明说明书附图仅为示意性的,不代表真实的实施方式。
【具体实施方式】
[0029] 下面结合试验例及【具体实施方式】对本发明作进一步的详细描述。但不应将此理解 为本发明上述主题的范围仅限于以下的实施例,凡基于本
【发明内容】
所实现的技术均属于本 发明的范围。
[0030] 提供一种企业实体名称分析识别系统。本发明系统利用已有的企业名称数据标注 样本来训练双向递归神经网络模块,通过递归神经网络来对文本中的企业主体名称进行预 测,发现待处理文本中的企业名称,在分析出企业名称的基础上,对比现有企业名称库,将 现有企业名称中未收录的名称作为新的企业名称存储于数据库中。本发明系统,使用现有 的企业名称数据库中的数据来自动标注训练样本,极大的节省了神经网络使用过程中手动 标注样本的时间成本,使得神经网络的使用过程更加简化。不仅如此本发明系统通过双向 递归神经网络模块来预测企业主体名称时既依赖了前文信息又依赖了后文信息,预测的结 果实现了全局优化,识别的可靠性更高,且无需手动设置特征模板,可以在各种类型的文本 中发现并提取新的企业名称,为相关信息的及时分析提供技术支撑。
[0031] -种企业实体名称分析识别系统,所述系统包括双向递归神经网络模块,所述系 统使用现有企业名称数据库中存储的企业名称标注的训练样本来训练双向递归神经网络, 训练完成后的双向递归神经网络识别出待识别文本中的企业名称,并将不属于现有名称的 企业名称作为新的企业名称提取出来。所述系统使用现有企业名称数据库中存储的企业名 称标注训练样本时,将样本中的企业名称分段标注为:开始部分、中间部分和结束部分,将 不属于企业名称的标注为无关部分。所述系统将双向递归神经网络预测结果中将相邻的属 于企业名称开始部分、K个中间部分和结束部分对应的字词作为企业名称提取出来,其中K 为彡0的整数。
[0032]本发明系统实现新企业实体名称自动分析,包含如图2所述的以下步骤:
[0033] (1)选取一定数量(比如5000件)的包含企业名称的文本,并利用现有的企业数据 对文本中的企业名称字段进行自动标注,并根据企业名称的具体情况,将企业名称分段标 注为开始部分、中间部分和结束部分。将其他不属于企业名称的部分标注为无关部分。具体 的,将文本中的企业或者组织名称分段标注为B(开始部分)、M(中间部分)和E(结束部分), 将其他不属于企业或者组织机构的文字标注为N(非企业名称),使用字母或者数字来标记 文字序列,简单且易于处理,为后续相关序列的操作提供便利。使用现有企业数据来自动标 注样本,进而进行神经网络的训练,极大的节省了神经网络在使用过程中人工标注样的人 力和时间成本,简化了神经网络技术的应用过程。
[0034] (2)将经过人工标记的训练样本中的文字序列依次正向和反向输入到所述双向递 归神经网络中,训练所述双向递归神经网络;(所述正向输入是指将序列中的字或者词,按 照位置的前后顺利依次输入对应时刻的递归神经网络中,所述反向输入是指将序列中的字 或者词倒序依次输入对应时刻的递归神经网中)所述双向归神经网络每个当前时刻的输入 信号还包括上一时刻所述双向递归神经网络的输出信号,正向和反向信息传输入都结束 后,停止递归。
[0035] (3)将待分析文档中的文字序列输入到所述双向递归神经网络中,经过所述双向 递归神经网络对输入的文字序列进行分类,分别识别出待提取文字序列的类型(N、B、M或者 E),将分类结果中两个相邻N之间的Β Μ E序列对应的文字作为企业名称整体提取出来。
[0036] (4)在实现待识别文本企业名提取的基础上,将提取出来的企业名称与现有企业 名称数据库中存储的企业名称进行对比,将数据库中未收录的企业名称作为新的企业名称 保存起来,供数据分析所用。具体的:所述双向递归神经网络模块,采用如下向前算法公式:
[0037]
[0038]
[0039]
[0040]
[0041]
[0042]
[0043] I为文字序列中的字或者词向量化后的维度,Η为隐含层的神经元个数,K是输出层 神经元的个数,其中%为正向输入(文字序列正向输入神经网络)时,t时刻所述双向递归神 经网络的隐含层神经元的输入(本发明系统中所述双向递归神经网络的时刻序号与输入文 字序列的位置序号相对应,比如所文字序列中处于第3位置的字或者词,对应输入第3时刻 的双向递归神经网络中),<为反向输入(文字序列反向输入神经网络)时,t时刻所述双向 ? 递归神经网络的输出层神经元的输入,为正向输入时t时刻隐含层神经元的输出,为 h η 反向输入时t时刻隐含层神经元的输出,θ()为为隐含层神经元的非线性激励函数,ai为t时 刻输出层神经元的输入,可以看出4结合了 t时刻正向输入时隐含层神经元的输出信号和 反向输入时的隐含层神经元的输出信号),< 的计算结果一直向前传播直到所述双向递归 神经网络输出该时刻的分类结果;这样在计算当前时刻对应字或者词的分类结果时既结合 了历史序列信息又结合了未来序列信息,依赖了整个文本的上下文信息而非局部信息,从 而使得预测结果达到了全局最优。>'?为t时刻输出层神经元的输出,^为一个概率值,表示 第k个神经元的输出值相对于Κ个神经元输出值总和的比值,通常取最大的神经元对应的 分类为该时刻所述双向递归神经网络预测的最终分类。3和 6^是各个维度值均为〇的向 量,τ为输入序列的长度。
[0044] 本发明系统使用双向递归神经网络的方式在预测企业名称时,在一次向前算法中 先将文本序列从头至尾依次正向输入所述递归神经网络中,再从尾至头反向输入到所述递 归神经网络中;在正向和反向输入的过程中各时刻双向递归神经网络的输入信号包括该时 刻向量化的字或者词信号和上一时刻递归神经网络的输出信号,仅在反向输入时所述双向 递归神经网络才输出该时刻对应字或者词的分类结果。这样在预测企业主体名称时既依赖 了前文信息又依赖了后文信息,预测的结果为实现了全局优化,识别的可靠性更高。而且通 过双向递归神经网络的处理方式,无需手动设置特征模板,节省人力且通用性更好,可以在 各种类型的文本中发现并提取企业名称,识别的召回率较传统基于规则的处理方法显著提 尚。
[0045] 进一步的,本发明采用上述向前算法在所述双向递归神经网络中来逐层传输运算 数据,在输出层获取到识别(预测)数据,当预测结果与训练样本的标注结果具有偏差时,通 过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重,误差反向传播方法 将误差逐级反向传播分摊到各层的所有神经元,获得各层神经元的误差信号,进而修正各 神经元的权重。通过向前算法逐层传输运算数据,并通过向后算法来逐渐修改各神经元的 权重的过程就是神经网络的训练过程;重复上述过程,直到预测结果的正确率达到设定的 阈值,停止训练,此时可认为所述双向递归神经网络模型已经训练完成。
[0046] 进一步的,所述系统包括分词模块,所述分词模块对现有企业名称和待处理文本 进行分词,所述待处理文本包括训练样本和待识别文本。
[0047] 作为一种优选,所述分词模块为stanford-segmenter分词器。目前可用的分词工 具很多比如说:stanford-segmenter分词器、ICTCLAS、盘古分词、庖丁分词器......通过分词 将较长的文本内容分解成相对独立的字词单元,使待处理文本内容离散化、序列化,为递归 神经网络的应用提供基础,s tanf or d_s egmen t er分词器分词效果较好。
[0048] 进一步的,所述系统包括词典映射模块,所述词典映射模块将待识别文本中经过 分词处理后的字、词或者标点转化成向量数据后输入所述双向递归神经网络中,所述词典 映射模块包括词典映射表,所述词典映射表为一个二维矩阵,其中每一个行向量对应一个 字、词或者标点符号,行向量与字、词或者标点符号的对应关系为构建词典映射表时所设置 (本系统可采用如图1所示的功能模块连接结构)。
[0049] 进一步的、所述递归神经网络模块为加载有上述功能程序的计算机、服务器或者 移动智能终立而。
[0050] 进一步的、所述系统为加载有上述程序功能的计算机、服务器或者移动智能终端。 所述计算机、服务器或者移动智能终端为系统功能的实现提供硬件基础。
[0051 ] 实施例1
[0052]本系统的的新企业名称发现过程如下:比如在网络获取了如下的新闻文本:"ΧΧΧΧ 年3月15日公告,公司第七届董事会第五次会议,审议通过了《关于公司及全资子公司投资 成立子公司的议案》,公司拟成立的六家全资子公司分别为ABCD医疗投资管理有限公司、 ΑΒ⑶医药电子商务有限公司、ΑΒ⑶投资基金管理有限公司、ΑΒ⑶新能源有限公司、ΑΒ⑶基础 设施投资有限公司、ABCD投资有限公司。投资金额:总投资金额折合人民币约为6.3亿元。" 经过分词得到:"ΧΧΧΧ年/3月/15日/公告/,/公司/第七/届/董事会/第五/次/会议/,/审议/ 通过了/《/关于/公司/及/全资/子公司/投资/成立/子公司/的/议案/》/,/公司/拟/成立/ 的/六家/全资/子公司/分别为/AB/CD/医疗/投资管理/有限公司A/AB/CD/医药/电子商 务/有限公司A/AB/CD/投资/基金管理/有限公司A/AB/CD/新能源/有限公司A/AB/CD/基 础设施/投资/有限公司A/AB/CD/投资/有限公司/。/投资/金额/:/总/投资/金额/折合/人 民币/约为/6.3亿元/。"将上述经过分词形成的文字序列,输入到所述双向递归神经中,经 过所述递归神经网络的预测,输出:"ΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΝΜΜΜΜΕΝΜΜΜ ΜΕΝΜΜΜΜΕΝΜΜΜΕΝΜΜΜΜΕΝΜΜΜΜΕΝΝΝΝΝΝΝΝΝΝΝΝ" 将分类序列中的 ΜΜΜΜΕ、ΜΜΜΜΕ、ΜΜΜΜΕ、ΜΜΜΕ、 ΜΜΜΜΕ、ΜΜΜΜΕ对应的文字序列:"ABCD医疗投资管理有限公司"、"ABCD医药电子商务有限公 司"、"AB⑶投资基金管理有限公司"、"AB⑶新能源有限公司"、"AB⑶基础设施投资有限公 司"、"ABCD投资有限公司"作为企业名称整体提取出来。本实施例实现企业名称提取的信号 流程如图3 所不(其中 vec_a、vec-b、vec-c、vec_d、vec_e、vec-f、vec-g、vec_h、vec_i、vec_ j、vec-k、vec-l、vec_m......vec_z等代表词典映射表中二维矩阵的行向量)将上述提取出来 的企业名称和现有的企业名称数据库进行对比,如果上述企业名称不存在与现有的企业名 称数据库中,则将上述企业名称作为新的企业添加进入现有企业名称数据库中,为相关的 数据分析提供基础。
【主权项】
1. 一种企业实体名称分析识别系统,所述系统包括双向递归神经网络模块,其特征在 于:所述系统使用现有企业名称数据库中存储的企业名称标注的训练样本来训练双向递归 神经网络,训练完成后的双向递归神经网络识别出待识别文本中的企业名称,并将不属于 现有名称的企业名称作为新的企业名称提取出来。2. 如权利要求1所述的系统,其特征在于:所述系统使用现有企业名称数据库中存储的 企业名称标注训练样本时,将样本中的企业名称分段标注为:开始部分、中间部分和结束部 分,将不属于企业名称的标注为无关部分。3. 如权利要求2所述的系统,其特征在于:所述双向递归神经网络模块,采用如下向前 算法公式:I为向量化的字或者词的维度,Η为隐含层的神经元个数,K是输出层神经元的个数,其 中a;;为正向输入时t时刻所述双向递归神经网络的隐含层神经元的输入,< 为反向输入时t 时刻所述双向递归神经网络的输出层神经元的输入,为正向输入时t时刻隐含层神经元 的输出,6^.为反向输入时t时刻隐含层神经元的输出,θ()为为隐含层神经元的非线性激励 函数,攻为t时刻输出层神经元的输入,为t时刻输出层神经元的输出,为一个概率值, 表示第k个神经元的输出值相对于K个神经元输出值总和的比值;^和^>1是各个维度值均 为0的向量,其中T为输入文字序列的长度。4. 如权利要求3所述的系统,其特征在于:所述双向递归神经网络在预测各时刻输入向 量数据的分类时,结合了正反向传播时该时刻神经网络隐含层神经元的输出信号;正反向 传播时各个时刻神经网络隐含层神经元的输入信号除了包含向量化的字、词信号W外还包 括上一时刻隐含层神经元的输出信号。5. 如权利要求4所述的系统,其特征在于:所述系统将双向递归神经网络预测结果中相 邻的属于企业名称开始部分、K个中间部分和结束部分对应的字词作为企业名称提取出来。6. 如权利要求1至5之一所述的系统,其特征在于:所述系统包括分词模块,所述分词模 块对现有企业名称和待处理文本进行分词,所述待处理文本包括训练样本和待识别文本。7. 如权利要求6所述的系统,其特征在于:所述分词模块为stanford-segmenter分词 器。8. 如权利要求6所述的系统,其特征在于:所述系统包括词典映射模块,所述词典映射 模块将待识别文本中经过分词处理后的字、词或者标点转化成向量数据后输入所述双向递 归神经网络中。9. 如权利要求8所述的系统,其特征在于:所述递归神经网络模块为加载有如权利要求 1至4之一所述功能程序的计算机、服务器或者移动智能终端。10. 如权利要求9所述的系统,其特征在于:所述系统为加载有权利要求1至8之一所述 程序功能的计算机、服务器或者移动智能终端。
【文档编号】G06N3/08GK105975456SQ201610286191
【公开日】2016年9月28日
【申请日】2016年5月3日
【发明人】刘世林, 何宏靖
【申请人】成都数联铭品科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1