基于神经网络半监督学习的互联网大数据文本精准挖掘引擎的制作方法

文档序号:17548561发布日期:2019-04-30 18:03阅读:167来源:国知局
本发明涉及互联网大数据信息提取
技术领域
:,特别是互联网文本精准挖掘方法中的判别分析处理方法。
背景技术
::随着互联网技术的普及和飞速发展,互联网数据正在爆炸式增长,文本信息充斥于网络世界,文本信息属于非结构化数据,难以采用有效的分析方法获取精准的数据信息;加上网页代码的非规范性与非统一性,使得用户,尤其是中小企业与个人等用户,难以准确的获取到有价值的结构化数据。为了精准挖掘出互联网数据的价值,需要一些程序化工具准确地从中提取出需要的结构化信息。传统的信息提取方式一般是通过信息检索或者数理统计的方法进行,虽然能够搜索出目标关键字的相关内容,但是并不能准确地将相关的内容结构化。如百度、谷歌等搜索引擎,可以检索到词条相关内容,但是结果却无法达到所希望的精准度。本专利应用自然语言处理及深度学习技术,对海量复杂多样的网页进行处理,并通过神经网络判断技术实现对实体对象的有效判别,更加准确地提取出需要的结构化数据,发挥数据的价值。技术实现要素:本发明主要针对目前信息提取不够准确的问题,为此提供一种根据目标主题准确提取出相应信息并结构化的方法,该大数据文本精准挖掘引擎技术主要具有降低中小企业用户和个人用户的大数据分析成本、定向化大数据分析对象、数据精准化的特点。为了实现上述发明目的,本发明提供了以下技术方案:基于神经网络半监督学习的互联网大数据文本精准挖掘引擎,首先从获取到的网页源码中抽取出文本序列及文本间的层级关系,然后使用实体识别技术提取出与目标主题相关的候选实体对象,最后根据各个实体对象的特征使用神经网络判定其是否属于相应主题。基于神经网络判别的互联网大数据文本精准挖掘引擎,包括以下步骤:(1)网页抓取,获取网页源码,去除干扰词汇,统一标点符号的编码;(2)关系结构化网页内容,根据网页html标签之间的层级关系结构化网页文本内容;(3)提取实体对象,根据预先建立的主题词典,近邻搜索结构化的网页文本,提取出主题相关的实体对象;(4)对提取出的实体对象,提取出预定义的人工特征,使用神经网络判断实体对象与主题的相关度,确认实体对象属于对应的主题;(5)存储结果到数据库。所述步骤(1)包括如下步骤:(1)根据种子链接,通过http协议递归地获取网页;(2)通过正则规则统一标点符号编码,通过html标签去除无关的脚本、注释、样式控制信息。所述步骤(2)包括如下步骤:(1)根据html标签的层级关系层级化网页内容,建立每个html标签的父子关系,形成树状关系结构;(2)将包含文本内容的子元素提取出来,并保留其在树状关系结构中的深度信息以及部分特殊标签信息,例如p,table,tr,td,span等等;(3)合并部分特殊html标签中的文本内容,例如p,span,big,b等,此类html标签仅起修饰文本的作用,生成文本序列。所述步骤(3)包括如下步骤:(1)根据结构化业务需求建立主题词典,顺序搜索生成的文本序列,匹配主题词典中的关键词;(2)当匹配到主题词典中包含的关键词时,将文本序列中的当前文本及下一文本组合为一段文本,使用预先训练的bi-lstm+crf神经网络从中提取出实体对象。所述步骤(4)包括如下步骤:(1)对提取出的每个主题相对应的所有实体,提取人工定义的特征,其主要内容包括:当前序列文本长度;实体对象长度;实体对象距离关键词的距离;实体对象前后的符号;实体对象中文切词后的词性统计等;(2)将提取的特征输入预先训练好的神经网络,计算出某一实体对象属于相应主题的概率;(3)提取最大概率的实体对象。所述步骤(5)包括如下步骤:(1)将每个主题及相应的实体对象结构化存储到数据库。与现有技术相比,本发明应用的特点:相对于多元线性统计模型是以离差平方和最小来获取知识以及多元参数估计来存储知识,作为一种非线性非参数建模过程,人脑神经网络模型进一步放松了传统统计意义的线性模型,如无需事先假定因变量与自变量之间的参数关系,因变量与自变量的关系表将在学习过程中确定。如果因变量与自变量的关系接近线性关系,神经网络结果会接近线性回归模型的结果。由此,可以推定,多元线性回归统计模型(判别、logistic)都是神经网络模型退化后的一个特解。放松多元统计模型的诸多条件假设以使模型更接近现实,选择神经网络模型会进一步提高多元统计模型的拟合效果。附图说明图1互联网大数据文本精准挖掘引擎的结构示意图;图2本发明工作流程图;图3bi-lstm+crf结构图;图4实体特征映射流程图;图5基于bi-lstm+crf神经大数据挖掘的标书分类精确率;图6为基于神经网络半监督学习的实体判别路径;图7基于lstm+crf1神经网络半监督学习的实体判别路径实例;图8摘要附图。具体实施方式以下结合附图对本发明的优选实施例进一步详细说明。图1是根据本发明基于神经网络判别的互联网大数据文本精准挖掘引擎的实施案例的流程图。图1所示的方法包括以下步骤:(1)网页抓取,获取网页源码,去除干扰词汇,统一标点符号的编码;(2)关系结构化网页内容,根据网页html标签之间的层级关系结构化网页文本内容;(3)提取实体对象,根据预先建立的主题词典,近邻搜索结构化的网页文本,提取出主题相关的实体对象;(4)对提取出的实体对象,提取出预定义的人工特征,使用神经网络判断实体对象与主题的相关度,确认实体对象属于对应的主题。图4所示神经网络的一般结构图,由三部分组成:输入层xt=(x1,x2,…,xn),对应本发明中通过前述步骤实现的结构化标签,也即对预先存储实体对象的特征描述变量;隐含层g,从xt到g是非线性变换;输出层f(x),将输入层经过隐含层处理后的信息输出到外界,对应本发明中的实体对象。表1三种方法预测精度矩阵比较表单位:%bi-lstm+crf的结构如图3所示,bi-lstm+crf神经网络具体实现如下:(1)令字符集为c,将目标文本转化为序列x=(x1,x2,…,xi),其中xi表示第i个字符(2)令xt为t时刻输入的字符向量,将xt输入双向循环神经网络,分别由正向lstm和反向lstm处理得到特征向量hf,hb,计算过程可以用如下公式描述:(1)it=σ(wxixt+whiht-1+bi)(2)ft=σ(wxfxt+whfht-1+bf)(3)ot=σ(wxoxt+whoht-1+bo)(4)c_int=tanh(wxcxt+whcht-1+bc_in)(5)ct=ft·ct-1+it·c_int(6)ht=ot·tanh(ct)其中ht为在t时刻存储所有有用信息的隐藏层状态向量,σ为sigmoid函数,·为内积,wxi,wxf,wxo,wxc为不同状态下针对输入xt的权重矩阵,whi,whf,whc,who为隐藏层状态ht的权重矩阵,bi,bf,bc,bo为偏置向量;(3)将hf,hb级联来组成语义特征向量,利用条件随机场来对每一个字符进行实体标注,在预定义的标签序列中找到最高条件概率来对序列进行标签标注。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1