一种基于深度学习的信息技术数据实体属性抽取方法与流程

文档序号:22891298发布日期:2020-11-10 18:17阅读:181来源:国知局
一种基于深度学习的信息技术数据实体属性抽取方法与流程
本发明涉及信息抽取
技术领域
,具体涉及一种基于深度学习的信息技术数据实体属性抽取方法。
背景技术
:信息抽取是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,那将由系统设计时定下的领域范围而定。现有技术存在以下不足:1、现有的信息抽取传统技术对层级关系的处理较困难,导致工作人员难以根据文本信息里的多个实体之间进行建模,使文本信息里的多个实体之间的层级关系难以被机器区分。2、现有的信息抽取传统技术在对一段文本信息进行处理时,文本信息里的两个实体之间的距离较远,且两个实体之间相互存在关系,使机器在进行信息抽取的过程中易因关系的错杂,导致识别准确率下降的情况。在所述
背景技术
部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。技术实现要素:本发明的目的是提供一种基于深度学习的信息技术数据实体属性抽取方法,通过算法对文本信息里的多个实体进行头实体的辨别,并通过多轮问答的方式对对应的头实体进行提问,得到对应的实体与头实体之间的关系,通过表格体现出的各个实体之间的关系,便于机器根据算法进行文本信息内多个实体之间层级关系的区分,防止出现关系错杂的情况,导致机器对文本信息的识别准确率下降,以解决技术中的上述不足之处。为了实现上述目的,本发明提供如下技术方案:一种基于深度学习的信息技术数据实体属性抽取方法,包括以下具体步骤:一、插入——将字或者词变成一个稠密的向量,一般认为待变成稠密向量的词与实体之间的位置是一个相对位置;二、编码——对于关系识别来说,即包含卷积神经网络相关的,也包含运行相关的,把上下文的信息考虑进来。举例说明,一个脉冲耦合神经网络可通过两个实体把句子分为多个部分,每个部分分别做卷积神经网络的最大值池化,再经过softmax分类器进行分类;三、处理——处理器可以处理分辨出两个实体是由于哪个词分辨出是顾佣的关系;四、判定——对定长的向量进行判定分类,主要是把两部分的一些模型的参数在底层被共享起来。优选的,将文本信息里的字或者词变成一个稠密的向量,便于取机器的识别。优选的,创建一个为待变成稠密向量的词与实体之间的位置。优选的,在获取对应位置的稠密向量后,使脉冲耦合神经网络通过两个实体把句子分为多个部分,每个部分分别做卷积神经网络的最大值池化。优选的,再将最大值池化的每个部分经过softmax分类器进行分类,避免因直接对多个部分进行最大值池化造成数据信息的丢失,提高机器抽取的准确度。优选的,对编码后的两个实体进行处理,便于确定两个实体之间的从属关系。优选的,使机器进行层级关系的区分时,便于根据从属关系进行层级关系的辨别。优选的,便于在对不同长度的向量进行层级关系的分辨后,对定长的向量进行建模。优选的,使底层的模型参数可在外界设备命令需求时得到共享,便于提高机器数据抽取的速率。在上述技术方案中,本发明提供的技术效果和优点:1、通过算法对文本信息里的多个实体进行头实体的辨别,并通过多轮问答的方式对对应的头实体进行提问,得到对应的实体与头实体之间的关系,并通过制表的方式将头实体与实体之间的关系实现一一对应,便于机器根据算法进行文本信息内多个实体之间层级关系的区分。2、通过算法对文本信息里的多个实体进行头实体的辨别,并通过多轮问答的方式对对应的头实体进行提问,得到对应的实体与头实体之间的关系,不会因两个实体之间的距离大小受到限制,通过表格使各个实体之间的关系更加的明显,防止出现关系错杂的情况,导致机器对文本信息的识别准确率下降。附图说明图1为本发明的算法流程图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些示例实施方式使得本公开的描述将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的示例实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、步骤等。在其它情况下,不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。本发明提供了一种基于深度学习的信息技术数据实体属性抽取方法,包括以下具体步骤:一、插入——将字或者词变成一个稠密的向量,一般认为待变成稠密向量的词与实体之间的位置是一个相对位置;二、编码——对于关系识别来说,即包含卷积神经网络相关的,也包含运行相关的,把上下文的信息考虑进来。举例说明,一个脉冲耦合神经网络可通过两个实体把句子分为多个部分,每个部分分别做卷积神经网络的最大值池化,再经过softmax分类器进行分类;三、处理——处理器可以处理分辨出两个实体是由于哪个词分辨出是顾佣的关系;四、判定——对定长的向量进行判定分类,主要是把两部分的一些模型的参数在底层被共享起来。进一步的,在上述技术方案中,将文本信息里的字或者词变成一个稠密的向量,便于取机器的识别。进一步的,创建一个为待变成稠密向量的词与实体之间的位置。进一步的,在上述技术方案中,在获取对应位置的稠密向量后,使脉冲耦合神经网络通过两个实体把句子分为多个部分,每个部分分别做卷积神经网络的最大值池化。进一步的,再将最大值池化的每个部分经过softmax分类器进行分类,避免因直接对多个部分进行最大值池化造成数据信息的丢失,提高机器抽取的准确度。进一步的,在上述技术方案中,对编码后的两个实体进行处理,便于确定两个实体之间的从属关系。进一步的,使机器进行层级关系的区分时,便于根据从属关系进行层级关系的辨别。进一步的,在上述技术方案中,便于在对不同长度的向量进行层级关系的分辨后,对定长的向量进行建模。进一步的,使底层的模型参数可在外界设备命令需求时得到共享,便于提高机器数据抽取的速率。示例文本:郑强先生,1973年出生,中国国籍,无境外永久居留权。1995年,毕业于南京大学经济管理专业;1995年至1998年,就职于江苏常州公路运输有限公司,任主办会计;1998年至2000年,就职于越秀会计师事务所,任项目经理;2000年至2010年,就职于国富浩华会计师事务所有限公司广东分所,历任合伙人及副主任会计师;2010年至2011年,就职于广东中科招商创业投资管理有限责任公司,任副总经理;2011年至2016年,任广东中广投资管理有限公司董事,总经理;2016年至至今,任湛江中广创业投资有限公司董事、总经理。机器阅读理解是在给定上下文和问题的情况下,进行检索得到答案的过程,答案是原文中的一个或多个。如示例文本所示,通过提问“郑强什么时候就职于越秀会计事务所?”,我们可以发现,是在1998年到2000年时就职于越秀会计事务所。这样就得到郑强、越秀会计事务所、时间等多个实体之间的关系。根据算法对示例文本进行处理得到headentity头实体,对于头实体提问完之后,可以得到头实体的答案,把头实体的答案填入表格中,再获得后面的实体,得到表1。目标函数就是head-entity的loss+tail-entity的loss,然后进行一个加权。表1:人物公司时间职务问题模板如表1所示,对于郑强的示例文本,我们可以问四个问题:第一个问题是谁在这段话里被提及了,也就是实体郑强e1。第二个问题是郑强在哪个公司任职,得到多个公司实体e2。第三个问题是郑强在这个公司的职务是什么,得到对应公司的职务实体e3。最后,把上面三步的答案拼在一起得到最后一个问题,e1在e2担当e3的任职时间是什么,得到任职时间e4。根据算法进行多轮问答抽取对应的实体—关系:①示例文本中提到的人物有哪些?示例文本:郑强先生,1973年出生,中国国籍,无境外永久居留权。1995年,毕业于南京大学经济管理专业;1995年至1998年,就职于江苏常州公路运输有限公司,任主办会计;1998年至2000年,就职于越秀会计师事务所,任项目经理;2000年至2010年,就职于国富浩华会计师事务所有限公司广东分所,历任合伙人及副主任会计师;2010年至2011年,就职于广东中科招商创业投资管理有限责任公司,任副总经理;2011年至2016年,任广东中广投资管理有限公司董事,总经理;2016年至至今,任湛江中广创业投资有限公司董事、总经理。q1:示例文本中提到的人物有哪些?a1:郑强。在通过算法对示例文本进行处理得到headentity头实体后,对于头实体人物进行提问,可以得到头实体的答案,把头实体的答案填入表格中,得到表2。表2:人物公司时间职务郑强②示例文本中提到的人物任职公司有哪些?示例文本:郑强先生,1973年出生,中国国籍,无境外永久居留权。1995年,毕业于南京大学经济管理专业;1995年至1998年,就职于江苏常州公路运输有限公司,任主办会计;1998年至2000年,就职于越秀会计师事务所,任项目经理;2000年至2010年,就职于国富浩华会计师事务所有限公司广东分所,历任合伙人及副主任会计师;2010年至2011年,就职于广东中科招商创业投资管理有限责任公司,任副总经理;2011年至2016年,任广东中广投资管理有限公司董事,总经理;2016年至至今,任湛江中广创业投资有限公司董事、总经理。q2:示例文本中郑强工作过的公司有哪些?a2:江苏常州公路运输有限公司、越秀会计师事务所、国富浩华会计师事务所有限公司广东分所、广东中科招商创业投资管理有限责任公司、广东中广投资管理有限公司和湛江中广创业投资有限公司。在通过算法对示例文本进行处理得到headentity头实体后,对于头实体公司进行提问,可以得到头实体的答案,把头实体的答案填入表格中,得到表3。表3:③示例文本中提到的人物在对应的任职公司任职时间是多少?示例文本:郑强先生,1973年出生,中国国籍,无境外永久居留权。1995年,毕业于南京大学经济管理专业;1995年至1998年,就职于江苏常州公路运输有限公司,任主办会计;1998年至2000年,就职于越秀会计师事务所,任项目经理;2000年至2010年,就职于国富浩华会计师事务所有限公司广东分所,历任合伙人及副主任会计师;2010年至2011年,就职于广东中科招商创业投资管理有限责任公司,任副总经理;2011年至2016年,任广东中广投资管理有限公司董事,总经理;2016年至至今,任湛江中广创业投资有限公司董事、总经理。q3:示例文本中提到的郑强在对应的公司任职时间分别是多少?a3:江苏常州公路运输有限公司任职时间为1995年至1998年,越秀会计师事务所任职时间为1998年至2000年,国富浩华会计师事务所有限公司广东分所任职时间为2000年至2010年,广东中科招商创业投资管理有限责任公司任职时间为2010年至2011年,广东中广投资管理有限公司董事任职时间为2011年至2016年,湛江中广创业投资有限公司任职时间为2016年至至今。在通过算法对示例文本进行处理得到headentity头实体后,对于头实体时间进行提问,可以得到头实体的答案,把头实体的答案填入表格中,得到表4。表4:④示例文本中提到的人物在每个任职公司的职务为什么?示例文本:郑强先生,1973年出生,中国国籍,无境外永久居留权。1995年,毕业于南京大学经济管理专业;1995年至1998年,就职于江苏常州公路运输有限公司,任主办会计;1998年至2000年,就职于越秀会计师事务所,任项目经理;2000年至2010年,就职于国富浩华会计师事务所有限公司广东分所,历任合伙人及副主任会计师;2010年至2011年,就职于广东中科招商创业投资管理有限责任公司,任副总经理;2011年至2016年,任广东中广投资管理有限公司董事,总经理;2016年至至今,任湛江中广创业投资有限公司董事、总经理。q4:示例文本中提到的郑强在对应公司的职务?a4:江苏常州公路运输有限公司,任主办会计;越秀会计师事务所,任项目经理;国富浩华会计师事务所有限公司广东分所,历任合伙人及副主任会计师;广东中科招商创业投资管理有限责任公司,任副总经理;广东中广投资管理有限公司,任公司董事、总经理;湛江中广创业投资有限公司,任公司董事、总经理。在通过算法对示例文本进行处理得到headentity头实体后,对于头实体职务进行提问,可以得到头实体的答案,把头实体的答案填入表格中,得到表5。表5:本实用工作原理:通过算法对文本信息里的多个实体进行头实体的辨别,并通过多轮问答的方式对对应的头实体进行提问,得到对应的实体与头实体之间的关系,并通过制表的方式将头实体与实体之间的关系实现一一对应,便于机器根据算法进行文本信息内多个实体之间层级关系的区分,通过算法对文本信息里的多个实体进行头实体的辨别,并通过多轮问答的方式对对应的头实体进行提问,得到对应的实体与头实体之间的关系,不会因两个实体之间的距离大小受到限制,通过表格使各个实体之间的关系更加的明显,防止出现关系错杂的情况,导致机器对文本信息的识别准确率下降。以上只通过说明的方式描述了本发明的某些示范性实施例,毋庸置疑,对于本领域的普通技术人员,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式对所描述的实施例进行修正。因此,上述附图和描述在本质上是说明性的,不应理解为对本发明权利要求保护范围的限制。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1