一种实体识别及属性判断方法、系统、设备及介质与流程

文档序号:17602883发布日期:2019-05-07 20:29阅读:243来源:国知局
一种实体识别及属性判断方法、系统、设备及介质与流程

本发明涉及非结构化数据处理领域,尤其涉及一种实体识别及属性判断方法、系统、设备及介质。



背景技术:

现有的基于词语字典和词语动态匹配的开源软件,只能解决规范文本中的词语的分类问题,若文本中的词语与所述词语字典中的词语不是完全相同,则不能识别,而且现有的分词软件中,预测词语的词性完全依赖于预先建立的词语词典中该词语对应的属性,不能根据不同的场景进行灵活变换,试用场景狭隘。



技术实现要素:

(一)要解决的技术问题

本发明提供了一种实体识别及属性判断方法、系统、设备及介质,具有更高的适配性,可用于多个场景中。

(二)技术方案

第一方面,本发明提供了一种实体识别及属性判断的方法,用于确定测试文本中的实体及其属性,包括:s1,根据应用场景,获取应用场景中涉及的多种实体,建立实体库,其中,实体为具有不同属性的字段;s2,根据应用场景获取训练文本;s3,根据正则规则和实体库识别出训练文本中涉及的第一实体;s4,将第一实体以向量形式表示,并标注第一实体的属性,得出不同属性的第一实体的锚点向量库;s5,提取测试文本中的第二实体,并将第二实体以向量形式表示;s6,根据第二实体的向量值和第一实体的锚点向量库确定第二实体的属性。

可选地,根据正则规则和实体库识别出训练文本中涉及的第一实体,具体包括:根据正则规则识别出训练文本中具有特定标识的第三实体;根据实体库中的实体识别出训练文本中涉及的第四实体,其中,第一实体包括第三实体以及第四实体。

可选地,根据实体库中的实体识别出训练文本中涉及的第四实体具体包括:根据实体库中的实体检索训练文本中的字段若字段包含在实体库中,则确定字段为第四实体;

可选地,将第一实体以向量形式表示,并标注第一实体的属性,得出不同属性的第一实体的锚点向量库,具体包括:将第一实体输入词向量模型中,以使第一实体以向量形式表示;标注第一实体中所有实体的属性;并将第一实体中的至少一个关键字段对应的向量信息设置为锚点向量。

可选地,提取测试文本中的第二实体,并将第二实体以向量形式表示,具体包括:根据正则规则识别出测试文本中具有特定标识的第五实体;根据实体库中的实体识别出测试文本中涉及的第六实体,其中,第二实体包括第五实体以及第六实体;将第二实体输入至词向量模型,以使第二实体以向量形式表示。

可选地,根据第二实体的向量值和所述第一实体的锚点向量库确定第二实体的属性具体包括:计算第二实体向量值与所述锚点向量之间的距离,根据距离判断第二实体的属性。

可选地,还包括:判断第二实体及其属性的正确性,若错误,则更正第二实体及其属性,并计算出第二实体的锚点向量,并将锚点向量存入锚点向量库。

再一方面,本发明提供了一种电子设备,其特征在于,设备包括:处理器;存储器,其存储有计算机可执行程序,该程序在被处理器执行时,使得处理器执行上述的实体识别及属性判断方法。

又一方面,本发明提供了一种实体识别及属性判断系统,包括:实体库建立模块,用于根据应用场景,获取应用场景中涉及的多种实体,建立实体库,其中,所述实体为具有不同属性的字段;

训练文本设计模块,用于根据应用场景获取训练文本;训练文本中实体识别模块,用于根据正则规则和实体库识别出训练文本中涉及的第一实体;锚点向量库建立模块,用于将所述第一实体以向量形式表示,并标注第一实体的属性,得出不同属性的第一实体的锚点向量库;测试文本中实体识别模块,用于提取测试文本中的第二实体,并将第二实体以向量形式表示;测试文本中实体属性确认模块,用于根据第二实体的向量值和第一实体的锚点向量库确定第二实体的属性。

又一方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述实体识别及属性判断方法。

(三)有益效果

通过正则规则识别出具有特殊标识的实体,进一步的通过实体库,由于实体库中包含该应用场景中可能出现的所有实体,通过实体库匹配出该测试文本中的实体,将上述实体均设置为向量形式,通过将上述实体的向量值与预设的锚点向量值进行比较,根据所述实体的向量值与预设的锚点向量值之间的距离判断该实体的属性,具有应用场景不受限制,操作简单等优势。

附图说明

图1示意性示出了本公开实施例中的实体识别及属性判断的方法步骤图;

图2示意性示出了本公开实施例中的实体识别及属性判断的流程示意图;

图3示意性示出了本公开实施例中的电子设备框图;

图4示意性示出了本公开实施例中的实体识别及属性判断系统框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。

本发明第一方面提供了一种实体识别及属性判断的方法,参见图1,用于确定测试文本中的实体及其属性,包括:s1,根据应用场景,获取应用场景中涉及的多种实体,建立实体库,其中,该实体为具有不同属性的字段;s2,根据应用场景获取训练文本;s3,根据正则规则和实体库识别出训练文本中涉及的第一实体;s4,将第一实体以向量形式表示,并标注第一实体的属性,得出不同属性的第一实体的锚点向量库;s5,提取测试文本中的第二实体,并将第二实体以向量形式表示;s6,根据第二实体的向量值和第一实体的锚点向量库确定第二实体的属性。

具体的,s1,根据应用场景,获取应用场景中涉及的多种实体,建立实体库,其中,该实体为具有不同属性的字段;

本发明实施例的应用场景设置为公安行业文本处理场景,首先判断该应用场景中涉及的大范围地址等信息,若所述场景中涉及的地址为a市,则通过爬虫技术爬取地图网页、房产网等网站上的详细地址信息、单位或组织名信息等,建立包含详细地址信息、单位或组织名信息、黑名单电话信息、qq号或邮件信息等实体的实体库,由此可以看出,该实体库实际是由多种不同属性的字段组成,如具有地址属性的详细地址信息xx市xxx区xxx路xx小区等,具有单位名或组织名属性的信息,如xxx有限公司,xxx厂等,具有黑名单属性的电话号码或电话号码的前几位等,具有邮件属性的邮件等。通过上述方式即可得到包含多个属性的字段库即实体库。

s2,根据应用场景获取训练文本;

根据应用场景设计初始的训练文本,该训练文本中越详细越贴近实际背景过程越好,可进一步具体到那几个小区,那几个电话、或那几个单位。

s3,根据正则规则和所述实体库识别出所述训练文本中涉及的第一实体;

根据正则规则判断该训练文本中带有明确特殊标识的实体,如带有@xxx.com的为邮件实体,带有11位的连续数字且第一位数字为1的为电话号码,无需的连续数字为qq号等信息,其中,正则规则是通过正则表达式对字符串进行操作的一种逻辑公式,用事先定义好的一些特定字符或字符的组合,组成一个规则字符串,以达到对字符串进行过滤的目的,其是一种文本模式,在过滤字符串时通过匹配一个或多个字符串的方式进行对文本中的字符串进行过滤。在本发明实施例中,通过正则表达式中预设的@xxx.com等字符串对训练文本中的字符进行过滤,过滤出符合规则的字符串信息也即实体信息,通过正则规则识别的实体内容本实施例中称为第三实体。还有一部分字符串同样对我们场景的分析也很重要,但其没有规律而不能通过正则表达式进行过滤,因此还需要通过步骤s1中建立的实体库进行过滤,由于实体库中包含很多的不同属性的实体信息,足以涵盖我们想要涉及的内容,因此通过扫描训练文本中的内容,并将文本中的内容与实体库中预存的内容进行匹配,若相同则提取出来,利用此方式可以得到根据正则规则不能提取的实体信息,通过与实体库匹配识别的实体内容本实施例中称为第四实体,第三实体和第四实体的总和组成了第一实体。

通过上述正则规则方法抽取和实体库匹配抽取可得到训练文本中详尽的实体内容。

为了更加详尽的实体内容还可以将训练文本输入具有特定识别功能的模型中,如通过分词模型中的隐马尔可夫模型的出训练文本中的人名实体。

s4,将第一实体以向量形式表示,并标注第一实体的属性,得出不同属性的第一实体的锚点向量库。

将上述得到的第一实体输入至词向量模型中,将第一实体中的实体均以向量的形式表示,不同的实体对应不同的词向量,由于第一实体中包括多个实体也即很多的字段,每一字段均对应一词向量,并标注每一实体对应的属性,如电话号码为****的为嫌疑人信息,电话号码为&&&&的为报案人信息,并分别取其中心词向量值,则得到嫌疑人电话的锚点向量以及报案人电话的锚点向量,通过此种方式可得出不同实体不同属性的锚点向量,组成锚点向量库。在不影响分析的情况下,可通过设置关键实体的中心向量值以减少锚点向量的数量。

s5,提取测试文本中的第二实体,并将第二实体以向量形式表示;

通过上述建立的锚点向量库可分析详尽的测试文本中的实体,如公安部门对嫌疑人或目击者的证据证言等文本,采用与s3相同的处理方式,通过正则规则识别出测试文本中具有特定标识的第五实体,通过实体库中的实体匹配出利用正则规则不能识别的第六实体,第五实体和第六实体的总和组成了第二实体。将该第二实体中的实体输入词向量模型中,以使该第二实体中的实体内容以向量形式表示。

s6,根据第二实体的向量值和第一实体的锚点向量库确定第二实体的属性。

比对步骤s5得到的第二实体的向量值与第一实体的锚点向量库中的锚点向量,计算第二实体的向量值与对应锚点向量之间的距离,当第二实体中的某向量值与某锚点向量之间的距离最小时,该锚点向量对应的属性即为第二实体向量值对应的实体对应的属性。

另外,通过上述方式得到的第二实体及第二实体的属性,有时可能会出现一些错误,因此可以通过人为判断等方式判断第二实体及第二实体属性的正确性,若错误,则更正该第二实体的属性,并更正对应的锚点向量,并将该锚点向量替代原锚点向量,并将正确的锚点向量存入锚点向量数据库中,更新锚点向量库。

综上所述,如图2所示,通过分布式爬虫得出包含尽可能多实体的实体库,该实体库足以包含本背景中需要用到的实体,通过正则规则识别出训练文本带有特殊标记的第三实体,通过与实体库进行比对匹配得出正则规则无法识别的第四实体,将第三实体和第四实体传入词向量模型中,是第三实体和第四实体均以向量的形式表示生成向量化第一实体,并通过标注向量化第一实体生成锚点向量库;采用与训练文本相同的处理方式通过正则规则识别出训练文本带有特殊标记的第五实体,通过与实体库进行比对匹配得出正则规则无法识别的第六实体,将第五实体和第六实体传入词向量模型中,是第五实体和第六实体均以向量的形式表示生成向量化第二实体,计算向量化的第二实体与锚点向量库中锚点的距离,根据距离判断第二实体的属性。

再一方面,本发明实施例提供了一种电子设备,参见图3为本发明实施例的电子设备框图,电子设备300包括:处理器301和存储器302,该电子设备300可以执行根据本发明实施例的方法。

具体的,处理器301例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器301还可以包括用于缓存用途的板载存储器。处理器301可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

存储器302,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(hdd);光存储装置,如光盘(cd-rom);存储器,如随机存取存储器(ram)或闪存;和/或有线/无线通信链路。

存储器302可以包括计算机程序3021,该计算机程序3021可以包括代码/计算机可执行指令,其在由处理器301执行时使得处理器301执行例如上面本发明实施例的方法流程及其任何变形。

计算机程序3021可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序3021中的代码可以包括一个或多个程序模块,例如包括3021a、模块3021b、......。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器301执行时,使得处理器301可以执行例如上面结合本发明实施例的方法流程及其任何变形。

又一方面,本发明实施例提供了一种实体识别及属性判断系统,参见图4,系统400包括:实体库建立模块401、训练文本设计模块402、训练文本中实体识别模块403、锚点向量库建立模块404、测试文本中实体识别模块405以及测试文本中实体属性确认模块406。

具体的,实体库建立模块401,用于根据应用场景,获取应用场景中涉及的多种实体,建立实体库,其中,实体为具有不同属性的字段;训练文本设计模块402,用于根据应用场景获取训练文本;训练文本中实体识别模块403,用于根据正则规则和实体库识别出训练文本中涉及的第一实体;锚点向量库建立模块404,用于将第一实体以向量形式表示,并标注第一实体的属性,得出不同属性的第一实体的锚点向量库;测试文本中实体识别模块405,用于提取测试文本中的第二实体,并将第二实体以向量形式表示;测试文本中实体属性确认模块406,用于根据第二实体的向量值和第一实体的锚点向量库确定第二实体的属性。

根据本申请的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本申请实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。

本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本申请实施例的方法。

根据本申请的实施例,计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、射频信号等等,或者上述的任意合适的组合。

本领域技术人员可以理解,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本申请的范围。

尽管已经参照本申请的特定示例性实施例示出并描述了本申请,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本申请的精神和范围的情况下,可以对本申请进行形式和细节上的多种改变。因此,本申请的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1