文本识别方法、装置、非易失性存储介质及计算机设备与流程

文档序号:31567526发布日期:2022-09-20 21:10阅读:30来源:国知局
文本识别方法、装置、非易失性存储介质及计算机设备与流程

1.本技术涉及机器学习领域,具体而言,涉及一种文本识别方法、装置、非易失性存储介质及计算机设备。


背景技术:

2.在智能司法领域中,司法文书分析平台作为nlp在司法场景下的典型应用,承载知识的底座,肩负着对司法场景下各类文书(裁判起诉书、判决书、庭审笔录、证据材料等)的解析和分析。而在司法文书分析平台中,实体抽取和事件抽取是必不可少的自然语言处理任务基本能力,将文书中大段的事实文字描述抽象出来,形成结构化的文本并输出,能够使事实更加清晰地展现在用户面前,同时理清事件发展的脉络、事件与事件之间的关系等。同时为上游的各类任务形成必要的铺垫。
3.在复杂的事件描述中,行为人的“施/受”行为会发生转变,甚至,在复杂事件中,行为人具有多重的身份。譬如:“王某在被抢后追击李某,将其扑倒在地”,王某既是“财产”犯罪的受害者,又是“人身”犯罪的施害人。然而,现有技术由于试图一次性解决分类识别、触发词识别、事件元素抽取、论元判别四个基本问题,设计之初基于了一些理想的基本假设,如:元素之间重叠现象不明显;同一句话所表征的事件中,主客体是一致的,且不会发生变化;事件中的实体元素与触发词之间的的关系是单纯的。
4.经过统计,这样的系统可以解决司法文书刑事案由中90%的事件情况。但是显然,在真实的场景中,复杂的事件是存在的,解决这些复杂事件的抽取问题是需要攻克的难题。
5.针对上述的问题,目前尚未提出有效的解决方案。


技术实现要素:

6.本技术实施例提供了一种文本识别方法、装置、非易失性存储介质及计算机设备,以至少解决由于无法处理复杂案件中行为人的多重身份造成的无法形成结构化文本的技术问题。
7.根据本技术实施例的一个方面,提供了一种文本识别方法,包括:获取待识别文本;采用机器学习模型中的事件识别模型对待识别文本进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的事件类型和该事件类型对应的事件触发词;采用机器学习模型中的实体识别模型对待识别文本进行识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的实体和论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
8.根据本技术实施例的另一方面,还提供了一种文本识别方法,包括:获取待识别文本;对待识别文本进行第一次识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的事件类型和该事件类型对应的事件触发词;对待识别文本进行第二次识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的实体和论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
9.根据本技术实施例的另一方面,还提供了一种文本识别装置,包括:获取模块,用于获取待识别文本;第一识别模块,用于采用机器学习模型中的事件识别模型对待识别文本进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的事件类型和该事件类型对应的事件触发词;第二识别模块,用于采用机器学习模型中的实体识别模型对待识别文本进行识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的实体和论元信息;确定模块,用于基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
10.根据本技术实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行文本识别方法。
11.根据本技术实施例的另一方面,还提供了一种计算机设备,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取待识别文本;采用机器学习模型中的事件识别模型对待识别文本进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的事件类型和该事件类型对应的事件触发词;采用机器学习模型中的实体识别模型对待识别文本进行识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的实体和论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
12.在本技术实施例中,采用获取待识别文本;采用机器学习模型中的事件识别模型对待识别文本进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的事件类型和该事件类型对应的事件触发词;采用机器学习模型中的实体识别模型对待识别文本进行识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的实体和论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息的方式,通过识别事件类型和各个事件类型对应的实体和论元信息,达到了确定与各个事件类型对应的事件信息的目的,从而实现了对复杂文本进行识别的技术效果,进而解决了由于无法处理复杂案件中行为人的多重身份造成的无法形成结构化文本的技术问题。
附图说明
13.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
14.图1是根据本技术实施例的一种计算机终端的硬件结构框图;
15.图2是根据本技术实施例的一种文本识别方法的的流程示意图;
16.图3是根据本技术实施例的另一种文本识别方法的流程示意图;
17.图4是根据本技术实施例的一种文本识别装置的结构示意图;
18.图5是根据本技术实施例的一种文本识别方法的工作流程示意图;
19.图6a是根据本技术实施例的一种事件分类结果示意图;
20.图6b是根据本技术实施例的一种实体和论元识别结果示意图;
21.图7是根据本技术实施例的文本识别方法在在司法文书分析中的算法地位示意图;
22.图8是根据本技术实施例的文本识别方法的交互界面示意图。
具体实施方式
23.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
24.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
25.首先,在对本技术实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
26.pre-trained language model:预训练语言模型。近年来bert等模型基于大量语料通过语言模型损失函数进行预训练,在一系列自然语言处理(nlp)任务中取得了强有力的结果。
27.bert:bidirectional encoder representations from transformers一种预训练语言模型,在多个自然语言处理任务中都取得了state-of-art的成绩。
28.事件抽取:把含有事件信息的非结构化文本以结构化的形式呈现出来,在自动文摘,自动问答,信息检索等领域有着广泛的应用。
29.mrc:机器阅读理解技术(machine reading comprehension,mrc),给定一篇文章(context),以及基于文章的一个问题(question),让机器在阅读文章后对问题进行作答。本设计中涉及到的任务仅需要从文章中选取能够回答问题的片段,即“片段选取”任务。
30.实体嵌套:实体识别任务中识别的实体中存在嵌套的情况。比如“北京大学”不仅是一个组织,同时“北京”也是一个地点。
31.实施例1
32.根据本技术实施例,还提供了一种文本识别的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
33.本技术实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现文本识别方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,
……
,102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技
术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
34.应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本技术实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
35.存储器104可用于存储应用软件的软件程序以及模块,如本技术实施例中的文本识别方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
36.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(network interface controller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(radio frequency,rf)模块,其用于通过无线方式与互联网进行通讯。
37.显示器可以例如触摸屏式的液晶显示器(lcd),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
38.在上述运行环境下,本技术提供了如图2所示的文本识别方法。图2是根据本技术实施例一的文本识别方法的流程图,如图2所示,该方法包括以下步骤:
39.s202,获取待识别文本;
40.s204,采用机器学习模型中的事件识别模型对待识别文本进行识别,得到第一识别结果;
41.其中,上述第一识别结果中包括所述待识别文本中的事件类型和该事件类型对应的事件触发词。如图6a所示,事件类型“财产”对应的事件触发词为“抢走”,事件类型“人身”对应的事件触发词为“扎死”。
42.在本技术的一些实施例中,所述事件识别模型通过以下方式训练得到的:
43.将多组第一样本数据分别输入至所述事件识别模型进行训练,其中,所述多组第一样本数据中的每组数据均包括:第一样本文本、用于确定所述第一样本文本中事件触发词的第一问题模板、与所述第一问题模板对应的答案信息和事件类型。例如,第一文本样本可以是“徐某驾车行至a大道加油站路段时,将同向行人邓某撞到”,第一问题模板可以是“事件的触发词是什么”,此时对应的答案信息为“撞倒”,对应的事件类型为“社会-交通肇事类”。
44.s206,采用机器学习模型中的实体识别模型对待识别文本进行识别,得到第二识别结果;
45.其中,上述第二识别结果中包括与各个事件类型对应的实体和论元信息。具体地,在本技术的一些实施例中,实体指的是案件发生的时间,地点,案件造成的后果等信息,论元则指的是案件中的施害人和被害人。如图6b所示,案件造成的后果为施害人将被害人扎死,案件的施害人为“王洋”,案件的被害人为“宋某”。
46.在本技术的一些实施例中,所述事件识别模型通过以下方式训练得到的:
47.将多组第二样本数据分别输入至所述事件识别模型进行训练,其中,所述多组第二样本数据中的每组数据均包括:第二样本文本、用于确定所述第二样本文本中实体和论元的第二问题模板、与所述第二问题模板对应的答案信息。例如,第二样本文本可以是“王某抢夺宋某挎包并将被害人杀死”,第二问题模板为“由抢夺触发的财产-盗窃抢夺敲诈勒索事件的施害者是谁”和“由杀死触发的人身-伤害杀害殴打类事件的受害人是谁”,以及这个问题模板对应的答案信息“王某”。
48.在本技术的一些实施例中,所述事件识别模型和所述实体识别模型为同一预训练语言模型,例如bert模型,且所述事件识别模型和实体识别模型使用相同的模型参数。也就是说,对所述事件识别模型训练后更新的模型参数,也可以用于更新所述实体识别模型的模型参数。同理,所述实体模型训练后更新额模型参数,也可以用于更新所述事件识别模型训练后的模型参数。
49.在本技术的一些实施例中,为了更好地识别文本,可以将预训练语言模型构造成为机器阅读理解式的模型。然而由于待识别的文本并非是一个天然的阅读理解问题,因此,为了提高模型的准确度,对提问的构造变得非常关键。对于事件识别和实体论元识别两个阶段的阅读理解任务,可以将每一个阶段的问题都使用填槽的方法进行构造。
50.对于阶段一,可以将问题设置为:事件的触发词是什么?通过在context(待识别语句的上下文)中搜索问题的答案,得到事件的触发词。且由于事件的种类有可能大于1,因此问题的答案有可能是多个词,甚至词语之间有交集,这一点在阅读理解式的模型端都能够得到支持。举例如下:
51.示例:
52.q:事件的触发词是什么?
53.c:徐某驾车行至赣东大道加油站路段时,将同向行人邓某撞倒。
54.a:撞倒(社会-交通肇事类)
55.对于阶段二,可以将问题模板设置为:由《触发词》触发的《事件分类》类事件的《实体名/论元名》是《什么/谁》?设该数据集的所有实体和论元的标签集合为y,则对其中的每个实体标签y,及相对于阶段一中预测出的每个触发词x,都有一个关于它的问题q(x,y)。举例如下:
56.c:王某抢夺宋某挎包并将被害人杀死。
57.q:由抢夺触发的财产-盗窃抢夺敲诈勒索类事件的施害者是谁?
58.a:王某
59.q:由杀死触发的人身-伤害杀害殴打类事件的受害人是谁?
60.a:宋某
61.通过这样的方式,当处理复杂事件时,模型可以将特定的事件相关联的实体和论元(施害者/被害人)都抽取出来。
62.在确定了每个阶段的问题或问题模板后,所述机器阅读理解式的模型具体训练数据的构建流程如下:
63.第一阶段,给定一个长度为n的文本序列w做为模型的文本(context),设置问题q1“为事件的触发词是什么?”,便可以得到多个(问题-文本-答案)的三元组(question,context,answer),每一个answer对应一个不同的事件触发类,该事件有几种类型,就会生成几个三元组。这些三元组就是训练实例。对于每个事件类型i,可以用ej(starti:endi)来表示对于事件类型i的触发词j,如果没有找到start和end(其中start是实体的开始位置,end是实体的结束位置),证明该文字在事件i下没有触发词,即不属于该事件分类。如果找到了start和end,就可以通过context[start:end](即文本中该事件的开始位置到结束位置)的区间来得到该事件的触发词。
[0064]
类似的,在第二阶段,可以借助已知的触发词进行问题填充,设置问题q2,圈定本次输入需要处理的事件类型。对于多个事件,可以会设置多个问题,总共得到的三元组的个数为:事件类型数*实体数。同样的,可以用start,end两个指针来预测特定实体的位置。通过context[start:end]的区间来得到某个事件触发词下特定实体类型的抽取结果。
[0065]
在整个模型的训练阶段,同样可以采用深度预训练模型bert做为编码器,给定一句话作为输入:(ω1,ω2,...,ωn),其中n为文本长度,ω代表一个字符。填充的问句为:(q1:q2,...,qm),m为整个问句的长度,q代表一个字符。一个特殊的[cls]字符和一个[sep]字符(所述两个字符为bert语言的标志位,其中[cls]字符在问句的首端,[sep]字符在文具的尾端)在进入网络前会分别加入问句之前,和问句与context中间:模型的整体输入为{[cls],q(1),q(2),

,q(m),[sep],ω(1),ω(2),

,ω(n)}。在所述模型中,可以使用[cls]的每层输出的最后一个隐含状态进行拼接,作为整个序列的向量空间的表征,将会用于事件分类模块。而bert模型输出的序列的剩余部分向量将会直接用于阅读理解的模块,如下式:
[0066][0067]
c=h0[0068]
上式中,bert为预训练模型,θ表示模型内所有可学习的参数,ω
0:k
表示输入中的第k个token(标记)。h代表的是tokens经过bert模型后输出的隐状态向量。由于在原句开头加入了[cls]token,所以h0=c=[cls]的隐向量表示。其余的h则代表该token位置相应的隐向量。
[0069]
阅读理解式模型在识别start,end时:对每个字符都预测是否是一个实体的开始,是否是一个实体的结束。
[0070]
上述内容阐述了构造训练数据的方式,由于所述模型是管道式系统,最终在进行实际训练阶段时,模型会先运行第一阶段,并将第一阶段预测到的类型和触发词作为输入填充第二阶段的问题模板。随后运行第二阶段,最终得到所有的结果。
[0071]
s208,基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
[0072]
在本技术的一些实施例中,为了提高文本识别质量,在基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息之前,还需要先统计待识别文本中事件触发词的第一数量,以及待识别文本中事件类型的第二数量,然后比较第一数量和第二数
量的大小,再依据比较结果确定待识别文本中的所有事件触发词进行筛选,得到目标事件触发词。
[0073]
具体地,依据比较结果确定待识别文本中的所有事件触发词进行筛选,得到目标事件触发词,包括:在所述比较结果指示所述第一数量大于所述第二数量时,说明存在误将某些非事件触发词识别为了目标触发词的情况,确定所述待识别文本中所有事件触发词的评估指标,所述评估指标包括事件触发词的确信度,所述确信度指的是事件触发词与该事件触发词所对应事件的相关性大小,可以通过大数据统计大量的法律文本中某个事件触发词对应的事件与所述文本中的实际的事件符合的概率,来得到确信度;将所述待识别文本中所有事件触发词按照评估指标的大小进行排序;并依据排序结果从所述第一数量的事件触发词中选择所述目标事件触发词。需要注意的是,从所述第一数量的事件触发词中选择的所述目标事件触发词的数量与所述第二数量相同。
[0074]
当所述比较结果指示所述第一数量小于所述第二数量时,则生成用于提示事件触发词的识别结果有误的提示信息。可以理解的,当第一数量,也就是事件触发词的数量小于事件类型的第二数量时,说明存在误识别的情况,即未能准确识别出所有的事件触发词,或某些事件类型识别错误。
[0075]
在本技术的一些实施例中,当发现第一数量不为零,而第二数量为零时,则发出提示消息并拒绝执行以下步骤:基于所述第一识别结果和第二识别结果分别确定与所述各个事件类型对应的事件信息。为了更好的理解图2所示文本识别方法的工作过程,下面结合图5所示的文本识别方法的工作流程示意图进行进一步地解释,其中,图5所示的工作流程图包括以下步骤:
[0076]
s502,输入裁判文书中的事实;
[0077]
s504,段落分句;
[0078]
s506,判断是否遍历结束,如果已经结束,则执行步骤s516,如果未结束,则执行步骤s508;
[0079]
s508,事件分类及触发词识别;
[0080]
s510,利用事件分类个数处理分类结果;
[0081]
s512,以识别出的每个触发词填充问句,识别该分类下的所有可能实体;
[0082]
s514,得到完整的一个/多个事件,然后执行步骤s506;
[0083]
s516,将多个事实按事件顺序排列。
[0084]
如图5所示,为了解决一句话中有多个事件,每个事件都有各自对应的不同的实体和论元的问题,如:“王某在被抢后追击李某,将其扑倒在地”;“王某12日抢劫,次日杀人”。这样的复杂事件,本技术设计了一个管道式系统。该系统除了分句预处理的逻辑和之前的系统一致外,将深度学习的模型部分拆成两部分,分别是:事件分类阶段和实体与论元识别阶段,及图5中的第一阶段和第二阶段。
[0085]
在第一个阶段,模型的任务是对输入的语句进行事件触发词的识别和事件个数的分类。借助识别不同类型的触发词,即实现了对于事件的分类。比如,成功识别到“财产”类的触发词“抢走”,即代表了事件的分类可以分到“财产”这个类别中。另外,使用事件个数分类的结果可以用于对触发词识别结果做修正:当事件个数预测为0时,即使识别到了触发词也不去向用户或下一阶段透出。而识别出的事件个数为1,但实际预测到了两个不同类型的
触发词时,需要对触发词的确信度进行排序,只选取确信程度较大的一个进行保留。
[0086]
在第二个阶段,模型的任务则是对第一阶段得到的n个触发词(及事件分类结果),依次和原始的语句共同构造输入,识别该特定的事件类型和事件触发词下,该语句中的实体(时间、地点等)和论元(施害人、被害人)。这样的输入会构造n次,经过这一阶段,便可以得到一句话中发生的多个事件的完整事实。
[0087]
最后值得一提的是,虽然模型分成了两个阶段,但是两个阶段是同时进行的,即bert层的参数共享。这样一来,充分解决了以往的管道式系统各个模块相互独立,数据利用不充分的问题。
[0088]
在本技术的一些实施例中,还提供了一种用于执行上述方法的应用,该应用具有一个交互界面,如图8所示。所述交互界面的上半部分为文本输入区域,其中可以选择直接复制粘贴相应的文本内容,也可以将doc,docx,pdf等常见的文本格式的文件拷贝进去,也可以设置一个文件上传控件,在该控件被触发时架构待识别的文件上传至app,以识别文件中的事件类型和数量。下半部分为输出区域,可以输出识别出的事件类型,关键词,实体及论元等。可以理解的,实际使用时输出区域的事件数量并不必须为图8中所示的三个。同时,输出区域也用于在发现识别有误时向用户发出提示信息。
[0089]
另外,在本技术的一些实施例中,所述文本识别方法还可以应用于以下多种场景中。
[0090]
应用场景1:电商平台的处罚规则、投诉的处理;
[0091]
客户在电商平台进行投诉时,电商平台获取待识别的投诉内容;然后电商平台采用机器学习模型中的事件识别模型对投诉内容进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的投诉类型(即事件类型)和该事件类型对应的“虚假宣传”、“故意发送错误货物”等事件触发词;采用机器学习模型中的实体识别模型对投诉内容进行再次识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的“时间”、“地点”等实体信息以及“受害人”、“加害人”等论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
[0092]
例如,当客户在某电商平台的一个网店中购买了商品a,且商品a享受14天无理由退款。结果当客户收到快递后发现,商品a的实际功效与网店中的宣传功效严重不符。而当客户要求退款时网店方却一直拒绝客户的退款要求。这样当客户向电商平台投诉时,电商平台可以使用上述机器学习模型对客户的投诉内容进行文本识别。在识别时,上述机器学习模型可以根据关键词“宣传功效严重不符”和“拒绝无理由退款”判定投诉内容中涉及到的处罚规则,并确定网店在客户购买a商品的过程中侵犯了客户a的利益。这样电商平台就可以依据处罚规则和用户的投诉内容对网店进行合理地处罚。
[0093]
应用场景2:律师模拟法庭观点;
[0094]
律师在开庭前,可以先准备好需要辩护的案件信息;然后采用机器学习模型中的事件识别模型对案件信息进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的犯罪类型(即事件类型)和该事件类型对应的“伤害”、“偷窃”等事件触发词;采用机器学习模型中的实体识别模型对案件信息进行再次识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的“时间”、“地点”等实体信息以及“受害人”、“加害人”等论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件
信息。
[0095]
例如,当律师需要为案件a中的受害人小明进行辩护时,律师可以使用本文所述的机器学习模型对案件a进行分析,确定案件a中具体涉及哪些犯罪行为,触犯了哪些发条,以及犯罪嫌疑人侵犯了受害人小明的哪些权益。根据以上通过机器学习模型得到的信息,律师就可以在开庭前模拟法庭上可能出现的观点,从而做到针对性地辩护。
[0096]
应用场景3:检察院形成预案;
[0097]
检察院在提起公诉前,可以先准备好案件内容;然后采用机器学习模型中的事件识别模型对案件内容进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的犯罪类型(即事件类型)和该事件类型对应的“伤害”、“偷窃”等事件触发词;采用机器学习模型中的实体识别模型对案件信息进行再次识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的“时间”、“地点”等实体信息以及“受害人”、“加害人”等论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
[0098]
当检察院需要就某一案件提起公诉时,检察院可以先使用上述机器学习模型对案件内容进行分析。确定案件中有哪些犯罪行为,这些犯罪行为触犯了哪些法条,以及犯罪行为中的犯罪嫌疑人和受害人,有无法定增减量刑情节等,从而在提起公诉前形成预案,避免可能出现地遗漏某些犯罪行为或量刑不准的问题。
[0099]
应用场景4:公司法务;
[0100]
公司在想要开展某一项新服务前,公司法务可以先准备好新服务的服务内容;然后采用机器学习模型中的事件识别模型对服务内容进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的服务类型(即事件类型)和该事件类型对应的“并购”、“合并”等事件触发词;采用机器学习模型中的实体识别模型对案件信息进行再次识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的“时间”、“地点”等实体信息以及“收购方”、“被收购方”等论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
[0101]
例如,当某公司想要开展某一项新服务时,该公司的法务可以使用上述机器学习模型对新服务的内容进行分析,确定新服务中存在的法律风险,即新服务可能触犯哪些法条等,从而做到提前规避。
[0102]
应用场景5:居委会、民生局等相关部门的调解、仲裁;
[0103]
居委会在调解邻里之间的矛盾前,可以先准备好需要调解的争执内容;然后采用机器学习模型中的事件识别模型对争执内容进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的争执类型(即事件类型)和该事件类型对应的“扰民”、“抢占车位”等事件触发词;采用机器学习模型中的实体识别模型对争执内容进行再次识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的“时间”、“地点”等实体信息以及“利益被侵害方、“侵犯他人利益方”等论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
[0104]
例如,当居委会对邻里之间的争执进行调解时,居委会可以使用上述机器学习模型对所述争执内容进行分析,确定当事人具体是因为哪些事件而争执的,这些事件中的侵犯他人利益方和被侵犯利益方分别是谁,从而更好地调解双方关系。
[0105]
应用场景6:检查争议焦点是否发生变化;
[0106]
法庭上的被告和原告在争辩过程中,法庭工作人员可以实时录制争辩内容;然后采用机器学习模型中的事件识别模型对争辩内容进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的争辩问题(即事件类型)和该争辩问题对应的伤害”、“偷窃”等事件触发词;采用机器学习模型中的实体识别模型对争辩内容进行再次识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的“时间”、“地点”等实体信息以及“受害人”、“加害人”等论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
[0107]
例如,在某一场庭审中,法官可以依据所述机器学习模型的分析结果,判断是否存在某一方的律师在争辩过程中模糊争论焦点,从而提高庭审效率。
[0108]
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
[0109]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
[0110]
实施例2
[0111]
根据本技术实施例,还提供了一种文本识别方法,如图3所示,该方法包括以下步骤:
[0112]
s302,获取待识别文本;
[0113]
s304,对待识别文本进行第一次识别,得到第一识别结果;
[0114]
其中,上述第一识别结果中包括所述待识别文本中的事件类型和该事件类型对应的事件触发词。如图6a所示,事件类型“财产”对应的事件触发词为“抢走”,事件类型“人身”对应的事件触发词为“扎死”。
[0115]
s306,对待识别文本进行第二次识别,得到第二识别结果;
[0116]
其中,上述第二识别结果中包括与各个事件类型对应的实体和论元信息。具体地,在本技术的一些实施例中,实体指的是案件发生的时间,地点,案件造成的后果等信息,论元则指的是案件中的施害人和被害人。如图6b所示,案件造成的后果为施害人将被害人扎死,案件的施害人为“王洋”,案件的被害人为“宋某”。
[0117]
s308,基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
[0118]
在本技术的一些实施例中,为了提高文本识别质量,在基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息之前,还需要先统计待识别文本中事件触发词的第一数量,以及待识别文本中事件类型的第二数量,然后比较第一数量和第二数量的大小,再依据比较结果确定待识别文本中的所有事件触发词进行筛选,得到目标事件
触发词。
[0119]
具体地,依据比较结果确定待识别文本中的所有事件触发词进行筛选,得到目标事件触发词,包括:在所述比较结果指示所述第一数量大于所述第二数量时,说明存在误将某些非事件触发词识别为了目标触发词的情况,确定所述待识别文本中所有事件触发词的评估指标,所述评估指标包括事件触发词的确信度,所述确信度指的是事件触发词与该事件触发词所对应事件的相关性大小,可以通过大数据统计大量的法律文本中某个事件触发词对应的事件与所述文本中的实际的事件符合的概率,来得到确信度;将所述待识别文本中所有事件触发词按照评估指标的大小进行排序;并依据排序结果从所述第一数量的事件触发词中选择所述目标事件触发词。需要注意的是,从所述第一数量的事件触发词中选择的所述目标事件触发词的数量与所述第二数量相同。
[0120]
当所述比较结果指示所述第一数量小于所述第二数量时,则生成用于提示事件触发词的识别结果有误的提示信息。可以理解的,当第一数量,也就是事件触发词的数量小于事件类型的第二数量时,说明存在误识别的情况,即未能准确识别出所有的事件触发词,或某些事件类型识别错误。
[0121]
在本技术的一些实施例中,当发现第一数量不为零,而第二数量为零时,则发出提示消息并拒绝执行以下步骤:基于所述第一识别结果和第二识别结果分别确定与所述各个事件类型对应的事件信息。
[0122]
为了更好的理解图3所示文本识别方法的工作过程,下面结合图5所示的文本识别方法的工作流程示意图进行进一步地解释,其中,图5所示的工作流程图包括以下步骤:
[0123]
s502,输入裁判文书中的事实;
[0124]
s504,段落分句;
[0125]
s506,判断是否遍历结束,如果已经结束,则执行步骤s516,如果未结束,则执行步骤s508;
[0126]
s508,事件分类及触发词识别;
[0127]
s510,利用事件分类个数处理分类结果;
[0128]
s512,以识别出的每个触发词填充问句,识别该分类下的所有可能实体;
[0129]
s514,得到完整的一个/多个事件,然后执行步骤s506;
[0130]
s516,将多个事实按事件顺序排列。
[0131]
如图5所示,为了解决一句话中有多个事件,每个事件都有各自对应的不同的实体和论元的问题,如:“王某在被抢后追击李某,将其扑倒在地”;“王某12日抢劫,次日杀人”。这样的复杂事件,本技术设计了一个管道式系统。该系统除了分句预处理的逻辑和之前的系统一致外,将深度学习的模型部分拆成两部分,分别是:事件分类阶段和实体与论元识别阶段,及图5中的第一阶段和第二阶段。
[0132]
在第一个阶段,模型的任务是对输入的语句进行事件触发词的识别和事件个数的分类。借助识别不同类型的触发词,即实现了对于事件的分类。比如,成功识别到“财产”类的触发词“抢走”,即代表了事件的分类可以分到“财产”这个类别中。另外,使用事件个数分类的结果可以用于对触发词识别结果做修正:当事件个数预测为0时,即使识别到了触发词也不去向用户或下一阶段透出。而识别出的事件个数为1,但实际预测到了两个不同类型的触发词时,需要对触发词的确信度进行排序,只选取确信程度较大的一个进行保留。
[0133]
在第二个阶段,模型的任务则是对第一阶段得到的n个触发词(及事件分类结果),依次和原始的语句共同构造输入,识别该特定的事件类型和事件触发词下,该语句中的实体(时间、地点等)和论元(施害人、被害人)。这样的输入会构造n次,经过这一阶段,便可以得到一句话中发生的多个事件的完整事实。
[0134]
在本技术的一些实施例中,还提供了一种交互界面,如图8所示。所述交互界面的上半部分为文本输入区域,其中可以选择直接复制粘贴相应的文本内容,也可以将doc,docx,pdf等常见的文本格式的文件拷贝进去。下半部分为输出区域,可以输出识别出的事件类型,关键词,实体及论元等。可以理解的,实际使用时输出区域的事件数量并不必须为图8中所示的三个。同时,输出区域也用于在发现识别有误时向用户发出提示信息。
[0135]
实施例3
[0136]
根据本技术实施例,还提供了一种用于实施上述文本识别方法的装置,如图4所示,该装置包括:
[0137]
获取模块40,用于获取待识别文本;第一识别模块42,用于采用机器学习模型中的事件识别模型对所述待识别文本进行识别,得到第一识别结果,其中,所述第一识别结果中包括所述待识别文本中的事件类型和该事件类型对应的事件触发词;第二识别模块44,用于采用所述机器学习模型中的实体识别模型对所述待识别文本进行识别,得到第二识别结果,其中,所述第二识别结果中包括与各个事件类型对应的实体和论元信息;确定模块46,用于基于所述第一识别结果和第二识别结果分别确定与所述各个事件类型对应的事件信息。
[0138]
在本技术的一些实施例中,所述确定模块46在基于所述第一识别结果和第二识别结果分别确定与所述各个事件类型对应的事件信息之前,还需要先统计待识别文本中事件触发词的第一数量,以及待识别文本中事件类型的第二数量,然后比较第一数量和第二数量的大小,再依据比较结果确定待识别文本中的所有事件触发词进行筛选,得到目标事件触发词。
[0139]
具体地,依据比较结果确定待识别文本中的所有事件触发词进行筛选,得到目标事件触发词,包括:在所述比较结果指示所述第一数量大于所述第二数量时,说明存在误将某些非事件触发词识别为了目标触发词的情况,确定所述待识别文本中所有事件触发词的评估指标,所述评估指标包括事件触发词的确信度,所述确信度指的是事件触发词与该事件触发词所对应事件的相关性大小,可以通过大数据统计大量的法律文本中某个事件触发词对应的事件与所述文本中的实际的事件符合的概率,来得到确信度;将所述待识别文本中所有事件触发词按照评估指标的大小进行排序;并依据排序结果从所述第一数量的事件触发词中选择所述目标事件触发词。需要注意的是,从所述第一数量的事件触发词中选择的所述目标事件触发词的数量与所述第二数量相同。
[0140]
当所述比较结果指示所述第一数量小于所述第二数量时,则生成用于提示事件触发词的识别结果有误的提示信息。可以理解的,当第一数量,也就是事件触发词的数量小于事件类型的第二数量时,说明存在误识别的情况,即未能准确识别出所有的事件触发词,或某些事件类型识别错误。当发现第一数量不为零,而第二数量为零时,则发出提示消息并拒绝执行以下步骤:基于所述第一识别结果和第二识别结果分别确定与所述各个事件类型对应的事件信息。
[0141]
此处需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
[0142]
实施例4
[0143]
本技术的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
[0144]
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
[0145]
在本实施例中,上述计算机终端可以执行文本识别方法中以下步骤的程序代码:获取待识别文本;采用机器学习模型中的事件识别模型对待识别文本进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的事件类型和该事件类型对应的事件触发词;采用机器学习模型中的实体识别模型对待识别文本进行识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的实体和论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
[0146]
采用本技术实施例,提供了一种文本识别的方案。通过获取待识别文本;采用机器学习模型中的事件识别模型对待识别文本进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的事件类型和该事件类型对应的事件触发词;采用机器学习模型中的实体识别模型对待识别文本进行识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的实体和论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息,从而达到了确定与各个事件类型对应的事件信息的目的,进而解决了由于无法处理复杂案件中行为人的多重身份造成的无法形成结构化文本的技术问题,从而可以更好地进行司法文书分析,如图7所示。
[0147]
本领域普通技术人员可以理解,图1所示的结构仅为示意,计算机终端也可以是智能手机(如android手机、ios手机等)、平板电脑、掌声电脑以及移动互联网设备(mobile internet devices,mid)、pad等终端设备。图1其并不对上述电子装置的结构造成限定。例如,计算机终端1还可包括比图1中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图1所示不同的配置。
[0148]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-only memory,rom)、随机存取器(random access memory,ram)、磁盘或光盘等。
[0149]
本技术的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的文本识别方法所执行的程序代码。
[0150]
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
[0151]
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取待识别文本;采用机器学习模型中的事件识别模型对待识别文本进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的事件类型和该事件类型对应的事件触发词;采用机器学习模型中的实体识别模型对待识别文本进行识别,得到第二识别结果,其
中,第二识别结果中包括与各个事件类型对应的实体和论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
[0152]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0153]
在本技术的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0154]
在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0155]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0156]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0157]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0158]
以上所述仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1