一种摘要文本抽取方法及装置与流程

文档序号:30102934发布日期:2022-05-18 13:36阅读:158来源:国知局
一种摘要文本抽取方法及装置与流程

1.本技术涉及文本处理技术领域,尤其涉及一种摘要文本抽取方法、装置、电子设备及机器可读存储介质。


背景技术:

2.文本摘要,是指可以通过各种技术手段,对原始文本的文本内容进行抽取、总结或精炼,以得到其中的关键文本信息作为原始文本的摘要文本;也即,所述摘要文本,可以用于概括和展示所述原始文本的主要内容或中心思想,使得用户可以从海量数据中快速找出有效信息。
3.在实际应用中,按照所述摘要文本的生成方法,可以分为抽取式摘要和生成式摘要。对于抽取式摘要而言,摘要文本的质量与原始文本的质量之间存在较强的相关性,摘要文本可能出现冗余度较高、连贯性较差、准确率较低的问题。


技术实现要素:

4.本技术提供一种摘要文本抽取方法,所述方法包括:
5.生成与目标文本文件的全部文本内容对应的全文文本向量,以及生成与所述目标文本文件中的各个文本段落分别对应的段落文本向量;
6.分别将各个段落文本向量与所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量;
7.将与所述目标文本文件中的各个文本段落分别对应的拼接向量,分别输入已训练完成的分类模型进行分类计算,以得到与所述目标文本文件中的各个文本段落分别对应的分类结果;所述分类结果用于指示与输入的拼接向量对应的文本段落是否为所述目标文本文件的摘要文本;
8.根据所述分类结果,分别确定所述目标文本文件中的各个文本段落是否为所述目标文本文件的摘要文本。
9.可选的,所述生成与目标文本文件的全部文本内容对应的全文文本向量,以及生成与所述目标文本文件中的各个文本段落分别对应的段落文本向量,包括:
10.提取所述目标文本文件中的各个文本段落;
11.将所述目标文本文件中的全部文本内容以及所述各个文本段落,分别输入语言处理模型进行文本向量化处理,以得到与所述全部文本内容对应的全文文本向量以及与所述各个文本段落分别对应的段落文本向量。
12.可选的,所述提取所述目标文本文件中的各个文本段落,包括:
13.用预设的用于提取文本段落的正则表达式,对所述目标文本文件的全部文本内容进行匹配,以从所述目标文本文件的全部文本内容中提取出所述目标文本文件中的各个文本段落。
14.可选的,所述各个文本段落中的至少部分文本段落包含该文本段落的段落标题;
15.在所述分别将各个段落文本向量与所述全文文本向量进行拼接之前,所述方法还包括:
16.生成与所述至少部分文本段落的段落标题分别对应的段落标题向量;
17.所述分别将各个段落文本向量与所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量,包括:
18.分别将与各个文本段落对应的段落文本向量、与该文本段落对应的段落标题向量、以及所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量。
19.可选的,所述生成与所述至少部分文本段落的段落标题分别对应的段落标题向量,包括:
20.提取所述至少部分文本段落的段落标题;
21.将所述至少部分文本段落的段落标题,分别输入语言处理模型进行文本向量化处理,以得到与所述至少部分文本段落的段落标题分别对应的段落标题向量。
22.可选的,所述提取所述至少部分文本段落的段落标题,包括:
23.用预设的用于提取段落标题的正则表达式,对所述至少部分文本段落进行匹配,以从所述至少部分文本段落中提取出该文本段落的段落标题。
24.可选的,在生成与目标文本文件的全部文本内容对应的全文文本向量之前,所述方法还包括:
25.获取待抽取摘要文本的文本文件集,并将所述文本文件集中的若干文本文件依次确定为所述目标文本文件。
26.可选的,所述目标文本文件为非结构化数据;所述方法还包括:
27.将确定的所述目标文本文件的摘要文本,转换为结构化数据存储至数据库。
28.可选的,所述方法还包括:
29.从所述目标文件的摘要文本中,提取出与预设的待提取关键词相关的关键文本信息;
30.将所述关键文本信息转换为结构化数据存储至数据库。
31.可选的,所述将所述关键文本信息转换为结构化数据存储至数据库,包括:
32.将所述待提取关键词作为字段名,以及将提取得到的与所述待提取关键词相关的关键文本信息作为相应的字段值,以数据表的形式存储至关系型数据库;或者,
33.将所述待提取关键词作为key,以及将提取得到的与所述待提取关键词相关的关键文本信息作为相应的value,以key-value键值对的形式存储至非关系型数据库。
34.可选的,所述目标文本文件包括报告类文本文件。
35.可选的,所述语言处理模型包括bert模型。
36.本技术还提供一种摘要文本抽取装置,所述装置包括:
37.生成单元,用于生成与目标文本文件的全部文本内容对应的全文文本向量,以及生成与所述目标文本文件中的各个文本段落分别对应的段落文本向量;
38.拼接单元,用于分别将各个段落文本向量与所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量;
39.分类单元,用于将与所述目标文本文件中的各个文本段落分别对应的拼接向量,
分别输入已训练完成的分类模型进行分类计算,以得到与所述目标文本文件中的各个文本段落分别对应的分类结果;所述分类结果用于指示与输入的拼接向量对应的文本段落是否为所述目标文本文件的摘要文本;
40.确定单元,用于根据所述分类结果,分别确定所述目标文本文件中的各个文本段落是否为所述目标文本文件的摘要文本。
41.可选的,所述生成单元,具体用于:
42.提取所述目标文本文件中的各个文本段落;
43.将所述目标文本文件中的全部文本内容以及所述各个文本段落,分别输入语言处理模型进行文本向量化处理,以得到与所述全部文本内容对应的全文文本向量以及与所述各个文本段落分别对应的段落文本向量。
44.可选的,所述生成单元,具体用于:
45.用预设的用于提取文本段落的正则表达式,对所述目标文本文件的全部文本内容进行匹配,以从所述目标文本文件的全部文本内容中提取出所述目标文本文件中的各个文本段落。
46.可选的,所述各个文本段落中的至少部分文本段落包含该文本段落的段落标题;
47.所述生成单元,还用于生成与所述至少部分文本段落的段落标题分别对应的段落标题向量;
48.所述拼接单元,还用于分别将与各个文本段落对应的段落文本向量、与该文本段落对应的段落标题向量、以及所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量。
49.可选的,所述生成单元,具体用于:
50.提取所述至少部分文本段落的段落标题;
51.将所述至少部分文本段落的段落标题,分别输入语言处理模型进行文本向量化处理,以得到与所述至少部分文本段落的段落标题分别对应的段落标题向量。
52.可选的,所述生成单元,具体用于:
53.用预设的用于提取段落标题的正则表达式,对所述至少部分文本段落进行匹配,以从所述至少部分文本段落中提取出该文本段落的段落标题。
54.可选的,所述装置还包括:
55.获取单元,用于获取待抽取摘要文本的文本文件集,并将所述文本文件集中的若干文本文件依次确定为所述目标文本文件。
56.可选的,所述目标文本文件为非结构化数据;所述装置还包括:
57.第一转换单元,用于将确定的所述目标文本文件的摘要文本,转换为结构化数据存储至数据库。
58.可选的,所述装置还包括:
59.提取单元,用于从所述目标文件的摘要文本中,提取出与预设的待提取关键词相关的关键文本信息;
60.第二转换单元,用于将所述关键文本信息转换为结构化数据存储至数据库。
61.可选的,所述第二转换单元,具体用于:
62.将所述待提取关键词作为字段名,以及将提取得到的与所述待提取关键词相关的
关键文本信息作为相应的字段值,以数据表的形式存储至关系型数据库;或者,
63.将所述待提取关键词作为key,以及将提取得到的与所述待提取关键词相关的关键文本信息作为相应的value,以key-value键值对的形式存储至非关系型数据库。
64.可选的,所述目标文本文件包括报告类文本文件。
65.可选的,所述语言处理模型包括bert模型。
66.本技术还提供一种电子设备,包括通信接口、处理器、存储器和总线,所述通信接口、所述处理器和所述存储器之间通过总线相互连接;
67.所述存储器中存储机器可读指令,所述处理器通过调用所述机器可读指令,执行上述方法。
68.本技术还提供一种机器可读存储介质,所述机器可读存储介质存储有机器可读指令,所述机器可读指令在被处理器调用和执行时,实现上述方法。
69.通过以上实施例,通过分别对目标文本文件的全部文本内容、以及目标文本文件中的各个文本段落进行文本向量化处理,可以将与各个文本段落分别对应的段落文本向量、以及与全部文本内容对应的全文文本向量进行拼接,进而可以将拼接得到的与各个文本段落分别对应的拼接向量输入分类模型进行分类计算,以根据得到的分类结果来确定各个文本段落是否为目标文本文件的摘要文本;由于将所述拼接向量作为所述分类模型的输入向量,因此可以基于各个文本段落与全部文本内容之间的语义相似度,确定是否将该文本段落抽取出来作为目标文本文件的摘要文本,从而提高了从文本文件中抽取摘要文本的准确率。
附图说明
70.图1是一示例性的实施例示出的一种摘要文本抽取方法的流程图;
71.图2是一示例性的实施例示出的一种摘要文本抽取装置所在电子设备的硬件结构图;
72.图3是一示例性的实施例示出的一种摘要文本抽取装置的框图。
具体实施方式
73.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
74.需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
75.为了使本技术领域的人员更好地理解本说明书实施例中的技术方案,下面先对本说明书实施例涉及的文本摘要的相关技术,进行简要说明。
76.文本摘要,是指可以通过各种技术手段,对原始文本的文本内容进行抽取、总结或
精炼,以得到其中的关键文本信息作为原始文本的摘要文本;也即,所述摘要文本,可以用于概括和展示所述原始文本的主要内容或中心思想,使得用户可以从海量数据中快速找出有效信息。
77.在实际应用中,按照所述摘要文本的生成方法,可以分为抽取式摘要和生成式摘要。其中,抽取式摘要,可以从原始文本的全部文本内容中抽取出若干关键句子,并对抽取得到的若干关键句子直接进行拼接,以得到原始文本的摘要文本;生成式摘要,通常是一个端到端的过程,也即可以根据原始文本中的重要文本内容所表达的语义,自动生成摘要文本,以概括原始文本的文本内容。由此可见,由于抽取得到的摘要文本中的各个句子都是原始文本中的句子,在句法、语法上的错误率较低,因此相较于生成式摘要而言,抽取式摘要更加简单实用。
78.传统的抽取式摘要,通常可以使用图方法、聚类等方式完成无监督文本摘要。例如,lead-3方法,是指可以抽取原始文本的前3个句子作为原始文本的摘要文本。又例如,textrank算法,是指可以将原始文本中的各个句子作为节点,并可以通过计算各个句子之间的相似度,构造无向有权边,进而可以利用各个边上的权值来迭代更新各个节点的得分,最终可以选取n个得分最高的节点对应的句子,作为原始文本的摘要文本。
79.由此可见,在以上示出的实施例中,对于抽取式摘要而言,摘要文本的质量与原始文本的质量之间存在较强的相关性,摘要文本可能出现冗余度较高、连贯性较差、准确率较低(也即无法找准中心思想)的问题。
80.有鉴于此,本说明书旨在提出一种基于文本文件中的各个文本段落与该文本文件的全部文本内容之间的语义相似度,确定是否将该文本段落抽取出来作为该文本文件的摘要文本的技术方案。
81.在实现时,可以生成与目标文本文件的全部文本内容对应的全文文本向量,以及,可以生成与所述目标文本文件中的各个文本段落分别对应的段落文本向量;进一步地,可以分别将各个段落文本向量与所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量;进一步地,可以将与所述目标文本文件中的各个文本段落分别对应的拼接向量,分别输入已训练完成的分类模型进行分类计算,以得到与所述目标文本文件中的各个文本段落分别对应的分类结果;所述分类结果用于指示与输入的拼接向量对应的文本段落是否为所述目标文本文件的摘要文本;进一步地,可以根据所述分类结果,分别确定所述目标文本文件中的各个文本段落是否为所述目标文本文件的摘要文本。
82.由此可见,在本说明书的技术方案中,通过分别对目标文本文件的全部文本内容、以及目标文本文件中的各个文本段落进行文本向量化处理,可以将与各个文本段落分别对应的段落文本向量、以及与全部文本内容对应的全文文本向量进行拼接,进而可以将拼接得到的与各个文本段落分别对应的拼接向量输入分类模型进行分类计算,以根据得到的分类结果来确定各个文本段落是否为目标文本文件的摘要文本;由于将所述拼接向量作为所述分类模型的输入向量,因此可以基于各个文本段落与全部文本内容之间的语义相似度,确定是否将该文本段落抽取出来作为目标文本文件的摘要文本(也即与该文本段落对应的分类结果),从而提高了从文本文件中抽取摘要文本的准确率。
83.下面通过具体实施例,并结合具体的应用场景对本技术进行描述。
84.请参见图1,图1是一示例性的实施例示出的一种摘要文本抽取方法的流程图,上述方法可以执行以下步骤:
85.步骤102:生成与目标文本文件的全部文本内容对应的全文文本向量,以及生成与所述目标文本文件中的各个文本段落分别对应的段落文本向量;
86.步骤104:分别将各个段落文本向量与所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量;
87.步骤106:将与所述目标文本文件中的各个文本段落分别对应的拼接向量,分别输入已训练完成的分类模型进行分类计算,以得到与所述目标文本文件中的各个文本段落分别对应的分类结果;所述分类结果用于指示与输入的拼接向量对应的文本段落是否为所述目标文本文件的摘要文本;
88.步骤108:根据所述分类结果,分别确定所述目标文本文件中的各个文本段落是否为所述目标文本文件的摘要文本。
89.在本说明书中,文本文件(text file),是一种由若干行字符构成的计算机文件。所述目标文本文件,也即待抽取摘要文本的文本文件。
90.例如,若需要针对文本文件file_1抽取其中的摘要文本,则所述目标文本文件为文本文件file_1。
91.在示出的一种实施方式中,在针对文本文件集抽取摘要文本的场景中,所述方法还可以包括:获取待抽取摘要文本的文本文件集,并将所述文本文件集中包括的若干文本文件依次确定为所述目标文本文件。
92.例如,在etl过程中的转换环节,需要针对文本文件集file_set抽取其中每个文本文件的摘要文本,所述文本文件集file_set中可以包括至少一个文本文件;则可以先获取待抽取摘要文本的文本文件集file_set,再将获取到的文本文件集file_set中包括的若干文本文件依次确定为所述目标文本文件,并抽取所述目标文本文件的摘要文本,直至针对所述文本文件集file_set中的每个文本文件全部抽取完成。
93.在这种情况下,若所述文本文件集中包括的若干文本文件分别存储在支持一种或多种协议(如sftp、ftp、obs等协议)的多个文件服务器中,可以先根据预置url从所述多个文件服务器中读取出所述若干文本文件,形成待抽取摘要文本的文本文件集,还可以将所述文本文件集下载至本地,再通过脚本调用的方式进行摘要文本抽取。
94.需要说明的是,关于所述目标文本文件的文件格式,本说明书中不做特殊限定。例如,所述目标文本文件的文件格式具体可以包括但不限于:.txt、.doc、.docx、.pdf、等等。
95.在实际应用中,针对不同文件格式的目标文本文件,可以先利用文本解析工具对所述目标文本文件进行解析,以得到所述目标文本文件的全部文本内容。需要说明的是,关于所述文本解析工具,在本说明书中不做特殊限定,本领域技术人员可以根据需求灵活选择;例如,所述文本解析工具可以是pdf解析器,也可以是其他的第三方文本解析库。
96.在示出的一种实施方式中,所述目标文本文件可以包括报告类文本文件。
97.在实际应用中,由于所述报告类文本文件的撰写方式通常较为规范,全文中会包含至少一个概括性的文本段落,因此可以直接将所述概括性的文本段落抽取出来作为所述报告类文本文件的摘要文本。
98.例如,所述目标文本文件,具体可以包括但不限于应急管理行业的事故调查报告、
灾情评估报告等等报告类文本文件;其中,所述报告类文本文件中可以包括段落标题为“事故概况”的文本段落,并且可以将该文本段落抽取出来作为所述报告类文本文件的摘要文本。
99.在本说明书中,可以生成与所述目标文本文件的全部文本内容对应的全文文本向量,以及,可以生成与所述目标文本文件中的各个文本段落分别对应的段落文本向量。
100.例如,目标文本文件file_1中可以包含3个文本段落seg_1、seg_2、seg_3;则可以生成与目标文本文件file_1的全部文本内容对应的全文文本向量f1,以及,可以生成与目标文本文件file_1中的文本段落seg_1、seg_2、seg_3分别对应的段落文本向量s1、s2、s3。
101.需要说明的是,在以上示出的实施例中,所述目标文本文件中包含3个文本段落,仅仅是一种示例性的描述方式,并不对本说明书做出特殊限制,所述目标文本文件中可以包含任意数量的文本段落(segment),并且,每个文本段落中也可以包含任意数量的句子(sentence)。
102.在示出的一种实施方式中,所述生成与目标文本文件的全部文本内容对应的全文文本向量,以及生成与所述目标文本文件中的各个文本段落分别对应的段落文本向量,具体可以包括:提取所述目标文本文件中的各个文本段落;将所述目标文本文件中的全部文本内容以及所述各个文本段落,分别输入语言处理模型进行文本向量化处理,以得到与所述全部文本内容对应的全文文本向量以及与所述各个文本段落分别对应的段落文本向量。
103.例如,可以先利用预设的用于提取文本段落的正则表达式,对目标文本文件file_1的全部文本内容进行匹配,以从目标文本文件file_1的全部文本内容中提取出文本段落seg_1、seg_2、seg_3;进一步地,可以将目标文本文件file_1的全部文本内容、以及提取出来的文本段落seg_1、seg_2、seg_3,分别输入已训练完成的语言处理模型进行文本向量化处理,以得到全文文本向量f1、以及段落文本向量s1、s2、s3。
104.其中,所述语言处理模型,具体可以包括但不限于bert模型、wobert模型、ernie模型等等。需要说明的是,所述语言处理模型不仅可以用于文本向量化,还可以用于语义向量化,也即,所述全文文本向量、段落文本向量可以用于表征对应的全部文本内容、文本段落的语义特征。
105.在实际应用中,为了优化针对具备行业属性的文本进行文本向量化处理的效果,可以使用对应行业的专用语料数据来训练所述语言处理模型。例如,可以在使用通用语料数据进行训练得到的bert模型的基础上,进一步使用应急管理行业的专用语料数据进行增量训练,以得到应急管理行业的专用bert模型。
106.需要说明的是,在生成所述全文文本向量和各个段落文本向量的同时或之后,还可以至少存储所述全文文本向量与各个段落文本向量之间的对应关系,以便于后续可以根据所述对应关系,对全文文本向量与所述段落文本向量进行拼接。具体地,可以将所述全文文本向量与各个段落文本向量之间的对应关系记录到一张表中;请参见表1,表1是一种示例性的实现方式。
107.文本文件全文文本向量文本段落段落文本向量file_1f1seg_1s1file_1f1seg_2s2file_1f1seg_3s3
108.表1
109.如表1所示,全文文本向量f1与目标文本文件file_1的全部文本内容相对应;段落文本向量s1、s2、s3分别与文本段落seg_1、seg_2、seg_3相对应;文本段落seg_1、seg_2、seg_3均与文本文件file_1相对应,段落文本向量s1、s2、s3均与全文文本向量f1相对应。
110.在本说明书中,在生成所述全文文本向量和各个段落文本向量之后,可以分别将各个段落文本向量与所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量。
111.例如,在生成与目标文本文件file_1的全部文本内容对应的全文文本向量f1,以及生成与目标文本文件file_1中的文本段落seg_1、seg_2、seg_3分别对应的段落文本向量s1、s2、s3之后,可以分别将段落文本向量s1、s2、s3与全文文本向量f1进行拼接,以得到与目标文本文件file_1中的文本段落seg_1、seg_2、seg_3分别对应的拼接向量“s1+f1”、“s2+f1”、“s2+f1”。
112.需要说明的是,关于分别将各个段落文本向量与所述全文文本向量进行拼接的具体实现方式,以上示出的仅仅是一种示例性的描述,并不对本说明书做出特殊限制,本领域技术人员根据需求也可以选择其他的拼接方式。例如,分别将段落文本向量s1、s2、s3与全文文本向量f1进行拼接,可以得到与目标文本文件file_1中的文本段落seg_1、seg_2、seg_3分别对应的拼接向量“f1+s1”、“f1+s2”、“f1+s3”。
113.在实际应用中,所述目标文本文件中的各个文本段落还可以包含对应的段落标题。由于文本段落的段落标题可以在一定程度上体现该文本段落的主要内容,如“事故概况”、“事故经过”等,因此,为了进一步提高从所述目标文本文件中抽取摘要文本的准确率,还可以结合各个文本段落的段落标题的语义进行分类计算。
114.在示出的一种实施方式中,所述各个文本段落中的至少部分文本段落可以包含该文本段落的段落标题;在分别将各个段落文本向量与所述全文文本向量进行拼接之前,所述方法还可以包括:生成与所述至少部分文本段落的段落标题分别对应的段落标题向量。
115.例如,在目标文本文件file_1中的文本段落seg_1、seg_2、seg_3中,可以分别包含有:文本段落seg_1的段落标题title_1、文本段落seg_2的段落标题title_2、文本段落seg_3的段落标题title_3;除了生成所述全文文本向量和各个段落文本向量之外,还可以生成与段落标题title_1、title_2、title_3分别对应的段落标题向量t1、t2、t3。
116.在以上示出的实施方式中,所述生成与所述至少部分文本段落的段落标题分别对应的段落标题向量,具体可以包括:提取所述至少部分文本段落的段落标题;将所述至少部分文本段落的段落标题,分别输入所述语言处理模型进行文本向量化处理,以得到与所述至少部分文本段落的段落标题分别对应的段落标题向量。
117.例如,可以先利用预设的用于提取段落标题的正则表达式,对目标文本文件file_1中的文本段落seg_1、seg_2、seg_3进行匹配,以从上述各个文本段落中分别提取出该文本段落的段落标题title_1、title_2、title_3;进一步地,可以将提取出来的段落标题title_1、title_2、title_3,分别输入已训练完成的语言处理模型进行文本向量化处理,以得到段落标题向量t1、t2、t3。
118.需要说明的是,在生成各个段落标题向量的同时或之后,还可以至少存储各个段落标题向量、所述全文文本向量、和/或各个段落文本向量之间的对应关系,以便于后续可
以根据所述对应关系,对全文文本向量与段落文本向量、段落标题向量进行拼接。具体地,可以将所述全文文本向量、各个段落文本向量与各个段落标题向量之间的对应关系记录到一张表中;请参见表2,表2是一种示例性的实现方式。
119.全文文本向量段落文本向量段落标题向量f1s1t1f1s2t2f1s3t3
120.表2
121.如表2所示,段落标题向量t1、t2、t3分别与段落文本向量s1、s2、s3相对应,且均与全文文本向量f1相对应。
122.进一步地,在以上示出的实施方式中,在生成与所述至少部分文本段落的段落标题分别对应的段落标题向量之后,所述分别将各个段落文本向量与所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量,具体可以包括:分别将与各个文本段落对应的段落文本向量、与该文本段落对应的段落标题向量、以及所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量。
123.例如,在生成与目标文本文件file_1的全部文本内容对应的全文文本向量f1,以及生成与目标文本文件file_1中的文本段落seg_1、seg_2、seg_3分别对应的段落文本向量s1、s2、s3,以及生成与目标文本文件file_1中的文本段落seg_1、seg_2、seg_3的段落标题分别对应的段落标题向量t1、t2、t3之后,可以分别将段落文本向量s1、s2、s3、段落标题向量t1、t2、t3与全文文本向量f1进行拼接,以得到与目标文本文件file_1中的文本段落seg_1、seg_2、seg_3分别对应的拼接向量“s1+t1+f1”、“s2+t2+f1”、“s2+t3+f1”。
124.需要说明的是,在以上示出的实施方式中,在所述目标文本文件中的一部分文本段落包含段落标题,而另一部分文本段落不包含段落标题的情况下,对于不包含段落标题的部分文本段落,可以通过复用与该文本段落对应的段落文本向量的方式,来得到与该文本段落对应的拼接向量。
125.例如,在目标文本文件file_1中的文本段落seg_1、seg_2、seg_3中,文本段落seg_1不包含段落标题,文本段落seg_2中可以包含段落标题title_2、文本段落seg_3中可以包含段落标题title_3;除了可以生成所述全文文本向量和各个段落文本向量之外,还可以生成与段落标题title_2、title_3分别对应的段落标题向量t2、t3;进一步地,可以将复用的段落文本向量s1与全文文本向量f1进行拼接,以得到与文本段落seg_1对应的拼接向量“s1+s1+f1”,以及可以分别将段落文本向量s2、s3、段落标题向量t2、t3与全文文本向量f1进行拼接,以得到与文本段落seg_2、seg_3分别对应的拼接向量“s2+t2+f1”、“s2+t3+f1”。
126.需要说明的是,关于得到所述拼接向量的具体实现方式,以上示出的仅仅是一种示例性的描述,并不对本说明书做出特殊限制,本领域技术人员根据需求也可以选择其他的拼接方式。例如,分别将段落文本向量s1、段落标题向量t1、与全文文本向量f1进行拼接,可以得到与目标文本文件file_1中的文本段落seg_1对应的拼接向量“f1+s1+t1”。
127.在本说明书中,在得到与所述目标文本文件中的各个文本段落分别对应的拼接向量之后,可以将各个拼接向量分别输入已训练完成的分类模型进行分类计算,以得到与所
述目标文本文件中的各个文本段落分别对应的分类结果,其中,所述分类结果可以用于指示与输入的拼接向量对应的文本段落是否为所述目标文本文件的摘要文本;进一步地,可以根据所述分类结果,分别确定所述目标文本文件中的各个文本段落是否为所述目标文本文件的摘要文本。
128.在实际应用中,在训练所述分类模型时,可以对所述分类模型的分类函数进行有监督的训练。在实现时,具体可以先获取训练样本,所述训练样本可以包括样本文本文件的全部文本内容、该样本文本文件中的任一样本文本段落、以及与该样本文本段落对应的实际分类结果,再基于所述训练样本,按照预设的优化目标对所述分类模型的分类函数进行有监督的训练;其中,所述优化目标可以包括:针对所述训练样本中的任一训练样本,与该样本文本段落对应的分类结果与所述实际分类结果匹配。
129.为了实现按照预设的优化目标对所述分类模型的分类函数进行有监督的训练,可以在基于所述训练样本对所述分类模型的分类函数进行有监督的训练时,通过判断与所述分类函数对应的交叉熵损失函数是否收敛,确定所述分类函数是否达到该优化目标,即确定所述分类模型是否训练完成。例如,如果所述交叉熵损失函数收敛,则可以确定所述分类模型训练完成;如果所述交叉熵损失函数不收敛,则可以确定所述分类模型未训练完成,从而可以继续对所述分类函数进行有监督的训练。
130.需要说明的是,本领域技术人员根据需求,可以为所述分类模型选择不同的分类函数,本说明书中不做限制。其中,与各个文本段落分别对应的拼接向量可以作为所述分类函数的自变量,与各个文本段落分别对应的分类结果可以作为所述分类函数的因变量。
131.例如,在得到与目标文本文件file_1中的文本段落seg_1、seg_2、seg_3分别对应的拼接向量“f1+s1”、“f1+s2”、“f1+s3”之后,可以先将拼接向量“f1+s1”输入所述分类模型进行分类计算,以得到与目标文本文件file_1中的文本段落seg_1对应的分类结果,该分类结果可以用于指示文本段落seg_1是否为目标文本文件file_1的摘要文本;类似地,还可以将拼接向量“f1+s2”、“f1+s3”依次输入所述分类模型进行分类计算,以得到与目标文本文件file_1中的文本段落seg_2、seg_3分别对应的分类结果;进一步地,在得到所述分类模型输出的与目标文本文件file_1中的各个文本段落分别对应的分类结果之后,若根据所述分类结果,可以确定文本段落seg_1、seg_3不是目标文本文件file_1的摘要文本,文本段落seg_2是目标文本文件file_1的摘要文本,从而可以将文本段落seg_2抽取出来作为目标文本文件file_1的摘要文本,也即目标文本文件file_1的摘要段落。
132.在示出的一种实施方式中,所述目标文本文件可以为非结构化数据;在确定所述目标文本文件的摘要文本之后,所述方法还可以包括:将所述目标文本文件的摘要文本,转换为结构化数据存储至数据库。
133.在实际应用中,为了进一步利用非结构化数据中的有效信息,可以将得到的有效信息转换为结构化数据,存储在数据链的下游数据库中,以便于本领域技术人员使用下游数据库中存储的结构化数据进行建模分析、数据挖掘等处理,还可以通过可视化页面、智能驾驶舱等,向用户展示所述结构化数据或建模分析得到的决策建议等,在此不再赘述。
134.例如,在确定目标文本文件file_1中的文本段落seg_2是目标文本文件file_1的摘要文本之后,可以将其转换为结构化数据,并将转换得到的结构化数据存储至数据库;其中,所述数据库可以包括关系型数据库和非关系型数据库,本说明书中不做限制。
135.在一种可能的情况下,若所述数据库为关系型数据库,则可以将“文本文件”、“摘要文本”作为预设的字段名,并可以将所述目标文本文件的文件标识、所述目标文本文件的摘要文本作为相应的字段值,以数据表的形式存储至关系型数据库。例如,请参见表3,表3是一种示例性的数据表,
136.文本文件摘要文本file_1seg_2
…………
137.表3
138.如表3所示,在确定目标文本文件file_1中的文本段落seg_2是目标文本文件file_1的摘要文本之后,可以将目标文本文件的文件标识file_1作为预设字段“文本文件”对应的字段值,以及可以将文本段落seg_2(也即目标文本文件file_1的摘要文本)作为预设字段“摘要文本”对应的字段值,以数据表的形式存储至关系型数据库。
139.在另一种可能的情况下,若所述数据库为非关系型数据库,则可以将所述目标文本文件作为key,并可以将所述目标文本文件的摘要文本作为相应的value,以key-value键值对的形式存储至非关系型数据库。
140.其中,若目标文本文件file_1为应急管理行业的事故调查报告,还可以将如表3所示的结构化数据存储至与应急管理行业对应的数据库中,以便于后续可以针对与应急管理行业对应的数据库中所存储的结构化数据进行建模分析、数据挖掘等处理。
141.在示出的另一种实施方式中,在确定所述目标文本文件的摘要文本之后,所述方法还可以包括:从所述目标文本文件的摘要文本中,提取出与预设的待提取关键词相关的关键文本信息;将所述关键文本信息转换为结构化数据存储至数据库。
142.在一种可能的情况下,若所述数据库为关系型数据库,则可以将所述待提取关键词作为字段名,以及将提取得到的与所述待提取关键词相关的关键文本信息作为相应的字段值,以数据表的形式存储至关系型数据库。例如,在应急管理行业的应用场景中,预设的待提取关键词具体可以包括但不限于:事件报告时间、事件类型、事件子类型、事件发生地点、事件发生时间、事件发生经过、行业属性等等;在确定目标文本文件file_1的摘要文本为文本段落seg_2之后,可以从文本段落seg_2中,提取与上述各个预设的待提取关键词相关的关键文本信息,比如,可以提取出与待提取关键词“事件发生时间”相关的关键文本信息为“xxxx年xx月xx日xx时xx分”、以及与待提取关键词“事件发生地点”相关的关键文本信息为“xx省xx市xx区”;进一步地,请参见表4,表4是另一种示例性的数据表,
143.事件发生时间事件发生地点
……
xxxx年xx月xx日xx时xx分xx省xx市xx区
……
144.表4
145.如表4所示,可以将待提取关键词“事件发生时间”、“事件发生时间”作为字段名,以及,可以将提取得到的与各个待提取关键词相关的关键文本信息“xxxx年xx月xx日xx时xx分”、“xx省xx市xx区”分别作为相应的字段值,以数据表的形式存储至关系型数据库。
146.在另一种可能的情况下,若所述数据库为非关系型数据库,则可以将将所述待提取关键词作为key,以及将提取得到的与所述待提取关键词相关的关键文本信息作为相应的value,以key-value键值对的形式存储至非关系型数据库。
147.需要说明的是,在以上示出的实施方式中,关于所述待提取关键词,本说明书中不做特殊限制,本领域技术人员可以根据需求灵活设置;例如,所述待提取关键词具体也可以与其他行业或其他场景相关的关键词。另外,需要说明的是,关于所述数据表的具体组织形式,表3和表4仅仅是一种示例性的描述方式,并不对本说明书做出特殊限制。
148.在以上示出的实施方式中,所述从所述目标文本文件的摘要文本中,提取出与预设的待提取关键词相关的关键文本信息,具体可以包括以下示出的一种或多种:正则化表达式、分类模型、命名实体识别等等。下面依次对这几种从文本段落中提取与待提取关键词相关的关键文本信息的具体实现方式进行示例性的说明。
149.(1)正则化表达式
150.具体地,可以利用预设的用于提取关键文本信息的正则表达式,对所述目标文本文件的摘要文本进行匹配,以提取出与预设的待提取关键词相关的关键文本信息。
151.例如,可以利用预设的用于提取时间信息的正则表达式,对文本段落seg_4进行匹配,以从文本段落seg_4中提取出与待提取关键词“事故发生时间”相关的关键文本信息“xxxx年xx月xx日xx时xx分”。
152.(2)分类模型
153.具体地,可以将与所述目标文本文件的摘要文本对应的段落文本向量,输入与所述待提取关键词对应的分类模型进行分类计算,以得到与所述摘要文本对应的分类结果,作为从所述摘要文本中提取出来的与所述待提取关键词相关的关键文本信息。
154.例如,可以将与摘要文本seg_4对应的段落文本向量s4,输入与待抽取关键词“行业属性”对应的分类模型进行分类计算,以得到与摘要文本seg_4对应的分类结果;其中,通过与待抽取关键词“行业属性”对应的所述分类模型而得到的分类结果,具体可以包括但不限于“建筑施工行业”、“道路运输行业”、“煤矿开采行业”、“化工行业”等等;若与摘要文本seg_4对应的分类结果为“建筑施工行业”,则可以将其作为从摘要文本seg_4中提取出来的与待提取关键词“行业属性”相关的关键文本信息;也即,若文本文件file_1具体为应急管理行业的报告类文本文件,通过所述分类模型,可以进一步实现对应急管理行业的行业细分。
155.需要说明的是,在以上示出的实施例中,所述分类模型为与待抽取关键词“行业属性”对应的分类模型,仅仅是一种示例性的描述,并不对本说明书做特殊限制;在实际应用中,所述分类模型也可以用于进行与其他的待抽取关键词对应的分类计算,本领域技术人员根据需求可以灵活设置,在此不再一一赘述。
156.(3)命名实体识别
157.具体地,可以识别与所述目标文本文件的摘要文本中所包含的文本内容对应的若干命名实体,在所述若干命名实体中确定与所述待提取关键词匹配的命名实体,并从所述摘要文本中提取出与所述匹配的命名实体对应的文本内容,作为与所述待提取关键词相关的关键文本信息。
158.例如,针对摘要文本seg_4中所包含的文本内容,可以识别出与关键文本信息“xx省xx市xx区”对应的命名实体包括“地名”;进一步地,由于与待提取关键词“事故发生地点”匹配的命名实体为“地名”,因此可以从摘要文本seg_4中提取出与命名实体“地名”对应的文本内容“xx省xx市xx区”,作为从摘要文本seg_4中提取出来的与待提取关键词“事故发生
地点”相关的关键文本信息。需要说明的是,在以上示出的实施例中,关于命名实体识别的具体实现方式,可以参见相关技术,在此不作赘述。
159.需要说明的是,在本说明书中,“获取目标文本文件”、“针对目标文本文件抽取摘要文本”、以及“将抽取结果转化为结构化数据存储至数据库”是可解耦的多个部分,并且所述抽取结果可以存储至任意关系型数据库和/或非关系型数据库中,从而提高了整体系统的可扩展性。
160.通过以上技术方案可知,通过分别对目标文本文件的全部文本内容、以及目标文本文件中的各个文本段落进行文本向量化处理,可以将与各个文本段落分别对应的段落文本向量、以及与全部文本内容对应的全文文本向量进行拼接,进而可以将拼接得到的与各个文本段落分别对应的拼接向量输入分类模型进行分类计算,以根据得到的分类结果来确定各个文本段落是否为目标文本文件的摘要文本;由于将所述拼接向量作为所述分类模型的输入向量,因此可以基于各个文本段落与全部文本内容之间的语义相似度,确定是否将该文本段落抽取出来作为目标文本文件的摘要文本(也即与该文本段落对应的分类结果),从而提高了从文本文件中抽取摘要文本的准确率。
161.与上述摘要文本抽取方法的实施例对应的,本说明书还提供了一种摘要文本抽取装置的实施例。
162.请参见图2,图2是一示例性的实施例示出的一种摘要文本抽取装置所在电子设备的硬件结构图。在硬件层面,该设备包括处理器202、内部总线204、网络接口206、内存208以及非易失性存储器210,当然还可能包括其他业务所需要的硬件。本说明书一个或多个实施例可以基于软件方式来实现,比如由处理器202从非易失性存储器210中读取对应的计算机程序到内存208中然后运行。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
163.请参见图3,图3是一示例性的实施例示出的一种摘要文本抽取装置的框图。该摘要文本抽取装置可以应用于图2所示的电子设备中,以实现本说明书的技术方案。其中,上述摘要文本抽取装置可以包括:
164.生成单元302,用于生成与目标文本文件的全部文本内容对应的全文文本向量,以及生成与所述目标文本文件中的各个文本段落分别对应的段落文本向量;
165.拼接单元304,用于分别将各个段落文本向量与所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量;
166.分类单元306,用于将与所述目标文本文件中的各个文本段落分别对应的拼接向量,分别输入已训练完成的分类模型进行分类计算,以得到与所述目标文本文件中的各个文本段落分别对应的分类结果;所述分类结果用于指示与输入的拼接向量对应的文本段落是否为所述目标文本文件的摘要文本;
167.确定单元308,用于根据所述分类结果,分别确定所述目标文本文件中的各个文本段落是否为所述目标文本文件的摘要文本。
168.在本实施例中,所述生成单元302,具体用于:
169.提取所述目标文本文件中的各个文本段落;
170.将所述目标文本文件中的全部文本内容以及所述各个文本段落,分别输入语言处
理模型进行文本向量化处理,以得到与所述全部文本内容对应的全文文本向量以及与所述各个文本段落分别对应的段落文本向量。
171.在本实施例中,所述生成单元302,具体用于:
172.用预设的用于提取文本段落的正则表达式,对所述目标文本文件的全部文本内容进行匹配,以从所述目标文本文件的全部文本内容中提取出所述目标文本文件中的各个文本段落。
173.在本实施例中,所述各个文本段落中的至少部分文本段落包含该文本段落的段落标题;
174.所述生成单元302,还用于生成与所述至少部分文本段落的段落标题分别对应的段落标题向量;
175.所述拼接单元304,还用于分别将与各个文本段落对应的段落文本向量、与该文本段落对应的段落标题向量、以及所述全文文本向量进行拼接,以得到与所述目标文本文件中的各个文本段落分别对应的拼接向量。
176.在本实施例中,所述生成单元302,具体用于:
177.提取所述至少部分文本段落的段落标题;
178.将所述至少部分文本段落的段落标题,分别输入语言处理模型进行文本向量化处理,以得到与所述至少部分文本段落的段落标题分别对应的段落标题向量。
179.在本实施例中,所述生成单元302,具体用于:
180.用预设的用于提取段落标题的正则表达式,对所述至少部分文本段落进行匹配,以从所述至少部分文本段落中提取出该文本段落的段落标题。
181.在本实施例中,所述装置还包括:
182.获取单元,用于获取待抽取摘要文本的文本文件集,并将所述文本文件集中的若干文本文件依次确定为所述目标文本文件。
183.在本实施例中,所述目标文本文件为非结构化数据;所述装置还包括:
184.第一转换单元,用于将确定的所述目标文本文件的摘要文本,转换为结构化数据存储至数据库。
185.在本实施例中,所述装置还包括:
186.提取单元,用于从所述目标文件的摘要文本中,提取出与预设的待提取关键词相关的关键文本信息;
187.第二转换单元,用于将所述关键文本信息转换为结构化数据存储至数据库。
188.在本实施例中,所述第二转换单元,具体用于:
189.将所述待提取关键词作为字段名,以及将提取得到的与所述待提取关键词相关的关键文本信息作为相应的字段值,以数据表的形式存储至关系型数据库;或者,
190.将所述待提取关键词作为key,以及将提取得到的与所述待提取关键词相关的关键文本信息作为相应的value,以key-value键值对的形式存储至非关系型数据库。
191.在本实施例中,所述目标文本文件包括报告类文本文件。
192.在本实施例中,所述语言处理模型包括bert模型。
193.上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
194.对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例只是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
195.上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
196.在一个典型的配置中,计算机包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
197.内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
198.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
199.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
200.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
201.在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列
出项目的任何或所有可能组合。
202.应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
203.以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1