键值生成方法、知识图谱生成方法、装置、设备及介质与流程

文档序号:31726405发布日期:2022-10-05 00:42阅读:28来源:国知局
1.本公开涉及计算机数据处理
技术领域
:及人工智能
技术领域
:,尤其涉及人工智能、自然语言处理和深度学习技术。具体地,涉及一种键值生成方法、知识图谱生成方法、装置、电子设备及存储介质。
背景技术
::2.知识抽取任务是知识图谱构建中的任务之一。可以通过自动化或半自动化的技术,从自然语言文本中抽取出可用的知识单元,用于补充知识图谱中的实体属性与实体的关系。3.知识单元可以以spo三元组的形式构成。spo三元组可以包括s(即实体)、p(实体属性或实体之间的关系)以及o(实体属性值或关联实体)。技术实现要素:4.本公开提供了一种键值生成方法、知识图谱生成方法、装置、电子设备以及存储介质。5.根据本公开的一方面,提供了一种键值生成方法,包括:根据待处理文档,得到目标文档;对上述目标文档进行解析,得到目标键值对;根据上述目标键值对,确定目标键值对类型;以及,根据上述目标键值对和上述目标键值对类型,得到针对上述待处理文档的键值结果。6.根据本公开的另一方面,提供了一种知识图谱生成方法,包括:对目标文档进行实体识别,得到目标实体;利用根据本公开上述的方法,生成键值结果;根据上述键值结果和上述目标实体,生成知识单元;以及,根据上述知识单元,生成知识图谱。7.根据本公开的另一方面,提供了一种键值生成装置,包括:第一获取模块,用于根据待处理文档,得到目标文档;解析模块,用于对上述目标文档进行解析,得到目标键值对;确定模块,用于根据上述目标键值对,确定目标键值对类型;以及,第二获取模块,用于根据上述目标键值对和上述目标键值对类型,得到针对上述待处理文档的键值结果。8.根据本公开的另一方面,提供了一种知识图谱生成装置,包括:实体识别模块,对目标文档进行实体识别,得到目标实体;第一生成模块,用于利用根据本公开上述的装置,生成键值结果;第二生成模块,用于根据上述键值结果和上述目标实体,生成知识单元;以及,第三生成模块,用于根据上述知识单元,生成知识图谱。9.根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如本公开所述的方法。10.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行如本公开所述的方法。11.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现如本公开所述的方法。12.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明13.附图用于更好地理解本方案,不构成对本公开的限定。其中:14.图1示意性示出了根据本公开实施例的可以应用键值生成方法、知识图谱生成方法及装置的示例性系统架构;15.图2示意性示出了根据本公开实施例的键值生成方法的流程图;16.图3a示意性示出了根据本公开实施例的在深度学习模型包括第一语言模块的情况下,分类模型的训练过程的示例示意图;17.图3b示意性示出了根据本公开实施例的在深度学习模型包括第二语言模块和第一特征融合模块的情况下,分类模型的训练过程的示例示意图;18.图3c示意性示出了根据本公开实施例的在深度学习模型包括第三语言模块和第一预训练模块的情况下,分类模型的训练过程的示例示意图;19.图3d示意性示出了根据本公开实施例的在深度学习模型包括第四语言模块和第三融合模块的情况下,分类模型的训练过程的示例示意图;20.图4示意性示出了根据本公开实施例的知识图谱生成方法的流程图;21.图5示意性示出了根据本公开实施例的生成知识图谱的示例示意图;22.图6示意性示出了根据本公开实施例的键值生成装置的框图;23.图7示意性示出了根据本公开实施例的知识图谱生成装置的框图;以及24.图8示意性示出了根据本公开实施例的适于实现键值生成方法和知识图谱生成方法的电子设备的框图。具体实施方式25.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。26.键值对知识对于行业知识图谱构建起到重要的作用。一方面,键值(key-value,以下简称kv)是文档知识数据的重要载体,可以提供spo知识辅助图谱构建。另一方面,行业本体的构建成本较高,而kv抽取不依赖行业本体,还可以作为行业本体的高质量来源。27.kv抽取的任务目标是根据行业文档分布规律,通过文档解析规则解析文档,获取kv候选对,再依赖人力定制规则过滤kv候选对中包括的非知识噪音数据。调用实体抽提接口,根据行业文档规律制定并开发实体关联策略,产出spo候选数据,再利用人工修正数据。28.由于kv抽取任务中没有对kv以及kv类spo的标准给出明确的定义,行业抽取策略的泛化性差。在需要面对多个行业的抽取任务的情况下,需要根据不同的行业知识配置不同的解析规则、过滤规则以及实体关联规则,从而使得行业复用性差,开发效率低。29.为此,本公开实施例提出了一种键值生成方法。例如,根据待处理文档,得到目标文档。对目标文档进行解析,得到目标键值对。根据目标键值对,确定目标键值对类型。根据目标键值对和目标键值对类型,得到针对待处理文档的键值结果,实现了确定键值对类型,对kv以及kv类spo的标准给出明确的定义,从而使得抽取目标清晰,面对多行业抽取任务时,能够支持各个行业的键值对生成需求,无需重复开发,提高了行业复用性以及开发效率。30.图1示意性示出了根据本公开实施例的可以应用键值生成方法、知识图谱生成方法及装置的示例性系统架构。31.需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用键值生成方法、知识图谱生成方法及键值生成装置、知识图谱生成装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的键值生成方法、知识图谱生成方法及键值生成装置、知识图谱生成装置。32.如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等。33.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。34.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。35.服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。36.需要说明的是,本公开实施例所提供的键值生成方法和知识图谱生成方法一般可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的键值生成装置和知识图谱生成装置也可以设置于终端设备101、102、或103中。37.备选地,本公开实施例所提供的键值生成方法和知识图谱生成方法一般也可以由服务器105执行。相应地,本公开实施例所提供的键值生成装置和知识图谱生成装置一般可以设置于服务器105中。本公开实施例所提供的键值生成方法和知识图谱生成方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的键值生成装置和知识图谱生成装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。38.例如,终端设备101、102、103可以获取待处理文档,得到目标文档,然后将获取的目标文档发送给服务器105,由服务器105对目标文档进行解析,得到目标键值对;根据目标键值对,确定目标键值对类型;以及根据目标键值对和目标键值对类型,得到针对待处理文档的键值结果。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群对目标文档进行解析,并最终获得键值结果。39.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。40.应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。41.图2示意性示出了根据本公开实施例的键值生成方法的流程图。42.如图2所示,该方法200包括操作s210~s240。43.在操作s210,根据待处理文档,得到目标文档。44.在操作s220,对目标文档进行解析,得到目标键值对。45.在操作s230,根据目标键值对,确定目标键值对类型。46.在操作s240,根据目标键值对和目标键值对类型,得到针对待处理文档的键值结果。47.根据本公开的实施例,待处理文档可以为结构化文档、非结构化文档或半结构化文档。例如,结构化文档可以包括以关系数据库表形式管理的文档信息。非结构化文档可以包括以下至少之一:doc(document,文档)、xml(extensiblemarkuplanguage,可扩展标记语言)、docx、pdf(portabledocumentformat,可携带文档格式)、xls、xlsx和caj(chinaacademicjournals)等。半结构化文档可以包括以下至少之一:日志文件、josn(javascriptobjectnotation,js对象简谱)文档和email(即邮件)等。48.根据本公开的实施例,目标文档可以为将待处理文档经过预处理之后得到的文档。目标文档也可以为结构化文档、非结构化文档或半结构化文档。49.根据本公开的实施例,键值对可以为表示键值(即kv)信息的半结构化文本。与非结构化数据和结构化数据相比,半结构化数据在文本层面和语义层面上都具有一定的结构性,表述类型灵活丰富,数据格式更规范,有特定的分布规律。50.根据本公开的实施例,键值对可以为能表述在单行文本中,具有强格式分隔符的文本段。在文本层面上,键值对具有多种分布格式,在各行业文档中覆盖广泛,借助结构特征强调文档中多段并列的关键信息,是知识的重要来源,分布格式可以表示为key[分隔符]value,例如,列表标题-列表项。在语义层面上,键值对能够匹配多种符合key-value槽位的二元组关系(即二元schema),结构特征显著,行业语义弱,能够直观地通过结构特征强调关键信息,辅助缺少行业背景的用户对知识进行理解,在各个行业中的schema表述特征具有通用性。[0051]根据本公开的实施例,在获取到目标文档之后,可以利用通用键值对解析策略,从目标文档中的各个独立的段落语句中识别到多个目标键值对。目标键值对的形式为半结构化数据形式。[0052]根据本公开的实施例,键值对类型可以为键值对在语义层面上匹配的二元schema,用于记录具有不同关系的文本对。键值对类型可以根据键值对分为属性-取值、名词-解释及非kv类。键值对类型可以根据判定标准,将键值对类型进行细类划分。例如,非kv类细类划分可以包括以下至少之一:内容-说明(顺承)、主题-观点和日期-事件等。表1示意性示出了键值对类型的分类表。[0053][0054]表1[0055]根据本公开的实施例,在确定目标键值对类型之后,可以结合目标键值对,生成待处理文档的键值结果。键值结果可以表征待处理文档的各种属性的取值。可以表示为(k,v,键值对类型)。[0056]根据本公开的实施例,根据待处理文档,得到目标文档,对目标文档进行解析,得到目标键值对,根据目标键值对,确定目标键值对类型,根据目标键值对和目标键值对类型,得到针对待处理文档的键值结果,实现了确定键值对类型,对kv以及kv类spo的标准给出明确的定义,从而使得抽取目标清晰,面对多行业抽取任务时,能够支持各个行业的键值对生成需求,无需重复开发,提高了行业复用性以及开发效率。[0057]根据本公开的实施例,操作s230可以包括如下操作。[0058]对目标键值对进行特征提取,得到目标键值对特征向量。根据目标键值对特征向量,确定目标键值对类型。[0059]根据本公开的实施例,目标键值对中键域可以用于存储属性,目标键值对中的值域用于存储属性的取值。例如,目标键值对为“设计单位,xx二公司”,其中,属性为“设计单位”,取值为“xx二公司”。[0060]根据本公开的实施例,可以利用深度网络学习模型对目标键值对进行特征提取,得到目标键值对的特征向量。目标键值对的特征向量可以表征目标键值对中属性和取值之间的关系信息,根据属性与取值之间的关系信息,确定目标键值对类型。[0061]根据本公开的实施例,对目标键值对进行特征提取,得到目标键值对特征向量,可以包括如下操作。[0062]对目标键值对中的对象进行对象编码,得到目标对象特征向量。对目标键值对进行位置编码,得到目标位置特征向量。对目标键值对进行片段编码,得到目标片段特征向量。根据目标对象特征向量、目标位置特征向量和目标片段特征向量,得到目标键值对特征向量。[0063]根据本公开的实施例,可以将目标键值对中的key和value通过[sep]拼接成一段文本之后,经过分词后转换为词表,可以将每个词表视为目标键值对中的对象,对目标键值对中的每个对象进行对象编码,得到目标对象特征向量;对目标键值对进行位置编码和片段编码,得到目标位置特征向量和目标片段特征向量。[0064]根据本公开的实施例,将目标键值对的目标对象特征向量、目标位置特征向量和目标片段特征向量输入语言预测模型中,得到目标键值对特征向量。[0065]根据本公开的实施例,根据目标键值对特征向量,确定目标键值对类型,可以包括如下操作。[0066]根据目标键值对,创建预期特征数据。对预期特征数据进行特征提取,得到预期特征向量。根据目标键值对特征向量和预期特征向量,确定目标键值对类型。[0067]根据本公开的实施例,可以根据对目标键值对提取的特征类别,创建预期特征数据。提取的特征类别可以包括对象(即token)粒度、词类粒度和词性粒度。可以根据每种特征类别的多种维度的识别规则创建预期特征数据。[0068]根据本公开的实施例,可以基于通用验证集的badcase分析,根据识别规则可以创建54维的预期特征数据,例如,54维的预期特征数据可以包括32维的token粒度、16维的词类粒度和6维的词性粒度。预期特征数据具有显著指导意义,利用预期特征数据能够直接接收高级语义特征(词类、词性)。例如,表2示意性示出了创建预期特征数据的方案表。[0069][0070][0071][0072]表2[0073]需要说明的是,上述针对预期特征数据的创建维度只是示例性的,并非对本公开的维度数进行限定。[0074]根据本公开的实施例,根据上述预期特征数据的创建方案表得到与其预期特征数据,并对预期特征数据进行特征提取,得到预期特征向量,并将目标键值对特征向量和预期特征向量进行特征融合,得到目标键值对类型。[0075]根据本公开的实施例,对预期特征数据进行特征提取,得到预期特征向量,可以包括如下操作。[0076]对预期特征数据进行稠密编码,得到稠密特征向量。对稠密特征向量进行因子分解,得到预期特征向量。[0077]根据本公开的实施例,对预期特征数据进行稠密编码可以包括:将创建的54维的预期特征数据,54维预期特征数据可以包括32维的token粒度的预期特征数据、16维的词类粒度的预期特征数据和6维的词性粒度的预期特征数据。可以将54维的预期特征数据分为120维0/1特征后输入,进行稠密编码,得到稠密特征向量。[0078]根据本公开的实施例,将稠密特征向量进行因子分解可以包括:将淳稠密特征向量输入至因子层进行因子分解,得到预期特征向量。[0079]根据本公开的实施例,根据目标键值对,确定目标键值对类型,可以包括如下操作。[0080]利用分类模型处理目标键值对,得到目标键值对类型。分类模型可以是利用样本文档数据训练深度学习模型得到的。[0081]根据本公开的实施例,分类模型可以为确定目标文档的目标键值对类型的模型。分类模型可以为利用样本文档数据训练深度学习模型得到的。[0082]根据本公开的实施例,样本文档数据可以为训练深度学习模型的数据,样本文档数据的结构可以为结构化数据、半结构化数据和非结构化数据。[0083]根据本公开的实施例,将目标键值对输入至分类模型,经过对目标键值对进行编码处理及预测分析,得到目标键值对类型。[0084]根据本公开的实施例,深度学习模型可以包括第一语言模块。[0085]根据本公开的实施例,分类模型可以是基于第一损失函数,根据第一样本分类结果和样本标签值训练第一语言模块得到的。第一样本分类结果是利用第一语言模块处理样本文档数据得到的。[0086]根据本公开的实施例,样本标签值可以为样本文档数据的真实值。第一分类结果可以为基于第一语言模块处理样本文档数据而得到的样本分类预测值。[0087]根据本公开的实施例,第一语言模块可以为第一文本分类模型。基于第一样本分类结果和样本标签值对第一语言模块进行参数调整,再基于调整后参数,对第一语言模块进行训练,直至第一损失函数满足预定结束条件,完成对第一语言模块的训练,得到分类模型。[0088]根据本公开的实施例,预定结束条件可以为满足最大迭代次数,也可以为满足预定的收敛条件。[0089]根据本公开的实施例,深度学习模型可以包括第二语言模块和第一特征融合模块。[0090]根据本公开的实施例,分类模型可以是基于第二损失函数,根据第二样本分类结果和样本标签值训练第二语言模块和第一特征融合模块得到的。第二样本分类结果是根据第一预期样本特征向量和第一样本特征向量得到的。第一预期样本特征向量是利用第一特征融合模块处理预期样本特征数据得到的。预期样本特征数据是根据样本文档数据创建的。预期样本特征数据包括对象粒度、词性粒度和词类粒度中的至少之一粒度的特征数据。第一样本特征向量是利用第二语言模块处理样本文档数据得到的。[0091]根据本公开的实施例,第二语言模块可以为第二文本分类模块,第一特征融合模块可以为第一特征融合优化模块。[0092]根据本公开的实施例,第二样本分类结果可以为通过基于第二语言模块处理预期样本文档数据得到的第一样本特征向量和基于第一特征融合模块处理预期样本数据得到的第一预期样本特征向量而确定的样本预测分类结果。样本标签值可以为样本文档数据的真实值。[0093]根据本公开的实施例,预期样本数据可以基于通用验证集的badcase分析,利用样本文档数据,通过识别规则创建预期样本数据。预期样本数据可以为多维预期样本数据,预期样本数据可以包括对象粒度、词性粒度和词类粒度中至少之一的特征数据。[0094]根据本公开的实施例,基于第二样本分类结果和样本标签值对第二语言模块和第一特征融合模块进行参数调整,再基于调整后参数,对第二语言模块和第一特征融合模块进行训练,直至第二损失函数满足预定结束条件,完成对第二语言模块和第一特征融合模块的训练,得到分类模型。[0095]根据本公开的实施例,第一特征融合可以将预期样本数据直接融入第二语言模块的编码结果中,学习统计特征和语义特征的最优比例,提高模型学习效率,以使得在预测过程中,可以将待预测文本数据的统计特征和语义特征较好融合,提高预测效率。[0096]根据本公开的实施例,深度学习模型可以包括第三语言模块和第一预训练模块。[0097]根据本公开的实施例,分类模型可以是基于第三损失函数,根据第三样本分类结果和第四样本分类结果训练第三语言模块得到的。第三样本分类结果是利用第三语言模块处理样本文档数据得到的。第四样本分类结果是利用第一预训练模块处理样本文档数据得到的。[0098]根据本公开的实施例,第三语言模块可以为第三文本分类模块,第一预训练模块可以为第一预训练语言模块。第一预训练语言模块具有固定权重参数。[0099]根据本公开的实施例,第三语言模块对通用语义有比较好的表示,可以支持mlm(masklanguagemodel,掩码语言模型)预测,但是容易在大批量数据训练时偏移,以至于过拟合样本文档数据。结合第一预训练模块,在第三语言模块的分类任务训练的同时,能够和固定权重的第一预训练模块保持相似的语言表示能力,以使得提高模型的泛化能力。[0100]根据本公开的实施例,第三样本分类结果可以为基于第三语言模块处理样本文档数据得到的样本预测分类结果。第四样本分类结果可以为基于第一预训练语言模块处理样本文档数据得到的样本分类结果。[0101]根据本公开的实施例,由于第一预训练语言模块的权重参数为固定值,可以基于第三样本分类结果和第四样本分类结果对第三语言模块进行参数调整,再基于调整后参数,对第三语言模块进行训练,直至第三损失函数满足预定结束条件,完成对第三语言模块的训练,结合第一预训练语言模块得到分类。[0102]根据本公开的实施例,深度学习模型可以包括第四语言模块、第二特征融合模块和第二预训练模块。[0103]根据本公开的实施例,分类模型包括在根据输出值调整第四语言模块和第二特征融合模块的模型参数,直至满足预定结束条件的情况下得到的第四语言模块和第二特征融合模块。[0104]根据本公开的实施例,输出值可以是根据第一输出值和第二输出值确定的。第一输出值是基于第四损失函数,根据第五样本分类结果和样本标签值得到的。第二输出值是基于第五损失函数,根据第六样本分类结果和第七样本分类结果得到的。第五样本分类结果是根据第二预期样本特征向量和第二样本特征向量得到的。第二预期样本特征向量是利用第二特征融合模块处理预期样本特征数据得到的。预期样本特征数据是根据样本文档数据创建的。第二样本特征向量是利用第四语言模块处理样本文档数据得到的。第六样本分类结果是利用第四语言模块处理样本文档数据得到的。第七样本分类结果是利用第二预训练模块处理样本文档数据得到的。[0105]根据本公开的实施例,第四语言模块可以为第四文本分类模块。第二特征融合模块可以为第二特征融合优化模块。第二预训练模块可以为第二预训练语言模块。第二预训练语言模块具有固定权重参数。[0106]根据本公开的实施例,第一输出值可以为基于第二特征融合模块和第四语言模块对样本文档数据进行处理而得到的输出值。第二输出值可以为基于第四语言模块和第二预训练模块对样本文档数据进行处理而得到的输出值。[0107]根据本公开的实施例,第五样本分类结果可以为通过基于第二特征融合模块处理预期样本特征数据得到第二预期样本特征向量和基于第四语言模块处理样本文档数据得到的第二样本特征向量而确定的样本预测分类结果。样本标签值可以为样本文档数据的真实值。[0108]根据本公开的实施例,第六样本分类结果可以为基于第四语言模块处理样本文档数据得到的样本预测分类结果。第七样本分类结果可以为基于第二预训练语言模块处理样本文档数据。[0109]根据本公开的实施例,基于第四损失函数,根据第五样本分类结果和样本标签值,确定第一输出值。基于第五损失函数,根据第六样本分类结果和第七样本分类结果,确定第二输出值。根据第一输出值和第二输出值可以确定分类模型的输出值,再根据输出值对第四语言模块与第二特征融合模块进行模型参数调整,再基于调整后模型参数,对第四语言模块和第二特征融合模块进行训练,直至模型参数满足预定结束条件的情况下,完成对第四语言模块和第二特征融合模块的训练,得到分类模型。[0110]根据本公开的实施例,预定结束条件可以为满足最大迭代次数,也可以为满足预定的收敛条件。[0111]下面参考图3a~图3d,结合具体实施例对根据本公开实施例所述的分类模型的训练过程做进一步说明。[0112]图3a示意性示出了根据本公开实施例的在深度学习模型包括第一语言模块的情况下,分类模型的训练过程的示例示意图。[0113]如图3a所示,在300a中,分类模型302可以包括第一语言模块302_1。可以将样本文本数据301输入第一语言模块302_2,得到第一样本分类结果303。将第一样本分类结果303和样本标签值304输入第一损失函数305,得到第三输出值306。可以根据第三输出值306调整第一语言模块302_1的模型参数,直至满足预定结束条件,得到分类模块302。[0114]图3b示意性示出了根据本公开实施例的在深度学习模型包括第二语言模块和第一特征融合模块的情况下,分类模型的训练过程的示例示意图。[0115]如图3b所示,在300b中,分类模型308可以包括第二语言模块308_1和第一特征融合模块308_2。可以将样本文档数据307输入第二语言模块308_1,得到第一样本特征向量309。可以将预期样本特征数据310输入第一融合模块308_2,得到第一预测样本特征向量311。根据第一样本特征向量309和第一预期样本特征向量311,得到第一样本融合特征向量312。根据第一样本融合特征向量312,得到第二样本分类结果313。将第二样本分类结果313和样本标签值314输入第二损失函数315,得到第四输出值316。可以根据第四输出值316调整第二语言模块308_1和第一特征融合模块308_2的模型参数,直至满足预定结束条件,得到分类模块308。[0116]图3c示意性示出了根据本公开实施例的在深度学习模型包括第三语言模块和第一预训练模块的情况下,分类模型的训练过程的示例示意图。[0117]如图3c所示,在300c中,分类模型318可以包括第三语言模块318_1。可以将样本文档数据317输入第三语言模块318_1,得到第三样本分类结果319。将样本文档数据317输入第一预训练模块320,得到第四样本分类结果321。将第三样本分类结果319和第四样本分类结果321输入第三损失函数322,得到第五输出值323。可以根据第五输出值323调整第三语言模块318_1的模型参数,直至满足预定结束条件,得到分类模块318。[0118]图3d示意性示出了根据本公开实施例的在深度学习模型包括第四语言模块和第三融合模块的情况下,分类模型的训练过程的示例示意图。[0119]如图3d所示,在300d中,分类模型325可以包括第四语言模块325_1和第三融合模块325_2。可以将样本文档数据324输入第四语言模块325_1,得到第二样本特征向量326。可以根据第二样本特征向量326,得到第六样本分类结果327。将预期样本特征数据328输入第三融合模块325_2,得到第二预期样本特征向量329。根据第二样本特征向量326和第二预期样本特征向量329,得到第二样本融合特征向量330。根据第二样本融合特征向量330,得到第五样本分类结果331。将第五样本分类结果331和样本标签值332输入第四损失函数333,得到第一输出值334。[0120]可以将样本文档数据324输入第二预训练模块335,得到第七样本分类结果336。将第六样本分类结果327和第七样本分类结果336输入第五损失函数337,得到第二输出值338。可以根据第一输出值334和第二输出值338,得到输出值339。可以根据输出值339调整第四语言模块335_1和第二特征融合模块325_2的模型参数,直至满足预定结束条件,得到分类模块325。[0121]根据本公开的实施例,样本文档数据可以包括以下至少之一:样本键值对和非样本键值对。样本键值对可以包括以下至少之一:由属性和属性值形成的样本键值对和由名词和名称解释形成的样本键值对。[0122]根据本公开的实施例,样本文档数据用于对分类模型的训练,而对于用于训练的样本文档数据的选择对于模型的能力至关重要。在对样本文档数据进行选择时,可以满足样本文档数据的标签应该尽可能准确,以避免模型受大量噪音数据的影响。样本文档数据分布需符合任务目标分布,提升数据完备性,尽可能覆盖每一种模式。最后,同类样本文档数据间不应该过度相似,即具有数据多样性,避免过拟合现象。[0123]根据本公开的实施例,样本文档数据可以包括样本键值对和非样本键值对。样本键值对可以包括由属性和属性值形成的样本键值对,即「属性-取值」和由名词和名称解释形成的样本键值对,即「名词-解释」。此外,样本文档数据还可以包括非样本键值对,即非kv。[0124]根据本公开的实施例,在构造「属性-取值」类样本文档数据时,由于任务缺少标注数据且数据需求量级大,可以选择从高置信度的数据源自动生成。[0125]根据本公开的实施例,构造「属性-取值」类样本文档数据时可以包括如下操作。[0126]首先,「属性-取值」类基础数据来源于高频页面浏览(pageviews,pv)网页的信息盒(informationbox,infobox)。经调研可知,大多数高频infobox为高质量的人工审查数据,但是提供方不提供直接字段来区分人工审查和策略生成两部分的数据边界,因此通过pv约束提升整体质量,默认高pv的infobox质量更高。[0127]其次,通过提升高频页面浏览网页的行业覆盖度来提升样本多样性:基于核心集概念体系,高频页面浏览网页应覆盖尽可能多、尽可能细的概念以达到提升样本多样性的目的,为此,我们基于kgisa标签进行取样,保证细粒度、数据量较少的概念对应的百科页能有更高的概率保留。[0128]最后,由于页面浏览网页更多是描述社会人物、作品等通识知识的百科全书类网站,其infobox数据分布有偏,和预期要解决的通用领域、行业数据分布不符,所以在key采样时选择了等量采样,增加对低频key的覆盖度。[0129]根据本公开的实施例,在构造「名词-解释」类样本文档数据时,由于数据机器标注的难度大,可以不考虑数据是否来源于kv结构,选择完全基于逻辑关系生成名词-解释类样本文档数据。[0130]根据本公开的实施例,在「名词-解释」类数据源选择上,更偏向于物品、方法和功能的定义描述,而并非词语解释、人物经历等用法。[0131]根据本公开的实施例,在构造「名词-解释」类样本文档数据时,可以选择百科网页作为数据构造源,可以基于概念体系对百科网页进行筛选。百科摘要(即bdbksummary)是百科标题(即bdbklemmatitle)的解释,但是摘要通常是多段文本的组合,不符合kv类value基本问单据的数据分布。基于此,可以选择百科正文对百科词条的「名词-解释」规则策略挖掘结果生成「名词-解释」类样本文档数据。[0132]根据本公开的实施例,还可以通过对「属性-取值」类的高频key产生记忆,基于key同名百科页的挖掘结果构造「名词-解释」类样本文档数据,以避免模型过拟合,增强模型泛化性。[0133]根据本公开的实施例,在构造「非kv」类样本文档数据时,可以对非kv类切分了子类,对每一子类分别设计策略构造样本文档数据。不仅要保证数据完备性,将每一子类信号都传递给模型,而且要保证数据多样性,避免单一模式过拟合。[0134]例如,表3示意性示出了每类样本文档数据的构造方案表。[0135][0136][0137]表3[0138]根据本公开的实施例,对样本文档数据包括的键值对类和非键值对类样本文档数据构造完成之后,可以在通用领域构建测试集,可以通过抽样2.5%的样本文档数据构建测试集,用以检测模型迭代效果;在抽样2.5%的样本文档数据作为验证集,用以选择最优模型,从而实现对样本文档数据进行评估。[0139]例如,可以构建电力行业、金融行业和jg行业的行业测试数据集,以验证模型泛化能力。电力行业和金融行业的行业测试数据集可以来源于真实业务文档。例如,可以是从文档中以高召回率的方式解析并全人工标注kv类型和spo得到。jg行业的测试数据可以来源于百科网页。[0140]例如,表4示意性示出了各行业测试集数据统计表。[0141]行业数据来源文档数kv数量spo数量diffsdiffp电力南网标准文档635116633117金融中汇文档41381937329179jg百科2374769161344[0142]表4[0143]根据本公开的实施例,对目标文档进行解析,得到目标键值对,可以包括如下操作。[0144]对目标文档进行语句划分,得到目标语句。对目标语句进行键值对划分,得到目标键值对。[0145]根据本公告的实施例,目标文档可以为需要进行kv识别的段落文本。目标语句可以为符合语句划分策略的文本。[0146]根据本公开的实施例,对目标文档进行语句划分,可以包括:基于基础切分策略,对目标文档进行句粒度切分,对满足基础切分策略和句粒度切分的语句确定为目标语句。[0147]根据本公开的实施例,对目标语句进行键值对划分可以包括:基于kv粒度切分策略对目标语句进行键值对划分,对满足kv粒度策略的键值对确定为目标键值对。[0148]根据本公开的实施例,对目标文档进行语句划分,得到目标语句,可以包括如下操作。基于语句划分分隔符对目标文档进行语句划分,得到目标语句。[0149]根据本公开的实施例,语句划分分隔符包括第一级语句划分分隔符和第二级语句划分分隔符。[0150]根据本公开的实施例,基于语句划分分隔符对目标文档进行语句划分,得到目标语句,可以包括如下操作。[0151]基于第一级语句划分分隔符对目标文档进行语句划分,得到中间语句。在确定中间语句中存在第二级语句划分分隔符的情况下,对中间语句进行语句划分,得到目标语句。[0152]根据本公开的实施例,语句分隔符可以用于标识语句文本中文字分隔的位置。[0153]根据本公开的实施例,第一级语句划分分隔符可以为″。″,″!″,″!″,″?″,″?″。第二级语句划分分隔符可以为切分后的文本中含有0个或2个以上的冒号。[0154]根据本公开的实施例,可以基于基础切分策略和句粒度切分策略对目标文档进行语句划分。基于基础切分策略,对目标文档进行遍历之前,初始化一个符号栈,用以保存遍历过程中的左括号,遇到匹配的右括号即消去栈顶元素。初始化一个字符栈,用于保存遍历过程中的字符,在遇到分隔符且符号栈为空的时候加入。[0155]根据本公开的实施例,对目标文档的文本字符进行顺序遍历,如果遇到左括号,加入到符号栈中。如果遇到右括号,符号栈栈顶元素匹配,消去栈顶元素,左右括号完全匹配。如果遇到正常文本,加入到字符栈;如果遇到分隔符,且符号栈为空的时候加入字符栈,最后将结果加入到输出集合,作为中间语句。如果没有遇到右括号,则报错退出。[0156]根据本公开的实施例,对目标文档进行语句划分时,针对目标文档中的括号的匹配问题做了特殊处理,在左右括号完全匹配的情况下进行语句划分,否则报错退出。从而避免由于括号引入的噪音数据而造成切分结果错误。例如,针对“波音公司(英文名:boeing)”和冒号分隔符进行切分,如果对括号的匹配问题做特殊处理,则会切分出“英文名”和“boeing”;如果不做特殊处理,则会切分成“波音公司(英文名”和“boeing)”的错误切分结果。[0157]根据本公开的实施例,基于句粒度切分策略,调用基础切分策略,对目标文档进行语句划分,得到中间语句,在确定中间语句中存在第二级语句划分分隔符的情况下,可以为判断中间语句中是否存在0个或2个以上的冒号,如果存在,则基于第二级语句划分分割符对中间语句进行切分,得到目标语句。[0158]根据本公开的实施例,对目标语句进行键值对划分,得到目标键值对,可以包括:基于键值对划分分隔符对目标语句进行键值对划分,得到目标键值对,其中,键值对划分分隔符包括冒号。[0159]根据本公开的实施例,键值对划分分隔符可以为以半角/全角冒号作为分隔符。[0160]根据本公开的实施例,基于键值对划分分隔符对目标语句进行键值对划分可以包括:调用基础切分策略,在目标语句中左右括号完全匹配的情况下,对目标语句进行切分,并确定切分后的语句文本中存在以半角/全角冒号作为分隔符的情况下,对切分后的语句文本再进行依次kv粒度的切分,将切分后的语句文本切分为kv二元组,将该kv二元组确定为目标键值对。此外,可以基于句粒度切分策略的设定,可以默认一文本句中至多包括一个kv二元组。[0161]根据本公开的实施例,根据待处理文档,得到目标文档,可以包括如下操作。[0162]调用与待处理文档对应的文档处理接口。利用文档处理接口处理待处理文档,得到文档接口类对象。根据文档接口类对象,得到目标文档。[0163]根据本公开的实施例,文档处理接口为在对文档进行预处理时提供的一种通用的接口。[0164]根据本公开的实施例,利用文档处理接口对待处理文档进行解析,得到文档接口类对象。文档接口类对象可以包括文档表示类(即,document类)和文档段落表示类(即,node类)。[0165]根据本公开的实施例,document类结构中包括了meta留空字典,以便于将后续模块依赖的关键信息透传过去。例如,表5示意性示出了文档表示类结构属性信息表。[0166]属性名类型定义titlestr文档标题名rootnode文档根节点nodeslist[node]文档全量节点列表kvslist[kvpair]文档全量kv列表metadict其他信息[0167]表5[0168]根据本公开的实施例,node类(以换行符为单位)是文档树构成的基本元素。例如,表6示意性示出了node类结构的属性信息表。[0169][0170][0171]表6[0172]根据本公开的实施例,利用文档处理接口对待处理文档进行解析处理,得到文档接口类对象之后,基于文档接口类对象,确定目标文档。[0173]根据本公开的实施例,利用文档处理接口处理待处理文档,得到文档接口类对象,可以包括如下操作。[0174]利用与待处理文档对应的文档处理脚本处理待处理文档,得到文档接口类对象。[0175]根据本公开的实施例,可以将待处理文档和与待处理文档对应的文档处理脚本输入至文档预处理模块,利用文档处理脚本将待处理文档转换为接口类对象,得到文档接口类对象。[0176]根据本公开的实施例,文档接口类对象可以包括document类和node类中的至少之一。document类可以用于保存文档处理接口转化的文档对象。node类可以用于作为文档树构成的基本元素。文档树层级化的过程可以包括创建节点和创建边。上述均由文档处理脚本完成。[0177]根据本公开的实施例,文档处理脚本可以返回document类作为统一接口。原因在于:一方面,可以简化不同类型不同结构的输入文档的处理流程,用户只需要自行配置好层级解析脚本,并以配置的形式传入即可。另一方面,用户在层级解析脚本中有较高的自由度,这是由于当前的类设计包括了meta字段,可以支持用户在不修改代码的情况下,直接在脚本中传递关键字段到后续模块。[0178]图4示意性示出了根据本公开实施例的知识图谱生成方法的流程图。[0179]如图4所示,该方法400可以包括操作s410~s440。[0180]在操作s410,对目标文档进行实体识别,得到目标实体。[0181]在操作s420,利用上述键值生成方法,生成键值结果。[0182]在操作s430,根据键值结果和目标实体,生成知识单元。[0183]在操作s440,根据知识单元,生成知识图谱。[0184]根据本公开的实施例,目标实体可以为当前文档中键值对的所属实体。对目标文档进行实体识别可以包括利用实体抽提模块对目标文档进行实体识别,输出与键值对相关的目标实体。[0185]根据本公开的实施例,键值结果可以包括目标键值对和目标键值对类型,利用键值对生成方法,生成目标键值结果的方法流程在上述键值生成方法中详细说明,在此不再赘述。[0186]根据本公开的实施例,知识单元可以是由目标实体和键值结果组成,通过该键值结果中存储的目标键值对和目标键值对类型对该目标实体进行描述、限定或说明。[0187]根据本公开的实施例,在获取到目标文档中的目标实体和目标键值结果之后,通过实体关联模块对获取的键值结果和目标实体进行关联,完成spo的抽取,生成知识单元。在这一过程中,可以是一个目标实体对应多个键值对,也可以是,每个目标实体对应一个键值对。[0188]根据本公开的实施例,通过对目标文档进行实体识别,得到目标实体。对目标文档进行解析,得到目标键值对和目标键值对类型,根据目标键值对和目标键值对类型,生成键值结果。根据目标实体和键值结果生成知识单元,从而得到知识图谱,实现了通过确定键值对类型,支持各个行业的键值对生成需求,以实现在各行各业的待处理文档上复用,并结合与目标实体的关联,达到产出基础spo数据的目的。[0189]根据本公开的实施例,对目标文档进行实体识别,得到目标实体,可以包括如下操作。[0190]根据预定配置信息,确定实体识别区域和实体识别策略。根据实体识别策略,对目标文档的实体识别区域进行实体识别,得到目标实体。[0191]根据本公开的实施例,实体抽取模块可以标注kv相关的实体,由于实体抽取无法通用化,实体抽取采用预定配置信息实现,支持缓存、命名实体模型、规则识别等基础功能配置。[0192]根据本公开的实施例,预定配置信息可以为确定实体识别区域和实体识别策略的信息。实体识别区域可以为对目标文档进行目标实体识别的区域。实体识别策略可以为对目标文档进行目标实体识别的策略。[0193]根据本公开的实施例,基于实体识别策略,将目标文档的目标实体识别区域进行实体识别,得到目标文档中目标实体识别区域的目标实体。[0194]根据本公开的实施例,实体识别策略可以包括以下至少之一:命名实体识别策略、规则识别策略和黑名单识别策略。[0195]根据本公开的实施例,行业文档上的实体识别通常依赖基于行业语料训练的ner(namedentityrecognition,命名实体识别)模型。命名实体识别策略可以包括命名实体识别作用区域和命名实体识别接口地址。此外,在一些实体识别任务中,实体来源于人工标注的结果,因此,还可以设置缓存配置,可以包括缓存作用区和缓存文件地址。例如,表7示意性示出了命名实体识别策略的配置项。[0196][0197]表7[0198]根据本公开的实施例,相比ner接口或人工标注的缓存都需要大量行业数据积累、人力标注或训练的过程,不适用于行业冷启动阶段,而规则识别策略通过匹配规则的配置能支持数据快速产出及修正,可适应与行业冷启动阶段。例如,表8示意性示出了规则识别策略的配置项。[0199][0200]表8[0201]根据本公开的实施例,黑名单识别策略可以通过通过正则表达式规则的配置支持错误实体或错误类别实体的删除,以增加实体识别准确率。例如,表9示意性示出了黑名单识别策略的配置项。[0202][0203]表9[0204]根据本公开的实施例,根据键值结果和目标实体,生成知识单元,可以包括如下操作。[0205]在确定目标键值对类型是预期键值对类型的情况下,基于预定关联顺序和目标实体在目标文档的位置,将目标键值对和目标实体进行关联,得到知识单元。[0206]根据本公开的实施例,预期键值对类型可以为与目标实体相关联的键值对类型。预定关联顺序可以根据目标实体在目标文档的位置来进行关联的顺序。例如,位置可以包括语句、段落标题和章节标题等。位置具有与该位置对应的关联优先级。[0207]根据本公开的实施例,将目标键值对和目标实体进行关联可以包括:通过实体关联策略实现目标键值对和目标实体进行关联。实体关联策略支持关联顺序配置。例如,表10示意性示出了实体关联策略的配置项。[0208][0209]表10[0210]根据本公开的实施例,可以以jg行业的配置实例为示例:在ner配置方面,由于jg行业未部署ner服务,故通过离线缓存读入ner结果;为补充ner漏召实体,设置了title(即主题)区域的两个精准匹配规则进行实体抽取;为解决ner准确率问题,分别针对value(即取值)区域设置了去除bk(即百科)前缀的识别规则,针对类型区域设置了排除时间、部队、xx类型的规则。在实体关联阶段,其优先级由低到高分别为文档标题、标题层级和用户指定区域。[0211]根据本公开的实施例,可以以电力行业的配置实例为示例:在ner配置方面,通过api接口调用的方式获取ner结果;为补充ner漏召实体,设置了针对文档标题和标题层级的精准匹配及后缀匹配方式;在实体关联阶段,其优先级由低到高分别为文档标题、标题层级和用户指定区域。[0212]图5示意性示出了根据本公开实施例的生成知识图谱的示例示意图。[0213]如图5所示,示意图500中,利用文档处理脚本501处理待处理文档502,得到目标文档503。对目标文档503进行解析,得到目标键值对504。根据目标键值对504,确定目标键值对类型505。根据目标键值对504和目标键值对类型505,确定键值结果506。对目标文档503进行实体识别,得到目标实体507。根据键值结果506和目标实体507,生成知识单元508。根据知识单元508,生成知识图谱509。[0214]本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。[0215]以上仅是示例性实施例,但不限于此,还可以包括本领域已知的其他键值生成方法和知识图谱生成方法,只要能够提高抽取目标清晰度、行业复用性及开发效率即可。[0216]图6示意性示出了根据本公开实施例的键值生成装置的框图。[0217]如图6所示,键值生成装置600可以包括第一获取模块610、解析模块620、确定模块630和第二获取模块640。[0218]第一获取模块610,用于根据待处理文档,得到目标文档。[0219]解析模块620,用于对目标文档进行解析,得到目标键值对。[0220]确定模块630,用于根据目标键值对,确定目标键值对类型。[0221]第二获取模块640,用于根据目标键值对和目标键值对类型,得到针对待处理文档的键值结果。[0222]根据本公开的实施例,确定模块630可以包括提取子模块和第一确定子模块。[0223]提取子模块,用于对目标键值对进行特征提取,得到目标键值对特征向量。[0224]第一确定子模块,用于根据目标键值对特征向量,确定目标键值对类型。[0225]根据本公开的实施例,提取子模块可以包括对象编码单元、位置编码单元、片段编码单元和获取单元。[0226]对象编码单元,用于对目标键值对中的对象进行对象编码,得到目标对象特征向量。[0227]位置编码单元,用于对目标键值对进行位置编码,得到目标位置特征向量。[0228]片段编码单元,用于对目标键值对进行片段编码,得到目标片段特征向量。[0229]获取单元,用于根据目标对象特征向量、目标位置特征向量和目标片段特征向量,得到目标键值对特征向量。[0230]根据本公开的实施例,第一确定子模块可以包括创建单元、提取单元和确定单元。[0231]创建单元,用于根据目标键值对,创建预期特征数据。[0232]提取单元,用于对预期特征数据进行特征提取,得到预期特征向量。[0233]确定单元,用于根据目标键值对特征向量和预期特征向量,确定目标键值对类型。[0234]根据本公开的实施例,提取单元可以包括稠密编码子单元和分解子单元。[0235]稠密编码子单元,用于对预期特征数据进行稠密编码,得到稠密特征向量。[0236]分解子单元,用于对稠密特征向量进行因子分解,得到预期特征向量。[0237]根据本公开的实施例,确定模块630可以包括第一处理子模块。[0238]第一处理子模块,用于利用分类模型处理目标键值对,得到目标键值对类型。分类模型是利用样本文档数据训练深度学习模型得到的。[0239]根据本公开的实施例,深度学习模型包括第一语言模块。[0240]根据本公开的实施例,分类模型是基于第一损失函数,根据第一样本分类结果和样本标签值训练第一语言模块得到的。第一样本分类结果是利用第一语言模块处理样本文档数据得到的。[0241]根据本公开的实施例,深度学习模型包括第二语言模块和第一特征融合模块。[0242]根据本公开的实施例,分类模型是基于第二损失函数,根据第二样本分类结果和样本标签值训练第二语言模块和第一特征融合模块得到的。第二样本分类结果是根据第一预期样本特征向量和第一样本特征向量得到的。第一预期样本特征向量是利用第一特征融合模块处理预期样本特征数据得到的。预期样本特征数据是根据样本文档数据创建的。预期样本特征数据包括对象粒度、词性粒度和词类粒度中的至少之一粒度的特征数据。第一样本特征向量是利用第二语言模块处理样本文档数据得到的。[0243]根据本公开的实施例,深度学习模型包括第三语言模块和第一预训练模块。[0244]根据本公开的实施例,分类模型是基于第三损失函数,根据第三样本分类结果和第四样本分类结果训练第三语言模块得到的。第三样本分类结果是利用第三语言模块处理样本文档数据得到的。第四样本分类结果是利用第一预训练模块处理样本文档数据得到的。[0245]根据本公开的实施例,深度学习模型包括第四语言模块、第二特征融合模块和第二预训练模块。[0246]根据本公开的实施例,分类模型包括在根据输出值调整第四语言模块和第二特征融合模块的模型参数,直至满足预定结束条件的情况下得到的第四语言模块和第二特征融合模块。[0247]根据本公开的实施例,输出值是根据第一输出值和第二输出值确定的。第一输出值是基于第二第四损失函数,根据第五样本分类结果和样本标签值得到的。第二输出值是基于第三第五损失函数,根据第六样本分类结果和第七样本分类结果得到的。第五样本分类结果是根据第二预期样本特征向量和第二样本特征向量得到的。第二预期样本特征向量是利用第二特征融合模块处理预期样本特征数据得到的。预期样本特征数据是根据样本文档数据创建的。第二样本特征向量是利用第四语言模块处理样本文档数据得到的。第六样本分类结果是利用第四语言模块处理样本文档数据得到的。第七样本分类结果是利用第二预训练模块处理样本文档数据得到的。[0248]根据本公开的实施例,样本文档数据包括以下至少之一:样本键值对和非样本键值对。样本键值对包括以下至少之一:由属性和属性值形成的样本键值对和由名词和名称解释形成的样本键值对。[0249]根据本公开的实施例,解析模块620可以包括第一划分子模块和第二划分子模块。[0250]第一划分子模块,用于对目标文档进行语句划分,得到目标语句。[0251]第二划分子模块,用于对目标语句进行键值对划分,得到目标键值对。[0252]根据本公开的实施例,第一划分子模块可以包括第一划分单元。[0253]第一划分单元,用于基于语句划分分隔符对目标文档进行语句划分,得到目标语句。[0254]根据本公开的实施例,语句划分分隔符包括第一级语句划分分隔符和第二级语句划分分隔符。[0255]根据本公开的实施例,划分单元可以包括第一划分子单元和第二划分子单元。[0256]第一划分子单元,用于基于第一级语句划分分隔符对目标文档进行语句划分,得到中间语句。[0257]第二划分子单元,用于在确定中间语句中存在第二级语句划分分隔符的情况下,对中间语句进行语句划分,得到目标语句。[0258]根据本公开的实施例,第二划分子模块可以包括第二划分单元。[0259]第二划分单元,用于基于键值对划分分隔符对目标语句进行键值对划分,得到目标键值对。键值对划分分隔符包括冒号。[0260]根据本公开的实施例,第一获取模块610可以包括调用子模块、第二处理子模块和获取子模块。[0261]调用子模块,用于调用与待处理文档对应的文档处理接口。[0262]第二处理子模块,用于利用文档处理接口处理待处理文档,得到文档接口类对象。[0263]获取子模块,用于根据文档接口类对象,得到目标文档。[0264]根据本公开的实施例,第二处理子模块可以包括处理单元。[0265]处理单元,用于利用与待处理文档对应的文档处理脚本处理待处理文档,得到文档接口类对象。[0266]图7示意性示出了根据本公开实施例的知识图谱生成装置的框图。[0267]如图7所示,知识图谱生成装置700可以包括实体识别模块710、第一生成模块720、第二生成模块730和第三生成模块740。[0268]实体识别模块710,对目标文档进行实体识别,得到目标实体。[0269]第一生成模块720,用于上述键值生成装置,生成键值结果。[0270]第二生成模块730,用于根据键值结果和目标实体,生成知识单元。[0271]第三生成模块740,用于根据知识单元,生成知识图谱。[0272]根据本公开的实施例,实体识别模块710可以包括第二确定子模块和识别子模块。[0273]第二确定子模块,用于根据预定配置信息,确定实体识别区域和实体识别策略。[0274]识别子模块,用于根据实体识别策略,对目标文档的实体识别区域进行实体识别,得到目标实体。[0275]根据本公开的实施例,实体识别策略包括以下至少之一:命名实体识别策略、规则识别策略和黑名单识别策略。[0276]根据本公开的实施例,键值结果包括目标键值对和目标键值对类型。[0277]根据本公开的实施例,第二生成模块730可以包括关联子模块。[0278]关联子模块,用于在确定目标键值对类型是预期键值对类型的情况下,基于预定关联顺序和目标实体在目标文档的位置,将目标键值对和目标实体进行关联,得到知识单元。[0279]根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。[0280]根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上所述的方法。[0281]根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上所述的方法。[0282]根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上所述的方法。[0283]图8示意性示出了根据本公开实施例的适于实现键值生成方法和知识图谱生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。[0284]如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram803中,还可存储设备800操作所需的各种程序和数据。计算单元801、rom802以及ram803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。[0285]设备800中的多个部件连接至i/o接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。[0286]计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如键值生成方法和知识图谱生成方法。例如,在一些实施例中,键值生成方法和知识图谱生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram803并由计算单元801执行时,可以执行上文描述的键值生成方法和知识图谱生成方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行键值生成方法和知识图谱生成方法。[0287]本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。[0288]用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。[0289]在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。[0290]为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。[0291]可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。[0292]计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。[0293]应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。[0294]上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1