一种数据处理方法及相关设备与流程

文档序号:18740234发布日期:2019-09-21 01:41阅读:157来源:国知局
一种数据处理方法及相关设备与流程

本申请涉及数据处理领域,特别涉及一种数据处理方法及相关设备。



背景技术:

同义词表、分类表、编码系统、叙词表、本体、知识图谱等术语系统在信息资源描述、组织、管理、发现等方面的强大功能已经得到图书情报界、自然语言处理、医学信息学等相关领域的广泛认可。在过去的几十年中,由于各领域各类术语系统的编制与发展主要面向某一具体任务和应用环境需要,因而在概念表达、概念粒度、概念属性和概念间语义关系等内容设置、数据结构、存储格式等方面也各不相同,严重限制了使用不同术语系统的计算机应用程序之间的通信,进而限制了不同信息资源系统之间的互操作和共享利用。在不同术语系统之间进行互操作,方便使用不同术语系统的计算机应用程序之间进行无障碍理解和对话,已成为打破该限制核心技术。集成术语系统构建是实现不同术语系统互操作的一种,通过将某一特定主题领域的若干术语系统注册汇编在一起,以术语为基本单元,以概念为核心,以来源词表的原有关系为依托,通过对不同来源词表中表征同一概念的术语归并连接在一起,形成新的同义词组或准同义词组,并推荐出新的来源术语作为概念的优选形式;基于归并后形成的概念实现不同来源词表语义关联。这样的集成术语系统也称为多来源词网络系统,已构成各类信息资源互通互信的信息基础设施。

现在术语系统更新技术研究主要围绕在单一术语系统进行,涉及术语、概念、属性和关系更新,相关技术有未登录词识别、术语删除、同义词扩充等。关于集成术语系统的更新,主要集中在:1)新来源词表扩充,将一个新的词表通过格式转换、词汇相似度计算等方式添加到既有集成术语系统中;2)问题修正,通过关系不一致检查发现集成术语系统中隐藏问题并进行校正。现有来源词表的更新还主要依赖人工方式进行,且主要集中在术语和概念层面,对来源词表进行术语、概念增删改操作。但是,依赖人工更新方式,考虑来源词表数量和规模大小,时间和经济成本较高,无法满足效率和效益需要。



技术实现要素:

本申请实施例提供了一种数据处理方法及相关设备,可以实现集成术语系统中新版本来源词表中变化概念的自动更新,提高了集成术语系统版本更新效率,大大节约了时间成本,缩短集成术语系统概念升级与来源词表版本升级之间的时间差。

本申请实施例第一方面提供了一种数据处理方法,应用于集成术语系统,所述集成术语系统包括至少一个来源词表,其特征在于,包括:

将待更新的来源词表进行注册,以得到目标来源词表;

确定所述目标来源词表中的目标词表数据,所述目标词表数据包括已分配标识的术语以及已分配标识的概念;

将所述目标词表数据与第一来源词表的第一词表数据进行匹配,以确定所述目标来源词表相对于所述第一来源词表的目标匹配结果,所述第一来源词表为所述集成术语系统中与所述目标来源词表对应的来源词表;

根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新。

可选地,所述将所述目标词表数据与第一来源词表的第一词表数据进行匹配,以确定所述目标来源词表相对于所述第一来源词表的目标匹配结果,包括:

将目标术语与所述第一词表数据中的术语进行字符串匹配,以得到术语匹配结果,所述术语匹配结果包括:新增术语结果、未变化术语结果和/或删除术语结果,所述目标术语为所述目标词表数据中的任意一个术语;

根据所述术语匹配结果将第一概念同义词集合与所述第一词表数据中的概念同义词集合进行字符串匹配,以确定概念同义词集合的匹配结果,所述概念同义词集合的匹配结果包括:新增概念结果、概念同义词集合未变化结果、删除概念结果和/或概念同义词集合变化结果,所述第一概念同义词集合为所述目标词表数据中的任意一个概念同义词集合;

根据所述术语匹配结果以及所述概念同义词集合的匹配结果将第一概念优选术语与所述第一词表数据中的概念优选术语进行字符串匹配,以确定概念优选术语的匹配结果,所述概念优选术语的匹配结果包括:概念优选术语未变化结果和/或概念优选术语变化结果,所述第一概念优选术语为所述目标词表数据中的任意一个概念优选术语;

其中,所述术语匹配结果、所述概念同义词集合的匹配结果以及所述概念优选术语的匹配结果均属于所述目标匹配结果。

可选地,所述根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新包括:

当所述术语匹配结果为所述删除术语结果时,获取所述删除术语结果对应的术语;

将所述删除术语结果对应的术语删除;

当所述概念同义词集合的匹配结果为所述删除概念结果时,获取所述删除概念结果对应的概念同义词集合;

将所述删除概念结果对应的概念同义词集合删除。

可选地,所述根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新包括:

当所述术语匹配结果为新增术语结果,且所述概念同义词集合的匹配结果为所述概念同义词集合变化结果时,获取所述新增术语结果对应的至少一个术语;

判断在所述集成术语系统中存在与所述第一术语相匹配的第二概念同义词集合,所述第一术语为所述至少一个术语中的任意一个术语;

若是,则将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入所述第二概念同义词集合。

可选地,当在所述集成术语系统不存在所述第二概念同义词集合时,所述方法还包括:

当所述概念优选术语的匹配结果为所述概念优选术语变化结果时,获取所述集成术语系统中概念优选术语变化的N个概念同义词集合,其中N≥2;

计算所述第一术语与所述N个概念同义词集合中的概念优选术语的相似度;

根据所述相似度将所述第一术语导入所述N个概念同义词集合;

当所述概念优选术语的匹配结果为所述概念优选术语未发生变化结果时,将所述第一术语导入第一概念同义词集合,所述第一概念同义词集合为所述概念优选术语未发生变化结果对应的概念同义词集合中与所述第一术语相匹配的概念同义词集合。

可选地,所述根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新包括:

当所述术语匹配结果为所述新增术语结果,且所述概念同义词集合的匹配结果为所述新增概念结果时,计算第一优选术语与所述集成术语系统中的M个优选术语的M个相似度,其中所述第一优选术语为所述第一术语所在的概念同义词集合中的优选术语,且所述第一优选术语所属的概念同义词集合与所述M个优选术语所属的概念同义词集合属于相同领域,M≥2;

根据所述M个相似度将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入。

可选地,所述根据所述M个相似度将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入包括:

判断所述M个相似度中的最大相似度是否大于预设阈值;

若是,则将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入所述最大相似度对应的概念同义词集合;

若否,则将所述第一术语以及与所述第一术语互为同义词的术语确定为新概念同义词集合。

可选地,所述确定所述目标来源词表中的目标词表数据包括:

提取所述目标来源词表中的词表数据;

调用标识符分配函数为所述词表数据中的术语和概念分别分配标识符,以得到所述目标词表数据。

本申请实施例第二方面提供了一种数据处理装置,应用于集成术语系统,所述集成术语系统包括至少一个来源词表,包括:

注册单元,用于将待更新的来源词表进行注册,以得到目标来源词表;

确定单元,用于确定所述目标来源词表中的目标词表数据,所述目标词表数据包括已分配标识的术语以及已分配标识的概念;

匹配单元,用于将所述目标词表数据与第一来源词表的第一词表数据进行匹配,以确定所述目标来源词表相对于所述第一来源词表的目标匹配结果,所述第一来源词表为所述集成术语系统中与所述目标来源词表对应的来源词表;

更新单元,用于根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新。

可选地,所述匹配单元具体用于:

将目标术语与所述第一词表数据中的术语进行字符串匹配,以得到术语匹配结果,所述术语匹配结果包括:新增术语结果、未变化术语结果和/或删除术语结果,所述目标术语为所述目标词表数据中的任意一个术语;

根据所述术语匹配结果将第一概念同义词集合与所述第一词表数据中的概念同义词集合进行字符串匹配,以确定概念同义词集合的匹配结果,所述概念同义词集合的匹配结果包括:新增概念结果、概念同义词集合未变化结果、删除概念结果和/或概念同义词集合变化结果,所述第一概念同义词集合为所述目标词表数据中的任意一个概念同义词集合;

根据所述术语匹配结果以及所述概念同义词集合的匹配结果将第一概念优选术语与所述第一词表数据中的概念优选术语进行字符串匹配,以确定概念优选术语的匹配结果,所述概念优选术语的匹配结果包括:概念优选术语未变化结果和/或概念优选术语变化结果,所述第一概念优选术语为所述目标词表数据中的任意一个概念优选术语;

其中,所述术语匹配结果、所述概念同义词集合的匹配结果以及所述概念优选术语的匹配结果均属于所述目标匹配结果。

可选地,所述更新单元具体用于:

当所述术语匹配结果为所述删除术语结果时,获取所述删除术语结果对应的术语;

将所述删除术语结果对应的术语删除;

当所述概念同义词集合的匹配结果为所述删除概念结果时,获取所述删除概念结果对应的概念同义词集合;

将所述删除概念结果对应的概念同义词集合删除。

可选地,所述更新单元还具体用于:

当所述术语匹配结果为新增术语结果,且所述概念同义词集合的匹配结果为所述概念同义词集合变化结果时,获取所述新增术语结果对应的至少一个术语;

判断在所述集成术语系统中存在与所述第一术语相匹配的第二概念同义词集合,所述第一术语为所述至少一个术语中的任意一个术语;

若是,则将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入所述第二概念同义词集合。

可选地,所述更新单元还具体用于:

当在所述集成术语系统不存在所述第二概念同义词集合,且当所述概念优选术语的匹配结果为所述概念优选术语变化结果时,获取所述集成术语系统中概念优选术语变化的N个概念同义词集合,其中N≥2;

计算所述第一术语与所述N个概念同义词集合中的概念优选术语的相似度;

根据所述相似度将所述第一术语导入所述N个概念同义词集合;

当所述概念优选术语的匹配结果为所述概念优选术语未发生变化结果时,将所述第一术语导入第一概念同义词集合,所述第一概念同义词集合为所述概念优选术语未发生变化结果对应的概念同义词集合中与所述第一术语相匹配的概念同义词集合。

可选地,所述更新单元具体用于:

当所述术语匹配结果为所述新增术语结果,且所述概念同义词集合的匹配结果为所述新增概念结果时,计算第一优选术语与所述集成术语系统中的M个优选术语的M个相似度,其中所述第一优选术语为所述第一术语所在的概念同义词集合中的优选术语,且所述第一优选术语所属的概念同义词集合与所述M个优选术语所属的概念同义词集合属于相同领域,M≥2;

根据所述M个相似度将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入。

可选地,所述更新单元根据所述M个相似度将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入包括:

判断所述M个相似度中的最大相似度是否大于预设阈值;

若是,则将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入所述最大相似度对应的概念同义词集合;

若否,则将所述第一术语以及与所述第一术语互为同义词的术语确定为新概念同义词集合。

可选地,所述确定单元具体用于:

提取所述目标来源词表中的词表数据;

调用标识符分配函数为所述词表数据中的术语和概念分别分配标识符,以得到所述目标词表数据。

本申请实施例第三方面一种计算机可读存储介质,其特征在于,包括指令,当所述计算机可读存储介质在计算机上运行时,使得计算机执行上述各方面的所述数据处理方法的步骤。

本申请实施例第四方面提供了一种包含指令的计算机程序产品,当所述包含指令的计算机程序产品在计算机上运行时,使得计算机执行上述各方面的数据处理方法的步骤。

综上所述,可以看出,可以将该目标来源词表与第一来源词表中的术语以及概念进行匹配得到目标匹配结果,并根据该目标匹配结果对集成术语系统中的词表数据进行更新,能够在遵循集成术语系统既有规则的基础上,实现集成术语系统中新版本来源词表中变化概念的自动更新,提高了集成术语系统版本更新效率,大大节约了时间成本,缩短集成术语系统概念升级与来源词表版本升级之间的时间差。

附图说明

图1为本申请实施例提供的数据处理方法的一个实施例示意图;

图2为本申请实施例提供的数据处理装置的虚拟结构示意图;

图3为本申请实施例提供的服务器的硬件结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当结果下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面从数据处理装置的角度对本申请实施例提供的数据处理方法进行说明,该数据处理装置可以为服务器,也可以为服务器中的服务单元,具体不做限定。

首先对本申请实施例中的术语进行说明:

术语系统:用于组织信息,促进知识管理的各种类型的概念或术语体系。

集成术语系统:以术语为基本单元,以概念为核心,以来源词表的原有关系为依托,通过概念建立实现不同来源词表语义关联的词网络系统。

概念:是一组思想、对象组成的类,是术语系统的基本元素。一般由一个术语或一组同义词描述。

术语:用于标记概念的词或词组。

同义词:在一般语境中,词义相同而词形不同的两个或多个术语。

优选术语:一般语境下,表征同一概念的一组同义词中使用频率较高的术语,也是概念的正式术语表达。

非优选术语:表征同一概念的其他同义词作为概念的非优选术语。

来源词表:能够用于构建集成术语系统的所有来源术语系统,包括本体、叙词表、分类表、同义词表、词典、编码、关键词、用户检索词等。

来源术语:来源词表中的术语,与来源词表紧密相关。

来源概念:某一来源词表中的概念,与来源词表紧密相关。

来源术语标识(Identification,ID):来源词表赋予本词表内术语的唯一标识符。具有永久性和唯一性。

来源概念ID:来源词表赋予本词表内概念的唯一标识符。具有永久性和唯一性。

请参阅图1,图1为本申请实施例提供的数据处理方法的实施例示意图,该方法应用于集成术语系统,该集成术语系统包括至少一个来源词表,该方法包括:

101、将待更新的来源词表进行注册,以得到目标来源词表。

本实施例中,数据处理装置可以将一部来源词表中的多个版本作为同一个来源词表系列,并把每个版本的来源词表都当作一个独立的术语系统存入集成术语系统的来源词表库中,并通过GetSourceCode函数给不同来源词表的不同版本均分配一个唯一标识符SourceIDCode。唯一标识符由两部分构成:“来源词表序列码”和“版本流水号”。同一来源系列的不同版本的“来源词表序列码”相同,“版本流水号”按登记时间顺序,从小到大,各不相同。也就是说,数据处理装置可以首先获取待更新的来源词表,之后通过GetSourceCode函数对待更新的来源词表进行注册,以得到分配来源词表序列编码以及版本流水号的目标来源词表。

需要说明的是,上述通过GetSourceCode函数给不同来源词表不同版本均分配一个唯一标识符SourceIDCode,仅为举例说明,当然也还可以有其他方式为目标来源词表分配唯一标识符,具体不做限定。

102、确定目标来源词表中的目标词表数据。

本实施例中,数据处理装置可以提取目标来源词表中的词表数据,并调用标识符分配函数为词表数据中的术语和概念分别分配标识符,以得到目标词表数据。具体的,数据处理装置可以通过词表导入向导提取目标来源词表的全部数据,当目标来源词表中的术语和概念未分配唯一标识符时,调用来源术语唯一标识符分配函数GetSourceTermID为目标来源词表中的术语分配来源术语ID,以及调用来源概念唯一标识符分配函数GetSourceConceptID为目标来源词表中的概念分配来源概念ID。

需要说明的是,上述所说的调用来源术语唯一标识符分配函数GetSourceTermID和来源概念唯一标识符分配函数GetSourceConceptID为目标来源词表中的术语和概念分配来源术语ID和来源概念ID,仅为举例说明,当然也还可以有其他的分配方式,具体不做限定。

103、将目标词表数据与第一来源词表的第一词表数据进行匹配,以确定目标来源词表相对于第一来源词表的目标匹配结果。

本实施例中,数据处理装置可以将目标词表数据与第一来源词表的第一词表数据进行匹配,以确定目标来源词表相对于第一来源词表的目标匹配结果,其中,该第一来源词表为集成术语系统中与目标来源词表对应的来源词表。可以理解的是,该第一来源词表与该目标来源词表为同一系列的不同版本的来源词表,且该目标来源词表的版本为新版本。

需要说明的是,该目标匹配结果包括术语匹配结果、概念同义词集合的匹配结果以及概念优选术语的匹配结果,下面对如何进行字符串匹配得到目标匹配结果进行说明:

步骤A、将目标术语与第一词表数据中的术语进行字符串匹配,以得到术语匹配结果,术语匹配结果包括:新增术语结果、未变化术语结果和/或删除术语结果,目标术语为目标词表数据中的任意一个术语。

本步骤中,数据处理装置可以对目标来源词表与第一来源词表中的术语进行字符串精确匹配,确定术语匹配结果,具体的,数据处理装置可以通过CompareSourceTermString函数基于字符串精确匹配对目标术语与第一来源词表中的术语进行匹配,得到三种可能的匹配结果:新增术语结果、未变化术语结果和/或删除术语结果,下面对三种可能的匹配结果进行说明:

1、新增术语结果对应的术语New term,即第一来源词表中不存在但是目标来源词表中存在的术语。

2、未变化术语结果对应的术语Unchanged term,即第一来源词表和目标来源词表中同时存在的术语;

3、删除术语结果对应的术语Deleted term,即第一来源词表中存在但是目标来源词表中不存在的术语。在得到目标来源词表与第一来源词表的术语匹配结果之后,并将将该匹配结果输出到文件CompareSourceTermResult表中。其中,该CompareSourceTermResult表设有元数据:SourceIDCode(来源词表ID)、SourceTermID(来源词表术语ID)、TermString(术语字符串)、TermEdit(术语变更操作)。SourceIDCode取值为目标来源词表的唯一标识符,SourceTermID取值为目标来源词表中的来源术语ID,TermString取值目标术语的字符串,TermEdit取值为术语匹配结果的三种可能匹配结果:New,Unchanged和/或Deleted。

步骤B、根据术语匹配结果将第一概念同义词集合与第一词表数据中的概念同义词集合进行字符串匹配,以确定概念同义词集合的匹配结果,概念同义词集合的匹配结果包括:新增概念结果、概念同义词集合未变化结果、删除概念结果和/或概念同义词集合变化结果,第一概念同义词集合为目标词表数据中的任意一个概念同义词集合。

本步骤中,数据处理装置可以结合术语匹配结果,通过CompareSourceConceptTermString函数对目标来源词表中的概念同义词集合与第一来源词表中的概念同义词集合进行字符串精确匹配(此处的匹配,是将目标来源词表中的任意一个概念同义词集合中的术语分别与第一来源词表中的概念同义词集合中的术语进行对比,得到目标来源词表中的术语相对于第一来源词表中的术语的变化情况,该概念同义词集合中又包括至少两个互为同义词的术语,则可以通过术语的变化情况确定概念同义词集合的变化情况),获得概念同义词集合的匹配结果,该概念同义词集合的匹配结果包括新增概念结果、概念同义词集合未变化结果、删除概念结果和/或概念同义词集合变化结果,下面分别进行说明:

1、新增概念结果New concept,即第一来源词表中没有出现但目标来源词表中出现的概念,也就是说目标来源词表的概念对应的同义词集合中的术语均为新增术语;

2、概念同义词集合未变化结果Unchanged Synonym,即在第一来源词表和目标来源词表中同时存在的概念,也就是说目标来源词表的概念对应的同义词集合中的术语均为未变化术语;

3、删除概念结果Deleted concept,即第一来源词表中有但是目标来源词表中没有的概念,也就是说第一来源词表的概念对应的同义词集合中的术语均为删除术语;

4、概念同义词集合变化结果Changed Synonym,即相对第一来源词表中的概念,目标来源词表的概念对应的同义词集合中的术语既有未变化术语,又含有“新术语”或“删除术语”。将该概念同义词集合的匹配结果输出到文件CompareSourceConceptResult表中,其中,该CompareSourceConceptResult表设有元数据:SourceIDCode(来源词表ID)、SourceConceptID(来源概念ID)、SourceTermID(来源词表术语ID)、TermStrings(术语字符串)、TermEdit(术语表更操作)、ConceptSynonymEdit(概念变更操作),其中,SourceIDCode取值为目标来源词表的唯一标识符,SourceConceptID取值为步骤102中为目标来源词表中的概念分配的来源概念ID中的来源概念ID,SourceTermID取值为步骤102中为目标来源词表中的术语分配的来源术语ID,TermStrings目标术语的字符串,TermEdit取值为目标术语的SourceTermID在步骤A中的术语匹配结果对应的CompareSourceTermResult表中的取值,ConcepSynonymtEdit取值为步骤B中的概念同义词的匹配结果:New,Unchanged,Changed和/或Deleted。

步骤C、根据术语匹配结果以及概念同义词集合的匹配结果将第一概念优选术语与第一词表数据中的概念优选术语进行字符串匹配,以确定概念优选术语的匹配结果,概念优选术语的匹配结果包括:概念优选术语未变化结果和/或概念优选术语变化结果,第一概念优选术语为目标词表数据中的任意一个概念优选术语。

本步骤中,结合上述术语匹配结果和概念同义词集合的匹配结果,通过CompareSourceConcept PreferredTerm函数将目标来源词表中的概念优选术语与第一来源词表中的概念优选术语进行字符串精确匹配,获得目标来源词表中的概念优选术语的匹配结果:概念优选术语未变化结果和/或概念优选术语变化结果,也就是说,可以将目标来源词表的概念优选术语分别于第一来源词表中的概念优选术语进行比较,以得到概念优选术语的匹配结果,下面分别进行说明:

1、概念优选术语未变化结果Unchanged PreferredTerm,即上述三类概念同义词集合的优选术语未发生变化,该三类概念包括新增概念、概念同义词集合未发生变化以及概念同义词集合发生变化;

2、概念优选术语发生变化结果Changed PreferredTerm,即上述三类概念同义词集合的优选术语发生变化,该三类概念包括新增概念、概念同义词集合未发生变化以及概念同义词集合发生变化。

将概念优选术语未变化结果以及概念优选术语发生变化结果输出到文件CompareSourcePreferredTerm表中,其中,该CompareSourceConceptResult表设有元数据:SourceIDCode(来源词表ID)、SourceConceptID(来源概念ID)、PreferredTermEdit(优选术语变更操作)、PreferredTermID(优选术语ID)。SourceIDCode(来源词表ID)取值目标来源词表的唯一标识符,SourceConceptID为步骤B中的来源概念ID。概念同义词集合未变化结果和概念同义词集合变化结果PreferredTermEdit步骤2中得到的两个匹配结果:Unchanged或Changed,新增概念对应的PreferredTermEdit统一取值New。PreferredTermID取值目标来源词表中概念优选术语对应的SourceTermID。

104、根据目标匹配结果以及预设规则对集成术语系统中的词表数据进行更新。

本实施例中,可以根据目标匹配结果以及预设规则对集成术语系统中的词表数据进行更新。

在一个实施例中,根据目标匹配结果以及预设规则对集成术语系统中的词表数据进行更新包括:

当术语匹配结果为删除术语结果时,获取删除术语结果对应的术语;

将删除术语结果对应的术语删除;

当概念同义词集合的匹配结果为删除概念结果时,获取删除概念结果对应的概念同义词集合;

将删除概念结果对应的概念同义词集合删除。

也就是说,删除CompareSourceTermResult表中TermEdit取值为Deleted的术语及其相关属性和关系(该相关属性和关系为该术语的ID、该术语所属的来源词表的ID以及该术语对应的概念等等关系),同时删除CompareSourceConceptResult表中ConcepSynonymtEdit取值为Deleted的术语及其相关属性和关系。

在一个实施例中,根据目标匹配结果以及预设规则对集成术语系统中的词表数据进行更新包括:

当术语匹配结果为新增术语结果,且概念同义词集合的匹配结果为概念同义词集合变化结果时,获取新增术语结果对应的至少一个术语;

判断在集成术语系统中存在与第一术语相匹配的第二概念同义词集合,第一术语为至少一个术语中的任意一个术语;

若是,则将第一术语以及至少一个术语中与第一术语互为同义词的术语导入所述第二概念同义词集合。

也就是说,当术语匹配结果为新增术语结果(第一术语在CompareSourceTermResult中TermEdit的取值为NEW),且概念同义词集合的匹配结果为概念同义词集合变化结果(第一术语所在来源概念的CompareSourcePreferredTerm表中ConceptSynonymEdit取值为<Changed>)时,判断第一术语在集成术语系统是否存在相匹配的第二概念同义词集合,若是则将该第一术语以及至少一个术语中与该第一术语互为同义词的术语导入该第二概念同义词集合。

在一个实施例中,当在集成术语系统不存在第二概念同义词集合,且概念优选术语的匹配结果为概念优选术语变化结果时,获取集成术语系统中概念优选术语变化的N个概念同义词集合,其中N≥2;

计算第一术语与N个概念同义词集合中的概念优选术语的相似度;

根据相似度将所述第一术语导入N个概念同义词集合;

当概念优选术语的匹配结果为概念优选术语未发生变化结果时,将第一术语导入第一概念同义词集合,第一概念同义词集合为概念优选术语未发生变化结果对应的概念同义词集合中与第一术语相匹配的概念同义词集合。

也就是说,当在集成术语系统不存在第二概念同义词集合,判断该概念优选术语的匹配结果是否为概念优选术语变化结果,当该概念优选术语的匹配结果未概念优选术语变化结果(第一术语所在的概念同义词集合的优选术语的CompareSourcePreferredTerm表中PreferredTermEdit的取值为<Changed>)时,获取集成术语系统中概念优选术语变化的N个概念同义词集合,并通过Dice系数算法计算第一术语与N个概念同义词集合中的概念优选术语的相似度(当然也还可以通过其他的方式确定相似度,此处仅为举例说明,并不代表对其的限定),并根据相似度将第一输入导入N个概念同义词集合(此处的导入,可以将第一术语导入相似度最大的优选术语所在的概念同义词集合中);当该概念优选术语的匹配结果未概念优选术语未发生变化结果(第一术语所在的概念同义词集合的优选术语的CompareSourcePreferredTerm表中PreferredTermEdit的取值为<Unchanged>)时,可以将该第一术语导入第一概念同义词集合中,该第一概念同义词集合为与第一术语互为同义词的概念优选术语对应的概念同义词集合,且该第一概念同义词集合包含于概念优选术语未发生变化结果对应的概念同义词集合。

在一个实施例中,根据目标匹配结果以及预设规则对集成术语系统中的词表数据进行更新包括:

当术语匹配结果为新增术语结果,且概念同义词集合的匹配结果为新增概念结果时,计算第一优选术语与集成术语系统中的M个优选术语的M个相似度,其中第一优选术语为第一术语所在的概念同义词集合中的优选术语,且第一优选术语所属的概念同义词集合与M个优选术语所属的概念同义词集合属于相同领域,M≥2;

根据M个相似度将第一术语以及至少一个术语中与所述第一术语互为同义词的术语导入。

需要说明的是,此处可以通过Dice算法计算第一优选术语与集成术语系统中的M个优选术语的M个相似度,并根据M个相似度将第一术语以及至少一个术语中与第一术语互为同义词的术语导入。

在一个实施例中,根据M个相似度将第一术语以及至少一个术语中与第一术语互为同义词的术语导入包括:

判断M个相似度中的最大相似度是否大于预设阈值;

若是,则将第一术语以及至少一个术语中与第一术语互为同义词的术语导入最大相似度对应的概念同义词集合;

若否,则将第一术语以及与第一术语互为同义词的术语确定为新概念同义词集合。

也就是说,此处可以预设设置的一个阈值,并判断M个相似度中的最大相似度是否大于该预设阈值,当该最大相似度大于该预设阈值是,则将该第一术语以及至少一个术语中与第一术语互为同义词的术语导入最大相似度对应的概念同义词集合中,当该最大相似度小于该预设阈值时,则将该第一术语以及与第一术语互为同义词的术语作为一个新的该概念同义词集合。

需要说明的是,上述的各个更新方式中,按如下策略对集成术语系统中目标来源词表涉及概念(假设该设计概念的优选术语为X)的优选术语进行更新:

若该概念X为新增的概念,则按照集成术语系统既有概念优选术语推荐算法重新推荐优选术语;

如果概念X不是新增的概念,且该概念X的优选术语没有因为更新而发生变化,那么保持原有优选术语不变;

如果概念X不是新概念,且优选术语因为本次更新被删除,那么按照集成术语系统既有概念优选术语推荐算法重新推荐优选术语。

需要说明的是,在对目标来源词表中的术语以及概念更新完成之后,可以按照集成术语系统对概念的来源属性和关系的继承原则,根据来源术语ID和来源概念ID将目标来源词表中的概念属性和关系继承到集成术语系统中,此处具体不限定如何继承的。

综上所述,可以看出,可以将该目标来源词表与第一来源词表中的术语以及概念进行匹配得到目标匹配结果,并根据该目标匹配结果对集成术语系统中的词表数据进行更新,能够在遵循集成术语系统既有规则的基础上,实现集成术语系统中新版本来源词表中变化概念的自动更新,提高了集成术语系统版本更新效率,大大节约了时间成本,缩短集成术语系统概念升级与来源词表版本升级之间的时间差。

上面对本申请实施例提供的数据处理方法进行说明,下面对本申请实施例提供的数据处理装置进行说明。

请参阅图2,图2为本申请实施例提供的数据处理装置的结构示意图,该数据处理装置应用于集成术语系统,所述集成术语系统包括至少一个来源词表,包括:

注册单元201,用于将待更新的来源词表进行注册,以得到目标来源词表;

确定单元202,用于确定所述目标来源词表中的目标词表数据,所述目标词表数据包括已分配标识的术语以及已分配标识的概念;

匹配单元203,用于将所述目标词表数据与第一来源词表的第一词表数据进行匹配,以确定所述目标来源词表相对于所述第一来源词表的目标匹配结果,所述第一来源词表为所述集成术语系统中与所述目标来源词表对应的来源词表;

更新单元204,用于根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新。

可选地,所述匹配单元203具体用于:

将目标术语与所述第一词表数据中的术语进行字符串匹配,以得到术语匹配结果,所述术语匹配结果包括:新增术语结果、未变化术语结果和/或删除术语结果,所述目标术语为所述目标词表数据中的任意一个术语;

根据所述术语匹配结果将第一概念同义词集合与所述第一词表数据中的概念同义词集合进行字符串匹配,以确定概念同义词集合的匹配结果,所述概念同义词集合的匹配结果包括:新增概念结果、概念同义词集合未变化结果、删除概念结果和/或概念同义词集合变化结果,所述第一概念同义词集合为所述目标词表数据中的任意一个概念同义词集合;

根据所述术语匹配结果以及所述概念同义词集合的匹配结果将第一概念优选术语与所述第一词表数据中的概念优选术语进行字符串匹配,以确定概念优选术语的匹配结果,所述概念优选术语的匹配结果包括:概念优选术语未变化结果和/或概念优选术语变化结果,所述第一概念优选术语为所述目标词表数据中的任意一个概念优选术语;

其中,所述术语匹配结果、所述概念同义词集合的匹配结果以及所述概念优选术语的匹配结果均属于所述目标匹配结果。

可选地,所述更新单元204具体用于:

当所述术语匹配结果为所述删除术语结果时,获取所述删除术语结果对应的术语;

将所述删除术语结果对应的术语删除;

当所述概念同义词集合的匹配结果为所述删除概念结果时,获取所述删除概念结果对应的概念同义词集合;

将所述删除概念结果对应的概念同义词集合删除。

可选地,所述更新单元204还具体用于:

当所述术语匹配结果为新增术语结果,且所述概念同义词集合的匹配结果为所述概念同义词集合变化结果时,获取所述新增术语结果对应的至少一个术语;

判断在所述集成术语系统中存在与所述第一术语相匹配的第二概念同义词集合,所述第一术语为所述至少一个术语中的任意一个术语;

若是,则将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入所述第二概念同义词集合。

可选地,所述更新单元204还具体用于:

当在所述集成术语系统不存在所述第二概念同义词集合,且当所述概念优选术语的匹配结果为所述概念优选术语变化结果时,获取所述集成术语系统中概念优选术语变化的N个概念同义词集合,其中N≥2;

计算所述第一术语与所述N个概念同义词集合中的概念优选术语的相似度;

根据所述相似度将所述第一术语导入所述N个概念同义词集合;

当所述概念优选术语的匹配结果为所述概念优选术语未发生变化结果时,将所述第一术语导入第一概念同义词集合,所述第一概念同义词集合为所述概念优选术语未发生变化结果对应的概念同义词集合中与所述第一术语相匹配的概念同义词集合。

可选地,所述更新单元204具体用于:

当所述术语匹配结果为所述新增术语结果,且所述概念同义词集合的匹配结果为所述新增概念结果时,计算第一优选术语与所述集成术语系统中的M个优选术语的M个相似度,其中所述第一优选术语为所述第一术语所在的概念同义词集合中的优选术语,且所述第一优选术语所属的概念同义词集合与所述M个优选术语所属的概念同义词集合属于相同领域,M≥2;

根据所述M个相似度将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入。

可选地,所述更新单元204根据所述M个相似度将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入包括:

判断所述M个相似度中的最大相似度是否大于预设阈值;

若是,则将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入所述最大相似度对应的概念同义词集合;

若否,则将所述第一术语以及与所述第一术语互为同义词的术语确定为新概念同义词集合。

可选地,所述确定单元202具体用于:

提取所述目标来源词表中的词表数据;

调用标识符分配函数为所述词表数据中的术语和概念分别分配标识符,以得到所述目标词表数据。

本实施例中的数据处理装置的各单元之间的交互方式如前述图1所示实施例中的描述,具体此处不再赘述。

综上所述,可以看出,可以将该目标来源词表与第一来源词表中的术语以及概念进行匹配得到目标匹配结果,并根据该目标匹配结果对集成术语系统中的词表数据进行更新,能够在遵循集成术语系统既有规则的基础上,实现集成术语系统中新版本来源词表中变化概念的自动更新,提高了集成术语系统版本更新效率,大大节约了时间成本,缩短集成术语系统概念升级与来源词表版本升级之间的时间差。

请参阅图3,图3是本申请实施例提供的一种服务器的结构示意图,该服务器300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在服务器300上执行存储介质330中的一系列指令操作。

服务器300还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。

上述实施例中由数据处理装置所执行的步骤可以基于该图3所示的服务器结构。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本申请实施例还提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述数据处理方法。

本申请实施例还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述数据处理方法。

本申请实施例还提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:

将待更新的来源词表进行注册,以得到目标来源词表;

确定所述目标来源词表中的目标词表数据,所述目标词表数据包括已分配标识的术语以及已分配标识的概念;

将所述目标词表数据与第一来源词表的第一词表数据进行匹配,以确定所述目标来源词表相对于所述第一来源词表的目标匹配结果,所述第一来源词表为所述集成术语系统中与所述目标来源词表对应的来源词表;

根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新。

在具体实施过程中,处理器执行程序时可以实现图1对应的实施例中任一实施方式。

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,执行如下步骤:

将待更新的来源词表进行注册,以得到目标来源词表;

确定所述目标来源词表中的目标词表数据,所述目标词表数据包括已分配标识的术语以及已分配标识的概念;

将所述目标词表数据与第一来源词表的第一词表数据进行匹配,以确定所述目标来源词表相对于所述第一来源词表的目标匹配结果,所述第一来源词表为所述集成术语系统中与所述目标来源词表对应的来源词表;

根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新。

在具体实施过程中,执行计算机程序产品时可以实现图1对应的实施例中任一实施方式。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的结果下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1