一种数据处理方法及相关设备与流程

文档序号:18740234发布日期:2019-09-21 01:41阅读:来源:国知局

技术特征:

1.一种数据处理方法,应用于集成术语系统,所述集成术语系统包括至少一个来源词表,其特征在于,包括:

将待更新的来源词表进行注册,以得到目标来源词表;

确定所述目标来源词表中的目标词表数据,所述目标词表数据包括已分配标识的术语以及已分配标识的概念;

将所述目标词表数据与第一来源词表的第一词表数据进行匹配,以确定所述目标来源词表相对于所述第一来源词表的目标匹配结果,所述第一来源词表为所述集成术语系统中与所述目标来源词表对应的来源词表;

根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新。

2.根据权利要求1所述的方法,其特征在于,所述将所述目标词表数据与第一来源词表的第一词表数据进行匹配,以确定所述目标来源词表相对于所述第一来源词表的目标匹配结果,包括:

将目标术语与所述第一词表数据中的术语进行字符串匹配,以得到术语匹配结果,所述术语匹配结果包括:新增术语结果、未变化术语结果和/或删除术语结果,所述目标术语为所述目标词表数据中的任意一个术语;

根据所述术语匹配结果将第一概念同义词集合与所述第一词表数据中的概念同义词集合进行字符串匹配,以确定概念同义词集合的匹配结果,所述概念同义词集合的匹配结果包括:新增概念结果、概念同义词集合未变化结果、删除概念结果和/或概念同义词集合变化结果,所述第一概念同义词集合为所述目标词表数据中的任意一个概念同义词集合;

根据所述术语匹配结果以及所述概念同义词集合的匹配结果将第一概念优选术语与所述第一词表数据中的概念优选术语进行字符串匹配,以确定概念优选术语的匹配结果,所述概念优选术语的匹配结果包括:概念优选术语未变化结果和/或概念优选术语变化结果,所述第一概念优选术语为所述目标词表数据中的任意一个概念优选术语;

其中,所述术语匹配结果、所述概念同义词集合的匹配结果以及所述概念优选术语的匹配结果均属于所述目标匹配结果。

3.根据权利要求2所述的方法,其特征在于,所述根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新包括:

当所述术语匹配结果为所述删除术语结果时,获取所述删除术语结果对应的术语;

将所述删除术语结果对应的术语删除;

当所述概念同义词集合的匹配结果为所述删除概念结果时,获取所述删除概念结果对应的概念同义词集合;

将所述删除概念结果对应的概念同义词集合删除。

4.根据权利要求2所述的方法,其特征在于,所述根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新包括:

当所述术语匹配结果为新增术语结果,且所述概念同义词集合的匹配结果为所述概念同义词集合变化结果时,获取所述新增术语结果对应的至少一个术语;

判断在所述集成术语系统中存在与所述第一术语相匹配的第二概念同义词集合,所述第一术语为所述至少一个术语中的任意一个术语;

若是,则将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入所述第二概念同义词集合。

5.根据权利要求4所述的方法,其特征在于,当在所述集成术语系统不存在所述第二概念同义词集合时,所述方法还包括:

当所述概念优选术语的匹配结果为所述概念优选术语变化结果时,获取所述集成术语系统中概念优选术语变化的N个概念同义词集合,其中N≥2;

计算所述第一术语与所述N个概念同义词集合中的概念优选术语的相似度;

根据所述相似度将所述第一术语导入所述N个概念同义词集合;

当所述概念优选术语的匹配结果为所述概念优选术语未发生变化结果时,将所述第一术语导入第一概念同义词集合,所述第一概念同义词集合为所述概念优选术语未发生变化结果对应的概念同义词集合中与所述第一术语相匹配的概念同义词集合。

6.根据权利要求4所述的方法,其特征在于,所述根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新包括:

当所述术语匹配结果为所述新增术语结果,且所述概念同义词集合的匹配结果为所述新增概念结果时,计算第一优选术语与所述集成术语系统中的M个优选术语的M个相似度,其中所述第一优选术语为所述第一术语所在的概念同义词集合中的优选术语,且所述第一优选术语所属的概念同义词集合与所述M个优选术语所属的概念同义词集合属于相同领域,M≥2;

根据所述M个相似度将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入。

7.根据权利要求6所述的方法,其特征在于,所述根据所述M个相似度将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入包括:

判断所述M个相似度中的最大相似度是否大于预设阈值;

若是,则将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入所述最大相似度对应的概念同义词集合;

若否,则将所述第一术语以及与所述第一术语互为同义词的术语确定为新概念同义词集合。

8.根据权利要求1至7中任一项所述的方法,其特征在于,所述确定所述目标来源词表中的目标词表数据包括:

提取所述目标来源词表中的词表数据;

调用标识符分配函数为所述词表数据中的术语和概念分别分配标识符,以得到所述目标词表数据。

9.一种数据处理装置,应用于集成术语系统,所述集成术语系统包括至少一个来源词表,其特征在于,包括:

注册单元,用于将待更新的来源词表进行注册,以得到目标来源词表;

确定单元,用于确定所述目标来源词表中的目标词表数据,所述目标词表数据包括已分配标识的术语以及已分配标识的概念;

匹配单元,用于将所述目标词表数据与第一来源词表的第一词表数据进行匹配,以确定所述目标来源词表相对于所述第一来源词表的目标匹配结果,所述第一来源词表为所述集成术语系统中与所述目标来源词表对应的来源词表;

更新单元,用于根据所述目标匹配结果以及预设规则对所述集成术语系统中的词表数据进行更新。

10.根据权利要求9所述的装置,其特征在于,所述匹配单元具体用于:

将目标术语与所述第一词表数据中的术语进行字符串匹配,以得到术语匹配结果,所述术语匹配结果包括:新增术语结果、未变化术语结果和/或删除术语结果,所述目标术语为所述目标词表数据中的任意一个术语;

根据所述术语匹配结果将第一概念同义词集合与所述第一词表数据中的概念同义词集合进行字符串匹配,以确定概念同义词集合的匹配结果,所述概念同义词集合的匹配结果包括:新增概念结果、概念同义词集合未变化结果、删除概念结果和/或概念同义词集合变化结果,所述第一概念同义词集合为所述目标词表数据中的任意一个概念同义词集合;

根据所述术语匹配结果以及所述概念同义词集合的匹配结果将第一概念优选术语与所述第一词表数据中的概念优选术语进行字符串匹配,以确定概念优选术语的匹配结果,所述概念优选术语的匹配结果包括:概念优选术语未变化结果和/或概念优选术语变化结果,所述第一概念优选术语为所述目标词表数据中的任意一个概念优选术语;

其中,所述术语匹配结果、所述概念同义词集合的匹配结果以及所述概念优选术语的匹配结果均属于所述目标匹配结果。

11.根据权利要求10所述的装置,其特征在于,所述更新单元具体用于:

当所述术语匹配结果为所述删除术语结果时,获取所述删除术语结果对应的术语;

将所述删除术语结果对应的术语删除;

当所述概念同义词集合的匹配结果为所述删除概念结果时,获取所述删除概念结果对应的概念同义词集合;

将所述删除概念结果对应的概念同义词集合删除。

12.根据权利要求10所述的装置,其特征在于,所述更新单元还具体用于:

当所述术语匹配结果为新增术语结果,且所述概念同义词集合的匹配结果为所述概念同义词集合变化结果时,获取所述新增术语结果对应的至少一个术语;

判断在所述集成术语系统中存在与所述第一术语相匹配的第二概念同义词集合,所述第一术语为所述至少一个术语中的任意一个术语;

若是,则将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入所述第二概念同义词集合。

13.根据权利要求12所述的装置,其特征在于,所述更新单元还具体用于:

当在所述集成术语系统不存在所述第二概念同义词集合,且当所述概念优选术语的匹配结果为所述概念优选术语变化结果时,获取所述集成术语系统中概念优选术语变化的N个概念同义词集合,其中N≥2;

计算所述第一术语与所述N个概念同义词集合中的概念优选术语的相似度;

根据所述相似度将所述第一术语导入所述N个概念同义词集合;

当所述概念优选术语的匹配结果为所述概念优选术语未发生变化结果时,将所述第一术语导入第一概念同义词集合,所述第一概念同义词集合为所述概念优选术语未发生变化结果对应的概念同义词集合中与所述第一术语相匹配的概念同义词集合。

14.根据权利要求12所述的装置,其特征在于,所述更新单元具体用于:

当所述术语匹配结果为所述新增术语结果,且所述概念同义词集合的匹配结果为所述新增概念结果时,计算第一优选术语与所述集成术语系统中的M个优选术语的M个相似度,其中所述第一优选术语为所述第一术语所在的概念同义词集合中的优选术语,且所述第一优选术语所属的概念同义词集合与所述M个优选术语所属的概念同义词集合属于相同领域,M≥2;

根据所述M个相似度将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入。

15.根据权利要求14所述的装置,其特征在于,所述更新单元根据所述M个相似度将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入包括:

判断所述M个相似度中的最大相似度是否大于预设阈值;

若是,则将所述第一术语以及所述至少一个术语中与所述第一术语互为同义词的术语导入所述最大相似度对应的概念同义词集合;

若否,则将所述第一术语以及与所述第一术语互为同义词的术语确定为新概念同义词集合。

16.根据权利要求9至15中任一项所述的装置,其特征在于,所述确定单元具体用于:

提取所述目标来源词表中的词表数据;

调用标识符分配函数为所述词表数据中的术语和概念分别分配标识符,以得到所述目标词表数据。

17.一种计算机可读存储介质,其特征在于,包括指令,当所述计算机可读存储介质在计算机上运行时,使得计算机执行权利要求1至8中任一项所述数据处理方法的步骤。

18.一种包含指令的计算机程序产品,当所述包含指令的计算机程序产品在计算机上运行时,使得计算机执行上述权利要求1至8中任一项所述的数据处理方法的步骤。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1