多数据源的信息处理装置、服务器及方法

文档序号:9579266阅读:278来源:国知局
多数据源的信息处理装置、服务器及方法
【技术领域】
[0001]本发明涉及通信技术领域,尤其涉及一种多数据源的信息处理装置、服务器及方法。
【背景技术】
[0002]随着信息技术的不断发展,各个技术领域中的信息量也越来越大。在很多情形下,需要使用多个数据源中的信息。例如,查询多个科技平台中的数据,政府部门进行信息统计、企业内部进行信息整合分析等。现有的查询和统计分析方法一般需要对多个数据源进行逐个查询和统计分析。
[0003]应该注意,上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的【背景技术】部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

【发明内容】

[0004]上述现有的查询和统计分析方法,由于需要对多个数据源进行逐个查询和统计分析,查询和统计分析的效率较低,可用信息量较少且准确性较差。
[0005]本发明实施例提供一种多数据源的信息处理装置、服务器及方法,通过对同一实体进行判定以及链接外部资源进行扩展属性,并且以迭代的方式进行上述判定和链接,能够有效的进行多数据源的信息整合,提高信息的准确性和全面性。
[0006]根据本发明实施例的第一方面,提供一种多数据源的信息处理装置,所述装置包括:第一判定单元,所述第一判定单元用于对至少两个数据源中的信息进行同一实体的判定;链接单元,所述链接单元用于将所述至少两个数据源中的实体链接到预先设定的外部资源中;第一扩展单元,所述第一扩展单元用于根据外部资源中的信息对所述实体的属性进行扩展;第二判定单元,所述第二判定单元用于判断属性扩展后的信息是否满足预先设定的条件,当所述属性扩展后的信息不满足预先设定的条件时,将属性扩展后的信息用于进行所述同一实体的判定,当所述属性扩展后的信息满足预先设定的条件时,将所述属性扩展后的信息输出。
[0007]根据本发明实施例的第二方面,提供一种服务器,所述服务器包括根据本发明实施例的第一方面所述的多数据源的信息处理装置。
[0008]根据本发明实施例的第三方面,提供一种多数据源的信息处理方法,所述方法包括:对至少两个数据源中的信息进行同一实体的判定;将所述至少两个数据源中的实体链接到预先设定的外部资源中;根据外部资源中的信息对所述实体的属性进行扩展;判断属性扩展后的信息是否满足预先设定的条件,当所述属性扩展后的信息不满足预先设定的条件时,将属性扩展后的信息用于进行所述同一实体的判定,当所述属性扩展后的信息满足预先设定的条件时,将所述属性扩展后的信息输出。
[0009]本发明的有益效果在于:通过对同一实体进行判定以及链接外部资源进行扩展属性,并且以迭代的方式进行上述判定和链接,能够有效的进行多数据源的信息整合,提高信息的准确性和全面性。
[0010]参照后文的说明和附图,详细公开了本发明的特定实施方式,指明了本发明的原理可以被采用的方式。应该理解,本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本发明的实施方式包括许多改变、修改和等同。
[0011]针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
[0012]应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
【附图说明】
[0013]所包括的附图用来提供对本发明实施例的进一步的理解,其构成了说明书的一部分,用于例示本发明的实施方式,并与文字描述一起来阐释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0014]图1是本发明实施例1的多数据源的信息处理装置的结构示意图;
[0015]图2是本发明实施例1的第一判定单元的结构示意图;
[0016]图3是本发明实施例1的进行同一实体的判定的方法流程图;
[0017]图4是本发明实施例1的链接单元的结构示意图;
[0018]图5是本发明实施例1的将至少两个数据源中的实体链接到预先设定的外部资源中的方法流程图;
[0019]图6是本发明实施例1的第一扩展单元的结构示意图;
[0020]图7是本发明实施例1的根据外部资源中的信息对该实体的属性进行扩展的方法流程图;
[0021]图8是本发明实施例1的翻译单元的结构示意图;
[0022]图9是本发明实施例1的对多种语言的实体进行翻译的方法流程图;
[0023]图10是本发明实施例1的融合单元的结构示意图;
[0024]图11是本发明实施例1的对至少两个数据源中的信息进行相同属性的融合的方法流程图;
[0025]图12是本发明实施例2的服务器的系统构成的一示意框图;
[0026]图13是本发明实施例3的多数据源的信息处理方法的流程图;
[0027]图14是本发明实施例4的多数据源的信息处理方法的流程图。
【具体实施方式】
[0028]参照附图,通过下面的说明书,本发明的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本发明的特定实施方式,其表明了其中可以采用本发明的原则的部分实施方式,应了解的是,本发明不限于所描述的实施方式,相反,本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。
[0029]实施例1
[0030]图1是本发明实施例1的多数据源的信息处理装置的结构示意图。如图1所示,该装置100包括:第一判定单元101、链接单元102、第一扩展单元103以及第二判定单元104,其中,
[0031]第一判定单元101用于对至少两个数据源中的信息进行同一实体的判定;
[0032]链接单元102用于将至少两个数据源中的实体链接到预先设定的外部资源中;
[0033]第一扩展单元103用于根据外部资源中的信息对该实体的属性进行扩展;
[0034]第二判定单元104用于判断属性扩展后的信息是否满足预先设定的条件,当该属性扩展后的信息不满足预先设定的条件时,将属性扩展后的信息用于进行该同一实体的判定,当该属性扩展后的信息满足预先设定的条件时,将该属性扩展后的信息输出。
[0035]由上述实施例可知,通过对同一实体进行判定以及链接外部资源进行扩展属性,并且以迭代的方式进行上述判定和链接,能够有效的进行多数据源的信息整合,提高信息的准确性和全面性。
[0036]在本实施例中,该至少两个数据源可以包括本领域的任一种或多种数据源,例如,数据库、EXCEL表格、CSV文件、CRC文件等。其中,该至少两个数据源可以存储在该多数据源的信息处理装置的外部,也可以存储在该多数据源的信息处理装置中,本发明实施例不对数据源的存储位置进行限制。
[0037]在本实施例中,该实体可以包括本领域的任一种或多种实体,例如,人名、地名或机构名等。本发明实施例不对实体的具体类型和数量进行限定。
[0038]在本实施例中,对同一实体进行判定可以包括两种情形:不同的变体是否指向同一实体、以及同一实体是否具有歧义从而实际上表示不同的实体。但本发明实施例不限于这两种情形。
[0039]其中,对于不同的变体是否指向同一实体,例如,同一个人名、机构名或地名可能有不同的描述方法,因此存在多种变体,从而需要将其指向同一实体;对于同一实体是否具有歧义从而实际上表示不同的实体,例如,同一个人名实际上可能指向不同的人,或者同一个地名实际上可能指向不同的地点,需要将其分开代表不同的实体。
[0040]在本实施例中,可使用现有的任一种方法对至少两个数据源中的信息进行同一实体的判定。以下对本发明实施例的进行同一实体的判定的方法进行示例性的说明。
[0041]图2是本实施例的第一判定单元的结构示意图。如图2所示,该第一判定单元101包括:建立单元201、分组单元202以及分离单元203,其中,
[0042]建立单元201用于比较各个实体之间的相似程度,将相似度大于预先设定的阈值的实体聚在一起,从而建立候选池;
[0043]分组单元202用于根据与该实体相关的其他列的信息,对候选池中的信息进行合并与区分,利用聚类方法划分出各个不同的候选实体组;
[0044]分离单元203用于利用基于规则的方法,将该候选实体组的信息中的含有互斥属性的实体进行分离。
[0045]图3是本实施例的进行同一实体的判定的方法流程图。如图3所示,该方法包括:
[0046]步骤301:比较各个实体之间的相似程度,将相似度大于预先设定的阈值的实体聚在一起,从而建立候选池;
[0047]步骤302:根据与该实体相关的其他列的信息,对候选池中的信息进
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1