一种基于知识组织语义关系的科技专家信息聚合方法与流程

文档序号:12786537阅读:227来源:国知局
一种基于知识组织语义关系的科技专家信息聚合方法与流程

本发明涉及信息科学与知识工程技术领域,尤其涉及一种基于知识组织语义关系的科技专家信息聚合方法。



背景技术:

专家是指对某一门学问有专门研究或者擅长某项技术的人员,是我国最为宝贵的人才资源,在科学研究、项目评审、成果转化、决策咨询等方面发挥着举足轻重的作用。科研项目特别是国家重大科研项目,通常具有学科跨度大、影响面宽、专业性和创新性强等重要特点,往往需要依靠具有更高学术权威性、专业相关性和研究活跃度的同行评审专家,并通过专家更新机制和回避机制实现客观评审。

目前,科技专家的选取一般采用如下两种方式:一种是专家自行申报、形成专家库,这种方式由于申报人对申报信息的自主控制力和主观性比较强,难以对专家信息进行逐一核实和及时更新,影响专家选取的公正性;另一种是通过对专家发表的文献进行统计,根据其文献数量等信息辅助判断其是否可以作为专家,这种方式主要是从文献数量的角度进行评选,但对专家信息的描述框架和知识关联性有待深入,以便从语义角度更为准确的选取出学术权威性、专业相关性和研究活跃度的同行评审专家。同时,上述两种方式,在实现专家更新机制和回避机制方面还需要进一步完善,从而保证选取的专家更加客观和准确。



技术实现要素:

本发明的目的在于提供一种基于知识组织语义关系的科技专家信息聚合方法,从而解决现有技术中存在的前述问题。

为了实现上述目的,本发明采用的技术方案如下:

一种基于知识组织语义关系的科技专家信息聚合方法,包括如下步骤:

S1,根据科技文献数据在细分领域内筛选出具有较高影响力的候选专家;

S2,将与所述候选专家对应的关键词与知识组织工具概念术语进行近似关联,实现所述候选专家与所述知识组织工具的关联,建立预选专家关系图谱;

S3,根据专家信息约束条件,对所述预选专家关系图谱进行调整,形成最终的专家关系图谱;

S4,根据专家信息与知识组织工具和文献资源之间的关联关系,进行专家信息的动态更新和维护;

S5,对所述专家关系图谱进行多维度语义可视化展示与监测。

优选地,S1包括如下步骤:

S101,从文献,包括论文、专利、科技报告中抽取专家信息并规范化处理,以文献作者为核心,分别建立<作者,机构>、<作者,关键词>、<中文关键词,英文关键词>对之间的对应关系,以三元组方式对专家的机构、关键词进行描述,形成候选专家,并对专家姓名进行消歧和归并处理;

S102,以文献中的范畴号、关键词和引文信息为基础,通过同义词计算、引用频次、引用链、学科范畴信息,对所述候选专家设定权重和阈值,在细分领域内筛选出具有较高影响力的候选专家。

优选地,S2具体为:采用同义词计算和/或范畴映射的方式进行关键词与知识组织工具的对应和关联,将具有语义相关性的关键词映射到知识组织系统,并根据语义关系对专家信息的学术关联性进行判定,在文献引用链、作者承担项目信息的支持下,按范畴确定高影响力专家。

优选地,S3中,所述专家信息约束条件包括:专家的自然信息、科研信息和教育信息,以及与其关联的机构信息、成果信息和项目信息。

优选地,S3中,对所述预选专家关系图谱进行调整,具体为,基于知识组织语义关系,进行如下的调整:对同义关系的词族和范畴进行合并,形成具有更高一致性的专家描述信息;对具有上下位关系的专业术语进行扩展,构建更细相关性的小同行专家群体;对具有相关关系的专家群体,采用社会关系网络SNA进行分析;在知识组织工具的引导下,对专家的研究方向和学科范畴进行映射,监测科学研究的整体布局和演化方向,揭示个体专家的科研兴趣演变。

优选地,S4包括如下步骤:

S401,从文献中快速挖掘专家的动态信息,包括研究兴趣和学术影响力信息,通过语义关系,以三元组形式对专家信息进行推理和判断;

S402,根据S401的方式,以三元组形式,使用Jena开源项目建立专家的RDF形式化语义模型;

S403,根据所述RDF形式化语义模型,使用SparQL进行专家RDF语义查询;

S404,根据RDF三元组的信息进行语义推理,将具有语义关联的专家进行精准聚合和推荐。

优选地,S5包括如下步骤:

S501,将专家群体、合作关系、研究主题在同一个画布下进行可视化呈现和分析,得到可视化专家关系图谱;

S502,以时间、主题和关系三个维度对所述可视化专家关系图谱进行动态监测。

本发明的有益效果是:本发明实施例提供的基于知识组织语义关系的科技专家信息聚合方法,通过将专家信息与知识组织工具进行语义化关联,在知识组织工具的语义关系框架下,实现了专家信息的语义聚合、自动发现和动态更新,满足了对于专家学术权威性、专业相关性、研究活跃度、动态更新和同行回避的选取要求,从而保证选取的专家能够更为客观和准确。

附图说明

图1是基于知识组织的科研项目评审专家发现总体技术路线示意图;

图2是科技专家语义化信息描述框架图;

图3是专家合作关系与研究领域可视化设计点线图;

图4是主题与时间对照图;

图5是科技专家多维度可视化展示效果图;

图6是科技专家学科动态分布示意图;

图7是基于知识组织系统的专家聚合模型示意图;

图8是以肿瘤医学领域为例,基于知识组织系统的专家聚合示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。

专家信息作为与专业知识紧密关联的一类特定知识,是知识组织研究的重要内容

由于知识组织工具既具有语义化、有序化的知识表示模型,适于对专家信息进行有效关联和扩展,又与海量文献紧密关联,能够在大规模真实文献数据基础上实现客观、动态的专家信息监测与验证,这为科技专家的精准发现和快速更新提供了良好的理论基础和技术支撑。

面对数量巨大、专业复杂、动态变化的专家群体,基于知识组织的概念和语义关系模型,构建语义关联紧密、共享方便、更新快捷的领域专家学术关系网络,从海量文献中快速、准确地对专家信息进行组织和发现,并应用于科技专家的管理与服务。

本发明以知识组织理论为基础,将专家信息作为一类重要的知识库,研究开放信息环境下专家信息与概念关系网络的语义化关联机制,实现专家信息与知识组织工具的紧密对接、双向互动,探索文献数据和语义关系双重驱动的领域专家发现与聚合方法。

基于知识组织工具语义优势,建立专家实例与文献的语义关联,通过文献关键词,将文献作者与知识组织工具进行概念化激活、联想和扩展,构建具有多维语义关联的知识关系网络,将传统上以文献为主的知识组织延伸到以专家实例为核心的知识表示与发现,扩大知识组织工具的适应性和开放性,形成应用驱动的知识组织新方式,实现专家的快速、有效聚合,以支撑科技项目评审、科技决策等现实应用。

本发明提供了一种科技专家语义化聚合方法,以专家信息与知识组织工具的语义化关联为研究对象,在知识组织工具的语义关系框架下,实现专家信息与知识组织工具的融合,进而实现专家信息的语义关联、自动发现和动态更新。该发明对专家研究兴趣、学术影响力、合作关系网络等进行动态发现、实时监测和自动推荐,为专家信息库建设、科研项目管理、科技监测等奠定良好基础,具有更高的精准度和动态性特征,支持国家科研项目评审、管理与创新。

如图1所示,本发明实施例提供了一种基于知识组织语义关系的科技专家信息聚合方法,包括如下步骤:

S1,根据科技文献数据在细分领域内筛选出具有较高影响力的候选专家;

S2,将与所述候选专家对应的关键词与知识组织工具概念术语进行近似关联,实现所述候选专家与所述知识组织工具的关联,建立预选专家关系图谱;

S3,根据专家信息约束条件,对所述预选专家关系图谱进行调整,形成最终的专家关系图谱;

S4,根据专家信息与知识组织工具和文献资源之间的关联关系,进行专家信息的动态更新和维护;

S5,对所述专家关系图谱进行多维度语义可视化展示与监测。

其中,S1可以包括如下步骤:

S101,从文献,包括论文、专利、科技报告中抽取专家信息并规范化处理,以文献作者为核心,分别建立<作者,机构>、<作者,关键词>、<中文关键词,英文关键词>对之间的对应关系,以三元组方式对专家的机构、关键词进行描述,形成候选专家,并对专家姓名进行消歧和归并处理;

S102,以文献中的范畴号、关键词和引文信息为基础,通过同义词计算、引用频次、引用链、学科范畴信息,对所述候选专家设定权重和阈值,在细分领域内筛选出具有较高影响力的候选专家。

由于科研人员通常具有一定的科研产出成果,如文献、专利、科技报告等,通常以关键词形式进行描述,反应了科研人员的研究兴趣和方向。因此,本实施例中,以文献中的范畴号、关键词和引文信息为基础,可以通过同义词计算、引用频次、引用链、学科范畴等信息,对候选专家设定权重和阈值,在细分领域内筛选出具有较高影响力的候选专家。

本发明的一个优选实施例中,S2具体可以为:采用同义词计算和/或范畴映射的方式进行关键词与知识组织工具的对应和关联,将具有语义相关性的关键词映射到知识组织系统,并根据语义关系对专家信息的学术关联性进行判定,在文献引用链、作者承担项目信息的支持下,按范畴确定高影响力专家。

筛选完成候选专家后,考虑关键词的频次,关键词一般反映了专家的研究兴趣和专长,将具有一定频次的关键词与知识组织系统进行同义关系计算,实现关键词与知识组织工具概念术语的近似关联,进而可以将关键词所对应的专家信息与概念系统建立相关关系,从而激活知识组织工具的概念系统、实现专家信息语义传递,进而形成知识组织工具、关键词、作者之间的紧密互动。

本实施例中,S3中,所述专家信息约束条件包括:专家的自然信息、科研信息和教育信息,以及与其关联的机构信息、成果信息和项目信息。

其中,专家的自然信息,如年龄、姓名、性别、民族等,可以通过继承现有描述框架实现,具有较高的通用性,与现有国家标准进行元数据层次的规范化,为现有各类专家库的互联互通和语义互操作提供基础。

科技专家的科研信息,主要是通过分类信息和规范术语对专家类别和研究方向进行归一化,解决由于术语歧义造成的误差;分类体系可以采用中国图书资料分类法和学科分类法,与现有分类体系保持一致。

专家的教育信息,主要突出专家的教育经历和专业背景,作为专家判定的基本依据。

以这些信息作为切入点,再与多种数据资源进行关联链接,例如文献库、成果库、项目库等,形成数据驱动的专家信息关联体系,为专家信息的更新和验证提供可靠支撑。

上述专家信息约束条件之间的关系,如图2所示。

本发明的一个优选实施例中,S3中,对所述预选专家关系图谱进行调整,具体为,基于知识组织语义关系,进行如下的调整:对同义关系的词族和范畴进行合并,形成具有更高一致性的专家描述信息;对具有上下位关系的专业术语进行扩展,构建更细相关性的小同行专家群体;对具有相关关系的专家群体,采用社会关系网络SNA进行分析;在知识组织工具的引导下,对专家的研究方向和学科范畴进行映射,监测科学研究的整体布局和演化方向,揭示个体专家的科研兴趣演变。

本发明实施例中,S4可以包括如下步骤:

S401,从文献中快速挖掘专家的动态信息,包括研究兴趣和学术影响力信息,通过语义关系,以三元组形式对专家信息进行推理和判断;

S402,根据S401的方式,以三元组形式,使用Jena开源项目建立专家的RDF形式化语义模型;

S403,根据所述RDF形式化语义模型,使用SparQL进行专家RDF语义查询;

S404,根据RDF三元组的信息进行语义推理,将具有语义关联的专家进行精准聚合和推荐。

上述方法中,首先,建立科技专家语义推理机制。通过语义关系,对专家的特长进行推理和判断,例如规定性的静态的语义关系,;也可以通过动态计算,从文献中动态挖掘专家的动态信息,例如通过共现计算,发掘专家之间的合作关系。进而,通过语义类别,实现专家的推理;

然后,建立RDF资源描述框架。在框架系统中,每一个专家都可以看作是一个资源,每一个资源都有自己的URI(Uniform Resource Locator,统一资源定位符),使用此URI可以获取到某一个专家,进而获取到详细描述此专家的属性和属性值;

其中,使用Jena构建专家RDF语义框架模型,如图3所示。Jena是Apache的一个开源项目,用于构建语义Web程序,它提供了一组工具和Java库来帮助开发语义web,构建RDF模型,读取RDF文件,生成RDF文件,链接数据应用等;

构建了专家RDF模型后,可以进行RDF语义查询。RDF构建成功后可以使用SparQL进行查询,如图4所示,SparQL查询中三元组中的任何一个元素信息均可替换为首字母为?的变量,例如:要引入一个变量电话信息,可以这样定义:vcard:telephone?telephone,where语句中避免语句冗余信息可以使用前缀;

然后,可以进行RDF逻辑推理与应用。根据RDF三元组的信息进行语义推理,例如A专家在B单位工作,C专家在B单位工作,可以推出A和B属于同事关系:<张三,isStaffof,A单位>-<李四,sStaffof,A单位>-<?x,isStaffof,?y>,<?z,isStaffof,?y>-><?x,is colleague,?z>=》<张三,is colleague,李四>。

本发明实施例中,S5可以包括如下步骤:

S501,将专家群体、合作关系、研究主题在同一个画布下进行可视化呈现和分析,得到可视化专家关系图谱;

S502,以时间、主题和关系三个维度对所述可视化专家关系图谱进行动态监测。

上述方法中,在可视化专家关系图谱中,可以进行科技专家的语义可视化分析。专家的合作关系可以通过点线图很好地表现出来专家之间的关联,即图中节点表示专家,节点间的连线表示专家的合作关系或者其他的关联关系。专家的研究领域特征本质上是一种类别属性,而可视化元素中颜色、位置以及形状能很好地区分类别属性。专家相关领域的研究情况。本发明中以相关主题下的论文数量表示,论文数量是数值型数据,能够通过面积大小以及透明度等可视化元素进行呈现。动画能够动态地表示数据在时间上的变化,能够很好地呈现专家研究领域或研究兴趣随时间变化的情况。

对于科技专家语义可视化设计,可如图3、图4、图5所示,把大量不同特征反映到一个画布中,有足够的可视化元素能够呈现这些特征,根据不同的需求进行可视化设计,适当地整合可视化元素为用户提供可视化方法辅助专家推荐,保证可视化图形的可读性和生动性;

采用可视化技术,可以将专家信息聚合结果进行更直观的揭示,如图3、图4、图5所示。在图3中,以节点代表不同专家,节点中连线代表专家之间的合作关系,节点大小与专家在该专业领域的发文数量成正比,通过交互的方式选择节点能够高亮显示节点与哪些专家具有合作关系,这对于专家推荐的回避机制具有一定作用;节点的大小显示了专家在相关领域的研究成果,节点越大的说明其在相关领域的研究成果就越多,由此便于选择具有高影响力专家;节点颜色表示了专家研究方向的差异,用户通过颜色能直观区分出专家的研究方向,并找出与项目研究方向相匹配的小同行专家。用户可以方便快捷地对比不同专家的合作关系、学科领域以及研究成果等特征,不仅可以单独观察单一特征,还能综合对比分析不同专家的多个角度特征。当用户将鼠标放至图3中的曲线段上时,曲线会自动高亮(变为蓝色),在图旁边会显示该曲线段代表的具体信息,例如,某某与某某是合作关系。图4、5所示的可视化设计纵轴代表不同专家、横轴代表所有专家的研究主题。纵坐标的每个节点表示在该领域的专家,横坐标的每个节点表示该领域下的若干研究方向。大小表示该专家在该方向的研究强度,以科研成果数量计算;不同的颜色代表作者在该方向的被引用次数,颜色越深,说明被引次数越多、影响力越大。专家的研究主题和研究兴趣会随着学科发展以及研究热点不断变化,因此在图4、图5所示的可视化设计中加入了动画的效果,通过鼠标在左下方年份标签上的移动,动态显示不同年份专家在不同主题下研究成果的变化情况,如图4、图5分别显示的是2010年和2014年专家在不同主题下研究成果及影响力的对比,从图中能够看出专家研究兴趣发生了比较大的变化。通过图3、图4、图5所示的可视化设计中,能快速、精准发现近年来对该研究主题研究成果较为丰富的科技专家。图6是与科技文献挂接后,以学科分类展示专家的分布情况。

本发明提供的方法,由于采用了知识组织工具,专家聚合准确性大大提高,从而解决了传统上单纯依靠关键词造成的局限。其实施模型可参见图7,其中,知识组织层表示知识之间的语义关系,可以采用领域内的主题词表、领域本体等;“专家聚合”层是指该领域内的专家共现及关联关系,通过同义词计算将关键词与“知识组织层”中的概念进行关联,进而发现同行专家;“文献资源层”是候选专家在该领域的相关成果及统计,为候选专家的推荐和最终确定提供量化支持,并随着数据资源的变化而动态更新。三个层面之间通过关键词和知识组织工具进行关联,实现小同行专家的聚合与优化。例如,肿瘤领域的医学专家可以通过知识组织工具进行扩展,发现具有更高相关性的“小同行”专家,并通过文献中的发文数量、被引频次、年度分布等角度,遴选出具有更高权威性的领域专家,其实施过程可参见图8所示。

具体实施例:本发明实施例提供了基于知识组织语义关系的“肿瘤学”领域科技专家信息聚合方法,包括如下步骤:

S1,从文献库中,以《中国图书资料分类法》中“肿瘤学”类别的文献元数据进行抽取,文献类型包括期刊论文、会议论文、学位论文、科技报告、专利等;元数据字段包括文献标题、作者、、机构、关键词、分类号、引文、h指数、来源等。统计<作者,关键词词频>,将关键词词频在10以上的专家作为候选专家;统计<关键词,引用次数>,将引用次数在10以上的关键词所对应的候选专家作为候选专家,生成<候选专家,关键词>数据表。同时,通过文献作者共现计算,获取候选专家相关的合作者,形成<候选专家,合作者>、<作者,任职机构>》关系表,为专家关系优化提供数据基础。例如,在图7中的“文献资源层”,将所有核心期刊论文的关键词在10次以上、被引用次数10次以上的专家进行筛选,作为候选专家。为了解决专家的重名问题,一般以<作者,任职结构>对作者进行准确判定。

S2,将<候选专家,关键词>中的关键词通过同义词计算工具,映射到《医学主题词表》、SUMO本体知识库等现有的知识组织工具,并借助知识组织工具中的语义关系进行推理。以《医学主题词表》中的用、代、属、分、参等语义类型,采用RDF格式进行表示并进行推理,以判断候选专家是否属于同一细分专业领域。例如在知识组织层,“李赛美”和“宋慧”两位科研人员的文献都属于“肝肿瘤”领域,因此可以作为同行专家。

S3,对专家关系进行调整。如果S2中的两位专家属于同一细分领域,且不存在S1中共现关系,则予以推荐;如果S2中未能发现直接同行专家,则通过知识组织语义关系,向上位词领域扩展,获得相关领域专家,组成具有互补关系的专家群体。此外,候选专家信息将与项目库等关联,如果两位专家属于同一机构或者同一项目,则需要回避,从推荐列表中排除。本步骤是对S2的优化,形成确定的专家关系图谱。例如,在S2中,“李赛美”和“宋慧”两位科研人员发表的文献数量分别是60篇和40篇核心期刊论文,并且不存在论文合作关系;与专家机构信息进行匹配,二者也不存在同事关系,则优先推荐“李赛美”作为核心专家,可以评审“宋慧”的相关项目和成果。反之,若未能找到相关专家,则通过S2中的知识组织层进行扩展,在更大的专业范围内选择相关专家。

S4根据文献的动态变化,调整S1-S3,判断专家研究领域的变化和活跃度;也可以根据知识组织工具的变化,兼容多个不同类型的知识组织工具,实现跨学科、跨领域的专家自动聚合。例如,在文献资源层定期更新专家成果数据,并及时监测专家单位的变化,对本推荐结果进行动态更新。

S5专家聚合结果可视化。对S1-S4的各类数据,采用共现图、学科分类、专家影响力热力图等方式进行展示,以更为直观、动态的方式,提高专家聚合效果。例如,在S1中对专家的共现关系进行统计,以社会关系网络图进行展示;按照时间、主题、关系等维度对专家的活跃度、影响力进行可视化判断;图6则是从整体上对专家的专业领域进行监测,以满足对交叉专业领域和专家库更新的需求,实现专家库的动态更新。

通过采用本发明公开的上述技术方案,得到了如下有益的效果:本发明实施例提供的基于知识组织语义关系的科技专家信息聚合方法,通过将专家信息与知识组织工具进行语义化关联,在知识组织工具的语义关系框架下,实现了专家信息的语义聚合、自动发现和动态更新,满足了对于专家学术权威性、专业相关性、研究活跃度、动态更新和同行回避的选取要求,从而保证选取的专家能够更为客观和准确。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域人员应该理解的是,上述实施例提供的方法步骤的时序可根据实际情况进行适应性调整,也可根据实际情况并发进行。

上述实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,例如:个人计算机、服务器、网络设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,例如:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1