1.面向专业文献知识实体的类型抽取系统,其特征在于,包括以下7个模块:
(a)查询及反馈接口,用于用户的输入处理和查询处理,将数据可视化结果反馈给用户;
(b)在线爬虫及管理模块,用于后台自动化地爬取管理员指定或默认的专业文献页面及进行页面数据的预处理;
(c)知识实体识别模块,用于对预处理后的文献标题及摘要数据进行知识实体识别;
(d)类型标签抽取模块,用于实现对模块(c)中得到的知识实体进行类型标签抽取及部分实体类型标注,得到类型标签集合和部分已标注实体;
(e)类型标签传播及索引库建立模块,以模块(c)中的未标知识实体集合、模块(d)的类型标签集合和部分已标注实体为输入,进行基于多标签加权的标签传播及建立知识实体及其类型关系索引库;
(f)知识实体类型关系图模型构建模块,根据用户输入的关键词对索引库进行检索,并构建出不同的知识实体类型关系图模型;
(g)数据可视化模块,对模块(f)中的模型进行Web可视化实现。
2.面向专业文献知识实体的类型抽取方法,其特征在于,采用权利要求1所述的抽取系统,进行以下步骤,
S1.数据爬取及预处理:管理员设置文献爬取地址和范围,在线爬虫及管理模块在后台根据指定的范围对文献页面进行爬取,同时对爬取的页面数据进行预处理;
S2.知识实体识别提取:知识实体识别模块对预处理后的文献信息进行实体识别并提取出来;
S3.类型抽取和标注:知识实体类型抽取模块对提取的知识实体进行类型抽取和标注,得到类型标签集合和部分已标注实体;
S4.建立索引库:将得到的知识实体及其类型标签集合和部分已标注实体进行数据库存储,进行基于多标签加权的标签传播,得到类型标签矩阵并建立知识实体及其类型的索引库;
S5.获取关键字:通过用户查询及反馈接口获取用户查询的知识实体关键字;
S6.建立类型列表:根据关键字在步骤S4中创建的索引库进行知识实体索引项进行匹配,从而得到与关键字相关的知识实体列表,按照相似性排序后得到最终的知识实体及其类型列表;
S7.根据需求建模:根据用户需求利用知识实体类型关系图模型构建模块对获得的知识实体及其类型列表进行建模;
S8.数据可视化:数据可视化模块将步骤S7得到的模型进行Web可视化数据处理,返回JSON数据到前端并实现Web前端可视化演示。
3.根据权利要求2所述面向专业文献知识实体的类型抽取方法,其特征在于,步骤S3中知识实体类型标签抽取的步骤如下:
(S3-1)结合文献摘要信息中知识实体的相关上下文以辅助类型标签抽取,以抽取到的知识实体为基础,对文献的摘要进行知识实体匹配,把在摘要中匹配到的知识实体及其后相邻的名词抽取出来,添加到知识实体集合中;
(S3-2)利用基于启发式规则的方法对步骤(S3-1)中得到知识实体集合进行类型标签抽取,得到候选类型标签集合,类型抽取的同时获得部分已标注实体;
(S3-3)筛选掉不可靠的类型标签,通过统计类型标签与其所属知识实体共现的频次,然后根据频次特征筛选掉共现频次低且对应知识实体出现频次少的类型标签,输出筛选后的类型标签集合。
4.根据权利要求2所述面向专业文献知识实体的类型抽取方法,其特征在于,步骤S4中基于多标签加权的标签传播包括以下步骤:
(S4-1)构建并初始化转换概率矩阵T,用于表示知识实体之间的转换概率;
(S4-2)构建并初始化类型标签矩阵Y,用于表示每个知识实体包含的类型标签及其类型标签权重,其中,设YL为已标类型矩阵,YU为未标类型矩阵,YN为每次传播迭代后的新增标注矩阵;
(S4-3)对于每一个已标实体,循环对所有未标实体进行转换概率计算,如果知识实体之间的转换概率大于阈值,则进行标签传播,一轮传播结束后,将新标知识实体集合替换原来的已标知识实体集合,得到第t代的新增标注矩阵
(S4-4)循环迭代进行步骤(S4-3)的标签传播过程,直到新标知识实体集合为空或未标类型矩阵不再改变,迭代结束,设第t+1代标签传播迭代完成,则输出最新的已标类型矩阵
5.根据权利要求4所述面向专业文献知识实体的类型抽取方法,其特征在于,步骤(S4-1)中,转换概率矩阵T:
其中,Tij表示从节点Xj转移到节点Xi的 概率,也就是知识实体ej转移到知识实体ei的概率,转移概率Wij由下面公式计算得到:
其中,sij是知识实体ei和ej的相似度,参数用于调整sij的比例,参数为sij的平均值。
6.根据权利要求5所述面向专业文献知识实体的类型抽取方法,其特征在于,知识实体间的相似度S使用编辑距离进行度量:编辑距离越大,相似度越小,假设源字符串与目标字符串长度的最大值为Lmax,编辑距离为LD,相似度S利用以下公式计算:
S=1-LD/Lmax。
7.根据权利要求5或6所述面向专业文献知识实体的类型抽取系统及方法,其特征在于,步骤(S4-2)中,设第一层抽取中成功抽出类型词的知识实体个数为l,未能抽出类型词的知识实体个数为u,则定义类型标签矩阵Y是一个(l+u)×R的矩阵,R为已抽取类型词去重词典个数,类型标签权重及类型标签矩阵Y的计算公式如下:
其中,设知识实体ei在第一层类型标注后有K个类型标签,Cik是第i个实体的k标签的出现频次,Wik是知识实体ei拥有类型标签k的权重,Wik以标签k在ei中出现的频率来度量,当知识实体ei拥有类型标签k时,则Yij=Wik,否则Yij=0。
8.根据权利要求7所述面向专业文献知识实体的类型抽取系统及方法,其特征在于,步骤(S4-3)中,转换概率阈值ζ的计算方法:
其中,N为的行数,为第t次迭代后的新增标注矩阵。
9.根据权利要求2或8所述的面向专业文献知识实体的类型抽取系统的抽取方法,其特征在于:步骤S7中,建模生成三种树图模型,分别为基于同一类型的实体层次关系树模型、基于类型分组的知识关系图模型和基于时序的知识热点跟踪图模型。
10.根据权利要求9所述面向专业文献知识实体的类型抽取系统,其特征在于,步骤S7中建模的具体方法为:
(S7-1)根据用户输入的关键词从知识实体索引库中提取出与该关键词相关的知识实体集合,相关关系包括标题中和摘要中的共现关系、包含关系以及扩展关系;
(S7-2)构建基于同一类型的实体层次关系树模型,验证知识实体集合中两两个实体之间的扩展或包含关系,如果实体ei包含实体ej,则建立树图模型中父子关系R(ei,ej),表示ei是ej的父节点,依次类推,建立层次关系模型;
(S7-3)构建基于类型分组的知识关系图模型,对知识实体集合中的知识实体按类型进行分组,统计每个类型分组的权值,分组内的知识实体也按照实体权重降序排序;筛选出权值最高的N个分组,每个分组筛选出排在前M个的知识实体,按照关键词、类型分组、实体的次序构造三层的图模型;
(S7-4)构建基于时序的知识热点跟踪图模型,根据知识实体的时间进行排序,构建按照半年为周期的时间段分组,分别统计每个时间段出现的相关的知识实体数量,各个时间段分组内的知识实体按照实体权重进行排序,最后以时间分组和对应实体列表构建热点跟踪图模型;
(S7-5)把步骤(S7-2)、(S7-3)、(S7-4)所述的模型转换成JSON形式的数据并输出到数据可视化模块。