一种基于WebGIS的地方志文献可视化方法及系统与流程

文档序号:18414396发布日期:2019-08-13 19:09阅读:232来源:国知局
一种基于WebGIS的地方志文献可视化方法及系统与流程

本发明属于地方志文献可视化技术领域,尤其涉及一种基于webgis的地方志文献可视化方法及系统。



背景技术:

webgis(网络地理信息系统)是指工作在web网上的gis可以实现空间数据的检索、查询、制图输出、编辑等gis基本功能,同时也是internet上地理信息发布、共享和交流协作的基础。webgis:通过互联网对地理空间数据进行发布和应用,以实现空间数据的共享和互操作,如gis信息的在线查询和业务处理等。gis通过web功能得以扩展,真正成为一种大众使用的工具。使gis进入千家万户。gis地理信息系统(geographicinformationsystem,gis)有时又称为“地学信息系统”。它是在计算机硬、软件系统支持下,对整个或部分地球表层(包括大气层)空间中的有关地理分布数据进行采集、储存、管理、运算、分析、显示和描述的技术系统。地方志,古称地志、地记、图经、方志等,是指全面、系统地记述本行政区域自然、政治、经济、文化、社会的历史与现状的资料性文献。然而,现有由于地方志知识库庞杂,其运算量随知识源数的增加而呈指数增长趋势;其次,融合过程复杂,限制条件较多,在融合处理中往往给出过高估计,其判别决策含有更多的主观性;同时,对地方志知识搜索结果可靠性差。

综上所述,现有技术存在的问题是:

现有由于地方志知识库庞杂,其运算量随知识源数的增加而呈指数增长趋势;其次,融合过程复杂,限制条件较多,在融合处理中往往给出过高估计,其判别决策含有更多的主观性;同时,对地方志知识搜索结果可靠性差。现有扫描仪测量模型参数估计不准,同时噪音大。

现有数据分类软件出错率高,分类功能不强。



技术实现要素:

针对现有技术存在的问题,本发明提供了一种基于webgis的地方志文献可视化方法及系统。

本发明是这样实现的,一种基于webgis的地方志文献可视化方法包括:

利用扫描仪将地方志文献书籍转换成可编辑的电子数据;

利用数据分类软件将转换的电子数据进行主题分类;

利用匹配程序将电子数据中的地理信息与webgis中的经纬度坐标进行匹配并标注;

利用制图软件将电子数据制作成表格、图形、图标、视频可视化信息;

对地方志知识进行融合操作;利用优化算法对地方志知识搜索进行优化;

利用存储器将地方志电子数据、可视化数据进行存储;利用显示器显示地方志数据。

进一步,融合方法包括:

(1)建立地方志本体库,根据地方志特征进行分类,为每个类别建立本体库,包括地名本体库、人物本体库、事件本体库、景观本体库;

(2)知识模糊化,调用知识模糊化接口,将输入的精确量转化成模糊量,即将知识元名称、属性、关系三个维度中对应相似元素的个数分别转化为对应模糊集合的隶属度;

(3)知识模糊推理,用模糊量去适配融合规则得到融合量,该推理过程是基于模糊逻辑中的蕴含关系及推理规则来进行的,规则库包括了用模糊语言变量表示的一系列融合规则,反映了领域专家的经验和知识;

(4)知识清晰化,将融合量变换为实际用于相似度判断的清晰量,把分布范围概括合并成单点的输出值,同时消除具有歧义的输出结果;

(5)知识可视化,运用可视化工具对融合结果进行布局、颜色调整、大小设定,为用户提供一个可视化知识界面。

进一步,所述步骤(1)中所述建立地方志本体库的具体过程包括:

地方志资源包括文本文档、或地方志图像、或地方志音视频片段,采用uri来进行定位处理,通过使用路径进行表示;

建立地方志领域本体,运用本体构建工具,依据地名、人物、事件、景观地方志类别划分结构,从而形成本体类的树状结构,本体中的最小单元为知识元,通过名称、属性、关系三元组表示。

进一步,所述搜索优化方法包括:

1)调用地方志分词算法,用于统计生成地方志的补充词汇,将默认词库中没有的词汇补充在自定义词库中,提高分词的准确性;

2)调用融合词语序列特征的搜索优化算法,通过比对词语序列特征,修正默认搜索算法的评分值,返回更加符合用户的语义的搜索结果,进而提高搜索的精确度。

进一步,所述地方志分词算法,是结合词频统计和聚类算法,筛选出搜索文献集合中出现的高频词汇,然后经过过滤,将默认词库中没有的词汇补充在自定义词库中;其中,自定义词库包括扩展词汇和禁用词汇,用来调整当前搜索的需求;

所述融合词语序列特征的搜索优化算法用于优化搜索评分规则,通过对词序相似度的量化计算公式,反映出句子之间的词序关系,进行评分,修正bm25算法或vsm算法,最终计算出修正后的分值;词序相似度计算函数公式包括:

其中1≤orderseq(q,d)≤set(q,d)其中seqscore(q,d)表示用户输入的查询语句q与文档d中相似语句的词序相似度得分;set(q,d)表示在q、d中都出现的词语的数量。

本发明的另一目的在于提供一种基于webgis的地方志文献可视化程序,运行与终端,所述基于webgis的地方志文献可视化程序实现所述的基于webgis的地方志文献可视化方法。

本发明的另一目的在于提供一种终端,所述终端搭载实现所述基于webgis的地方志文献可视化方法的处理器。

本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于webgis的地方志文献可视化方法。

本发明的另一目的在于提供一种基于webgis的地方志文献可视化系统包括:

扫描模块,与主控模块连接,用于通过扫描仪将地方志文献书籍转换成可编辑的电子数据;

主控模块,与扫描模块、地方志数据分类模块、地理位置匹配模块、数图转换模块、融合模块、搜索优化模块、数据存储模块、显示模块连接,用于通过单片机控制各个模块正常工作;

地方志数据分类模块,与主控模块连接,用于通过数据分类软件将转换的电子数据进行主题分类;

地理位置匹配模块,与主控模块连接,用于通过匹配程序将电子数据中的地理信息与webgis中的经纬度坐标进行匹配并标注;

数图转换模块,与主控模块连接,用于通过制图软件将电子数据制作成表格、图形、图标、视频等可视化信息;

融合模块,与主控模块连接,用于对地方志知识进行融合操作;

搜索优化模块,与主控模块连接,用于通过优化算法对地方志知识搜索进行优化;

数据存储模块,与主控模块连接,用于通过存储器将地方志电子数据、可视化数据进行存储;

显示模块,与主控模块连接,用于通过显示器显示地方志电子数据、可视化数据。

本发明的另一目的在于提供一种搭载所述基于webgis的地方志文献可视化系统的基于webgis的地方志文献可视化显示设备。

本发明的优点及积极效果为:

本发明通过融合模块结合了模糊集理论,融合效率较高;添加了先验知识,结果更可靠;同时,通过搜索优化模块在进行搜索前对默认词库进行了针对性的词汇补充,提高了词法分析的准确度;优化了搜索算法匹配度的计算公式,使得搜索结果更加精确,将最接近的文章排序在列表最顶端,这正是用户希望搜索到的结果;提取搜索语句对应文本中所有相同的词语,量化计算序列特征,并对中间间隔的词语进行了标注,极大限度的保护了用户输入的语义特征,大大提高了地方志知识搜索结果可靠性。

本发明利用基于空间球的模型参数标定算法根据球状标定物上各扫描点与标定球球心的距离约束条件,建立扫描仪模型参数和标定球参数的非线性目标函数;综合采用入侵性杂草优化算法和levenberg-marquardt算法优化该目标函数,以实现扫描仪模型参数标定;通过增加标定球上的扫描点数,能够减弱扫描仪测量噪声对标定精度的影响,从而提高算法的模型参数标定精度。

本发明采用的基于聚类融合欠抽样改进adaboost算法的数据分类软件首先聚类融合,相比单一聚类算法,聚类效果更好、更稳定;再使用欠抽样平衡训练集的样本分布,相比随机欠抽样,基于聚类的欠抽样可以更好地抽取具有代表性的样本,抽取的样本能较好地反映原始样本分布;然后,模型借鉴adaboost算法框架,算法根据分类器对正类和负类不同的分类情况,调整其权值,并使得错分类的正类具有更大的权重,以便让后续训练过程更加关注这类正类样本的分类;最后使用选择性集成策略,得到最后的强分类器。

附图说明

图1是本发明实施例提供的基于webgis的地方志文献可视化方法流程图。

图2是本发明实施例提供的基于webgis的地方志文献可视化系统结构框图。

图中:1、扫描模块;2、主控模块;3、地方志数据分类模块;4、地理位置匹配模块;5、数图转换模块;6、融合模块;7、搜索优化模块;8、数据存储模块;9、显示模块。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明包括。

现有由于地方志知识库庞杂,其运算量随知识源数的增加而呈指数增长趋势;其次,融合过程复杂,限制条件较多,在融合处理中往往给出过高估计,其判别决策含有更多的主观性;同时,对地方志知识搜索结果可靠性差。现有扫描仪测量模型参数估计不准,同时噪音大。现有数据分类软件出错率高,分类功能不强。

为解决上述技术问题,下面结合附图对本发明的结构作详细的描述。

如图1所示,本发明实施例提供的基于webgis的地方志文献可视化方法包括以下步骤:

s101,利用基于iwo算法和lm算法进行优化的扫描仪将地方志文献书籍转换成可编辑的电子数据。

s102,利用基于聚类融合欠抽样改进adaboost算法的数据分类软件将转换的电子数据进行主题分类。

s103,利用匹配程序将电子数据中的地理信息与webgis中的经纬度坐标进行匹配并标注。

s104,利用制图软件将电子数据制作成表格、图形、图标、视频等可视化信息。

s105,对地方志知识进行融合操作。利用优化算法对地方志知识搜索进行优化。

s106,利用存储器将地方志电子数据、可视化数据进行存储。并利用显示器显示地方志数据。

步骤s101中,本发明实施例提供的基于iwo算法和lm算法进行优化具体步骤包括:

(1)将标定球放置于扫描仪前方,其球心os的坐标记为ps=(xs,ys,zs)t,半径记为r,通过云台的偏转运动,对该标定球进行扫描。假设标定球上扫描点pi,j(i=1,2,…,n;j=1,2,…,ni)的扫描仪测量值为其中表示云台偏转角,βi,j为测量角度,ρi,j为测量距离。

(2)初始化iwo算法,给定解空间维数d=6、初始种群数m0和最大种群数mmax、单个杂草产生的最小种子数smin和最大种子数smax、最大迭代次数kmax、非线性调制指数p、种子正态扩散的各维最小标准差σmin,i(i=1,2,…,d)以及式(1)可行解的取值范围[qmin,qmax]。计算种子正态随机扩散的各维最大标准差其中i=1,2,…,d。令迭代次数k为0,当前种群数mk为m0,将式(1)作为杂草的适应度函数,随机初始化由m0个杂草组成的原始种群

式(1)包括:

其中,n为标定球上扫描位置数。ni为第i次扫描时标定球上的扫描点数。

(3)根据式(2)计算种群ωk中各个杂草α=1,2,…,mk产生的种子数式(2)包括:

式中,为第k次迭代后杂草α的位置。为杂草的适应度。分别为第k次迭代后种群中所有杂草的最小和最大适应度。smin和smax分别为单个杂草所能产生的最小和最大种子数。为下取整函数。mk为第k次迭代后的种群数。

(4)根据式(3)计算种子正态随机扩散的各维标准差并对各种子在其父代杂草个体附近进行正态随机扩散。按照可行解的取值范围,对空间扩散后的各个种子进行箝位操作。

式(3)包括:

式中:kmax为最大迭代次数。上标p为非线性调制指数。σmin,i和σmax,i分别为解空间的第i维分量的最小和最大标准差。

(5)计算第k+1次迭代中生成的种子总数若wk+1+mk≤mmax,则由种群ωk中所有杂草及其后代组成第k+1次迭代后的种群ωk+1,并且令mk+1=wk+1+mk。否则,将种群ωk中各个杂草及其后代按照适应度大小排序,将适应度最小的前mmax个个体组成种群ωk+1,并且令mk+1=mmax。

(6)迭代次数k增加1,若k<kmax成立,则转到步骤(3)。否则,iwo算法终止迭代,转到步骤(7)。

(7)将iwo算法第kmax次迭代后的种群中具有最小适应度的杂草位置作为lm算法的初值,利用lm算法对式(1)进行优化,所求得的δx和δy的最优解即为扫描仪模型参数的标定值。

步骤s102中,本发明实施例提供的基于聚类融合欠抽样改进adaboost算法具体包括:

给定训练集s={(x1,y1),(x2,y2),…,(xn,yn)}和预定的迭代次数t,ωt(i)表示第t轮迭代中样本xi的权值。

(1)重复使用k均值算法产生h个聚类结果,共识函数使用fred提出的co-association矩阵方法,将训练样本聚成c个簇,分别记为c1,c2,…,cc。

(2)按照下式初始化样本权重。

(3)fort=1,2,3,…,t。

1)根据各个簇中负类数与正类的比率,从每个簇中抽取部分负类与所有正类合并成1∶1平衡数据集用于下面的分类器训练。每个簇中负类样本被抽中的概率与样本权重相关,majsize为负类样本总数,则每个簇中抽取的负类样本数:

2)使用弱学习算法训练得到分类器ht。

3)按照下式计算ht在当前样本分布上的训练误差。

4)按照下式计算弱分类器ht的权值。

5)样本被正确分类:

负类样本被错误分类:

正类样本被错误分类:

(4)通过遗传算法选择出差异度比较大的分类器,选择性集成得到最后的强分类器:

其中,num为最后集成的分类器数目。

如图2所示,本发明实施例提供的基于webgis的地方志文献可视化系统包括:扫描模块1、主控模块2、地方志数据分类模块3、地理位置匹配模块4、数图转换模块5、融合模块6、搜索优化模块7、数据存储模块8、显示模块9。

扫描模块1,与主控模块2连接,用于通过扫描仪将地方志文献书籍转换成可编辑的电子数据。

主控模块2,与扫描模块1、地方志数据分类模块3、地理位置匹配模块4、数图转换模块5、融合模块6、搜索优化模块7、数据存储模块8、显示模块9连接,用于通过单片机控制各个模块正常工作。

地方志数据分类模块3,与主控模块2连接,用于通过数据分类软件将转换的电子数据进行主题分类。

地理位置匹配模块4,与主控模块2连接,用于通过匹配程序将电子数据中的地理信息与webgis中的经纬度坐标进行匹配并标注。

数图转换模块5,与主控模块2连接,用于通过制图软件将电子数据制作成表格、图形、图标、视频等可视化信息。

融合模块6,与主控模块2连接,用于对地方志知识进行融合操作。

搜索优化模块7,与主控模块2连接,用于通过优化算法对地方志知识搜索进行优化。

数据存储模块8,与主控模块2连接,用于通过存储器将地方志电子数据、可视化数据进行存储。

显示模块9,与主控模块2连接,用于通过显示器显示地方志电子数据、可视化数据。

本发明提供的融合模块6融合方法包括:

(1)建立地方志本体库,根据地方志特征进行分类,为每个类别建立本体库,包括地名本体库、人物本体库、事件本体库、景观本体库。

(2)知识模糊化,调用知识模糊化接口,将输入的精确量转化成模糊量,即将知识元名称、属性、关系三个维度中对应相似元素的个数分别转化为对应模糊集合的隶属度。

(3)知识模糊推理,用模糊量去适配融合规则得到融合量,该推理过程是基于模糊逻辑中的蕴含关系及推理规则来进行的,规则库包括了用模糊语言变量表示的一系列融合规则,反映了领域专家的经验和知识。

(4)知识清晰化,将融合量变换为实际用于相似度判断的清晰量,把分布范围概括合并成单点的输出值,同时消除具有歧义的输出结果。

(5)知识可视化,运用可视化工具对融合结果进行布局、颜色调整、大小设定,为用户提供一个可视化知识界面。

本发明提供的步骤(1)中所述建立地方志本体库的具体过程包括:

针对实际的地方志资源,该资源是文本文档、或地方志图像、或地方志音视频片段,采用uri来进行定位处理,通过使用路径来进行表示。

建立地方志领域本体,运用本体构建工具,依据地名、人物、事件、景观地方志类别划分结构,从而形成本体类的树状结构,本体中的最小单元为知识元,通过名称、属性、关系三元组表示。

本发明提供的搜索优化模块7优化方法包括:

1)调用地方志分词算法,用于统计生成地方志的补充词汇,将默认词库中没有的词汇补充在自定义词库中,提高分词的准确性。

2)调用融合词语序列特征的搜索优化算法,通过比对词语序列特征,修正默认搜索算法的评分值,返回更加符合用户的语义的搜索结果,进而提高搜索的精确度。

本发明提供的地方志分词算法,是结合词频统计和聚类算法,筛选出搜索文献集合中出现的高频词汇,然后经过过滤,将默认词库中没有的词汇补充在自定义词库中。其中,自定义词库包括扩展词汇和禁用词汇,用来调整当前搜索的需求。

本发明提供的融合词语序列特征的搜索优化算法,是用于优化搜索评分规则,通过对词序相似度的量化计算公式,有效反映出句子之间的词序关系,进行评分,修正bm25算法或vsm算法,最终计算出修正后的分值。本算法的词序相似度计算函数公式包括:

其中1≤orderseq(q,d)≤set(q,d)其中seqscore(q,d)表示用户输入的查询语句q与文档d中相似语句的词序相似度得分。set(q,d)表示在q、d中都出现的词语的数量。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd)等。

以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1