一种基于调研数据的知识图谱构建方法与流程

文档序号:24074078发布日期:2021-02-26 16:28阅读:112来源:国知局
一种基于调研数据的知识图谱构建方法与流程

[0001]
本发明涉及知识图谱构建领域,尤其涉及一种基于调研数据的知识图谱构建方法。


背景技术:

[0002]
知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。问卷调研是一种常见的调研方式,为了更直观地反应调研结果,有时候需要进行根据调研数据进行知识图谱的构建。现有技术中,一般是通过手动输入的方式来将纸质的问卷中的调研数据输入到数据库中,这种输入方式效率过低,无法及时将大量的纸质的问卷中的调研数据输入到数据库中。


技术实现要素:

[0003]
鉴于上述问题,本发明的目的在于提供一种基于调研数据的知识图谱构建方法。
[0004]
本发明提供了一种基于调研数据的知识图谱构建方法,其包括:
[0005]
s1,生成问卷模板,所述问卷模板包括问题区域和答题区域;
[0006]
s2,获得纸质问卷的扫描图像,基于所述问卷模板,对所述扫描图像中的答题区域进行图像识别,获取答题区域中的答题结果;
[0007]
s3,将所述答题结果输入到数据库中进行存储;
[0008]
s4,基于所述数据库中存储的答题结果,构建知识图谱。
[0009]
优选地,生成问卷模板,包括:
[0010]
获取经过作答的问卷的图像;
[0011]
对所述图像进行图像识别,获得问题区域和答题区域;
[0012]
基于所述问题区域和答题区域得到问卷模板。
[0013]
优选地,所述问题区域通过如下方式进行确定:
[0014]
获取所述图像中的前景区域,所述前景区域包括问题区域和答题区域;
[0015]
获取所述前景区域中的文字的关键字,并将所述文字的关键字和预设的问题关键字进行匹配,若匹配成功,则表示所述文字的关键字位于问题区域内,进行下一步处理;
[0016]
所述下一步处理包括:使用自然语言处理算法对所述文字进行完整句子判断,将所述完整句子所处的区域作为问题区域。
[0017]
优选地,所述答题区域通过如下方式进行确定:
[0018]
将所述前景区域中,除了问题区域之外的区域作为答题区域。
[0019]
优选地,基于所述问卷模板,对所述扫描图像中的答题区域进行图像识别,包括:
[0020]
将所述问卷模板的图像和所述纸质问卷的扫描图像置于同一直角坐标系下;
[0021]
识别所述扫描图像中的最上端的问题区域;
[0022]
将扫描图像中的最上端的问题区域与问卷模板的图像中的最上端的问题区域重
叠,从而完成对扫描图像在所述直角坐标系中的位置的调整;
[0023]
根据问卷模板中的答题区域和问题区域的相对位置关系,确定扫描图像中的答题区域;
[0024]
对所述答题区域进行图像识别,获取答题区域中的答题结果。
[0025]
与现有技术相比,本发明的优点在于:
[0026]
通过图像识别的方式,对不同类型的问卷得到不同的问卷模板,使用所述问卷模板对经过作答的问卷中的答题区域进行定位,然后只需要对答题区域进一步进行图像识别,就可以将问卷数据从纸质问卷转换到数据库中进行存储,能够及时将大量的纸质的问卷中的调研数据输入到数据库中,然后再基于所述数据库进行知识图谱的构建,显然能够极大地提高知识图谱构建的速度。能够避免对扫描图像进行全局识别,有效加快识别的速度。
附图说明
[0027]
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
[0028]
图1,为本发明一种基于调研数据的知识图谱构建方法的一种示例性实施例图。
具体实施方式
[0029]
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0030]
参见如图1实施例所一种基于调研数据的知识图谱构建方法,其包括:
[0031]
s1,生成问卷模板,所述问卷模板包括问题区域和答题区域;
[0032]
s2,获得纸质问卷的扫描图像,基于所述问卷模板,对所述扫描图像中的答题区域进行图像识别,获取答题区域中的答题结果;
[0033]
s3,将所述答题结果输入到数据库中进行存储;
[0034]
s4,基于所述数据库中存储的答题结果,构建知识图谱。
[0035]
优选地,生成问卷模板,包括:
[0036]
获取经过作答的问卷的图像;
[0037]
对所述图像进行图像识别,获得问题区域和答题区域;
[0038]
基于所述问题区域和答题区域得到问卷模板。
[0039]
优选地,所述问题区域通过如下方式进行确定:
[0040]
获取所述图像中的前景区域,所述前景区域包括问题区域和答题区域;
[0041]
获取所述前景区域中的文字的关键字,并将所述文字的关键字和预设的问题关键字进行匹配,若匹配成功,则表示所述文字的关键字位于问题区域内,进行下一步处理;
[0042]
所述下一步处理包括:使用自然语言处理算法对所述文字进行完整句子判断,将所述完整句子所处的区域作为问题区域。
[0043]
优选地,所述获取所述图像中的前景区域,包括:
[0044]
对所述图像进行灰度化处理,获得灰度处理图像;
[0045]
对所述灰度处理图像进行降噪处理,获得降噪处理图像;
[0046]
使用otsu算法对所述降噪处理图像进行图像分割处理,获得前景区域。
[0047]
优选地,对所述灰度处理图像进行降噪处理,获得降噪处理图像,包括:
[0048]
计算小波分解的次数dn;
[0049]
对所述灰度处理图像连续进行dn次小波分解处理,获得高频系数hf
i,dn
和低频系数lf
dn
,dn∈[1,dn],dn表示第dn次小波分解,i表示第i个高频系数,hf
i,dn
表示第dn次小波分解获得的第i个高频系数,lf
dn
表示第dn次小波分解获得的高频系数;
[0050]
对高频系数进行如下处理:
[0051][0052]
式中,ahf
i,dn
表示处理后的高频系数,yz表示第一调节参数,ua表示第二调节参数,bv
dn
和bw
dn
表示在对第dn次小波分解获得的高频系数图像进行处理时,所采用的处理阈值,sign表示符号函数,
[0053]
对低频系数进行如下处理:
[0054][0055]
式中,lf
dn
(m)表示第dn次小波分解获得的低频系数中,像素点m的像素值,nei
m
表示像素点m的t
×
t大小的邻域中的像素点的集合,lf
dn
(k)表示在所述低频系数中,nei
m
中的像素点k的像素值,hg表示nei
m
中所有元素与m的像素值的差的方差,long(k,m)表示m和k之间的欧式距离,ig表示m和nei
m
中的所有元素之间的距离的方差;alf
dn
(m)表示在第dn次小波分解获得的低频系数中,像素点m处理后的像素值,alf
dn
表示处理后的第dn次小波分解获得的低频系数,
[0056]
将alf
dn
和ahf
i,dn
进行重构,获得降噪处理图像。
[0057]
本发明上述实施例,在对高频系数进行处理时,设置了两个互相配合的处理阈值,针对不同的小波系数,有针对性地选择不同的处理函数进行处理,极大的提高了处理的准确性,与此同时,还对低频系数也进行了处理,通过低频系数中的像素点与其邻域的像素点在空间和像素值上的关系,为不同的邻域像素点赋予不同的权重,从而实现了在保留图像细节的同时,对噪点进行有效的去除。
[0058]
优选地,所述处理阈值通过下述方式进行计算:
[0059][0060]
bw
dn
=bv
dn
×
β,
[0061]
式中,β表示预设的比例参数,bv
dn
和bw
dn
表示两个不同的处理阈值,dn表示分解次数,cxb表示使用误差矢量幅值法对所述灰度处理图像进行计算得到的结果。
[0062]
通过上述方式,实现了自适应地对不同分解次数得到的高频小波系数产生不同的处理阈值,有效地降低了由于小波分解次数过大导致的重构后细节信息小幅度丢失的问题对得到的降噪处理图像的质量的影响。传统的全局阈值固定,对不同分解次数的系数采用相同的阈值进行处理时,容易出现的所述问题。
[0063]
优选地,所述小波分解的次数dn的计算方式如下:
[0064][0065][0066]
式中,gxb表示中间参数,ck表示基准层数,numj表示灰度处理图像中的像素点的总数,n
j
表示灰度处理图像中的第j个像素点的像素值,cxb表示使用误差矢量幅值法对所述灰度处理图像进行计算得到的结果。
[0067]
将小波分解的层数与图像的信噪比进行关联,从而能够得到准确的分解层数,同时还考虑了灰度处理图像中的所有像素点像素值的影响,综合得到更为准确的结果。
[0068]
优选地,yz∈[0,1],ua∈[0,1]。
[0069]
优选地,ck的取值为10。
[0070]
优选地,所述答题区域通过如下方式进行确定:
[0071]
将所述前景区域中,除了问题区域之外的区域作为答题区域。
[0072]
优选地,基于所述问卷模板,对所述扫描图像中的答题区域进行图像识别,包括:
[0073]
将所述问卷模板的图像和所述纸质问卷的扫描图像置于同一直角坐标系下;
[0074]
识别所述扫描图像中的最上端的问题区域;
[0075]
将扫描图像中的最上端的问题区域与问卷模板的图像中的最上端的问题区域重叠,从而完成对扫描图像在所述直角坐标系中的位置的调整;
[0076]
根据问卷模板中的答题区域和问题区域的相对位置关系,确定扫描图像中的答题区域;
[0077]
对所述答题区域进行图像识别,获取答题区域中的答题结果。
[0078]
这里的最上端的问题区域,指的是问卷中的第一个问题所在的区域。
[0079]
优选地,对所述答题区域进行图像识别,获取答题区域中的答题结果,包括:
[0080]
若题目为选择题,则答题结果为被调研人员针对所述选择题中的选项的选择结果。
[0081]
尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形,本发明的范围由权利要求及其等同物限定。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1