一种地理信息资源检索意图检测方法及计算机可读介质

文档序号:35968742发布日期:2023-11-09 09:25阅读:49来源:国知局
一种地理信息资源检索意图检测方法及计算机可读介质

本发明属于地理信息检索,尤其涉及一种地理信息资源检索意图检测方法及计算机可读介质。


背景技术:

1、随着地理与地球科学数据采集与共享技术日益完善,互联网上各式地理信息资源大量涌现,为地学研究与应用提供丰富数据资源的同时,也给准确的资源检索与发现带来巨大挑战。目前,地理信息资源的检索方法大致分为基于语义的检索、基于内容的检索和基于用户相关反馈的检索。基于语义的检索通过匹配用户输入的检索词与资源元数据中的标题、描述等字段实现检索,这类方法可解释性强但过度依赖用户对文本化检索条件的精准表述,亦难以应对数据资源元数据字段缺失导致的匹配失效问题。基于内容的检索利用图像的多模态特征信息进行相似度匹配完成检索,能够应对元数据缺失或错误的问题,但容易导致视觉特征的“过拟合”(例如匹配中过度关注地理要素的几何形态等底层视觉特征,误将等高线识别为河流)与“欠匹配”(例如检索需求为水体时,若输入的样例图像中仅为线状水体则面状水体无法匹配),难以跨越底层图像特征与高层语义之间的“语义鸿沟”。基于用户相关反馈的检索,利用用户对当前检索结果的相关反馈数据训练分类器或构建典型样本进行重检索,实现检索结果的精化,该方法降低了用户检索需求表达的成本,但由于缺少对用户检索需求的显式建模,导致检索需求理解不准确且检索结果可解释性差。

2、基于意图的检索通过显式建模与识别用户需求提高检索精度,可为地理信息资源检索提供新的技术途径。基于预定义类别的意图识别方法在建立意图分类体系的基础上,利用决策树、支持向量机或深度学习模型识别潜在意图,但这种方法仅能表达检索意图的大致范围,无法准确刻画用户需求的具体内容;基于词项向量的方法,先从用户相关反馈数据中提取关键词集合作为意图模型,然后将关键词集合作为查询条件重检索,但该方法未考虑词项的语义及词项间的逻辑关系,难以全面准确定位用户兴趣资源。此外,上述意图识别方法,难以应对一次检索任务中存在多个检索需求的复杂地理信息资源检索场景,容易导致意图识别不全或失败。


技术实现思路

1、针对现有技术的不足,本发明提出了一种地理信息资源检索意图检测方法及计算机可读介质。

2、本发明使用超图建模反馈样本间的属性同义与上下位关系,显式描述子意图维度分量内的复合语义,并挖掘维度间的潜在关联,有助于发现隐藏意图并应对部分反馈样本元数据缺失导致意图无法完整表达的问题,以支持各类地理信息资源的精准与鲁棒检索。

3、本发明方法的技术方案为一种地理信息资源检索意图检测方法,包括以下步骤:

4、步骤s1:设计一种“意图-子意图-维度分量”三层嵌套的地理信息资源检索意图形式化表达模型;

5、步骤s2:以用户相关反馈样本为顶点、样本间属性的同义与上下位关系为边,生成语义泛化程度不同的若干个超图构图方案;

6、步骤s3:定义分割代价度量指标实现最优超图构图及对应的超图分割方案的选择,得到若干个可能表达同一检索子意图的子超图;

7、步骤s4:从每个子超图中提取对应的子意图并评价其置信度,然后将所有子意图合并为意图。

8、在一种实施方式中,步骤s1具体包括:

9、步骤s11:定义用户地理信息资源检索意图由若干个子意图构成;

10、步骤s12:定义子意图中可以用于约束检索条件的多种维度分量;

11、步骤s13:定义每种维度分量上可能的概念取值集合。

12、在一种实施方式中,步骤s2具体包括:

13、步骤s21:将当前用户相关反馈中每个正样本作为超图的顶点;

14、步骤s22:构建每个正样本对应的标签集合;

15、步骤s23:使用基于语义的频繁项集挖掘方法,得到在多个正样本的标签集合中频繁共现的多个标签组合;

16、步骤s24:生成每个标签组合对应的超图构图方案。

17、在一种实施方式中,步骤s3具体包括:

18、步骤s31:结合周氏归一化拉普拉斯算子得到每个超图的拉普拉斯矩阵,并求解拉普拉斯矩阵的特征值和特征向量;

19、步骤s32:基于分割代价度量指标实现k-means聚类算法参数的自适应设定,生成每个超图的分割方案;

20、步骤s33:基于分割代价度量指标,从多个标签组合对应的多个超图的分割方案中选出一个超图的分割方案作为最优分割方案,并输出该方案对应的一组子超图。

21、在一种实施方式中,步骤s4具体包括:

22、步骤s41:计算每个子超图中每条超边的覆盖度,筛选出高于顶点覆盖度阈值的超边构建子意图的维度分量;

23、步骤s42:计算每个子意图的置信度;

24、步骤s43:将所有子意图合并为意图。

25、在一种实施方式中,步骤s11所述用户地理信息资源检索意图由若干个子意图构成,具体如下:

26、

27、其中,i为用户地理信息资源检索意图,m为子意图的数量,ik为意图中第k个子意图,∨表示逻辑“或”关系,k∈[1,m];

28、在一种实施方式中,步骤s12所述子意图中可以用于约束检索条件的多种维度分量,具体如下:

29、

30、其中,n为维度分量的数量,表示第k个子意图中第j个维度分量,∧表示逻辑“与”关系,j∈[1,n];

31、在一种实施方式中,步骤s13所述每种维度分量上可能的概念取值集合,具体如下:

32、

33、其中,为意图中第k个子意图的第j个维度分量中第h个概念取值,h为概念取值的数量,无同义与上下位关系,h∈[1,h],x∈[1,h],y∈[1,h]。

34、在一种实施方式中,步骤s21所述将当前用户相关反馈中每个正样本作为超图的顶点,即每个正样本对应超图的每个顶点;

35、在一种实施方式中,步骤s22所述构建每个正样本对应的标签集合,具体如下:

36、获取用户相关反馈的多个正样本及每个正样本的多个标签,所述标签为外部知识库中的概念,与用户地理信息资源检索意图中的概念取值来源相同;

37、基于外部知识库中概念的同义和上下位关系,获取所有标签的多个最低公共祖先标签;

38、为每个正样本构建由多个标签和多个最低公共祖先标签共同构成的标签集合;

39、在一种实施方式中,步骤s23所述使用基于语义的频繁项集挖掘方法,得到在多个正样本的标签集合中频繁共现的多个标签组合,具体如下:

40、1)采用apriori算法,将每个正样本标签集合中的单个标签作为频繁项集挖掘中的单个项,计算所有单个项的支持度;

41、所述支持度定义为:每个项在所有正样本标签集合中出现的频率;

42、2)判断所有单个项的支持度是否大于最小支持度阈值,若是则保留,若不是则剔除,得到频繁1项集;

43、3)以频繁n-1项集为基础(初始n=2),连接生成候选n项集,每个项集是由n个标签组成的集合;

44、4)基于外部知识库中概念的同义和上下位关系,剔除候选n项集中不满足单个项取值无同义或上下位概念约束的项集;

45、5)计算候选n项集中每个项的支持度;

46、判断每个项的支持度是否大于最小支持度阈值,若是则保留,若不是则剔除,得到频繁n项集;

47、6)若频繁n项集为空或只有一项,输出所有频繁项集,迭代结束;

48、否则,令n=n+1,转入3);

49、7)在所有频繁项集中,最大程度合并任意单个项取值无同义与上下位概念关系的项,得到所有频繁项集下的多个标签组合;

50、在一种实施方式中,步骤s24所述生成每个标签组合对应的超图构图方案,具体如下:

51、将每个标签组合中的每个标签作为一个超图中一条超边的取值;

52、将每条超边的取值依次与每个正样本的多个标签进行语义判断,得到每条超边包含的多个顶点、每个顶点关联的多条超边,具体如下:

53、使用以每个顶点为行元素、每条超边为列元素的点边关联矩阵描述超图中顶点和超边的关系,若超边的取值为正样本的多个标签中任意一个标签的同义或上位概念,则超边包含正样本对应的顶点,即该顶点关联该超边,点边关联矩阵中顶点和超边对应的行列取值为1,否则为0;

54、将每条超边包含的顶点数量定义为超边的度;

55、基于信息量度量方法计算每条超边的权重,计算过程如下:

56、

57、其中,wt,q为频繁项集下第t个标签组合对应的超图中第q条超边et,q的权重,δ(et,q)为超边et,q的度,vt,q为超边et,q包含的第vt,q个顶点,lt,q为超边et,q包含的顶点的数量,dis(vt,q,et,q)为通过概念信息量度量方法计算的第vt,q个顶点到超边et,q的距离,μ为权重的归一化系数,q∈[1,q],t∈[1,z],q为超图中超边的数量,z为标签组合的数量;

58、将每个顶点关联的超边的权重之和定义为顶点的度;

59、构建超图中超边的权重矩阵,具体定义如下:

60、

61、其中,|et|表示频繁项集下的第t个标签组合对应的超图中超边集合的模长,即该超图中超边的数量,wt表示该超图的权重矩阵,wt为对角阵,对角阵上的每个元素对应每条超边的权重,表示实数集;

62、构建超图中超边的度矩阵,具体定义如下:

63、

64、其中,|et|表示频繁项集下的第t个标签组合对应的超图中超边集合的模长,即该超图中超边的数量,dt,e表示该超图中超边的度矩阵,dt,e为对角阵,对角阵上的每个元素对应每条超边的度,表示实数集;

65、构建超图中顶点的度矩阵,具体定义如下:

66、

67、其中,|vt|表示频繁项集下的第t个标签组合对应的超图中顶点集合的模长,即该超图中顶点的数量,dt,v表示该超图中顶点的度矩阵,dt,v为对角阵,对角阵上的每个元素对应每个顶点的度,表示实数集。

68、在一种实施方式中,步骤s31所述结合周氏归一化拉普拉斯算子得到每个超图的拉普拉斯矩阵,并求解拉普拉斯矩阵的特征值和特征向量,具体如下:

69、基于周氏归一化拉普拉斯算子,使用每个超图的点边关联矩阵、超边的权重矩阵、超边的度矩阵和顶点的度矩计算得到该超图的拉普拉斯矩阵,拉普拉斯矩阵的行、列的长度均为该超图中顶点的数量;

70、拉普拉斯矩阵的特征向量长度为超图中顶点的数量,特征向量的每个元素对应顶点的特征;

71、在一种实施方式中,步骤s32基于分割代价度量指标实现k-means聚类算法参数的自适应设定,生成每个超图的分割方案,具体如下:

72、1)选择前k小的特征值对应的特征向量作为待聚类的特征矩阵(初始k=2),矩阵中的行向量表示每个顶点的特征序列;

73、2)利用k-means聚类方法对该特征矩阵进行聚类,将超图的顶点集合分割为k个簇;所述超图的顶点集合为:

74、datat=(tt,1,tt,2,…,tt,k)

75、其中,datat为频繁项集下的第t个标签组合对应超图的顶点集合,tt,z为第z个簇,k为聚类的数量,z∈[1,k];一个簇tt,z对应超图分割结果中的一个子超图,包含若干顶点及覆盖这些顶点的超边;

76、3)计算超图的分割代价度量指标,具体如下:

77、

78、其中,cct为频繁项集下的第t个标签组合对应超图的分割代价度量指标,tt,z为第z个簇,vol表示使用标准化超图剪切方法计算的超图体积,表示使用标准化超图剪切方法计算的超图边界体积,k为聚类的数量,z∈[1,k];

79、4)更新k=k+1,重复执行步骤1)-3),直至cct≥γ或者k≥num时,γ表示分割阈值,num表示最大迭代次数;

80、5)将分割代价度量指标最小的分割结果作为当前超图构图方案对应的超图分割方案;

81、在一种实施方式中,步骤s33所述基于分割代价度量指标,从多个标签组合对应的多个超图的分割方案中选出一个超图的分割方案作为最优分割方案,并输出该方案对应的一组子超图,具体如下:

82、在多个超图构图方案及其对应的超图分割方案中,以分割代价度量指标最小时的超图构图方案及其对应的超图分割方案作为最优选择;

83、输出若干个可能表达同一检索子意图的子超图。

84、在一种实施方式中,步骤s41所述计算每个子超图中每条超边的覆盖度,筛选出高于顶点覆盖度阈值的超边构建子意图的维度分量,具体如下:

85、定义每条超边的覆盖度为该超边在子超图中包含的顶点个数占子超图顶点总数的比例;

86、筛选出高于顶点覆盖度阈值的超边;

87、获取每条超边的值,将其作为用户地理信息资源检索意图中子意图维度分量的概念取值;

88、在一种实施方式中,步骤s42所述计算每个子意图的置信度,具体如下:

89、

90、其中,conf(ia)表示第a个子超图对应的第a个子意图的置信度,vol表示使用标准化超图剪切方法计算的超图体积,ga表示第a个子超图,a∈[1,k];max(vol(ga))为子超图ga的顶点个数乘以超边的条数,k为子超图的数量;

91、在一种实施方式中,步骤s43所述将所有子意图合并为意图,表示以逻辑“或”的关系连接所有子意图为意图。

92、本发明还提供了一种计算机可读介质,所述计算机可读介质存储电子设备执行的计算机程序,当所述计算机程序在电子设备上运行时,执行所述地理信息资源检索意图检测方法的步骤。

93、与现有技术相比,本发明具有如下优点和有益效果:

94、本发明提出一种基于超图分割的地理信息资源检索意图识别方法。定义子意图中的维度分量可以由多个概念取值组成,以便表达子意图中的复合概念,能够提升意图识别的准确性;融合语义的频繁项集挖掘,能够更好地捕捉反馈样本各维度分量内及维度间的语义关联,而利用超图建模反馈样本间的属性同义与上下位关系,有助于挖掘隐藏意图,克服部分反馈样本元数据缺失导致意图无法完整表达的问题;基于超图分割的意图识别方法,通过建立簇、子超图、子意图之间的映射关系,应对一次检索任务中涉及多个需求的情况;建立子意图的置信度评价机制,可为迭代式相关反馈中高可信意图的筛选提供依据。本发明方法可推广应用于各类地理信息门户,实现地理信息资源的精准与智能检索,提升地理信息共享与发现的服务品质。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1