一种地理实体推荐方法与流程

文档序号:30842800发布日期:2022-07-23 01:08阅读:80来源:国知局
一种地理实体推荐方法与流程

1.本发明涉及城市规划、旅游规划、城市交通、复杂网络建模技术领域,特别是一种地理实体推荐方法。


背景技术:

2.目前,各类社交媒体上的评论数据都与地理空间实体密切相关,可以反映出地理空间实体的各类特征信息,如文化属性、旅游属性、交通属性以及位置属性等。评论数据基本是以非结构化的数据为主,这些属性信息的挖掘需要借助自然语言处理技术,完成多个属性信息的提取。
3.现有技术中还存在以下几个方面的不足:(1)现有研究往往只是计算某些关键词在评论中“共现关系”来确定不同地理实体之间的语义网络关系,而没有对关键词进行有效地筛选;(2)没有利用评论观点的相似性关系来构建地理实体之间的语义网络关系;(3)基于位置语义关系对地理实体进行语义网络关系构建有利于深刻地揭示出地理实体之间的空间位置连接关系,而这在现有技术中很少被使用,特别是应用在地理实体语义网络关系的建模上。


技术实现要素:

4.本发明所要解决的技术问题是克服现有技术的不足而提供一种地理实体推荐方法,本发明能够根据评论数据,从挖掘出的多维属性信息构建不同类型的地理实体语义网络,从而提高基于文本内容的地理实体评价能力,并具有较强的基于文本语言分析的地理实体推荐能力。
5.本发明为解决上述技术问题采用以下技术方案:根据本发明提出的一种地理实体推荐方法,包括以下步骤:步骤1、确定研究区内地理实体语义网络构件所需要的评论数据和地理实体列表;步骤2、提取每条评论数据中核心关注词,结合地理实体列表获得第一地理实体语义网络;提取每条评论数据中评论观点,结合地理实体列表获得第二地理实体语义网络;提取每条评论数据中地理实体之间位置语义关系的关键词,结合地理实体列表获得第三地理实体语义网络;提取每条评论数据中反映评论主题的主题词,结合地理实体列表获得第四地理实体语义网络;步骤3、将步骤2中形成的核心关注词、评论观点、位置语义关系的关键词、主题词作为地理实体的推荐关键词,根据用户所选择的推荐关键词,匹配相对应类型的地理实体语义网络,并进行地理实体语义网络的生成,进而通过新生成地理实体语义网络来推送与用户兴趣最相关的地理实体。
6.作为本发明所述的一种地理实体推荐方法进一步优化方案,步骤1中地理实体列表内每个地理实体都具有经纬度坐标值,地理实体列表是通过如下方式获得的:步骤1.1、研究区内每个地理实体具有唯一值的编号和名称,并对每个地理实体进行评论数据的抓取;步骤1.2、所抓取的每条评论数据对应到所属的地理实体,并建立起一一对应关系。
7.作为本发明所述的一种地理实体推荐方法进一步优化方案,步骤2中获得第一地理实体语义网络的方法具体如下:步骤2.1、基于tf—tdf算法,提取出每条评论数据中的关键词,并对所有评论数据提取出的关键词进行词频统计;步骤2.2、建立词频大于预设阈值的关键词在评论数据中的共现关系网络,计算得到共现关系络的核心关键词的强度值;步骤2.3、根据所有评论数据中关键词的词频数量大小和在共现关系网络中核心关键词的强度值,筛选出核心关注词;步骤2.4、以地理实体为地理实体语义网络的网络节点,若某个核心关注词在两个不同地理实体的各自某条评论数据中都出现,则认为这两个地理实体之间存在一条复杂网络连接边;步骤2.5、基于复杂网络理论,通过网络节点和复杂网络连接边之间的关系,构建第一地理实体语义网络;步骤2中获得第二地理实体语义网络的方法具体如下:步骤3.1、基于百度自然语言处理的在线api,提取出每条评论数据中的评论观点,每条评论观点由一个属性词和描述词组合而成;步骤3.2、按照评论观点的属性词和描述词组合特点,进一步提炼和汇总出评论观点列表;步骤3.3、基于复杂网络理论,以地理实体为地理实体语义网络的网络节点,若评论观点列表中某一评论观点在两个不同地理实体的各自某条评论数据中都出现,则认为这两个地理实体之间存在一条复杂网络连接边;步骤3.4、基于复杂网络理论,通过网络节点和复杂网络连接边之间的关系,构建第二地理实体语义网络;步骤2中获得第三地理实体语义网络的方法具体如下:步骤4.1、提取出每条评论数据中所有地理实体;步骤4.2、构建表示位置语义关系的关键词及相对应的权重值i;其中,权重值i》1;步骤4.3、基于自然语言语义分析技术,提取每条评论数据中所有两两地理实体之间的位置语义连接关系,即:若一条评论数据中两个地理实体之间没有步骤4.2中所述的表示位置语义关系的关键词,则认为这两个地理实体之间存在一条复杂网络连接边,且边的权重为1;若一条评论数据中两个地理实体之间存在步骤4.2中所述的表示位置语义关系的关键词,则认为这两个地理实体之间存在一条复杂网络连接边,且边的权重为步骤4.2中所述的表示位置语义关系的关键词相对应的权重值;其中,若出现多个步骤4.2中所述的表示
位置语义关系的关键词,则以最大权重值的关键词来确定网络边连接关系;步骤4.4、基于复杂网络理论,以地理实体为地理实体语义网络的网络节点,再通过步骤4.3中所确定的复杂网络连接边之间的关系,构建第三地理实体语义网络;步骤2中获得第四地理实体语义网络的方法具体如下:步骤5.1、基于百度自然语言处理的在线api,提取出每条评论数据的主题词;步骤5.2、根据主题词汇总出所有评论数据的主题列表;步骤5.3、基于复杂网络理论,以地理实体为地理实体语义网络的网络节点,若主题列表中某一主题在两个不同地理实体的各自某条评论数据中都出现,则认为这两个地理实体之间存在一条复杂网络连接边;步骤5.4、基于复杂网络理论,通过网络节点和复杂网络连接边之间的关系,构建第四地理实体语义网络。
8.作为本发明所述的一种地理实体推荐方法进一步优化方案,生成第一至第四地理实体语义网络后,分别对各个地理实体语义网络计算网络节点各类指标值;基于该所得到的网络节点各类指标值进行地理实体聚类分析,并根据聚类结果对地理实体进行空间可视化展示。
9.作为本发明所述的一种地理实体推荐方法进一步优化方案,步骤2.2中核心关键词的强度值计算步骤具体包括:步骤2.2.1、基于复杂网络理论,针对所有评论数据,以核心关键词为网络节点,若其中两个核心关键词在一条评论中都出现,则认为这两个核心关键词之间存在一条复杂网络连接边,以此建立关键词复杂网络;步骤2.2.2、对步骤2.2.1中所建立的关键词复杂网络,计算网络节点的度中心性、加权邻近中心性、加权度中心性、加权中介中心性和特征向量中心性指标值;步骤2.2.3、基于熵值法,对步骤2.2.2中所得全部指标计算得到网络节点的综合评价值;该综合评价值即为核心关键词的强度值;步骤3.2中提炼和汇总出评论观点列表计算步骤具体包括:步骤3.2.1、将评论观点中相近语义的属性词进行合并;步骤3.2.2、将评论观点中相近语义的描述词进行合并;步骤3.2.3、基于步骤3.2.1和3.2.2合并处理后的结果,将评论观点中属性词和描述词均相同的评论观点进行去重,进而得到最终的评论观点列表。
10.作为本发明所述的一种地理实体推荐方法进一步优化方案,步骤4.1中提取出每条评论数据中所有地理实体包括评论数据所属地理实体,无论该条评论数据中是否包括这条评论数据所属地理实体。
11.作为本发明所述的一种地理实体推荐方法进一步优化方案,更新第m地理实体语义网络的方法:根据新评论数据分别进行重建第一至第四地理实体语义网络或者只对新评论数据构建第m地理实体语义网络;其中,新构建的第m地理实体语义网络的网络节点指标结果与原第m地理实体语义网络的网络节点指标结果进行叠加计算,以更新第m地理实体语义网络的网络节点指标结果;m=1,2,3,4。
12.作为本发明所述的一种地理实体推荐方法进一步优化方案,将步骤2所形成的核心关注词、评论观点、位置语义关系的关键词、主题词作为地理实体的推荐关键词;
构建一个地理实体推荐系统,该系统提供交互式界面并在系统界面上提供推荐关键词的点击和查询功能,当用户点击或查询到某个推荐关键词后,系统自动展示出与该推荐关键词最相关的地理实体列表,并在地理空间上进行可视化展示。
13.作为本发明所述的一种地理实体推荐方法进一步优化方案,地理实体推荐系统的实现方法如下:步骤a.1、当用户点击或查询到某个推荐关键词时,地理实体推荐系统根据该推荐关键词判断属于第一至第四地理实体语义网络中哪一类;步骤a.2、根据步骤a.1中所确定的地理实体语义网络的类型,只将用户点击或查询到某个推荐关键词作为步骤a.1中所确定的某一类的地理实体语义网络中复杂网络连接边确定的判断条件;步骤a.3、按照步骤a.1中所确定的某一类的地理实体语义网络的生成步骤要求,生成相对应的地理实体语义网络;步骤a.4、对步骤a.3中所生成地理实体语义网络进行网络节点各类指标值的计算,根据网络节点任一类指标值大小顺序,实现地理实体进行筛选,并完成地理实体的空间可视化展示。
14.本发明采用以上技术方案与现有技术相比,具有以下技术效果:(1)本发明提供了一种地理实体语义网络构建方法、以及地理实体推荐方法,通过对评论数据开展共现关系、评论观点、位置语义、评论主题等方面分析,计算获得不同类型的地理实体语义网络,以更全面地反映出地理实体的多维属性特征;本发明还能够根据常用推荐关键词使用情况,预生成相对应的地理实体语义网络,从而加速相关地理实体语义的推荐速度;(2)本发明基于地理实体的文本所蕴含的多维属性特征,并对多维属性特征进行了语义建模,提出了一种地理实体语义网络构建方法、地理实体推荐方法;(3)本发所提出了一种地理实体语义网络构建方法、地理实体推荐方法,提供了更新成果数据的离线处理技术方法,其可以较好地实现在数据成果更新时候不影响现有运行系统服务。
附图说明
15.图1是本发明的整体流程示意图。
16.图2是评论数据与地理实体的对应关系示意图。
17.图3是评论核心关注词的处理过程示意图。
18.图4是第一地理实体语义网络a的处理过程示意图。
19.图5是第二地理实体语义网络b的处理过程示意图。
20.图6是第三地理实体语义网络c的处理过程示意图。
21.图7是评论数据中地理实体之间没有位置语义关键词情况的示意图。
22.图8是评论数据中地理实体之间存在位置语义关键词情况的示意图。
23.图9是第四地理实体语义网络d的处理过程示意图。
24.图10是地理实体推荐过程示意图。
25.图11是地理实体语义网络更新过程示意图。
具体实施方式
26.下面结合附图对本发明的技术方案做进一步的详细说明:本发明提出要通过所提取出的多维属性信息,建立相关联地理实体之间的语义网络关系,从而将地理空间上不同的地理实体实现关联处理。更进一步,便可以借助所完成的语义网络关系,向用户推荐和及时地反馈出用户所关心内容的地理实体。
27.具体而言,本发明从以下几个方面来解决现有问题的不足,以及开展技术创新:(1)现有研究往往只是计算某些关键词在评论中“共现关系”来确定不同地理实体之间的语义网络关系,而没有对关键词进行有效地筛选。通过关键词在评论中“共现关系”的复杂网络指标值计算,筛选出核心关注词。进而再根据核心关注词在不同地理实体中“共现关系”的情况,求解出地理实体之间的语义网络关系。本发明首先对关键词之间“共现关系”进行建模筛选出核心关注词,再通过核心关注词之间“共现关系”来确定地理实体之间的语义联系关系。总体上来看,本发明在现有技术基础上,进行了2次“共现关系”的计算来构建地理实体之间的语义网络关系。
28.(2)本发明提出利用评论观点的相似性关系来构建地理实体之间的语义网络关系,而这在现有技术方法中是被忽视掉的。评论观点是评论核心内容的集中反映。一条评论可能包含多个评论观点。评论观点由属性词和描述词所组成。属性词一般只表示人、事物的属性或特征,具有区别或分类的作用。描述词一般是指形容词,主要用来描写或修饰名词或代词,表示人或事物的性质、状态、特征或属性,常用作定语,也可作表语或补语。一个属性词和一个描述词的组合可形成一条评论观点。借助属性词和描述词的组合关系便可以得出评论之间的语义相似程度。
29.(3)评论中不同地理实体之间的位置语义关系对于地理实体之间联系水平具有重要意义。例如在“关东街出来就是古运河了,现在已经看不出历史的痕迹了,只有一个小的碑刻着这里是古运河”这条评论语句中,关东街和古运河两个地理实体之间存在一定的位置语义关系。也就是说二者之间具有着较强的地理位置连接关系。因此,基于位置语义关系对地理实体进行语义网络关系构建有利于深刻地揭示出地理实体之间的空间位置连接关系。而这在现有技术中很少被使用,特别是应用在地理实体语义网络关系的建模上。
30.与此同时,本发明对表示位置语义关系的关键词进行了权重上重新设计,若一条评论中两个地理实体之间不包含所预先确定的表示位置语义关系的关键词,则认为2个地理实体之间仅仅存在权重为1的位置语义连接关系。而当一条评论中两个地理实体之间包含所预先确定的表示位置语义关系的关键词,则认为2个地理实体之间仅仅存在权重大于1的位置语义连接关系。这种技术处理方法有利于更深层次揭示出地理实体之间的不同强度的位置语义连接关系。
31.(4)本发明还考虑了评论之间主题的相似性来构建地理实体之间的语义网络关系,并结合其他类型的地理实体语义网络进行技术方法的集成创新研究。具体来说,就是通过所构建的不同地理实体之间的语义网络关系进行聚类分析,以从多维度来进行地理实体联系关系的评价分析。
32.(5)本发明步骤9提供了新的方法思路来解决如何快速实现地理实体推荐的问题。首先,提供一个推荐系统。该推荐系统设计成能根据用户所选择的推荐关键词,匹配相对应类型的地理实体语义网络,并进行相关地理实体语义网络的生成,进而通过新生成地理实
体语义网络来推送与用户兴趣最相关的地理实体。其次,根据用户高频率选择的推荐关键词,预先生成不同的地理实体语义网络,进而提升地理实体推荐系统的响应速度。
33.(6)本发明步骤10进一步提出了地理实体语义网络的更新策略,其既可以采取合并新数据源更新的策略,也可以只对新数据构建地理实体语义网络,再通过地理实体语义网络节点指标值叠加计算的方式实现最终结果的更新。这对于离线更新系统核心成果数据,而不影响现有运行系统服务具有重要的意义。
34.步骤1)参见附图1,确定研究区内地理实体语义网络模型构件所需要的评论数据和地理实体列表。其中,地理实体列表内每个地理实体都具有经纬度坐标值;步骤1.1)研究区内每个地理实体具有唯一值的编号和名称,并对每个地理实体进行评论数据的抓取;步骤1.2)参见附图2,所抓取的每条评论数据对应到所属的地理实体,并建立起一一对应关系。
35.步骤2)参见附图3,提取每条评论数据中核心关注词,计算获得第一地理实体语义网络a;步骤2.1)参见附图4,基于tf—tdf算法,提取出每条评论数据中的关键词,并对所有评论数据提取出的关键词进行词频统计;步骤2.2)建立词频大于预设阈值的关键词在评论数据中的共现关系网络,计算得到共现关系络的核心关键词的强度值。
36.其中,核心关键词的强度值计算步骤具体包括了:步骤2.2.1、基于复杂网络理论,针对所有评论数据,以核心关键词为网络节点,若其中两个核心关键词在一条评论中都出现,则认为这两个核心关键词之间存在一条复杂网络连接边,以此建立关键词复杂网络;步骤2.2.2、对步骤2.2.1中所建立的关键词复杂网络,计算网络节点的度中心性、加权邻近中心性、加权度中心性、加权中介中心性和特征向量中心性指标值;步骤2.2.3、基于熵值法,对步骤2.2.2中所得全部指标计算得到网络节点的综合评价值;该综合评价值即为核心关键词的强度值;步骤2.3)根据所有评论数据中关键词的词频数量大小和在共现关系网络中核心关键词的强度值,筛选出核心关注词;步骤2.4)以地理实体为地理实体语义网络的网络节点,若某个核心关注词在两个不同地理实体的各自某条评论数据中都出现,则认为这两个地理实体之间存在一条复杂网络连接边;步骤2.5)基于复杂网络理论,通过网络节点和复杂网络连接边之间的关系,构建第一地理实体语义网络;步骤3)参见附图5,提取每条评论数据中评论观点,计算获得第二地理实体语义网络b;步骤3.1)基于百度自然语言处理的在线api,提取出每条评论数据中的评论观点,每条评论观点由一个属性词和描述词组合而成;步骤3.2)按照评论观点的属性词和描述词组合特点,进一步提炼和汇总出评论观点列表;
其中,提炼和汇总出评论观点列表计算步骤具体包括了:步骤3.2.1)将评论观点中相近语义的属性词进行合并;步骤3.2.2)将评论观点中相近语义的描述词进行合并;步骤3.2.3)基于步骤3.2.1和3.2.2合并处理后的结果,将评论观点中属性词和描述词均相同的评论观点进行去重,进而得到最终的评论观点列表。
37.步骤3.3)基于复杂网络理论,以地理实体为地理实体语义网络的网络节点,若评论观点列表中某一评论观点在两个不同地理实体的各自某条评论数据中都出现,则认为这两个地理实体之间存在一条复杂网络连接边。
38.该算法步骤还包含了以下情况考虑:每个地理实体的评论观点均置换为步骤3.2.1和步骤3.2.2中的合并后属性词和描述词组合后,再进行若评论观点列表中某一评论观点在两个不同地理实体的各自某条评论中都出现条件的判断。
39.步骤3.4)基于复杂网络理论,通过网络节点和复杂网络连接边之间的关系,构建第二地理实体语义网络b。
40.步骤4)参见附图6,提取每条评论数据中地理实体之间位置语义关系的关键词,计算获得第三地理实体语义网络c;步骤4.1)提取出每条评论数据中所有地理实体;该步骤中所提取的每条评论语句中所有地理实体包括了这条评论所属地理实体,无论该条评论语句中是否包括这条评论所属地理实体。
41.步骤4.2)构建表示位置语义关系的关键词及相对应的权重值i;其中,权重值i》1;步骤4.3)基于自然语言语义分析技术,提取每条评论数据中所有两两地理实体之间的位置语义连接关系,即:参见附图7,若一条评论语句中两个地理实体之间没有步骤4.2中所述的表示位置语义关系的关键词,则认为这两个地理实体之间存在一条复杂网络连接边,且边的权重为1;参见附图8,若一条评论语句中两个地理实体之间存在步骤4.2中所述的表示位置语义关系的关键词,则认为这两个地理实体之间存在一条复杂网络连接边,且边的权重为步骤4.2中所述的表述位置语义关系的关键词所确定的权重值。其中,若出现多个步骤4.2中所述的表示位置语义关系的关键词,则以最大权重值的关键词来确定网络边连接关系计算。
42.步骤4.4)基于复杂网络理论,以地理实体为地理实体语义网络的网络节点,再通过步骤4.3中所确定的复杂网络连接边之间的关系,构建第三地理实体语义网络c。
43.步骤5)参见附图9,提取每条评论数据中反映评论主题的主题词,计算第四获得地理实体语义网络d;步骤5.1)基于百度自然语言处理的在线api,提取出每条评论数据的主题词;步骤5.2)根据主题词汇总出所有评论数据的主题列表;步骤5.3)基于复杂网络理论,以地理实体为地理实体语义网络的网络节点,若主题列表中某一主题在两个不同地理实体的各自某条评论数据中都出现,则认为这两个地理实体之间存在一条复杂网络连接边;步骤5.4)基于复杂网络理论,通过网络节点和复杂网络连接边之间的关系,构建
第四地理实体语义网络。
44.步骤6)针对步骤2、步骤3、步骤4、步骤5中所生成的全部第一至第四地理实体语义网络,分别对各个地理实体语义网络计算网络节点各类指标值。网络节点各类指标值包含了网络节点的度中心性、加权邻近中心性、加权度中心性、加权中介中心性和特征向量中心性指标值。
45.步骤7)基于上述所得到的网络节点各类指标值进行地理实体聚类分析,并根据聚类结果对地理实体进行空间可视化展示。
46.步骤8)将步骤2、步骤3、步骤4、步骤5中所形成的核心关注词、评论观点、位置语义关系的关键词、主题词作为地理实体的推荐关键词。
47.步骤9)参见附图10,构建一个地理实体推荐系统,该系统提供交互式界面并在系统界面上提供推荐关键词的点击和查询功能,当用户点击或查询到某个推荐关键词后,系统自动展示出与该推荐关键词最相关的地理实体列表,并在地理空间上进行可视化展示。
48.步骤9.1)当用户点击或查询到某个推荐关键词时,系统根据该推荐关键词判断属于第一至第四地理实体语义网络a、b、c、d中哪一类;步骤9.2)根据步骤9.1中所确定的地理实体语义网络类型,只将用户点击或查询到某个推荐关键词作为生成地理实体语义网络中复杂网络连接边确定的判断条件;步骤9.3)按照步骤2、步骤3、步骤4、步骤5中地理实体语义网络生成步骤要求,生成相对应的地理实体语义网络;步骤9.4)对步骤9.3中所生成地理实体语义网络进行网络节点各类指标值的计算,根据网络节点某类指标值大小顺序,实现相关的地理实体进行筛选,并完成地理实体的空间可视化展示。网络节点各类指标值包含了网络节点的度中心性、加权邻近中心性、加权度中心性、加权中介中心性和特征向量中心性指标值。
49.该步骤中所构建的地理实体推荐系统还包括了不同类型推荐关键词选择实现最相关地理实体推荐的功能,即通过多个推荐关键词来匹配多类型地理实体语义网络和不同类型地理实体语义网络指标值累加计算的方式综合推荐最相关地理实体。
50.在该步骤中可以根据用户高频率选择的推荐关键词预先生成不同的地理实体语义网络,进而提升地理实体推荐系统的响应速度。
51.步骤10)参见附图11,第一至第四地理实体语义网络(a~d)可根据新评论数据源分别进行重建或者只对新评论数据源构建地理实体语义网络。其中,新构建的地理实体语义网络节点指标结果可以与原有同类型地理实体语义网络节点指标结果进行叠加计算,以更新地理实体语义网络节点的指标结果。
52.步骤3.3中算法步骤包含了以下情况考虑:每个地理实体的评论观点均置换为步骤3.2.1和步骤3.2.2中的合并后属性词和描述词组合后,再进行若评论观点列表中某一评论观点在两个不同地理实体的各自某条评论中都出现条件的判断。
53.步骤4.1中所提取的每条评论数据中所有地理实体包括这条评论数据所属地理实体,无论该条评论数据中是否包括这条评论数据所属地理实体。
54.步骤6和步骤9.4中网络节点各类指标值包含了网络节点的度中心性、加权邻近中心性、加权度中心性、加权中介中心性和特征向量中心性指标值。
55.步骤9中所构建的地理实体推荐系统还包括了通过不同类型推荐关键词的选择实
现最相关地理实体推荐的功能,即通过多个推荐关键词来匹配多类型地理实体语义网络,并根据所匹配的不同类型地理实体语义网络节点指标值的累加计算的方式综合推荐最相关地理实体。其中,不同类型地理实体语义网络的指标值累加计算时,权重值可以不同。”本质上,是让用户选择多个推荐关键词,这样就可以根据所选择的多个推荐关键词关联到不同类型地理实体语义网络。再针对关联到的不同类型地理实体语义网络,计算网络节点指标值。不同类型地理实体语义网络的相同类型网络节点,可以设置不同的权重。这样累加计算后结果,用于综合的推荐。而这里的权重值可以根据不同类型地理实体语义网络在用户选择时所使用的频率进行设定。
56.步骤9中根据用户高频率选择的推荐关键词预先生成不同的地理实体语义网络,进而提升地理实体推荐的响应速度。
57.以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替代,都应当视为属于本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1