一种基于关键词提取的地址树构建方法与流程

文档序号:33279849发布日期:2023-02-24 20:41阅读:49来源:国知局
一种基于关键词提取的地址树构建方法与流程

1.本发明属于自然语言处理技术领域,具体涉及一种基于关键词提取的地址树构建方法的设计。


背景技术:

2.随着智慧城市的普及与应用,地址信息作为其运行的基础支撑要素,其运用也越来越广泛,城市各行业的数据库中都保存着大量和地理位置有关的非空间数据,主要产生原因如下:
3.一是地址信息管理部门众多,且应用系统之间相互割裂,地址信息分散在公安、规划国土、住建、网格管理等多个部门。比如,公安部门负责管理门楼牌,规划国土部门负责管理建筑物、小区和道路,网格管理部门负责采集实有房屋信息。不同部门之间的地址信息资源相对独立,并没有进行关联整合。
4.二是各部门对地址的应用场景不一样,导致地址标准不统一。不同的地址信息管理部门遵循各自的行业标准,其地址格式和命名规范都不一致,缺乏统一的规范和标准,信息整合的难度较大,致使当前没有一个统一规范的地址库可用。此外,政府各职能部门的信息系统在采集地址时大多采用手工录入,地址的规范性和准确性得不到保证,给城市管理和社会治理带来诸多困难和不便。
5.由于地址信息复杂多样性,不同行业或部门都有自己不同的需求,以不同的形式采集、处理和传播空间信息,因此采集的地址数据的格式和质量有很大区别,存在输入拼写错误或者表达模糊、地址残缺等情况,进而导致使用时出现:(1)现实中无法找到该地址;(2)企业、个人在缴费、纳税时因地址错误造成损失;(3)城市治理、指挥过程中无法有效统一指挥协同联动。因此需要对地址信息中的关键词进行提取,构造精确的地址树。
6.现有的地址树构建方法中,textrank算法为基于图的排序方法,利用共现窗口实现部分词语之间的关系构建,对后续关键词进行排序,直接从文本本身中提取关键词来构建地址树。该方法没有分析词语相邻权值转移的问题,会在构建地址树的时候出现混乱状态,进而造成构建的地址树不够精确。


技术实现要素:

7.本发明的目的是为了解决现有的地址树构建方法不够精确的问题,提出了一种基于关键词提取的地址树构建方法。
8.本发明的技术方案为:一种基于关键词提取的地址树构建方法,包括以下步骤:
9.s1、对地址信息文本进行预处理,得到预处理文本。
10.s2、计算预处理文本中每个词语的综合权重。
11.s3、根据每个词语的综合权重提取关键词。
12.s4、根据提取到的关键词构建地址树。
13.进一步地,步骤s1包括以下分步骤:
14.s11、根据地址编码规范要求,通过枚举专用名词作为分词符号,对地址信息文本进行分词处理。
15.s12、根据分词结果和词语在句子中的位置对每个词语进行位置符号标记,得到预处理文本。
16.进一步地,步骤s2包括以下分步骤:
17.s21、计算每个词语在预处理文本中的词频:
[0018][0019]
其中tfi表示第i个词语在预处理文本中的词频,ni表示第i个词语在预处理文本中出现的次数,n表示预处理文本中的词语总数。
[0020]
s22、计算每个词语在预处理文本中的逆向文件频率:
[0021][0022]
其中idfi表示第i个词语在预处理文本中的逆向文件频率,m表示预处理文本中的文档总数,mi表示包含第i个词语的文档数目。
[0023]
s23、根据每个词语在预处理文本中的词频和逆向文件频率计算得到该词语的tf-idf权重:
[0024]wtf-idf
(i)=tfi*idfi[0025]
其中w
tf-idf
(i)表示第i个词语的tf-idf权重。
[0026]
s24、计算预处理文本中每个词语的平均信息熵:
[0027][0028]
其中w
entropy
(i)表示第i个词语的平均信息熵,f
ik
表示第i个词语在第k个文档中出现的频次,ni表示第i个词语在整个预处理文本中出现的频次。
[0029]
s25、根据每个词语的tf-idf权重和平均信息熵计算得到该词语的综合权重:
[0030][0031]
其中w
weight
(i)表示第i个词语的综合权重。
[0032]
进一步地,步骤s3包括以下分步骤:
[0033]
s31、将预处理文本中每个词语作为一个图谱节点,计算图谱中的节点转移概率:
[0034][0035]
其中w(vj,vi)表示图谱中第j个节点vj到第i个节点vi的转移概率,w
weight
(vi)表示第i个节点vi的综合权重,w
weight
(vk)表示第k个节点vk的综合权重,out(vj)表示第j个节点vj的出度集合,即第j个节点vj指向的所有节点的集合。
[0036]
s32、根据图谱中的节点转移概率计算得到图谱中每个节点的重要性权重:
[0037][0038]
其中ws(vi)表示图谱中第i个节点vi的重要性权重,d表示阻尼系数,ws(vj)表示图谱中第j个节点vj的重要性权重,in(vj)表示第j个节点vj的入度集合,即指向第j个节点vj的所有节点的集合。
[0039]
s33、将重要性权重大于预设阈值的节点对应的词语作为关键词输出。
[0040]
进一步地,步骤s4包括以下分步骤:
[0041]
s41、计算关键词的偏移量:
[0042][0043][0044]
其中w
i,j
表示第i个关键词ci相对于第j个关键词cj的偏移量,ti表示第i个关键词ci所在文档,tj表示第j个关键词cj所在文档,dist(ci,cj)表示第i个关键词ci和第j个关键词cj在预处理文本中的深度距离之和,pi表示第i个关键词ci所在位置,pj表示第j个关键词cj所在位置,pos(ci)表示第i个关键词ci的正序位置,pos(cj)表示第j个关键词cj的正序位置。
[0045]
s42、根据关键词的偏移量对图谱中关键词对应的节点进行排序,生成地址树。
[0046]
本发明的有益效果是:本发明结合词语的tf-idf权重和平均信息熵作为综合权重对关键词进行提取,并充分考虑了词语相邻权值的转移概率,提高了关键词提取的准确度,再基于提取到的关键词构建精确的地址树,操作简单,无须人工干预,具有较强的通用性,能够满足对文本地址关键词的准确提取,为地址补全、地址纠错、地址转换等应用提供基础技术支撑。
附图说明
[0047]
图1所示为本发明实施例提供的一种基于关键词提取的地址树构建方法流程图。
具体实施方式
[0048]
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
[0049]
本发明实施例提供了一种基于关键词提取的地址树构建方法,如图1所示,包括以下步骤s1~s4:
[0050]
s1、对地址信息文本进行预处理,得到预处理文本。
[0051]
步骤s1包括以下分步骤s11~s12:
[0052]
s11、根据地址编码规范要求,通过枚举专用名词作为分词符号,对地址信息文本进行分词处理,例如“省、市、县、自治区、街道、小区、栋、排、号”等等。
[0053]
s12、根据分词结果和词语在句子中的位置对每个词语进行位置符号标记(本发明
实施例采用从左到右进行位置符号标记),得到预处理文本。
[0054]
s2、计算预处理文本中每个词语的综合权重。
[0055]
步骤s2包括以下分步骤s21~s25:
[0056]
s21、计算每个词语在预处理文本中的词频:
[0057][0058]
其中tfi表示第i个词语在预处理文本中的词频,即该词语在预处理文本中出现的概率,ni表示第i个词语在预处理文本中出现的次数,n表示预处理文本中的词语总数。
[0059]
s22、计算每个词语在预处理文本中的逆向文件频率:
[0060][0061]
其中idfi表示第i个词语在预处理文本中的逆向文件频率,m表示预处理文本中的文档总数,mi表示包含第i个词语的文档数目。
[0062]
如果包含词语的文档越少,逆向文件频率越大,则说明该词语具有很好的类别区分能力。逆向文件频率公式中分母加1,是为了避免分母为0。
[0063]
s23、根据每个词语在预处理文本中的词频和逆向文件频率计算得到该词语的tf-idf权重:
[0064]wtf-idf
(i)=tfi*idfi[0065]
其中w
tf-idf
(i)表示第i个词语的tf-idf权重。
[0066]
如果某个词语在预处理文本中出现频率较高,且位置标记越靠左,则tf-idf权重就越大,也就说明该词语位置区域越大。
[0067]
s24、计算预处理文本中每个词语的平均信息熵:
[0068][0069]
其中w
entropy
(i)表示第i个词语的平均信息熵,f
ik
表示第i个词语在第k个文档中出现的频次,ni表示第i个词语在整个预处理文本中出现的频次。
[0070]
平均信息熵可以衡量词语在整个文档中分布的均衡度,如果第i个词语在各类别文档中出现频率相当,则其平均信息熵w
entropy
(i)的值越大,表示能很好的表示文档中出现的地址。反之,如果第i个词语在各类别文档中出现频率差别很大,其平均信息熵w
entropy
(i)的值接近于最小值0,表示不能表示出文档中的地址。
[0071]
s25、根据每个词语的tf-idf权重和平均信息熵计算得到该词语的综合权重:
[0072][0073]
其中w
weight
(i)表示第i个词语的综合权重。
[0074]
s3、根据每个词语的综合权重提取关键词。
[0075]
步骤s3包括以下分步骤s31~s33:
[0076]
s31、将预处理文本中每个词语作为一个图谱节点,计算图谱中的节点转移概率:
[0077][0078]
其中w(vj,vi)表示图谱中第j个节点vj到第i个节点vi的转移概率,w
weight
(vi)表示第i个节点vi的综合权重,w
weight
(vk)表示第k个节点vk的综合权重,out(vj)表示第j个节点vj的出度集合,即第j个节点vj指向的所有节点的集合。
[0079]
s32、根据图谱中的节点转移概率计算得到图谱中每个节点的重要性权重:
[0080][0081]
其中ws(vi)表示图谱中第i个节点vi的重要性权重,d表示阻尼系数,一般取值为0.85,其作用是表示当前节点向其他任意节点跳转的概率,同时能够保证让重要性权重能够稳定的传递至收敛,最终计算出词语的重要性权重并对关键词进行输出。ws(vj)表示图谱中第j个节点vj的重要性权重,in(vj)表示第j个节点vj的入度集合,即指向第j个节点vj的所有节点的集合。
[0082]
s33、将重要性权重大于预设阈值的节点对应的词语作为关键词输出。
[0083]
s4、根据提取到的关键词构建地址树。
[0084]
步骤s4包括以下分步骤s41~s42:
[0085]
s41、计算关键词的偏移量:
[0086][0087][0088]
其中w
i,j
表示第i个关键词ci相对于第j个关键词cj的偏移量,ti表示第i个关键词ci所在文档,tj表示第j个关键词cj所在文档,dist(ci,cj)表示第i个关键词ci和第j个关键词cj在预处理文本中的深度距离之和,pi表示第i个关键词ci所在位置,pj表示第j个关键词cj所在位置,pos(ci)表示第i个关键词ci的正序位置,pos(cj)表示第j个关键词cj的正序位置。
[0089]
s42、根据关键词的偏移量对图谱中关键词对应的节点进行排序,生成地址树。
[0090]
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1