基于图的地址知识处理方法及装置的制造方法

文档序号:8361560阅读:365来源:国知局
基于图的地址知识处理方法及装置的制造方法
【技术领域】
[0001] 本发明涉及数据处理技术领域,尤其涉及一种基于图的地址知识处理方法及装 置。
【背景技术】
[0002] 以可靠、高效、通用、自动处理复杂数据和分布数据为目标的新一代量质融合数据 管理基础软件的系统设计研宄中,包含了图查询中如何捕捉有意义的匹配、如何应对图数 据的动态特性和查询的复杂性、如何查询分布式的图数据的研宄。
[0003] 地址是一串的字符,内含国家、省份、城市或乡村、街道、门牌号码、屋邨、大厦等建 筑物名称,或者再加楼层数目、房间编号等。一个有效的地址应该是独一无二,有助邮差等 物流从业员派送邮件,或者上门收件。当前地址识别的技术主要是搜索,并没有在地址应用 场景中纳入地址语义信息。
[0004] 图模型是将数据抽象成点和关系(边),利用点和边来描述复杂的逻辑。谷歌搜 索已经加入了知识图谱(KnowledgeGraph)技术,其使用语义检索从多种来源收集信息,用 来提高谷歌搜索的质量。知识图谱是一张庞大的语义网络,其节点代表实体(entity)或者 概念(cone印t),边代表实体/概念之间的各种语义关系。"图谱"是指经过系统编辑并根 据实物描述的图。该技术是自动构建地址知识库系统的重要环节甚至是关键环节。其基本 任务是确定句子的句法结构或者句子中词汇之间的关系。但是,一般来说,地址的结构化 并不是一个地址知识库处理任务的最终目标。在该技术中包括但不限于以下技术:自动分 词,词性标注,句法分析和实体关系提取等。
[0005] 语言学上,词是最小的能够独立运用的语言单位。中文作为一种孤立语系语言, 协同很多黏着语系的语言(例如日语),在文本中不像西方屈折语系如英语的文本那样有 显式的词边界,因此,自动分词问题就成了计算机处理孤立语和黏着语文本时面临的首要 基础性工作,是诸多应用系统不可或缺的一个重要环节。自中文自动分词问题被提出以 来,众多专家提出了很多分词方法,包括最大正向匹配法(FMM),逆向最大匹配法(BMM), 双向扫描法,逐词遍历法等,一般统称为基于词表的分词方法。随着统计方法的迅速发展, 人们又提出了若干基于统计模型的分词方法,以及规则方法与统计方法相结合的分词技 术,使汉语分词问题得到了更加深入的研宄。其中,基于隐马尔可夫模型(HMM)的分词技 术正是一种典型的基于统计模型的分词方法。
[0006] 在语言学中,词性(part-of-speech)是词汇基本的语法属性。词性标注就是在给 定的句子中判定每个词的语法范畴,确定其词性并加以标注的过程。词性标注是自然语言 处理中一个具有重要意义的研宄方向,词性标注的方法有很多,大体上可以归为两类,基于 规则的方法和基于统计的方法,而基于隐马尔可夫模型(HMM)的词性标注技术正是统计方 法的典型例子。具体到地址的切分与标注,现有技术中基于词表的分词方法可参见中国专 利申请CN103440311A以及CN102298585A。
[0007] 另一方面,用词与词之间的依存关系来描述语言结构的框架称为依存句法 (DependencyGrammar),是由法国语言学家L.Tesniere最先提出,将句子分析成一颗依存 树(DependencyTree)来描述出各个词语之间的依存关系。现有依存句法分析算法大致归 为生成式的分析方法、判别式的分析方法、确定性的(决策式的)分析方法以及基于约束满 足的分析方法。当前,基于依存句法的自然语言处理技术不断得到发展和完善。但是,现 有技术中基于依存句法对自然语言做分析时一般采用依存树来表示依存关系,而且主要按 照主语、谓语、宾语等语言学语法特性来分析自然语言的析依存关系,并没有针对地址的数 据结构特点进行专门的地址结构化研宄,同时单纯的树状结构也不能表示地址中的复杂关 系。

【发明内容】

[0008] 本发明的目的在于提供一种基于图的地址知识处理方法及装置,按照地址间的固 有逻辑组织地址信息。
[0009] 为实现上述目的,本发明提供了一种基于图的地址知识处理方法,包括:
[0010] 步骤10、将地址文本切分为地址词序列;
[0011] 步骤20、根据预定义的反映地址词特性的词性标注集对地址词序列中每个地址词 进行词性标注;
[0012] 步骤30、按照预定义的地址词依存关系规则,对标注后的地址词序列进行依存句 法分析,以实体地址词作为节点,以实体地址词之间的依存关系作为边,生成反映地址结构 的依存句法图结构;
[0013] 步骤40、与地址知识库原有内容进行比较,将新增的节点或边输入地址知识库。
[0014] 其中,步骤40中,地址文本根据其依存句法图结构按照节点包含关系逐级遍历各 节点并输入地址知识库。
[0015] 其中,包括步骤50、基于地址知识库中的节点和边对节点之间的关系进行推理。
[0016] 其中,包括步骤60、基于地址知识库结合推理功能查询地址时,按照步骤10、步骤 20及步骤30处理待查询地址文本,按照节点包含关系逐级确认地址知识库与待查询地址 文本的对应关系,对于不能确定的级别进行推理猜测,最终从地址知识库中选定可能性高 的对应节点作为查询结果。
[0017] 其中,所述地址为中文地址。
[0018] 其中,所述词性标注集包括代表实体地址词所占据空间的标签。
[0019] 其中,所述代表实体地址词所占据空间的标签为国家、省、市、区、街道、社区、片 区、道路、门牌号、楼栋、房间、交汇处或地铁线。
[0020] 其中,所述预定义的依存关系规则为包含关系、门牌号指向关系、邻接关系、方位 关系、部分整体关系或同名关系。
[0021] 本发明还提供了一种基于图的地址知识处理装置,包括:
[0022] 地址文本切分模块,用于将地址文本切分为地址词序列;
[0023] 地址词标注模块,用于根据预定义的反映地址词特性的词性标注集对地址词序列 中每个地址词进行词性标注;
[0024] 依存句法分析模块,按照预定义的地址词依存关系规则,对标注后的地址词序列 进行依存句法分析,以实体地址词作为节点,以实体地址词之间的依存关系作为边,生成反 映地址结构的依存句法图结构;
[0025] 地址知识库输入模块,与地址知识库原有内容进行比较,将新增的节点或边输入 地址知识库。
[0026] 其中,还包括地址知识库推理模块,用于基于地址知识库中的节点和边对节点之 间的关系进行推理
[0027] 综上所述,本发明基于图的地址知识处理方法及装置能够按照地址间的固有逻辑 组织地址信息,形成地址知识库;能够利用地址知识库提高地址查询精准度;能够支持基 于地址知识的推理功能。
【附图说明】
[0028] 图1为本发明基于图的地址知识处理方法一较佳实施例的流程图;
[0029] 图2为本发明基于图的地址知识处理方法一较佳实施例中处理示例地址文本所 得到的依存句法图结构;
[0030] 图3至图8为本发明基于图的地址知识处理方法一较佳实施例进行地址知识入库 的迭代过程示意图;
[0031] 图9为本发明基于图的地址知识处理装置的方框图。
【具体实施方式】
[0032] 下面结合附图,通过对本发明的【具体实施方式】详细描述,将使本发明的技术方案 及其有益效果显而易见。
[0033]参见图1,其为本发明基于图的地址知识处理方法一较佳实施例的流程图。主要包 括:步骤10、将地址文本切分为地址词序列;步骤20、根据预定义的反映地址词特性的词性 标注集对地址词序列中每个地址词进行词性标注;步骤30、按照预定义的地址词依存关系 规则,对标注后的地址词序列进行依存句法分析,以实体地址词作为节点,以实体地址词之 间的依存关系作为边,生成反映地址结构的依存句法图结构;步骤40、与地址知识库原有 内容进行比较,将新增的节点或边输入地址知识库。
[0034] 考虑到地址说法的随意性,以及地址间具有比较稳定的逻辑关系,因此在本发明 中提出了一种按照地址间固有逻辑对地址进行合理组织的方案。如地址"广东省深训市高 新厌中厌高新中一道9号软件大厦7榉713",在对该地址进行分析之后会发现该地址中蕴 含着如下信息(知识):
[0035] 广东省/省-包含_>深圳市/市
[0036] 深圳市/市
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1