地址结构化方法及装置的制造方法

文档序号:8361543阅读:666来源:国知局
地址结构化方法及装置的制造方法
【技术领域】
[0001] 本发明涉及数据处理技术领域,尤其涉及一种地址结构化方法及装置。
【背景技术】
[0002] 以可靠、高效、通用、自动处理复杂数据和分布数据为目标的新一代量质融合数据 管理基础软件的系统设计研宄中,包含了图查询中如何捕捉有意义的匹配、如何应对图数 据的动态特性和查询的复杂性、如何查询分布式的图数据的研宄。
[0003] 截至2012年,技术上可在合理时间内分析处理的数据集大小单位为艾字节 (exabytes)。在许多领域,由于数据集过度庞大,科学家经常在分析处理上遭遇限制和阻 碍。对于普通人来说,面对大量数据如何筛选出所需的知识也变的越来越困难。因此在 2012年Google搜索中加入了知识图谱技术(GoogleKnowledgeGraph),它是Google的 一个知识库,其使用语义检索从多种来源收集信息,以提高Google搜索的质量。知识图谱 除了显示其他网站的链接列表,还提供结构化及详细的关于主题的信息。其目标是,用户将 能够使用此功能提供的信息来解决他们查询的问题,而不必导航到其他网站并自己汇总信 息。
[0004] 知识图谱(KnowledgeGraph)是一张庞大的语义网络,其节点代表实体(entity) 或者概念(cone印t),边代表实体/概念之间的各种语义关系。"图谱"是指经过系统编辑 并根据实物描述的图。该技术是自动构建地址知识库系统的重要环节甚至是关键环节。其 基本任务是确定句子的句法结构或者句子中词汇之间的关系。但是,一般来说,地址的结 构化并不是一个地址知识库处理任务的最终目标。在该技术中包括但不限于以下技术:自 动分词,词性标注,句法分析和实体关系提取等。
[0005] 语言学上,词是最小的能够独立运用的语言单位。中文作为一种孤立语系语言, 协同很多黏着语系的语言(例如日语),在文本中不像西方屈折语系如英语的文本那样有 显式的词边界,因此,自动分词问题就成了计算机处理孤立语和黏着语文本时面临的首要 基础性工作,是诸多应用系统不可或缺的一个重要环节。自中文自动分词问题被提出以 来,众多专家提出了很多分词方法,包括最大正向匹配法(FMM),逆向最大匹配法(BMM), 双向扫描法,逐词遍历法等,这些方法基本上都是在20世纪80年代或者更早的时候提出 来的。由于这些方法大多数都是基于词表进行的,因此,一般统称为基于词表的分词方法。 随着统计方法的迅速发展,人们又提出了若干基于统计模型的分词方法,以及规则方法与 统计方法相结合的分词技术,使汉语分词问题得到了更加深入的研宄。其中,基于隐马尔 可夫模型(HMM)的分词技术正是一种典型的基于统计模型的分词方法。
[0006] 在语言学中,词性(part-of-speech)是词汇基本的语法属性。词性标注就是在给 定的句子中判定每个词的语法范畴,确定其词性并加以标注的过程。词性标注是自然语言 处理中一个具有重要意义的研宄方向,词性标注的方法有很多,大体上可以归为两类,基于 规则的方法和基于统计的方法,而基于隐马尔可夫模型(HMM)的词性标注技术正是统计方 法的典型例子。
[0007] 具体到地址的切分与标注,现有技术中基于词表的分词方法可参见中国专利申请 CN103440311A以及CN102298585A。
[0008] 另一方面,用词与词之间的依存关系来描述语言结构的框架称为依存句法 (DependencyGrammar),是由法国语言学家L.Tesniere最先提出,将句子分析成一颗依存 树(DependencyTree)来描述出各个词语之间的依存关系。现有依存句法分析算法大致归 为生成式的分析方法、判别式的分析方法、确定性的(决策式的)分析方法以及基于约束满 足的分析方法。
[0009] 当前,基于依存句法的自然语言处理技术不断得到发展和完善。但是,现有技术中 基于依存句法对自然语言做分析时一般采用依存树来表示依存关系,而且主要按照主语、 谓语、宾语等语言学语法特性来分析自然语言的析依存关系,并没有针对地址的数据结构 特点进行专门的地址结构化研宄,同时单纯的树状结构也不能表示地址中的复杂关系。

【发明内容】

[0010] 本发明的目的在于提供一种地址结构化方法,生成依存句法图结构表示地址文本 中词之间的依存关系。
[0011] 本发明的另一目的在于提供一种地址结构化装置,用于生成依存句法图结构表示 地址文本中词之间的依存关系。
[0012] 为实现上述目的,本发明提供一种地址结构化方法,包括:
[0013] 步骤10、将地址文本切分为地址词序列;
[0014] 步骤20、根据预定义的反映地址词特性的词性标注集对地址词序列中每个地址词 进行词性标注;
[0015] 步骤30、按照预定义的地址词依存关系规则,对标注后的地址词序列进行依存句 法分析,以实体地址词作为节点,以实体地址词之间的依存关系作为边,生成反映地址结构 的依存句法图结构。
[0016] 其中,所述地址为中文地址。
[0017] 其中,步骤10中基于隐马尔可夫模型进行地址文本切分。
[0018] 其中,步骤20中基于隐马尔可夫模型进行词性标注。
[0019] 其中,步骤20中还使用预定义的标注规则对词性标注结果进行修正。
[0020] 其中,所述词性标注集包括代表实体地址词所占据空间的标签。
[0021] 其中,所述代表实体地址词所占据空间的标签为国家、省、市、区、街道、社区、片 区、道路、门牌号、楼栋、房间、交汇处或地铁线。
[0022] 其中,所述预定义的依存关系规则为包含关系、门牌号指向关系、邻接关系或同名 关系。
[0023] 本发明还提供了一种地址结构化装置,包括:
[0024] 地址文本切分模块,用于将地址文本切分为地址词序列;
[0025] 地址词标注模块,用于根据预定义的反映地址词特性的词性标注集对地址词序列 中每个地址词进行词性标注;
[0026] 依存句法分析模块,用于按照预定义的地址词依存关系规则,对标注后的地址词 序列进行依存句法分析,以实体地址词作为节点,以实体地址词之间的依存关系作为边,生 成反映地址结构的依存句法图结构。
[0027] 其中,所述地址为中文地址。
[0028] 综上所述,本发明地址结构化方法及装置能够高效的自动化的生成依存句法图结 构来表示地址文本中词之间的依存关系;人工干预的策略简单,不需要了解大量的背景知 识;本发明扩展了依存树的结构,使之能够以图的形式表达地址词间的关系;有效的辅助 了人工操作,简化了地址知识获取的难度。
【附图说明】
[0029] 图1为本发明地址结构化方法一较佳实施例的流程图;
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1