楼宇知识图谱数据库及其构建方法

文档序号:9432690阅读:1164来源:国知局
楼宇知识图谱数据库及其构建方法
【技术领域】
[0001] 本发明设及计算机数据库技术领域,特别设及一种楼宇知识图谱数据库及其构建 方法。
【背景技术】
[0002] 互联网的发展经历了webl. 0和web2. 0两个阶段,正朝着web3. 0方向发展。 webl.O是W编辑为特征,用户阅读网站提供的内容,代表站点为新浪、捜狐和网易=大口 户。web2.0更注重用户的交互作用,用户既是网站内容的消费者(浏览者),也是网站内容 的制造者(微博、天涯社区、自媒体)。
[0003] 在运两代互联网中,用户点击访问的(或互联的)最小单位是文档,文档与文档 之间的连接是通过超链接实现的;由于HTML语言缺乏语义,因此运两代互联网中的内容主 要是面向人类的,难W被计算机自动理解。而web3.0即WebofData(语义网)是数据的 网络,在其上发布和互联的将是一个个实体数据(即things,实体是语义网数据的构成单 元),它实现了实体级别(entity-level)的数据互联和互操作。 阳004] 在WebofData中,所有的实体都使用一个全局唯一确定的ID来进行标识,运个 ID即对应目标的标识符(identifier),运种做法与一个网页有一个对应的U化、数据库中 的一条记录有一个特定的主键相似;对象之间的链接代表对象之间的关联,大量实体W及 它们之间的关系形成了一张巨大的图。使用共享的数据词典,即本体(本体是指一种形式 化的,对于共享概念体系的明确而又详细的说明)描述对象和链接,可W实现分布式数据 集的链接。在此架构下,数据共享、管理、交换更加容易。它是一种松禪合的(此处"松禪 合"即指数据模式去中屯、化,非自顶向下推行事先约定数据模式,而是由各数据源自底向上 自发构建数据模式,并进行数据的关联与管理)、去中屯、化的互联网。在Webof化ta技 术框架中,数据是W本体的形式存在的,使用资源描述框架(畑F,ResourceDescription 化amework)、网络本体语言(OWL,化tologyWebLanguage)等本体描述语言进行数据表示, 并使用本体查询语言SPARQL进行数据查询。 阳0化]知识图谱是基于webofdata技术框架的应用与实现。知识图谱实现对客观世界 从字符串描述到结构化语义描述,是对客观世界的知识映射(mappingworldknowledge), 本体可W作为知识图谱表示的概念模型和逻辑基础。知识图谱可W描述不同层次和粒度的 概念抽象。知识图谱可W体现为一张巨大的图,图中的节点表示数据源,而图中的边代表不 同数据源中相同实体链接。知识图谱可W显示知识发展进程与结构关系的一系列各种不同 的图形,用可视化技术描述知识资源及其载体。可W用于挖掘、分析、构建、绘制和显示知识 及它们之间的相互联系。它将应用数学、图形学、信息可视化技术、信息科学等学科的理论 与方法加W有效利用可视化地、形象地展示信息。
[0006] 随着新媒体、新技术的发展,广告所设及的媒体几乎无所不包,只要是能传递信息 的介质,就可W成为广告的载体。广告业竞争日益激烈,对广告受众的精准定位要求越来越 高。仅仅凭广告销售人员经验确定楼宇的广告投放已经不能满足要求,需要根据与楼宇相 关基本信息(如地段、租金等)、受众基本信息(如楼宇入住公司等)等数据精准确定楼宇 的广告投放价值,使广告发布方能快速地决策广告的投放,W便获得最大收益。
[0007] 上述的楼宇相关信息一般可W通过建立楼宇数据库实现,然而,现有技术中构建 的楼宇数据库一般采用的是关系数据库。本领域技术人员知晓,在关系数据库中,数据定义 描述仅局限于数据库中,其数据字典与数据注册主要是提供给人的,而非直接用于机器,其 关系存储在文件、S化代码和集体记忆(collectivememories)中,不能直接提供给应用程 序。相比于关系数据库,RDF图数据中的关系是一种传递性质,是明确的模型,可直接提供 给应用程序。且语义网中的数据模型具有自然的可扩充能力,而关系数据库中的数据表的 合并或字段增加的代价很高。因此较之传统关系数据库,语义网的图数据更利于数据维护 与数据融合,且其中的数据更能有效用于应用程序,利用统一的推理引擎更可W有效的进 行数据推理。
[0008] 此外,现有技术的楼宇数据库中的楼宇数据大多需要人为采集并录入,且存在某 些数据不全或不够准确的问题,尤其是现有楼宇数据中无法准确体现出楼宇与楼宇内的受 众人群之间的匹配,从而难W更准确地进行广告投放。

【发明内容】

[0009] 本发明要解决的问题是现有技术中的楼宇数据库不利于数据维护与数据融合、难 W有效用于应用程序W及有效地进行数据推理,且楼宇数据中无法准确体现楼宇与楼宇内 的受众人群的匹配。
[0010] 为解决上述问题,本发明技术方案提供一种楼宇知识图谱数据库的构建方法,包 括:
[0011] 从一个W上数据源获取楼宇数据,并对获取到的楼宇数据进行集成;所述楼宇数 据包含用于楼宇分类的类别信息、楼宇地理信息、楼宇基础信息、楼宇所属与使用者信息和 人群捜索与标签分类信息;所述人群捜索与标签分类信息为针对楼宇内人群的主要捜索内 容进行标签分类统计与指数计算后得到的信息;
[0012] 基于集成后的楼宇数据构建楼宇知识图谱数据库;所述集成后的楼宇数据经过层 级分类W及结构化处理;所述楼宇知识图谱中的实体包含楼宇实体、单位实体、捜索标签实 体、捜索点位实体W及单位行业实体;所述楼宇实体的属性包含楼宇地理信息属性、楼宇基 础信息属性、楼宇所属与使用者信息属性和人群捜索与标签分类信息属性,所述人群捜索 与标签分类信息属性与所述捜索标签实体、捜索点位实体所包含属性下的信息相关联,所 述楼宇所属与使用者信息属性与所述单位实体所包含属性下的信息相关联;所述单位实体 的属性包含单位基本信息属性、单位行业信息属性和单位经营信息属性,所述单位行业信 息属性与所述单位行业实体所包含属性下的信息相关联。
[0013] 可选的,所述对获取的楼宇数据进行集成包括:优化所述用于楼宇分类的类别信 息的数据结构及其存储方式,W便进行扩展与分级细化;补充与所述用于楼宇分类的类别 信息相关的楼宇地理信息与楼宇基础信息;针对所述人群捜索与标签分类信息W及与所述 楼宇所属与使用者信息相关联的单位行业信息建立相对独立且完整的RDF图数据库。
[0014] 可选的,所述对获取到的楼宇数据进行集成包括对获取到的楼宇数据进行预处 理,所述预处理包括:进行格式清洗,去除噪声信息;进行自动重排和自动分类,并把楼宇 数据转换成预定格式;进行通用文本处理,所述通用文本处理包括分词、词性标注、句法分 析、命名实体识别、聚类和分类。
[0015] 可选的,所述基于集成后的楼宇数据构建楼宇知识图谱数据库包括:采用文本信 息抽取方法,抽取集成后的楼宇数据所包含的各类信息W构建楼宇知识图谱数据库;所述 文本信息抽取方法包括基于人工构建规则的方法、基于规则学习的方法、基于机器学习的 方法中的一种或一种W上组合。
[0016] 可选的,采用隔离的方式确保对所述楼宇知识图谱中的实体指派唯一标识符,W 及采用调和的方式确认相同实体并将其合并。
[0017] 可选的,所述数据源包括第一数据源、第二数据源和第=数据源;所述第一数据源 为已存储有部分楼宇数据的关系数据库,所述人群捜索与标签分类信息W及与所述楼宇所 属与使用者信息相关联的单位行业信息获取于所述第二数据源,所述第=数据源为互联网 数据;所述人群捜索与标签分类信息W及与所述楼宇所属与使用者信息相关联的单位行业 信息集成于相应建立的RDF图数据库,获取于所述第=数据源的数据一部分集成于所述关 系数据库,另一部分集
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1