楼宇知识图谱数据库及其构建方法_3

文档序号:9432690阅读:来源:国知局
,对运些信息进行通用 的文本处理,包括分词、词性标注、句法分析、命名实体识别、聚类和分类等,为后续的深度 数据分析和数据挖掘提供基础。
[0036] 由于获取的楼宇地理信息、楼宇基础信息、所属与使用者信息、楼宇类别信息等, 很多都是由文本表示的,因此需要使用文本深度挖掘的相关技术进行处理。一般可W采用 文本信息抽取的相关技术和方法,抽取前述的几类楼宇数据W构建楼宇知识图谱。文本信 息抽取即针对现有应用需求,对人群捜索与标签分类信息、楼宇地理信息、楼宇基础信息、 所有与使用者信息,W及用于楼宇分类的类别信息进行抽取,运一处理是基于应用需求的, 核屯、是构建楼宇知识图谱。
[0037] 因此,在本实施例中,所述基于集成后的楼宇数据构建楼宇知识图谱数据库包括: 采用文本信息抽取方法,抽取集成后的楼宇数据所包含的各类信息W构建楼宇知识图谱数 据库;所述文本信息抽取方法包括基于人工构建规则的方法、基于规则学习的方法、基于机 器学习的方法中的一种或一种W上组合。
[0038] 另外,还可W提供在通用文本处理的基础上进行深层次的数据分析和挖掘的算 法,包括楼宇中企业信息挖掘、楼宇企业的行业分析和楼宇住户的消费能力分析等。在进行 数据挖掘时,大部分算法基于行业知识图谱(楼宇知识图谱)构建,提高了算法分析的准确 度。
[0039] 本实施例中,从所述第二数据源和第=数据源获取的数据主要分为两类,一类可 W集成存储集成于已有的关系数据库中,另一类则需另建数据库W存储之。在数据集成上, 需要重点说明的包括如下:
[0040] 应对来源于所述第二数据源的所述人群捜索与标签分类信息W及与所述楼宇所 属与使用者信息相关联的单位行业信息,建立相对独立且完整的RDF图数据库,此二类信 息是现有关系数据库中所缺乏的,而其对建立楼宇知识图谱而言是不可或缺的;
[0041] 应进一步优化所述用于楼宇分类的类别信息的数据结构及其存储方式,使之可W 方便的进行扩展与分级细化,此外还需对之进一步补充结合与所述用于楼宇分类的类别信 息相关的楼宇地理信息与楼宇基础信息,W进一步支持楼宇知识图谱的构建。
[0042] 本实施例中,所述人群捜索与标签分类信息W及与所述楼宇所属与使用者信息相 关联的单位行业信息集成于相应建立的RDF图数据库,获取于所述第=数据源的数据一部 分集成于所述关系数据库,另一部分集成于所述RDF图数据库;所述基于集成后的楼宇数 据构建楼宇知识图谱数据库包括:将所述关系数据库中的数据转化为RDF图数据,并与所 述RDF图数据库中的数据融合于所述楼宇知识图谱数据库。
[0043] 在完成楼宇数据的集成之后,便可W基于集成后的楼宇数据构建楼宇知识图谱数 据库。
[0044] 就不同类型的广告而言,其投向的受众人群是不同的,构建楼宇知识图谱模型是 为实现"楼宇^一受众人群"(即楼宇与受众人群匹配)运一目标。其核屯、是构建楼宇及其 相关信息的知识体系。从情报学"时间、空间、组织、人、事件"运五个维度来考虑运一模型 的构建基础,则楼宇知识图谱应包括W下4点基本知识:
[0045] 地理知识,即楼宇的地理位置描述或经缔度坐标;
[0046] 时间知识,即楼宇的开放使用时间段;
[0047] 组织与人群知识,即楼宇的使用者与所有者的相关信息,而其又分为企事业单位 与一般人群两大类;由于一般人群中的个人具有不确定性与流动性,对一般人群所需获取 的最主要知识应是经济实力(由与楼宇相关的价格信息所决定)、数量信息(由楼宇的人流 数量所决定)与人群捜索信息;企事业单位的最主要知识是其行业、主营业务W及其他相 关信息;
[0048] 事件知识,楼宇中发生的事件最主要由楼宇的功能所决定,而楼宇的功能又主要 由楼宇的类别信息(楼宇最初建立的自然功能)与楼宇中组织的行业与主营业务信息(楼 宇建立后的人为导致的实际功能)所决定。 W例因此,楼宇知识图谱的本体框架如表1所示。需要说明的是,采用知识图谱技术具 有非常良好的扩展性,可W根据应用需求分期不断扩展,表1中仅为当前所需构建的基础 知识,且在具体应用时也可不局限于本体形式(比如可采用关联规则与标签等其他技术来 辅助构建知识图谱)。
[0050] 表1 :楼宇知识图谱本体框架(模型)
[0051] (1)实体分类层次
[0052]
阳〇5引 似实体的属性
[0054]
阳化5] 楼宇知识图谱包括五个基本实体(概念):
[0056] ?楼宇实体,目前W获取的楼宇类别信息,可W将楼宇实体分为24个子实体,但 可W进一步添加分类并分级细化。(子实体划分可W参考获取的数据做进一步划分与分级, 而具体的楼宇类别信息除从已有数据库获取外,还需要从相关口户网站中进行爬取,同时 通过捜索引擎结果做进一步补充。)
[0057] ?单位实体,包括企业单位与事业单位两个子实体。
[00郎]?捜索标签实体。 阳059] ?捜索点位实体,没有子实体。
[0060] ?单位行业实体,单位行业知识图谱,可W向第=方购买或定制,该类模型与技术 已较为成熟。
[0061] 本实施例中,为明确实体的同一性,可W采用隔离的方式确保对所述楼宇知识图 谱中的实体每次出现都指派一个唯一标识符,W及采用调和的方式确认相同实体并将其合 并。
[0062] 楼宇知识图谱中实体的属性说明参见如下所述。
[0063] 本实施例中,楼宇实体主要包含地理信息、基础信息、所属与使用者信息、人群捜 索信息四个基本属性。
[0064] ?地理信息属性,其下包含信息主要是指楼宇的地理位置信息,即楼宇的详细地 址信息(包括地址分类、地址文本描述与坐标=种),为后续构建楼宇信息地图提供基础。 其中地址分类包括"未安装"(表示未安装任何广告播放设备的楼宇)、"框架"、"楼宇 种,运一分类方式可将已设置广告投放点与未设置广告投放点的楼宇一并归入楼宇知识图 谱中。通常,地理位置信息在已有数据库、专业数据提供方提供的数据、楼宇入住企业的官 方网站、入住企业的百科信息等均有包含;或包含在有关口户网站的楼宇信息中。 阳0化]?基础信息属性,其下信息包括楼宇名称、建筑面积、层数、电梯个数、租金(房 价)、是否为标志性建筑、房龄(包括新建房)、开放使用时间段与人流数量等。其中的建筑 面积、层数、电梯个数、租金(房价)、房龄(包括新建房)、人流数量运些信息可W直接从已 有数据库数据中抽取,也可从已获取的相关口户网站的楼宇数据中抽取。从捜索引擎结果 中抽取的信息亦可W作为补充。
[0066] ?所有与使用者信息属性被分为所属单位(即业主)与使用单位两个子属性。运 两个子属性下的信息为相关联的"单位"实体下的楼宇内的企事业单位相关信息。
[0067] ?人群捜索信息属性,包括捜索标签(其下信息为相关联的"捜索标签"实体下信 息)、点位(其下信息为相关联的"捜索点位"实体下信息)、屏幕类型、安装位置与套餐子 属性。
[0068] 捜索标签实体主要包含年月,标签类名,标签指数=个基本属性。其标签类名下的 标签分类信息包括汽车、母婴亲子、教育培训、医疗健康、软件应用、阅读、星座运势等。年 月、标签类名、标签指数=个属性下的信息抽取于第二数据源提供的数据,相应数据已有很 好的层级分类与(半)结构化处理,可W较容易融合入构建的知识图谱中。
[0069] 捜索点位实体主要包含楼层与数量两个基本属性。与捜索标签实体所包含的属性 相同,楼层与数量属性下的信息抽取于所述第二数据源提供的数据,相应数据亦被层级分 类与(半)结构化处理,可方便的扩展融入到知识图谱中。
[0070]
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1