知识图谱构建方法及装置、客户端与流程

文档序号:16263578发布日期:2018-12-14 21:46阅读:196来源:国知局
知识图谱构建方法及装置、客户端与流程

本申请涉及互联网技术领域,具体而言,涉及一种知识图谱构建方法及装置、客户端。

背景技术

知识图谱,也被称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及知识之间的相互关系。通过知识图谱本质上旨在描述真实世界客观存在的知识、以及知识之间等关联关系的语义网络。

发明人发现,目前在互联网金融领域中已有的知识图谱通常集中在人员关系刻画、欺诈信息发现上,涉及到的金融业务方面的产品输出较少,通过知识图谱带来的业务价值较小。进一步,缺少对营销业务的支持。

针对相关技术中缺少针对金融业务方面的应用问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请的主要目的在于提供一种知识图谱构建方法,以解决缺少针对金融业务方面的应用的技术问题。

为了实现上述目的,根据本申请的一个方面,提供了一种知识图谱构建方法。基于数据整合的基础,收集用户的产品购买关系、用户的现实社交关系、虚拟社交关系等,可以为运营部门提供更多的技术支持。

根据本申请的知识图谱构建方法包括:向第一数据源中增加第二数据源得到目标数据源;接入所述目标数据源并按照预设规则处理所述所述目标数据源中的数据;以及生成图谱数据。

进一步地,向第一数据源中增加第二数据源得到目标数据源包括:确定所述第一数据源中的第一目标数据,其中,所述第一目标数据用于作为内部数据;接收所述第二数据源中的第二目标数据,其中,所述第二目标数据用于作为外部数据;以及将所述第一目标数据、所述第二目标数据按照预设接口规则配置为统一结构。

进一步地,接入所述目标数据源并按照预设规则处理所述所述目标数据源中的数据包括:接入所述目标数据源并按照预设数据库模型规则建立数据库模型;以及按照预设数据标签在所述数据库模型中整合所述目标数据源中的数据。

进一步地,接入所述目标数据源并按照预设规则处理所述所述目标数据源中的数据包括:根据目标数据源中的数据体量确定第一图谱数据;通过目标数据源中的数据类型生成第二图谱数据、第三图谱数据以及第四图谱数据;判断所述第一图谱数据、第二图谱数据、第三图谱数据以及第四图谱数据在使用响应时是否满足业务要求;如果判断所述第一图谱数据、第二图谱数据、第三图谱数据以及第四图谱数据在使用响应时满足业务要求,则执行从来源端至目的端的预设转化操作,其中,所述第一图谱数据,用于作为基础属性数据模型;所述第二图谱数据,用于作为社会关系数据模型;所述第三图谱数据,用于作为交易行为数据模型;所述第四图谱数据,用于作为营销关系数据模型。

进一步地,生成图谱数据包括如下的任一一种或多种:用于语义理解的知识图谱应用;用于智能搜索的知识图谱应用;用于交互问答的知识图谱应用;以及用于辅助决策的知识图谱应用。

为了实现上述目的,根据本申请的另一方面,提供了一种知识图谱构建装置。

根据本申请的知识图谱构建装置包括:增加模块,用于向第一数据源中增加第二数据源得到目标数据源;接入模块,用于接入所述目标数据源并按照预设规则处理所述所述目标数据源中的数据;以及生成模块,用于生成图谱数据。

进一步地,所述增加模块包括:确定单元,用于确定所述第一数据源中的第一目标数据,其中,所述第一目标数据用于作为内部数据;接收单元,用于接收所述第二数据源中的第二目标数据,其中,所述第二目标数据用于作为外部数据;以及配置单元,用于将所述第一目标数据、所述第二目标数据按照预设接口规则配置为统一结构。

进一步地,所述接入模块包括:接入单元,用于接入所述目标数据源并按照预设数据库模型规则建立数据库模型;以及整合单元,用于按照预设数据标签在所述数据库模型中整合所述目标数据源中的数据。

进一步地,所述接入模块包括:图谱数据确定单元,用于根据目标数据源中的数据体量确定第一图谱数据;图谱数据生成单元,用于通过目标数据源中的数据类型生成第二图谱数据、第三图谱数据以及第四图谱数据;判断单元,用于判断所述第一图谱数据、第二图谱数据、第三图谱数据以及第四图谱数据在使用响应时是否满足业务要求;执行单元,用于判断所述第一图谱数据、第二图谱数据、第三图谱数据以及第四图谱数据在使用响应时满足业务要求时,执行从来源端至目的端的预设转化操作,其中,所述第一图谱数据,用于作为基础属性数据模型;所述第二图谱数据,用于作为社会关系数据模型;所述第三图谱数据,用于作为交易行为数据模型;所述第四图谱数据,用于作为营销关系数据模型。

为了实现上述目的,根据本申请的另一方面,提供了一种客户端,包括所述的知识图谱构建装置。

在本申请实施例中,采用向第一数据源中增加第二数据源得到目标数据源的方式,通过接入所述目标数据源并按照预设规则处理所述所述目标数据源中的数据,达到了生成扩大应用范围的图谱数据的目的,从而实现了辅助金融营销业务的技术效果,进而解决了缺少针对金融业务方面的应用技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请第一实施例的知识图谱构建方法示意图;

图2是根据本申请第二实施例的知识图谱构建方法示意图;

图3是根据本申请第三实施例的知识图谱构建方法示意图;

图4是根据本申请第四实施例的知识图谱构建方法示意图;

图5是根据本申请第一实施例的知识图谱构建装置示意图;

图6是根据本申请第二实施例的知识图谱构建装置示意图;

图7是根据本申请第三实施例的知识图谱构建装置示意图;以及

图8是根据本申请第四实施例的知识图谱构建装置示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例中的知识图谱构建方法,通过向第一数据源中增加第二数据源得到目标数据源,从外部引入了用户消费行为、社交行为等多方面数据。接入所述目标数据源并按照预设规则处理所述所述目标数据源中的数据,对内部数据源和外部数据源做数据质量检查和数据清洗,对数据做关联、聚合、拆分、转换等处理之后生成生成图谱数据,图谱数据能够支持知识图谱功能的有效运行。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示,该方法包括如下的步骤s102至步骤s106:

步骤s102,向第一数据源中增加第二数据源得到目标数据源;

第一数据源中可以包括应用数据。

应用数据主要是指涉及业务相关的应用数据。比如,涉及金融应用中的贷款、融资或者买卖等应用服务。

第一数据源中可以包括日志数据。

日志数据主要是指记录业务相关的日志数据。比如,涉及金融应用中的交易转出、转入手续的日志记录。

第一数据源中可以包括文件数据。

文件数据主要是指涉及业务相关的文件数据。比如,涉及金融应用中的买卖合同、借贷合同、投资合同的文件数据。

上述第一数据源主要作为内容的数据的来源,同时当向第一数据源中增加第二数据源后能够有效地扩大业务数据的范围。

第二数据源中可以包括相对于第一数据源而言的外部数据。

外部数据可以是用户消费行为数据。

比如,用户的消费记录、消费金额、消费场所等。

外部数据也可以是社交行为数据。

比如,用户通过社交网络服务器发布、关注、评论、引用的内容。

又比如,用户通过社交网络服务器与好友的关系。

步骤s104,接入所述目标数据源并按照预设规则处理所述所述目标数据源中的数据;

通过相关的数据接入规则,接入所述目标数据源。

可以通过数据缓冲层进行数据接入。

也可以通过数据贴源层进行数据接入。

优选地,按照预设规则处理所述所述目标数据源中的数据可以是

比如,按照预设数据质量清洗规则处理所述所述目标数据源中的数据。

优选地,按照预设规则处理所述所述目标数据源中的数据可以是

比如,按照预设数据整合规则处理所述所述目标数据源中的数据。

步骤s106,生成图谱数据。

具体地,根据知识图谱功能对数据的需要,按照软件本身的数据模型设计,对数据做etl处理转换成适合知识图谱功能需要的结构。在做知识图谱的数据模型设计和功能设计时,充分考虑了数据的体量、数据使用的复杂度,确保功能使用时的页面响应速度满足业务要求。

etl处理(英文全称extract-transform-load),用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。

通过搭建一整套用于知识图谱功能使用的图谱数据,最终支持知识图谱功能的有效运行。

从以上的描述中,可以看出,本申请实现了如下技术效果:

在本申请实施例中,采用向第一数据源中增加第二数据源得到目标数据源的方式,通过接入所述目标数据源并按照预设规则处理所述所述目标数据源中的数据,达到了生成扩大应用范围的图谱数据的目的,从而实现了辅助金融营销业务的技术效果,进而解决了缺少针对金融业务方面的应用技术问题。

根据本申请实施例,作为本实施例中的优选,如图2所示,向第一数据源中增加第二数据源得到目标数据源包括:

步骤s202,确定所述第一数据源中的第一目标数据,

所述第一目标数据用于作为内部数据,可以是应用数据、日志数据以及文件数据等内部数据。

步骤s204,接收所述第二数据源中的第二目标数据,

所述第二目标数据用于作为外部数据;外部数据可以是用户消费行为数据。外部数据也可以是社交行为数据。

步骤s206,将所述第一目标数据、所述第二目标数据按照预设接口规则配置为统一结构。

具体地,通过建立缓冲层,数据源的数据接入之后,先存放到缓冲层。根据不同数据源的传输特点,结合数据传输增量或者全量的接口规范,整理还原成与原始结构一样的完整数据,传输到ods层。

具体地,通过建立ods层,ods层即贴源层,保持与数据源同样或者几乎同样的结构,保证数据信息最大程度的不失真。

根据本申请实施例,作为本实施例中的优选,如图3所示,接入所述目标数据源并按照预设规则处理所述所述目标数据源中的数据包括:

步骤s302,接入所述目标数据源并按照预设数据库模型规则建立数据库模型;以及

首先,执行步骤s302之前还需要进行数据质量清洗,对于内、外数据源中的目标数据,首先从数据的完整性、及时性、合法性、唯一性、一致性、准确性几个方面,综合考察每一条数据的数据质量,剔除由于错填、误填、数据修改、数据存储逻辑变迁等各种原因导致的失真数据,形成一套可以信赖的数据基础。

在确保数据正确和准确的基础上,按照数据模型规范的要求,搭建规范、易扩展、标准的数据库模型,规避冗余数据。

步骤s304,按照预设数据标签在所述数据库模型中整合所述目标数据源中的数据。

按照预设数据标签在所述数据库模型中建立标准化数据库模型,建立规范结构的数据。

具体地,预设数据标签可以包括:

标签a{客户、交易、用户、支付、账户、资产};

标签b{产品、合约、渠道、活动、事件};

通过不同类型的标签a和标签b在数据库模型中整合所述目标数据源中的数据。

考虑到在软件开发过程中,业务需求变更时最容易产生报错,而建立规范结构的数据,能确保在数据源发生变化时,将改动内容减少到最小,规避大多数的开发功能修改产生报错风险。

根据本申请实施例,作为本实施例中的优选,如图4所示,接入所述目标数据源并按照预设规则处理所述所述目标数据源中的数据包括:

步骤s402,根据目标数据源中的数据体量确定第一图谱数据;

所述第一图谱数据,用于作为基础属性数据模型。

目标数据源中的数据体量是指能够处理的数据量大小。通过可处理的数据量大小得到基础属性。

步骤s404,通过目标数据源中的数据类型生成第二图谱数据、第三图谱数据以及第四图谱数据;

所述第二图谱数据,用于作为社会关系数据模型;所述第三图谱数据,用于作为交易行为数据模型;所述第四图谱数据,用于作为营销关系数据模型。

通过目标数据源中的数据类型生成图谱数据时,根据知识图谱功能对数据的需要,按照软件本身的数据模型设计,对数据做etl处理,转换成适合知识图谱功能需要的结构。

步骤s406,判断所述第一图谱数据、第二图谱数据、第三图谱数据以及第四图谱数据在使用响应时是否满足业务要求;

在使用响应时是否满足业务要求是指,确保功能使用时的web页面响应速度满足相关业务要求。

步骤s408,如果判断所述第一图谱数据、第二图谱数据、第三图谱数据以及第四图谱数据在使用响应时满足业务要求,则执行从来源端至目的端的预设转化操作。

具体地,执行从来源端至目的端的预设转化操作可以采用etl,etl处理(英文全称extract-transform-load),用来描述将数据从来源端经过萃取extract、转置transform、加载load至目的端的过程。通过将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

具体而言,数据抽取是从数据源中抽取数据的过程。实际应用中,数据源较多采用的是关系数据库。可以包括:全量抽取、增量抽取。

此外,etl处理的数据源除了关系数据库外,还可能是文件,例如txt文件、excel文件、xml文件等。对文件数据的抽取一般是进行全量抽取,一次抽取前可保存文件的时间戳或计算文件的md5校验码,下次抽取时进行比对,如果相同则可忽略本次抽取。

目前增量数据抽取中常用的捕获变化数据的方法可以是,触发器:在要抽取的表上建立需要的触发器,一般要建立插入、修改、删除三个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个临时表,抽取线程从临时表中抽取数据,临时表中抽取过的数据被标记或删除。时间戳:在源表上增加一个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值。当进行数据抽取时,通过比较系统时间与时间戳字段的值来决定抽取哪些数据。全表比对:典型的全表比对的方式是采用md5校验码。日志对比:通过分析数据库自身的日志来判断变化的数据。

进一步地,具体而言,etl处理中的数据转换和加工,从是指数据源中抽取的数据不一定完全满足目的库的要求,例如数据格式的不一致、数据输入错误、数据不完整等等,因此有必要对抽取出的数据进行数据转换和加工。数据的转换和加工可以在etl引擎中进行,也可以在数据抽取过程中利用关系数据库的特性同时进行。通过etl引擎中的数据转换和加工,etl引擎中一般以组件化的方式实现数据转换。常用的数据转换组件有字段映射、数据过滤、数据清洗、数据替换、数据计算、数据验证、数据加解密、数据合并、数据拆分等。

进一步地,具体而言,etl处理中的数据加载,将转换和加工后的数据装载到目的库中通常是etl过程的最后步骤。装载数据的最佳方法取决于所执行操作的类型以及需要装入多少数据。当目的库是关系数据库时,装载方式可以是:直接sql语句进行insert、update、delete操作;装载方式也可以是:采用批量装载方法,关系数据库特有的批量装载工具或api。

通过etl处理,可以确保每日的数据处理各种能及时准确完成。本领域技术人员能够明了,可以采用包括但不限于上述的etl处理方式用以实现每日的数据处理各种能及时准确完成的技术效果。

作为本实施例中的优选,本申请实施例的知识图谱构建方法,包括:向第一数据源中增加第二数据源得到目标数据源;接入所述目标数据源并按照预设规则处理所述所述目标数据源中的数据;以及生成图谱数据。

向第一数据源中增加第二数据源得到目标数据源包括:

确定所述第一数据源中的第一目标数据,其中,所述第一目标数据用于作为内部数据;

接收所述第二数据源中的第二目标数据,其中,所述第二目标数据用于作为外部数据;以及

将所述第一目标数据、所述第二目标数据按照预设接口规则配置为统一结构。

接入所述目标数据源并按照预设规则处理所述所述目标数据源中的数据包括:

接入所述目标数据源并按照预设数据库模型规则建立数据库模型;以及

按照预设数据标签在所述数据库模型中整合所述目标数据源中的数据。

接入所述目标数据源并按照预设规则处理所述所述目标数据源中的数据包括:

根据目标数据源中的数据体量确定第一图谱数据;

通过目标数据源中的数据类型生成第二图谱数据、第三图谱数据以及第四图谱数据;

判断所述第一图谱数据、第二图谱数据、第三图谱数据以及第四图谱数据在使用响应时是否满足业务要求;

如果判断所述第一图谱数据、第二图谱数据、第三图谱数据以及第四图谱数据在使用响应时满足业务要求,则执行从来源端至目的端的预设转化操作,

其中,所述第一图谱数据,用于作为基础属性数据模型;所述第二图谱数据,用于作为社会关系数据模型;所述第三图谱数据,用于作为交易行为数据模型;所述第四图谱数据,用于作为营销关系数据模型。

生成图谱数据包括如下的任一一种或多种:用于语义理解的知识图谱应用;用于智能搜索的知识图谱应用;用于交互问答的知识图谱应用;以及用于辅助决策的知识图谱应用。

具体而言,在本申请的实施例中,为了更全面了解用户行为信息,提供对业务更有帮助的知识图谱功能,从外部引入了用户车辆、房产、社交行为等多方面数据,形成了用户全方位知识图谱体系。以社交行为为例,通过引入外部数据,获取用户在社交网站的好友关系、发表的文章、阅读的文章、参与的评论、上传的图片或文档信息等关系数据和行为数据,引入自然语言处理技术,识别用户的社会关系网,解读用户的教育背景、职业等属性信息,判断用户的购物、旅游等消费预期,从而形成一套支持营销规划的数据体系,辅助运营部门营销战略、营销策略的制定和调整,辅助营销活动中目标客户的选择和广告投放,提升营销活动的业务产出,从而为公司带来更多的利润。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例,还提供了一种用于实施上述知识图谱构建方法的装置,如图5所示,该装置包括:增加模块10,用于向第一数据源中增加第二数据源得到目标数据源;接入模块20,用于接入所述目标数据源并按照预设规则处理所述所述目标数据源中的数据;以及生成模块30,用于生成图谱数据。在本申请的实施例中,通过引入了更广泛的数据源,充分发挥大数据生态圈中4v中的volume数据量大和variety类型繁多两大特点,并在数据准确性上做了大量工作,确保数据的准确性和及时性。

本申请实施例的增加模块10中第一数据源中可以包括应用数据。

应用数据主要是指涉及业务相关的应用数据。比如,涉及金融应用中的贷款、融资或者买卖等应用服务。

第一数据源中可以包括日志数据。

日志数据主要是指记录业务相关的日志数据。比如,涉及金融应用中的交易转出、转入手续的日志记录。

第一数据源中可以包括文件数据。

文件数据主要是指涉及业务相关的文件数据。比如,涉及金融应用中的买卖合同、借贷合同、投资合同的文件数据。

上述第一数据源主要作为内容的数据的来源,同时当向第一数据源中增加第二数据源后能够有效地扩大业务数据的范围。

第二数据源中可以包括相对于第一数据源而言的外部数据。

外部数据可以是用户消费行为数据。

比如,用户的消费记录、消费金额、消费场所等。

外部数据也可以是社交行为数据。

比如,用户通过社交网络服务器发布、关注、评论、引用的内容。

又比如,用户通过社交网络服务器与好友的关系。

本申请实施例的接入模块20中通过相关的数据接入规则,接入所述目标数据源。

可以通过数据缓冲层进行数据接入。

也可以通过数据贴源层进行数据接入。

优选地,按照预设规则处理所述所述目标数据源中的数据可以是

比如,按照预设数据质量清洗规则处理所述所述目标数据源中的数据。

优选地,按照预设规则处理所述所述目标数据源中的数据可以是

比如,按照预设数据整合规则处理所述所述目标数据源中的数据。

本申请实施例的生成模块30中具体地,根据知识图谱功能对数据的需要,按照软件本身的数据模型设计,对数据做etl处理转换成适合知识图谱功能需要的结构。在做知识图谱的数据模型设计和功能设计时,充分考虑了数据的体量、数据使用的复杂度,确保功能使用时的页面响应速度满足业务要求。

etl处理(英文全称extract-transform-load),用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。

通过搭建一整套用于知识图谱功能使用的图谱数据,最终支持知识图谱功能的有效运行。

根据本申请实施例,作为本实施例中的优选,如图6所示,所述增加模块包括:确定单元101,用于确定所述第一数据源中的第一目标数据,其中,所述第一目标数据用于作为内部数据;接收单元102,用于接收所述第二数据源中的第二目标数据,其中,所述第二目标数据用于作为外部数据;以及配置单元103,用于将所述第一目标数据、所述第二目标数据按照预设接口规则配置为统一结构。

本申请实施例的确定单元101中所述第一目标数据用于作为内部数据,可以是应用数据、日志数据以及文件数据等内部数据。

本申请实施例的接收单元102中所述第二目标数据用于作为外部数据;外部数据可以是用户消费行为数据。外部数据也可以是社交行为数据。

本申请实施例的配置单元103中具体地,通过建立缓冲层,数据源的数据接入之后,先存放到缓冲层。根据不同数据源的传输特点,结合数据传输增量或者全量的接口规范,整理还原成与原始结构一样的完整数据,传输到ods层。

具体地,通过建立ods层,ods层即贴源层,保持与数据源同样或者几乎同样的结构,保证数据信息最大程度的不失真。

根据本申请实施例,作为本实施例中的优选,如图7所示,所述接入模块20包括:接入单元201,用于接入所述目标数据源并按照预设数据库模型规则建立数据库模型;以及整合单元202,用于按照预设数据标签在所述数据库模型中整合所述目标数据源中的数据。

本申请实施例的接入单元201中需要进行数据质量清洗,对于内、外数据源中的目标数据,首先从数据的完整性、及时性、合法性、唯一性、一致性、准确性几个方面,综合考察每一条数据的数据质量,剔除由于错填、误填、数据修改、数据存储逻辑变迁等各种原因导致的失真数据,形成一套可以信赖的数据基础。

在确保数据正确和准确的基础上,按照数据模型规范的要求,搭建规范、易扩展、标准的数据库模型,规避冗余数据。

本申请实施例的整合单元202中按照预设数据标签在所述数据库模型中建立标准化数据库模型,建立规范结构的数据。

具体地,预设数据标签可以包括:

标签a{客户、交易、用户、支付、账户、资产};

标签b{产品、合约、渠道、活动、事件};

通过不同类型的标签a和标签b在数据库模型中整合所述目标数据源中的数据。

考虑到在软件开发过程中,业务需求变更时最容易产生报错,而建立规范结构的数据,能确保在数据源发生变化时,将改动内容减少到最小,规避大多数的开发功能修改产生报错风险。

根据本申请实施例,作为本实施例中的优选,如图8所示,所述接入模块20包括:图谱数据确定单元203,用于根据目标数据源中的数据体量确定第一图谱数据;图谱数据生成单元204,用于通过目标数据源中的数据类型生成第二图谱数据、第三图谱数据以及第四图谱数据;判断单元205,用于判断所述第一图谱数据、第二图谱数据、第三图谱数据以及第四图谱数据在使用响应时是否满足业务要求;执行单元206,用于判断所述第一图谱数据、第二图谱数据、第三图谱数据以及第四图谱数据在使用响应时满足业务要求时,执行从来源端至目的端的预设转化操作,所述第一图谱数据,用于作为基础属性数据模型;所述第二图谱数据,用于作为社会关系数据模型;所述第三图谱数据,用于作为交易行为数据模型;所述第四图谱数据,用于作为营销关系数据模型。

本申请实施例的图谱数据确定单元203中所述第一图谱数据,用于作为基础属性数据模型。

目标数据源中的数据体量是指能够处理的数据量大小。通过可处理的数据量大小得到基础属性。

本申请实施例的图谱数据生成单元204中所述第二图谱数据,用于作为社会关系数据模型;所述第三图谱数据,用于作为交易行为数据模型;所述第四图谱数据,用于作为营销关系数据模型。

通过目标数据源中的数据类型生成图谱数据时,根据知识图谱功能对数据的需要,按照软件本身的数据模型设计,对数据做etl处理,转换成适合知识图谱功能需要的结构。

本申请实施例的判断单元205中在使用响应时是否满足业务要求是指,确保功能使用时的web页面响应速度满足相关业务要求。

本申请实施例的执行单元206中具体地,执行从来源端至目的端的预设转化操作可以采用etl,etl处理(英文全称extract-transform-load),用来描述将数据从来源端经过萃取extract、转置transform、加载load至目的端的过程。通过将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

具体而言,数据抽取是从数据源中抽取数据的过程。实际应用中,数据源较多采用的是关系数据库。可以包括:全量抽取、增量抽取。

此外,etl处理的数据源除了关系数据库外,还可能是文件,例如txt文件、excel文件、xml文件等。对文件数据的抽取一般是进行全量抽取,一次抽取前可保存文件的时间戳或计算文件的md5校验码,下次抽取时进行比对,如果相同则可忽略本次抽取。

目前增量数据抽取中常用的捕获变化数据的方法可以是,触发器:在要抽取的表上建立需要的触发器,一般要建立插入、修改、删除三个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个临时表,抽取线程从临时表中抽取数据,临时表中抽取过的数据被标记或删除。时间戳:在源表上增加一个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值。当进行数据抽取时,通过比较系统时间与时间戳字段的值来决定抽取哪些数据。全表比对:典型的全表比对的方式是采用md5校验码。日志对比:通过分析数据库自身的日志来判断变化的数据。

进一步地,具体而言,etl处理中的数据转换和加工,从是指数据源中抽取的数据不一定完全满足目的库的要求,例如数据格式的不一致、数据输入错误、数据不完整等等,因此有必要对抽取出的数据进行数据转换和加工。数据的转换和加工可以在etl引擎中进行,也可以在数据抽取过程中利用关系数据库的特性同时进行。通过etl引擎中的数据转换和加工,etl引擎中一般以组件化的方式实现数据转换。常用的数据转换组件有字段映射、数据过滤、数据清洗、数据替换、数据计算、数据验证、数据加解密、数据合并、数据拆分等。

进一步地,具体而言,etl处理中的数据加载,将转换和加工后的数据装载到目的库中通常是etl过程的最后步骤。装载数据的最佳方法取决于所执行操作的类型以及需要装入多少数据。当目的库是关系数据库时,装载方式可以是:直接sql语句进行insert、update、delete操作;装载方式也可以是:采用批量装载方法,关系数据库特有的批量装载工具或api。

通过etl处理,可以确保每日的数据处理各种能及时准确完成。本领域技术人员能够明了,可以采用包括但不限于上述的etl处理方式用以实现每日的数据处理各种能及时准确完成的技术效果。

作为本实施例中的优选,本申请实施例的知识图谱构建方法,包括:向第一数据源中增加第二数据源得到目标数据源;接入所述目标数据源并按照预设规则处理所述所述目标数据源中的数据;以及生成图谱数据。

向第一数据源中增加第二数据源得到目标数据源包括:

确定所述第一数据源中的第一目标数据,其中,所述第一目标数据用于作为内部数据;

接收所述第二数据源中的第二目标数据,其中,所述第二目标数据用于作为外部数据;以及

将所述第一目标数据、所述第二目标数据按照预设接口规则配置为统一结构。

接入所述目标数据源并按照预设规则处理所述所述目标数据源中的数据包括:

接入所述目标数据源并按照预设数据库模型规则建立数据库模型;以及

按照预设数据标签在所述数据库模型中整合所述目标数据源中的数据。

接入所述目标数据源并按照预设规则处理所述所述目标数据源中的数据包括:

根据目标数据源中的数据体量确定第一图谱数据;

通过目标数据源中的数据类型生成第二图谱数据、第三图谱数据以及第四图谱数据;

判断所述第一图谱数据、第二图谱数据、第三图谱数据以及第四图谱数据在使用响应时是否满足业务要求;

如果判断所述第一图谱数据、第二图谱数据、第三图谱数据以及第四图谱数据在使用响应时满足业务要求,则执行从来源端至目的端的预设转化操作,

其中,所述第一图谱数据,用于作为基础属性数据模型;所述第二图谱数据,用于作为社会关系数据模型;所述第三图谱数据,用于作为交易行为数据模型;所述第四图谱数据,用于作为营销关系数据模型。

生成图谱数据包括如下的任一一种或多种:用于语义理解的知识图谱应用;用于智能搜索的知识图谱应用;用于交互问答的知识图谱应用;以及用于辅助决策的知识图谱应用。

具体而言,在本申请的实施例中,为了更全面了解用户行为信息,提供对业务更有帮助的知识图谱功能,从外部引入了用户车辆、房产、社交行为等多方面数据,形成了用户全方位知识图谱体系。以社交行为为例,通过引入外部数据,获取用户在社交网站的好友关系、发表的文章、阅读的文章、参与的评论、上传的图片或文档信息等关系数据和行为数据,引入自然语言处理技术,识别用户的社会关系网,解读用户的教育背景、职业等属性信息,判断用户的购物、旅游等消费预期,从而形成一套支持营销规划的数据体系,辅助运营部门营销战略、营销策略的制定和调整,辅助营销活动中目标客户的选择和广告投放,提升营销活动的业务产出,从而为公司带来更多的利润。

优选地,所述生成模块中生成图谱数据包括如下的任一一种或多种:用于语义理解的知识图谱应用;用于智能搜索的知识图谱应用;用于交互问答的知识图谱应用;以及用于辅助决策的知识图谱应用。

根据本申请实施例,还提供了一种客户端,包括所述的知识图谱构建装置。所述知识图谱构建装置的实现原理和技术效果如上所述,此处不再进行赘述。

具体而言,在本申请的实施例中的客户端,为了更全面了解用户行为信息,提供对业务更有帮助的知识图谱功能,从外部引入了用户车辆、房产、社交行为等多方面数据,形成了用户全方位知识图谱体系。以社交行为为例,通过引入外部数据,获取用户在社交网站的好友关系、发表的文章、阅读的文章、参与的评论、上传的图片或文档信息等关系数据和行为数据,引入自然语言处理技术,识别用户的社会关系网,解读用户的教育背景、职业等属性信息,判断用户的购物、旅游等消费预期,从而形成一套支持营销规划的数据体系,辅助运营部门营销战略、营销策略的制定和调整,辅助营销活动中目标客户的选择和广告投放,提升营销活动的业务产出,从而为金融公司带来更多的利润。

显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1