本发明涉及搜索引擎技术,尤其涉及一种基于搜索引擎的数据资产快速检索方法。
背景技术:
随移动互联网、大数据技术的普及,数字化时代已经到了,随着大数据平台的不断建设积累,大数据平台的数据资产规模在迅速膨胀,但当前对数据资产的检索方式还局限于传统手段,无法满足当前数据资产快速检索,快速应用的需求。
当前对数据资产的检索手段都是通过数据库技术,基于SQL语句实现,无法满足用户越来越灵活及智能的数据资产检索需求,主要体现在:
1、数据资产种类多,查询入口多,检索不方面
2、基于传统数据库方式的检索条件比较固定,检索方式不灵够灵活
3、数据资产的检索行为未被有效记录,热点数据分析、协同搜索推荐等支撑数据不足。
技术实现要素:
为了解决该问题,本发明提出了一种基于搜索引擎的数据资产快速检索方法。主要解决大数据平台数据资产检索入口多、检索条件不灵活、检索结果单一无用户行为的智能推荐的问题,实现了对大数据平台内数据资产的检索。
本发明通过引入大数据搜索引擎和智能推荐引擎,实现对大数据平台内所管辖的所有数据资产信息的一站式检索及用户检索信息的智能推荐。
一种基于搜索引擎的数据资产快速检索方法,包括
数据资产
数据资产信息除包含大数据平台内基本的数据源接口、数据模型、数据加工任务、共享服务、关键指标外,还将检索行为数据纳入数据资产进行管理,作为为用户进行智能推荐时的依据;
数据源接口:大数据平台内数据的来源接口;
数据模型:大数据平台内的各类数据模型;
数据加工任务:大数据平台内的各类数据采集、加工处理任务;
共享服务:大数据平台内所有对外提供数据的共享服务内容;
关键指标:大数据平台内的关键指标数据。
检索行为数据:大数据平台用户所有的数据资产检索行为数据。
大数据搜索/推荐引擎
通过使用solr搜索引擎及mllib中的智能推荐算法实现大数据搜索引擎及推荐引擎的构建;
在该引擎中对数据资产的处理主要包括数据导入、建立分词、建立索引等步骤,实现对数据资产的进一步处理。
数据导入:将数据资产的各类数据从传统的数据库、文件系统中导入到大数据搜索引擎中进行存储,并提供定时更新处理能力;
建立分词:针对每一类的数据资产对其全量信息建立分词,针对不同的字段内容采用不同的分词器及分词方法;
建立索引:针对每一类的数据资产全量字段信息建立索引;
对处理过后的数据资产数据统一存放在Hadoop的hdfs文件系统中;
基于处理过后的数据资产数据对外提供搜索、推荐两种数据资产服务:
搜索:提供针对数据资产信息的检索服务,通过HTTP服务方式将用户检索结果返回前端呈现;
聚合:根据用户搜索信息,聚合呈现搜索对象的全貌信息;。
推荐:提供对用户检索信息的智能推荐,根据用户、历史检索行为、其他用户相关检索行为为用户推荐与该检索相似搜索内容。
数据资产一站式检索
主要包括数据资产检索、数据资产信息聚合、数据资产智能推荐。
其中,数据资产检索,是使用大数据搜索引擎对数据资产建立索引提供检索;
数据资产信息聚合,是使用大数据搜索引擎聚合数据资产的全貌信息;
数据资产信息推荐,是使用大数据推荐引擎提供对检索内容的智能推荐。
数据资产检索:对外提供统一的访问入口,提供对数据资产、关键性能数据、检索行为数据等的快速检索,并提供个人关注热点内容的收藏功能;
数据资产信息聚合:根据搜索结果对象聚合全貌信息,包括影响分析、血缘分析、数据处理过程、指标算法及快速数据查询;
数据资产智能推荐:基于用户的检索行为数据及数据的语义分析、相似性等,通过协同推荐引擎为用户推荐相近搜索内容。
本发明的有益效果是
通过引入大数据搜索/推荐引擎等相关技术,简化了数据资产检索的使用操作方式,提升了数据资产的检索速度,挖掘数据间关系,使数据价值利用最大化。
1.检索效率提升:基于搜索引擎技术,针对大多数的场景,海量数据检索效率提升到当前的1~3S。
2.检索步骤简化:数据检索从原有的多次/多步操作简化为当前的一键式搜索,大大提升了工作效率,降低了使用复杂度。
3.功能快速到达:离散的应用,通过一个入口快速到达,在不太熟悉系统的情况下,快速找到自己需要的应用和数据。
4.数据关系挖掘:基于协同过滤/推荐算法,实现数据之间弱关联关系的挖掘分析。
附图说明
图1是数据资产实现原理示意图。
具体实施方式
下面对本发明的内容进行更加详细的阐述:
数据资产
本发明中数据资产信息除包含大数据平台内基本的数据源接口、数据模型、数据加工任务、共享服务、关键指标外,还将检索行为数据纳入数据资产进行管理,作为为用户进行智能推荐时的依据。
1.数据源接口:大数据平台内数据的来源接口。
2.数据模型:大数据平台内的各类数据模型,包括物理模型、分析模型、挖掘模型等等。
3.数据加工任务:大数据平台内的各类数据采集、加工处理任务。
4.共享服务:大数据平台内所有对外提供数据的共享服务内容。
5.关键指标:大数据平台内的关键指标数据。
6.检索行为数据:大数据平台用户所有的数据资产检索行为数据。
大数据搜索/推荐引擎
本发明中通过使用solr搜索引擎及mllib中的智能推荐算法实现大数据搜索引擎及推荐引擎的构建。
在该引擎中对数据资产的处理主要包括数据导入、建立分词、建立索引等步骤,实现对数据资产的进一步处理。
1.数据导入:将数据资产的各类数据从传统的数据库、文件系统中导入到大数据搜索引擎中进行存储,并提供定时更新处理能力。
2.建立分词:针对每一类的数据资产对其全量信息建立分词,针对不同的字段内容采用不同的分词器及分词方法,提升分词的准确性。
3.建立索引:针对每一类的数据资产全量字段信息建立索引。
对处理过后的数据资产数据统一存放在Hadoop的hdfs文件系统中,实现分布式的数据资产存储,保障随数据资产规模的不断扩展具备良好的可扩展性。
基于处理过后的数据资产数据对外提供搜索、推荐两种数据资产服务:
1)搜索:提供针对数据资产信息的检索服务,通过HTTP服务方式将用户检索结果返回前端呈现
2)聚合:根据用户搜索信息,聚合呈现搜索对象的全貌信息,包括算法、模型信息、数据加工任务过程信息及血缘分析、影响分析、数据查询工具等;
3)推荐:提供对用户检索信息的智能推荐,根据用户、历史检索行为、其他用户相关检索行为为用户推荐与该检索相似搜索内容,推荐内容包括相似搜索信息、报表工具、多维分析、应用专题等。
数据资产一站式检索
基于大数据搜索/推进引擎,本发明提供一站式的数据资产检索功能,主要包括数据资产检索、数据资产信息聚合、数据资产智能推荐。
1.数据资产检索:对外提供统一的访问入口,提供对数据资产、关键性能数据、检索行为数据等的快速检索,并提供个人关注热点内容的收藏功能。
2.数据资产信息聚合:根据搜索结果对象聚合全貌信息,包括影响分析、血缘分析、数据处理过程、指标算法及快速数据查询等。
3. 数据资产智能推荐:基于用户的检索行为数据及数据的语义分析、相似性等,通过协同推荐引擎为用户推荐相近搜索内容。