一种大数据环境下异构数据实时检索方法与流程

文档序号：11063534阅读：1708来源：国知局

本发明涉及一种大数据环境下异构数据实时检索方法，主要应用领域包括平安城市、智慧交通、智慧城市等多个领域，不局限于特定的应用场景，适用范围广阔。

背景技术：

随着信息化技术应用日益普及，信息化系统呈现逐年上升的趋势，为此这些信息化系统产生的数据也将越来越广泛。尤其随着平安城市、智慧城市等新兴平台的诞生，对数据整合和数据快速响应提出了更高的要求。传统模式下检索技术实现方式，应用场景比较单一，对数据源环境也提出了较为苛刻要求，数据检索的结果集(或者是索引库)存储模式不够灵活，不利于解决数据持续增长带来的检索膨胀问题。如何在海量数据中快速响应用户检索要求，即用户的实时响应；如何在海量数据的范围内，在满足检索效率的同时，提高检索内容的准确性，即提高用户检索内容的准确性，是目前面临的技术难题。

技术实现要素：

本发明的目的在于提供一种大数据环境下异构数据实时检索方法，立足解决现有技术存在的问题，在完善现有技术应用同时，也针对具体的应用场景进行检索机制的优化。通过运行机制的创新，调度控制算法的优化，及特征词算法的优化，实现其目的。

本发明的技术方案如下：

一种大数据环境下异构数据实时检索方法，其特征在于，包括以下步骤：

步骤1：搭建海量数据索引云服务，实现索引存储负载的均衡化；搜索请求开始后，根据总控制台指令，分别向各个shard分片进行搜索；获取各自检索的记录；汇集各分片初始结果集；对初始结果集进行排序，按照预置条件要求，返回符合条件的记录；通过上一阶段获取的信息，进行字段值选择；并行执行任务，去各个shard获取字段值信息；汇总各个shard的字段值信息；收集各分片的最终结果；合并结果，统一返回；

步骤2：优化异构数据内容解析算法，使其解析更准确；在运用textrank时考虑到每一个顶点即词的权重，再进行下一步的投票以及迭代的操作来获取文章的特征词；在进行taxtrank提取关键词之前，先对数据集中的文档进行每个词的权重计算，之后将这个词的权重值作为textrank每个词输入，进行下一步的计算。

本发明在实际应用场景中取得了良好的反馈，成功解决大数据环境下异构数据高效检索的问题，能够兼容不同数据源，实现各类数据的统一接入，并与其建立规范的同步机制。通过结合索引云服务和优化算法实施，实现快速检索同时也提高检索的准确性。根据本发明的实验室数据，通过建立5shard索引分片集群，检索结果平均提升了近3倍，准确性也得到了提升。

附图说明

图1为本发明总体架构图；

图2为索引服务集群执行示意图。

具体实施方式

图1为本发明总体架构图。本发明在综合分析目前的成熟的技术架构基础上，采用了扩展性技术架构，能够为未来的数据的增长提供预留空间。

图2为索引服务集群执行示意图，具体的技术实现方案主要包括以下步骤：

步骤1：搭建海量数据索引云服务，实现索引存储负载的均衡化。

图2中详细执行过程大体说明如下：

A箭头表示搜索请求开始

B表示根据总控制台指令，分别向各个shard分片进行搜索。

C表示获取各自检索的记录

D汇集各分片初始结果集。

E对初始结果集进行排序，按照预置条件要求，返回符合条件的记录。

F通过上一阶段(E)获取的信息，进行字段值选择。

G并行执行任务，去各个shard获取字段值信息。

H汇总各个shard的字段值信息。

I收集各分片的最终结果。

J合并结果，统一返回。

步骤2：优化异构数据(文档、数据表、音频等数据)内容解析算法；使其解析更准确。

在运用textrank考虑到了在图2中每一个顶点即词的权重，再进行下一步的投票以及迭代的操作来获取文章的特征词。因此在进行taxtrank提取关键词之前，我们先对数据集中的文档进行每个词的权重计算，之后将这个词的权重值作为textrank每个词输入，进行下一步的计算。具体计算方法如下公式：

W(Vi)表示当前顶点的权重，在对于总体文档的关键字提取的技术中我们还是选取比较常用的TFIDF的方法进行每个词的权重的计算，但在计文档权重过程中，TFIDF的数值比较小，一旦输入textrank中进行迭代，会影响实验的效果，所以在这里我们将TFIDF值进行归一化的处理后，输入textrank中进行权值计算。归一化公式如下：

通过采用改进后的算法进行解析工作，整体数据的特征词提取准确性得到极大提高。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈瑞;蓝飞翔;张宏;左浩雷;蒋志鸿;
技术所有人：北京航天长峰科技工业集团有限公司;
我是此专利的发明人

上一篇：信息查询方法及系统与制造工艺
上一篇：一种多数据库综合集成接入方法与制造工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。