一种过载场景下数据分类查询的优化方法和装置与流程

文档序号:35134109发布日期:2023-08-16 16:27阅读:24来源:国知局
一种过载场景下数据分类查询的优化方法和装置与流程

本发明涉及计算机数据库领域,具体涉及一种过载场景下数据分类查询的优化方法和装置。


背景技术:

1、近几年来,计算机技术不断地发展与革新,同时网络架构性能也逐年提升,互联网在人们生活中起着愈发重要的作用,使得人们的生活愈加方便快捷,真正做到了“足不出户便知天下事”。现代人的生活变得无法离开互联网产品,如今的各种支付系统成为了交易买卖消费的主流方式;出行的导航系统或者打车系统使得人们出行更加快捷,同时也能自主地利用网络自行驱车快速地到达目的地;还有会议系统,为人们提供了性能稳定、移动端客户端统一的开会讨论平台。

2、此外,网络技术的发展也为互联网的社交平台以及新闻媒体带来了革命性的发展,催生了“互联网媒体”的诞生,互联网媒体以表现形式多著称,包含了图像、视频、文本以及音频等等非结构化数据,同时借以互联网平台,涵盖电脑、移动手机等平台来进行传播发展。互联网媒体如今在人类生活中扮演着越来越重要的角色,它传播信息的速度远超传统媒介,并且所携带的信息形式更为多元化,内容更加丰富。除此之外,流行的社交平台也为人们的沟通交流提供了极大的便利,不仅限于传统的日常社交软件,现在也涌现出了新网络环境下的新型社交,首先有直播平台社交,用户可以在主播直播时候进行互动沟通,其次是视频网站社交,另外还有生活饮食类的社交平台,人们可以在这些平台上分享自己的体验心得。

3、同时随着网络服务以及社交媒体的普及,网民使用这些平台服务的频次越来越高。新闻媒体涵盖自媒体等,每天都会产生以万计的视频或者文本信息,丰富大众生活,拓宽视野;社交媒体则极大地缩短了人与人之的距离,同时交流沟通的成本也大幅度下降。

4、另一方面,互联网积攒了大量的用户,这些用户使用网络服务,在产生了巨大的商业价值的同时,也使得互联网数据量呈现指数级的膨胀。而这些数据同样也蕴含了很高的价值,以文本类型数据为例,在许多文本任务上,例如文本主题挖掘等,都需要对这些每天生成的大量数据进行分析。与传统的结构化数据相比,这些数据主要以文本数据为主,而分析这些数据,逃不开现在主流的机器学习模型。如果需要查询带有较为深层信息的数据,比如查询情感类型为积极的文本,那么查询中就会带有用户自定义函数(udf,user-definedfunctions),这类函数一般会带有相应的机器学习任务。相比于传统的查询而言,这类查询需要在查询时候运行相应的用户自定义函数,得到函数结果之后再返回给用户,当数据量很大时,效率会非常低下,一般需要做一些高效的查询优化来提升查询效率。许多现有的查询处理平台或者引擎,包括blazeit,miris,noscope,概率谓词,svq等,这些都是加速视频或者其他非结构化数据查询执行的工作,但是这些工作都依赖于基于用户自定义函数(udf)和查询谓词的离线训练过程。

5、现如今在流数据场景上,同样会有此类查询以情感分析任务为例,用户希望在实时的时间宽度为一分钟的时间窗口内,查询到其中带有积极(positive)情感的文本数据。虽然上述提及的相关工作均是对于带有机器学习udf的查询优化工作,但是这些工作都没有尝试在流数据场景下优化整个流程,尤其是出现流数据过载的情况下,而离线处理特定的查询,一般需要基于大量的历史数据,同时分析查询的特性。与离线查询处理相比,流数据更关注查询结果的延迟(latency)。在许多流数据应用程序中,处理延迟是最关键的相应质量要求,因为查询结果的价值会随着时间的推移而急剧下降,同时流数据本身也讲究时效性,数据的价值也会随着时间推移而下降。在流数据管理系统(data stream managementsystems,dsms)中,及时响应查询的能力在数据过载的情况下会严重下滑,这种现象在流数据场景下非常普遍。通常,dsms采用减载技术来满足质量要求,同时跟上数据到达的高速率。为了让系统持续完成最新的查询响应,负载抛弃(loadshedding)总是会丢弃一部分未处理的数据。在流数据场景中,系统通常处理的是没有明显分界点的连续实时数据而不是静态数据集,一般来说,人们总是使用滑动窗口来限制流入系统的数据,窗口的大小通常基于时间宽度,例如5秒、10秒等时间来限定数据流范围。在数据爆炸式增长和计算平台资源有限的背景下,数据过载的情况在现实世界中频繁发生。对于流数据过载问题,传统的、较为朴素的做法是应用负载抛弃技术,但是这种做法具有较高随机性,如果查询中包含机器学习udf,那么查询结果的精度就会较低。

6、支持向量机(support vector machine,svm)是一个历史悠久同时在机器学习领域应用非常广泛的分类器,它以模型轻量、简单任务效果较好著称。最早原始的支持向量机模型于1963年发表,后续经过不同学者的不断努力,发展出了用核技巧来创建非线性分类器的方法以及软间隔(soft-margin)等技术。支持向量机主要用于分类、回归等任务。直觉来看,训练结果得到的分类边界距离最近的训练样本越远,则说明当前分类的效果越好,分类结果越准确。

7、神经网络(neural network)是人工神经网络的简称,在机器学习领域是一种模仿动物中枢神经网络构造和功能的研究方法。神经网络由大量的人工神经元连接而成并进行计算,其中,具体的网络结构一般情况下能够在外界信息的基础上更改调整内部结构,这一过程即为神经网络的训练过程,因此神经网络能对特定的任务进行相应的调整适应,具备一定的学习能力。现代的神经网络通常是通过一个基于数理统计学的学习方法来进行优化,最终能学习到样本中的非线性关系,所以也是数理统计学的一种实际应用。

8、朴素贝叶斯分类器(naive bayes classifier)在机器学习中是一种常见的基于概率的简单分类器,主要的理论依据是在假设特征之间强独立的条件下,运用贝叶斯定理进行分类任务。朴素贝叶斯自上世纪50年代就已经有了广泛的研究,并至今仍然活跃于文本分类任务之中。通过恰当的特征预处理,朴素贝叶斯也可以与领域先进的方法相竞争。


技术实现思路

1、本发明的目的在于针对现有技术的不足,提供了一种过载场景下数据分类查询的优化方法和装置。

2、本发明的目的是通过以下技术方案来实现的:一种过载场景下数据分类查询的优化方法,包括以下步骤:

3、当检测到数据流发生过载时,按照朴素查询流程对过载的数据流进行查询:数据以窗口形式输入,先经过负载抛弃模块,再经过文本分类模块,最后返回给用户带有标签的数据,并将所述带有标签的数据存储在本地作为训练数据,再重复上述步骤;

4、所述负载抛弃模块采用负载抛弃技术随机抛弃一些数据,并将剩余的数据输入文本分类模块中;

5、所述文本分类模块处理剩余的数据,将满足查询条件的数据打上标签,将带有标签的数据返回给用户;

6、直到本地存储的训练数据超过设定的阈值,使用本地存储的训练数据在线训练选定的过滤器,并为过滤器设定一个阈值tha,得到训练好的过滤器;

7、随后剩余的数据流按照改进查询流程进行查询:数据以窗口形式输入,先经过负载抛弃模块,随后经过所述训练好的过滤器,再经过文本分类模块,得到查询结果并返回给用户。

8、进一步地,所述本地存储的训练数据超过设定的阈值具体为:本地存储的训练数据中总文本数量超过设置的总文本数量阈值、正样本数量超过设置的正样本数量阈值以及负样本数量超过设置的负样本数量阈值。

9、进一步地,所述过滤器为线性支持向量机、神经网络分类器或伯努利朴素贝叶斯分类器。

10、本发明还提供了一种过载场景下数据分类查询的优化装置,包括一个或多个处理器,用于实现上述过载场景下数据分类查询的优化方法。

11、本发明还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述过载场景下数据分类查询的优化方法。

12、本发明的有益效果是:

13、这些工作大多数都基于离线的训练模式,通过离线训练的索引或者概率谓词,来筛选与查询不相关的数据,此种训练模式需要大量的训练数据以及较高的开销时间,在实时性要求较高的流数据场景下并不适用。现有的流数据过载场景下的查询优化工作,主要停留于朴素的解决方案,一般通过负载抛弃技术来减少负载并优化查询,这种查询优化方法效率低下,同时不适用于现在新型的机器学习推理查询。本发明主要考虑从在线训练的模式出发,针对流数据场景下实时的查询进行优化,本发明考虑的主要手段也是采用概率过滤器的方式对于原始输入数据进行优化,但是解决方法的难点在于,如何快速地训练有效的过滤器模型,以及如何将过滤器调配到最适合实时场景的参数模式并提升查询结果的准确率。首先针对快速训练有效过滤器模型的问题,现行的机器学习查询优化工作主要基于离线的模式训练概率谓词等方式,这些方法需要大量的有标签的离线数据作为基础,在实时的流数据场景中,一般无法存储大量的数据在本地,同时训练或者建立相关索引所花费的开销代价都非常高,一般在离线场景中,针对不同的谓词都会训练对应的过滤器或者建立对应的索引,需要大量的预处理工作。本发明基于这些缺陷,提出了在线训练过滤器的模式,同时数据来源于冷启动阶段的查询结果,在查询结束后冷启动阶段的数据结果(带有数据标签)会被存储于本地,当这部分作为训练集的数据结果达到方法所设定的阈值时,就训练一系列模型。简单的分类器,并将这些分类器应用于后续查询流程以进行优化。其次,针对如何将过滤器调配到最适合的参数模式问题,本发明提出了使用参数搜索的算法,对查询流程中的各个模块的中间结果进行计算,并给出指标选择最优参数配置,本发明先是给出了穷举的参数搜索方式,最终根据实验参数结果,对参数搜索算法进行了进一步优化,提升了搜索效率。此外,本发明为了满足流数据场景的响应时间条件,使用函数拟合的方式来推测机器学习推理的开销时间,从而达到控制响应时间的目的。本发明将这一系列优化技术集成。本发明后续基于流数据样本出现动态分布的新场景,给出了调整方案,调整方案基于抽样的方法获取到实时数据样本的分布,并根据此分布重新计算过滤器关系曲线,最终在新场景上取得了不错的效果。

14、在流数据过载场景问题上,常规的解决方案仍停留于使用负载抛弃的方法来减少负载,对于机器学习推理查询来说,这样的方案虽然能使查询按时响应,但是无法保障查询结果的准确率。与其他机器学习推理查询优化工作相比,本发明优势在于,不需要离线收集大量的带标签数据,也不需要大规模的训练阶段,只需要额外花费少量的冷启动开销时间,就能使查询结果的准确率得到有效提升,同时查询也能及时响应;而与基准的负载抛弃技术相比,整体架构中涵盖了负载抛弃模块,并在此基础上,使用过滤器进一步有选择性地筛选数据,使得查询处理更为高效。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1