一种基于大数据环境下的多源数据聚合抽样系统的制作方法

文档序号:15312422发布日期:2018-08-31 22:10阅读:721来源:国知局

本发明属于信息技术领域,尤其涉及一种基于大数据环境下的多源数据聚合抽样系统。



背景技术:

目前,业内常用的现有技术是这样的:

目前,大数据环境下,决策目标相关的数据具有多源异态、异构关联、层次嵌套、动态演化等特征。决策目标导向的多源异构数据聚合及推理抽样技术,在风险预警、商机预测以及异常检测等方面具有极大的实践应用价值。如何选择样本及其属性特征的范围、如何确定样本属性特征之间的相关关系、如何构建样本及其属性特征之间的逻辑推理结构等问题,一直是理论界及应用界所关注的热点和难点。大数据的抽样技术目前主要体现在单一来源或单一形式的数据抽样及随机抽样,忽略决策目标的场景性特征,以及忽略决策目标导向的样本属性特征的场景性推理;相关的抽样技术主要有:与样本属性特征选择相关的技术主要涉及特征工程,相关的理论及技术主要涉及与维度约减相关的因子分析、主成分分析等;与样本属性特征间相关性计算相关的技术主要涉及相似性及因果性判断,相关的理论及技术主要涉及欧氏空间距离、余弦相似性、jaccard相似性等;与变量间逻辑推理结构构建相关的技术主要涉及领域专家访谈及概率图模型,相关的理论及技术主要涉及基于约束或基于得分的模型构建等。上述技术普遍存在以下缺陷:抽样多为单一来源的数据或单一形式的数据,大多缺少多源数据及多形式数据的融合及交叉验证;取样多为随机抽样,大数据环境下,随机抽样具有一定的局限性,因为多领域、多来源、多载体、多形式的大数据环境下,需要跨领域及跨平台的抽样;忽略决策目标的随机抽样,会导致样本噪音加剧,形成样本冗余或缺失的比例增加;忽略决策目标导向的抽样及其属性特征的场景性推理,将不能有效揭示其潜在的、未来的或关键的样本及其属性特征。

综上所述,现有技术存在的问题是:

现有抽样多为单一来源的数据或单一形式的数据,大多缺少多源数据及多形式数据的融合及交叉验证;取样多为随机抽样,大数据环境下,随机抽样具有一定的局限性,因为多领域、多来源、多载体、多形式的大数据环境下,需要跨领域及跨平台的抽样;忽略决策目标的随机抽样,会导致样本噪音加剧,形成样本冗余或缺失的比例增加;忽略决策目标导向的抽样及其属性特征的场景性推理,将不能有效揭示其潜在的、未来的或关键的样本及其属性特征。



技术实现要素:

针对现有技术存在的问题,本发明提供了一种基于大数据环境下的多源数据聚合抽样系统。

本发明是这样实现的,一种基于大数据环境下的多源数据聚合抽样系统,所述基于大数据环境下的多源数据聚合抽样系统设置有主控模块、数据融合模块、去停词和保留关键词单元、统计词频单元、数值合并单元、数据采集模块、展示模块、抽样深度模块、循环匹对模块、图表模块。

进一步,所述数据融合模块、数据采集模块、展示模块、抽样深度模块、循环匹对模块、图表模块分别与主控模块相连接。

进一步,所述数据融合模块分为去停词和保留关键词单元、统计词频单元、数值合并单元。

进一步,所述数据采集模块至少包括关于业务目标的社交媒体、新闻平台、专题网站、专利网站、人才招聘的数据资源。

进一步,所述数据采集模块的数据形式涉及数字、文本、图像、视频等结构化或非结构化数据。

进一步,数据采集模块的数据处理方法包括:输入图像;提取颜色特征和自适应lbp算子特征;

多特征底秩矩阵表示模型;

s.t.xi=xiai+ei,i=1,…,k

其中α是大于0的系数,用来度量噪声和野点带来的误差;

等价为以下模型:

输出伪区域并得到最后准确的区域;

提取自适应lbp算子特征算法的具体步骤如下:

(1)将输入系统的图像转换成灰度图像,对图像{grayv(i,j)}像素灰度值求和,再获取平均值:

(2)利用总的纹理特征去除背景,计算图像的像素灰度值与平均像素灰度值的差值的绝对值之和,求其平均值:

利用局部纹理特征去除背景,用3×3大小的滑动窗口,遍历图像,求取中心像素灰度值与周边像素灰度值之差,在每一个窗口图像内求取平均值:

(3)拟合计算自适应阈值的方法:

进一步,根据比例等留下每个子空间的外接矩阵即为疑似区域;

设置一个跳变函数f(i,j),对疑似区域进行精确定位,确定精确区域的上下边界:

其中c(i,j)为

c(i,j)=lbp8,1(i,j)-lbp8,1(i,j-1)

上两式中i=1,2,3,4,…n,j=2,3,4,…m,因此任意一行i的跳变次数和s(i)为:

如果任意一行跳变次数的和s(i≥12),则这一行就属于精确区域;由上至下对整幅图像进行扫描,找出所有满足s(i≥12)的行,并记录下这一行的行数i;如果有连续的h行满足s(i≥12),则得到一个宽度为m,高度为h的矩形区域,这个区域就有可能是精确区域

综上所述,本发明的优点及积极效果为:

本发明能够围绕决策目标,并基于深度学习及贝叶斯推理技术,将上述多源异构数据进行决策目标导向及场景因素驱动的聚合及推理,以筛选出与场景性决策目标相关的数据样本,为进一步数据分析做准备。

本发明数据采集模块的数据处理方法可获得准确的图像数据,为后续的运行提供保证。

附图说明

图1是本发明实施例提供的基于大数据环境下的多源数据聚合抽样系统的结构示意图;

图中:1、主控模块;2、数据融合模块;2-1、去停词和保留关键词单元;2-2、统计词频单元;2-3、数值合并单元;3、数据采集模块;4、展示模块;5、抽样深度模块;6、循环匹对模块;7、图表模块。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下。

下面结合附图对本发明的结构作详细的描述。

如图1所示,本发明实施例提供的基于大数据环境下的多源数据聚合抽样系统设置有主控模块1、数据融合模块2、去停词和保留关键词单元2-1、统计词频单元2-2、数值合并单元2-3、数据采集模块3、展示模块4、抽样深度模块5、循环匹对模块6、图表模块7。

所述数据融合模块、数据采集模块、展示模块、抽样深度模块、循环匹对模块、图表模块分别与主控模块相连接。所述数据融合模块分为去停词和保留关键词单元、统计词频单元、数值合并单元。所述数据采集模块至少包括关于业务目标的社交媒体、新闻平台、专题网站、专利网站、人才招聘的数据资源。所述数据采集模块的数据形式涉及数字、文本、图像、视频等结构化或非结构化数据。

本发明的工作原理是:输入多个渠道来源的初始数据集,并将这些数据集的编码统一设置为gbk编码,在文件的第一列采用id属性来标识和区别不同来源和不同对象的数据;在gbk编码的多来源数据集的基础上,实现一个数据集内部多个属性融合以及不同来源数据集之间的融合,进而完成多源数据融合操作,生成“ronghe.csv”文件,其中,只保留id列和content列数据,id作为区别和标识不同数据的属性,content是由多源数据融合而成的文本内容;将融合后的文件进行分词,形成词语词频二维矩阵;代码自动导入停词表和用户词典文件,实现去停词和保留关键词操作,其中依据决策目标及场景特征不断优化用户词典和扩充停词表,注意保持文件编码与代码编码格式相一致,避免出现乱码问题,丧失原有的功能,影响基于业务目标的分词效果;使用python的jieba模块分词并计算形成统计词频的二维矩阵,保留两个字以上的词语同时舍去词频低于1次的词语;将字典和矩阵数值合并,形成二维矩阵;展示高频词汇,供用户参考,进行根节点词语选择;选取决策业务目标导向的种子根节点关键词语,输入抽样深度;在种子根节点数据的基础上,依据独特的均衡校验算法、设定相应的阈值,循环匹对各个词语,进行滚雪球抽样;构建有向无环图和邻接矩阵;输出网络的边;输出树形有向无环图;实现业务目标相关的根节点聚类网络图及逻辑推理图,包括一个主题的深度和多个主题的广度。

数据采集模块的数据处理方法包括:输入图像;提取颜色特征和自适应lbp算子特征;

多特征底秩矩阵表示模型;

s.t.xi=xiai+ei,i=1,…,k

其中α是大于0的系数,用来度量噪声和野点带来的误差;

等价为以下模型:

输出伪区域并得到最后准确的区域;

提取自适应lbp算子特征算法的具体步骤如下:

(1)将输入系统的图像转换成灰度图像,对图像{grayv(i,j)}像素灰度值求和,再获取平均值:

(2)利用总的纹理特征去除背景,计算图像的像素灰度值与平均像素灰度值的差值的绝对值之和,求其平均值:

利用局部纹理特征去除背景,用3×3大小的滑动窗口,遍历图像,求取中心像素灰度值与周边像素灰度值之差,在每一个窗口图像内求取平均值:

(3)拟合计算自适应阈值的方法:

进一步,根据比例等留下每个子空间的外接矩阵即为疑似区域;

设置一个跳变函数f(i,j),对疑似区域进行精确定位,确定精确区域的上下边界:

其中c(i,j)为

c(i,j)=lbp8,1(i,j)-lbp8,1(i,j-1)

上两式中i=1,2,3,4,…n,j=2,3,4,…m,因此任意一行i的跳变次数和s(i)为:

如果任意一行跳变次数的和s(i≥12),则这一行就属于精确区域;由上至下对整幅图像进行扫描,找出所有满足s(i≥12)的行,并记录下这一行的行数i;如果有连续的h行满足s(i≥12),则得到一个宽度为m,高度为h的矩形区域,这个区域就有可能是精确区域。

以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1