一种基于大数据的数据对比分析筛选系统及方法与流程

文档序号:27611099发布日期:2021-11-27 00:34阅读:330来源:国知局
一种基于大数据的数据对比分析筛选系统及方法与流程

1.本发明涉及数据对比分析筛选系统领域,特别涉及一种基于大数据的数据对比分析筛选系统及方法。


背景技术:

2.随着大数据应运而生,信息化不断高速发展,为了弥补传统方法无法处理如此量大且非结构的大数据的缺陷,人们研究出了云计算,以云计算为基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、高速、多变化的终端大数据存储下来,然而如何对这些数据进行筛选分析,并且使用筛选结果从不同维度对企业决策进行指导已经成为热门话题。
3.现有技术中,对数据的筛选分析方法仅是对数据在某单一维度下进行展开分析,或者在多个维度下进行组合筛选,单一维度下的筛选缺陷在于如果数据信息点隐藏在多个筛选维度下,则很难被找到;组合筛选的缺陷在于确定某一维度子项以进行数据分析时,子项的选择很大程度取决于做出判断的人的经验,导致容易出现错误的判断情况。无论是单一维度的筛选方式或是组合维度的筛选方式,针对筛选过程中因选择了错误的筛选维度而无法得到最终的筛选结果时,均需要重新进行筛选,严重影响筛选效率。
4.现有技术的数据对比分析筛选系统在对数据进行对比分析时,无法对数据中关键字进行采集匹配,这就导致在采集时不具有针对性,无法快速对数据关键字进行提取,致使后续的匹配以及对比环节无法快速进行,其次,在对数据进行筛选的时候,无法实现筛选分级,无法筛选出所需的最优数据,提供的多个选项无法快速直接的为使用者使用,给人们的使用过程带来了一定的影响,为此,我们提出一种基于大数据的数据对比分析筛选系统及方法。


技术实现要素:

5.本发明的主要目的在于提供一种基于大数据的数据对比分析筛选系统及方法,可以有效解决背景技术中的问题。
6.为实现上述目的,本发明采取的技术方案为:
7.一种基于大数据的数据对比分析筛选系统,包括数据导入模块、特征采集模块、特征数据处理模块、特征对比模块、数据分析模块、总控模块与数据筛选分级模块;
8.所述数据导入模块与特征采集模块通信连接,所述特征采集模块与特征数据处理模块通信连接,所述特征数据处理模块与特征对比模块通信连接,所述特征对比模块与数据分析模块通信连接,所述数据分析模块与总控模块通信连接,所述总控模块与数据筛选分级模块通信连接;
9.所述数据导入模块用于导入需要对比分析的数据,并将数据导入到特征采集模块中,所述特征采集模块用于采集接收到的数据的特征信息,并将采集到的特征信息发送到特征数据处理模块上,所述特征数据处理模块会对接收到的特征信息进行处理,并将处理
好的特征信息发送到特征对比模块中,所述特征对比模块用于对接收到的特征信息进行比对,并将比对好的信息发送到数据分析模块中,所述数据分析模块会对比对好的信息进行分析,并将分析好的信息发送给总控模块。
10.进一步的,所述数据导入模块在使用时,至少需要导入两个或多个数据信息,所述特征采集模块会从导入的数据中采集出特征点关键词,特征点关键词的采集过程如下:
11.步骤一:获取到数据信息;
12.步骤二:提取数据信息内的关键词组,其提取出关键词的具体过程为:将采集的数据信息通过tf-idf算法进行关键词提取,得到第一关键词组;关键词组包括若干关键词。
13.进一步的,所述特征采集模块采集到的特征信息发送给特征数据处理模块,经特征数据处理模块将关键词组提取,并发送给特征对比模块进行数据的匹配,具体匹配过程为:
14.s1:获取到系统内数据信息的参考关键词组,参考关键词组的判定过程为:对数据信息内的所有内容进行分析,提取出数据信息中所有超过预设次数的词组,再将出现次数最多的词组提取出来,将其标记为参考关键词组;
15.s2:将第一关键词组与参考关键词组进行匹配得到重复关键词。
16.进一步的,所述数据分析模块将匹配得到重复关键词发送给数据分析模块,数据分析模块对匹配后的特征数据进行整合,并将整合后的结果发送给总控模块。
17.进一步的,所述总控模块会在接收到分析好的信息后,将控制指令和比对信息发送到数据筛选分级模块中,所述数据筛选分级模块接收到特征比对消息后会根据比对消息将数据根据特征点进行筛选分级,并将筛选的数据导出。
18.一种基于大数据的数据对比分析筛选系统的数据对比分析筛选方法,所述数据筛选分级模块在进行筛选时具体步骤如下:
19.s1:获取到系统内数据信息的参考关键词组,将出现次数最多的词组提取出来,将其标记为参考关键词组;
20.s2:将第一关键词组与参考关键词组进行匹配得到重复关键词;
21.s3:将重复关键词的数量除以参考关键词的数量,得到回复占比,将回复占比值最高的数据信息标记为特征数据;
22.其中,经步骤s3得到的特征数据即为筛选分级后的数据,该特征数据所占比值最高。
23.与现有技术相比,本发明具有如下有益效果:
24.1、本发明通过设置的特征采集模块,能够从导入的数据中采集出特征点关键词,提取数据信息内的关键词组,其提取出关键词的具体过程为:将采集的数据信息通过tf-idf算法进行关键词提取,得到第一关键词组;关键词组包括若干关键词,然后将采取到的关键词与系统内部数据信息的参考关键词组进行匹配,能够使得采集具有针对性,快速对数据关键字进行提取,更好的对后续的匹配以及对比环节快速进行;
25.2、本发明通过设置的数据筛选分级模块,能够在接收到特征比对消息后会根据比对消息将数据根据特征点进行筛选分级,并将筛选的数据导出,将第一关键词组与参考关键词组进行匹配得到重复关键词,将重复关键词的数量除以参考关键词的数量,得到回复占比,将回复占比值最高的数据信息标记为特征数据,得到的特征数据即为筛选分级后的
数据,该特征数据所占比值最高,在对数据进行筛选的时候,通过实现筛选分级,快速筛选出所需的最优数据,直接的为使用者使用。
附图说明
26.图1为本发明一种基于大数据的数据对比分析筛选系统的系统框图。
具体实施方式
27.为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
28.如图1所示,一种基于大数据的数据对比分析筛选系统及方法,包括数据导入模块、特征采集模块、特征数据处理模块、特征对比模块、数据分析模块、总控模块与数据筛选分级模块;
29.所述数据导入模块与特征采集模块通信连接,所述特征采集模块与特征数据处理模块通信连接,所述特征数据处理模块与特征对比模块通信连接,所述特征对比模块与数据分析模块通信连接,所述数据分析模块与总控模块通信连接,所述总控模块与数据筛选分级模块通信连接;
30.所述数据导入模块用于导入需要对比分析的数据,并将数据导入到特征采集模块中,所述特征采集模块用于采集接收到的数据的特征信息,并将采集到的特征信息发送到特征数据处理模块上,所述特征数据处理模块会对接收到的特征信息进行处理,并将处理好的特征信息发送到特征对比模块中,所述特征对比模块用于对接收到的特征信息进行比对,并将比对好的信息发送到数据分析模块中,所述数据分析模块会对比对好的信息进行分析,并将分析好的信息发送给总控模块。
31.所述数据导入模块在使用时,至少需要导入两个或多个数据信息,所述特征采集模块会从导入的数据中采集出特征点关键词,特征点关键词的采集过程如下:
32.步骤一:获取到数据信息;
33.步骤二:提取数据信息内的关键词组,其提取出关键词的具体过程为:将采集的数据信息通过tf-idf算法进行关键词提取,得到第一关键词组;关键词组包括若干关键词。
34.所述特征采集模块采集到的特征信息发送给特征数据处理模块,经特征数据处理模块将关键词组提取,并发送给特征对比模块进行数据的匹配,具体匹配过程为:
35.s1:获取到系统内数据信息的参考关键词组,参考关键词组的判定过程为:对数据信息内的所有内容进行分析,提取出数据信息中所有超过预设次数的词组,再将出现次数最多的词组提取出来,将其标记为参考关键词组;
36.s2:将第一关键词组与参考关键词组进行匹配得到重复关键词。
37.所述数据分析模块将匹配得到重复关键词发送给数据分析模块,数据分析模块对匹配后的特征数据进行整合,并将整合后的结果发送给总控模块。
38.所述总控模块会在接收到分析好的信息后,将控制指令和比对信息发送到数据筛选分级模块中,所述数据筛选分级模块接收到特征比对消息后会根据比对消息将数据根据特征点进行筛选分级,并将筛选的数据导出。
39.本发明还提供了一种基于大数据的数据对比分析筛选系统的数据对比分析筛选
方法,所述数据筛选分级模块在进行筛选时具体步骤如下:
40.s1:获取到系统内数据信息的参考关键词组,将出现次数最多的词组提取出来,将其标记为参考关键词组;
41.s2:将第一关键词组与参考关键词组进行匹配得到重复关键词;
42.s3:将重复关键词的数量除以参考关键词的数量,得到回复占比,将回复占比值最高的数据信息标记为特征数据;
43.其中,经步骤s3得到的特征数据即为筛选分级后的数据,该特征数据所占比值最高。
44.通过采用上述技术方案:设置的特征采集模块,能够从导入的数据中采集出特征点关键词,提取数据信息内的关键词组,其提取出关键词的具体过程为:将采集的数据信息通过tf-idf算法进行关键词提取,得到第一关键词组;关键词组包括若干关键词,然后将采取到的关键词与系统内部数据信息的参考关键词组进行匹配,能够使得采集具有针对性,快速对数据关键字进行提取,更好的对后续的匹配以及对比环节快速进行;本发明通过设置的数据筛选分级模块,能够在接收到特征比对消息后会根据比对消息将数据根据特征点进行筛选分级,并将筛选的数据导出,将第一关键词组与参考关键词组进行匹配得到重复关键词,将重复关键词的数量除以参考关键词的数量,得到回复占比,将回复占比值最高的数据信息标记为特征数据,得到的特征数据即为筛选分级后的数据,该特征数据所占比值最高,在对数据进行筛选的时候,通过实现筛选分级,快速筛选出所需的最优数据,直接的为使用者使用。
45.需要说明的是,本发明为一种基于大数据的数据对比分析筛选系统,在使用时,首先,数据导入模块用于导入需要对比分析的数据,并将数据导入到特征采集模块中,特征采集模块用于采集接收到的数据的特征信息,并将采集到的特征信息发送到特征数据处理模块上,特征数据处理模块会对接收到的特征信息进行处理,并将处理好的特征信息发送到特征对比模块中,特征对比模块用于对接收到的特征信息进行比对,并将比对好的信息发送到数据分析模块中,数据分析模块会对比对好的信息进行分析,并将分析好的信息发送给总控模块,总控模块会在接收到分析好的信息后,将控制指令和比对信息发送到数据筛选分级模块中,数据筛选分级模块接收到特征比对消息后会根据比对消息将数据根据特征点进行筛选分级,并将筛选的数据导出。
46.其中,数据导入模块在使用时,至少需要导入两个或多个数据信息,特征采集模块会从导入的数据中采集出特征点关键词,特征点关键词的采集过程如下:
47.步骤一:获取到数据信息;
48.步骤二:提取数据信息内的关键词组,其提取出关键词的具体过程为:将采集的数据信息通过tf-idf算法进行关键词提取,得到第一关键词组;关键词组包括若干关键词。
49.特征采集模块采集到的特征信息发送给特征数据处理模块,经特征数据处理模块将关键词组提取,并发送给特征对比模块进行数据的匹配,具体匹配过程为:
50.s1:获取到系统内数据信息的参考关键词组,参考关键词组的判定过程为:对数据信息内的所有内容进行分析,提取出数据信息中所有超过预设次数的词组,再将出现次数最多的词组提取出来,将其标记为参考关键词组;
51.s2:将第一关键词组与参考关键词组进行匹配得到重复关键词。
52.数据筛选分级模块在进行筛选时具体步骤如下:
53.s1:获取到系统内数据信息的参考关键词组,将出现次数最多的词组提取出来,将其标记为参考关键词组;
54.s2:将第一关键词组与参考关键词组进行匹配得到重复关键词;
55.s3:将重复关键词的数量除以参考关键词的数量,得到回复占比,将回复占比值最高的数据信息标记为特征数据;
56.其中,经步骤s3得到的特征数据即为筛选分级后的数据,该特征数据所占比值最高;
57.设置的特征采集模块,能够从导入的数据中采集出特征点关键词,提取数据信息内的关键词组,其提取出关键词的具体过程为:将采集的数据信息通过tf-idf算法进行关键词提取,得到第一关键词组;关键词组包括若干关键词,然后将采取到的关键词与系统内部数据信息的参考关键词组进行匹配,能够使得采集具有针对性,快速对数据关键字进行提取,更好的对后续的匹配以及对比环节快速进行;本发明通过设置的数据筛选分级模块,能够在接收到特征比对消息后会根据比对消息将数据根据特征点进行筛选分级,并将筛选的数据导出,将第一关键词组与参考关键词组进行匹配得到重复关键词,将重复关键词的数量除以参考关键词的数量,得到回复占比,将回复占比值最高的数据信息标记为特征数据,得到的特征数据即为筛选分级后的数据,该特征数据所占比值最高,在对数据进行筛选的时候,通过实现筛选分级,快速筛选出所需的最优数据,直接的为使用者使用。
58.以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1