一种基于多源数据的信息采集方法、模块及设备与流程

文档序号:37379445发布日期:2024-03-22 10:31阅读:8来源:国知局
一种基于多源数据的信息采集方法、模块及设备与流程

本发明涉及信息采集,尤其是涉及一种基于多源数据的信息采集方法、模块及设备。


背景技术:

1、目前,新产品研发之前,往往需要对市场进行调研,以便确定新产品的经济价值。目前,对于新产品的调研大多是通过网络以及行业之间的信息交流获得,这种调研方式,不仅花费的时间多,而且调研的结果存疑。

2、因此,亟需一种基于多源数据的信息采集方法、模块及设备。


技术实现思路

1、本发明的目的在于提供一种基于多源数据的信息采集方法、模块及设备,用于解决新产品的调研花费的时间多,而且调研的结果存疑的问题。

2、本申请第一方面提供一种基于多源数据的信息采集方法,方法包括:

3、获取新产品的目标关键词,并建立所述目标关键词对应的数据采集指令;

4、根据所述采集指令,在知识产权网站、文献期刊网站和商品售卖网站进行数据采集,得到目标数据信息;

5、利用分类算法,对所述目标数据信息进行分类,得到多个分类数据信息;

6、利用聚类算法,对所述多个分类数据信息中每一个所述分类数据信息进行聚类,得到每一类数据信息的多个数据信息簇;

7、根据所述多个分类数据信息,以及每一类数据信息的所述多个数据信息簇,得到所述新产品的目标热力图和数据库。

8、可实施的一些方式中,所述获取新产品的目标关键词,并建立所述目标关键词对应的数据采集指令的步骤,包括:

9、根据所述新产品的最小技术单元,得到第一关键词,以及与所述第一关键词关联的第二关键词,其中,所述第一关键词和所述第二关键词组成所述目标关键词;

10、根据所述第一关键词和所述第二关键词,建立网络爬虫和api请求,其中,所述网络爬虫和所述api请求组成所述数据采集指令。

11、可实施的一些方式中,所述根据所述采集指令,对知识产权网站、文献期刊网站和商品售卖网站进行数据采集,得到目标数据信息的步骤,包括:

12、根据知识产权网站、文献期刊网站和商品售卖网站允许的数据采集方式,利用所述网络爬虫和所述api请求进行数据采集,得到所述目标数据信息。

13、可实施的一些方式中,所述根据知识产权网站、文献期刊网站和商品售卖网站允许的数据采集方式,利用所述网络爬虫和所述api请求进行数据采集,得到所述目标数据信息的步骤,包括:

14、根据知识产权网站、文献期刊网站和商品售卖网站允许的数据采集方式,利用所述网络爬虫和所述api请求进行数据采集,得到第一数据信息;

15、对所述第一数据信息进行数据清洗,去除数据中的噪声、异常值和缺失值,得到第二数据信息;

16、对所述第二数据信息进行至少一种特征缩放、离散化、标准化和正则化的处理,得到第三数据信息;

17、对所述第三数据信息进行整合和合并,得到所述目标数据信息。

18、可实施的一些方式中,所述利用分类算法,对所述目标数据信息进行分类,得到多个分类数据信息的步骤,包括:

19、利用k近邻算法,对所述目标数据信息进行分类,得到所述多个分类数据信息。

20、可实施的一些方式中,所述利用聚类算法,对所述多个分类数据信息中每一个所述分类数据信息进行聚类,得到每一类数据信息的多个数据信息簇的步骤,包括:

21、利用k均值聚类算法,对所述多个分类数据信息中每一个所述分类数据信息进行聚类,得到每一类数据信息的多个所述数据信息簇。

22、可实施的一些方式中,所述根据所述多个分类数据信息,以及每一类数据信息的所述多个数据信息簇,得到所述新产品的目标热力图和数据库的步骤,包括:

23、根据所述多个分类数据信息与预先建立的分类训练样本之间的距离,得到所述新产品的第一热力图;

24、根据所述数据信息簇中的数据点之间的相似度或距离,得到所述新产品的第二热力图;

25、所述第一热力图和所述第二热力图融合得到所述目标热力图;

26、将所述多个分类数据信息作为父层,将每一类数据信息的所述多个数据信息簇作为子层,得到具有父子层的数据信息;

27、根据所述父子层的数据信息,得到所述数据库。

28、本申请第二方面提供的一种基于多源数据的信息采集模块,应用于前述的基于多源数据的信息采集方法,所述模块包括:

29、获取模块,用于获取新产品的目标关键词,并建立所述目标关键词对应的数据采集指令;

30、处理模块,用于根据所述采集指令,在知识产权网站、文献期刊网站和商品售卖网站进行数据采集,得到目标数据信息;

31、分类模块,用于利用分类算法,对所述目标数据信息进行分类,得到多个分类数据信息;

32、聚类模块,用于利用聚类算法,对所述多个分类数据信息中每一个所述分类数据信息进行聚类,得到每一类数据信息的多个数据信息簇;

33、结果模块,用于根据所述多个分类数据信息,以及每一类数据信息的所述多个数据信息簇,得到所述新产品的目标热力图和数据库。

34、本申请第三方面提供的一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述的基于多源数据的信息采集方法。

35、本发明有益效果:

36、本发明提供一种基于多源数据的信息采集方法、模块及设备,首先,获取新产品的目标关键词,并建立目标关键词对应的数据采集指令;然后,根据采集指令,在知识产权网站、文献期刊网站和商品售卖网站进行数据采集,得到目标数据信息;接下来,利用分类算法,对目标数据信息进行分类,得到多个分类数据信息;再次,利用聚类算法,对多个分类数据信息中每一个分类数据信息进行聚类,得到每一类数据信息的多个数据信息簇;最后,根据多个分类数据信息,以及每一类数据信息的多个数据信息簇,得到新产品的目标热力图和数据库。通过上述方法,对新产品所涉及的技术进行提取,得到目标关键词,并建立采集指令,使用采集指令对指定的网站进行抓取,得到针对目标关键词的数据信息,然后,对目标数据信息进行分类后,再聚类,从而得到目标热力图和数据库,这样,可以根据目标热力图和数据库得到新产品调研结果,有针对性的数据信息采集,并对采集到的信息进行处理,不仅通过目标热力图方便观看,还通过数据库方便数据信息的调用,提高了新产品研发前调研的数据分析效率,并提高了调研结果的准确率。



技术特征:

1.一种基于多源数据的信息采集方法,其特征在于,方法包括:

2.根据权利要求1所述的基于多源数据的信息采集方法,其特征在于,所述获取新产品的目标关键词,并建立所述目标关键词对应的数据采集指令的步骤,包括:

3.根据权利要求2所述的基于多源数据的信息采集方法,其特征在于,所述根据所述采集指令,对知识产权网站、文献期刊网站和商品售卖网站进行数据采集,得到目标数据信息的步骤,包括:

4.根据权利要求3所述的基于多源数据的信息采集方法,其特征在于,所述根据知识产权网站、文献期刊网站和商品售卖网站允许的数据采集方式,利用所述网络爬虫和所述api请求进行数据采集,得到所述目标数据信息的步骤,包括:

5.根据权利要求1所述的基于多源数据的信息采集方法,其特征在于,所述利用分类算法,对所述目标数据信息进行分类,得到多个分类数据信息的步骤,包括:

6.根据权利要求1所述的基于多源数据的信息采集方法,其特征在于,所述利用聚类算法,对所述多个分类数据信息中每一个所述分类数据信息进行聚类,得到每一类数据信息的多个数据信息簇的步骤,包括:

7.根据权利要求1所述的基于多源数据的信息采集方法,其特征在于,所述根据所述多个分类数据信息,以及每一类数据信息的所述多个数据信息簇,得到所述新产品的目标热力图和数据库的步骤,包括:

8.一种基于多源数据的信息采集模块,其特征在于,应用于权利要求1-7中任一项所述的基于多源数据的信息采集方法,所述模块包括:

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7中所述的基于多源数据的信息采集方法。

10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7中所述的基于多源数据的信息采集方法的步骤。


技术总结
本发明涉及信息采集技术领域。一种基于多源数据的信息采集方法包括获取新产品的目标关键词,并建立目标关键词对应的数据采集指令;根据采集指令,在知识产权网站、文献期刊网站和商品售卖网站进行数据采集,得到目标数据信息;利用分类算法,对目标数据信息进行分类,得到多个分类数据信息;利用聚类算法,对多个分类数据信息中每一个分类数据信息进行聚类,得到每一类数据信息的多个数据信息簇;根据多个分类数据信息,以及每一类数据信息的多个数据信息簇,得到新产品的目标热力图和数据库。不仅通过目标热力图方便观看,还通过数据库方便数据信息的调用,提高了新产品研发前调研的数据分析效率,提高了准确率。

技术研发人员:隗伟,齐成斌
受保护的技术使用者:北京瑞索咨询股份有限公司
技术研发日:
技术公布日:2024/3/21
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1