一种基于样本信息的数据存储可视化方法和装置与流程

文档序号:34327927发布日期:2023-06-01 04:49阅读:38来源:国知局
一种基于样本信息的数据存储可视化方法和装置与流程

本发明涉及数据存储,尤其涉及一种基于样本信息的数据存储可视化方法和装置。


背景技术:

1、数据存储是指以某种格式将数据记录在计算机内部或外部存储介质上,但是,为了便于数据与用户的交互,需要对存储的数据进行分类展示,进行存储数据的可视化展示。

2、现有的数据存储可视化技术多为基于数据格式的可视化展示,即根据每份数据的数据格式生成存储数据的类别占比扇形图或柱状图,例如,将数据分类成音频、视频、图片以及文本等进行存储,实际应用中,对于网页数据或图文数据的存储,简单的数据格式存储的直观度较低,数据格式的可视化存储无法区别网页数据的内容信息区别,可能导致进行可视化数据存储时的灵活性较低。


技术实现思路

1、本发明提供一种基于样本信息的数据存储可视化方法和装置,其主要目的在于解决进行可视化数据存储时的灵活性较低的问题。

2、为实现上述目的,本发明提供的一种基于样本信息的数据存储可视化方法,包括:

3、获取预设的样本数据集,对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集;

4、将所述目标样本文本分段成样本文本段集,对所述样本文本段集中的各样本文本段进行向量化操作,得到文本段向量集,对所述文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义,其中,所述对所述文本段向量集进行段向量聚类操作,得到文本段类集,包括:将所述文本段向量集拆分成多个初级文本段向量组,在各初级文本段向量组中随机选取出初级文本段中心向量;利用如下的文本段距离公式计算出所述文本段向量集中的各文本段向量与各初级文本段中心向量之间的文本段距离:

5、;

6、其中,是指所述文本段距离,是指所述文本段向量中的文本词向量的总数,且所述文本段向量中的文本词向量的总数等于所述初级文本段中心向量中的文本词向量的总数,是指第个文本词向量,是指所述文本段向量中的第个文本词向量,是指所述初级文本段中心向量中的第个文本词向量,是预设的基准系数,是预设的平衡系数;根据所述文本段距离重新对所述文本段向量集中的各文本段向量进行分类,得到多个次级文本段向量组;逐个计算出各次级文本段向量组的次级文本段中心向量,并计算出各初级文本中心向量和对应的所述次级文本段中心向量之间的文本段中心距离,并将所有的文本段中心距离的平均值作为标准文本段中心距离;根据所述标准文本段中心距离对各个次级文本段向量组迭代更新成对应的文本段类,并将所有的文本段类汇集成文本段类集;

7、逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义;

8、依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,将所述初级图片语义和所述次级图片语义汇集成单图图片语义,并将所述目标样本图集的所有的单图图片语义汇集成标准图片语义;

9、将所述标准文本语义和所述标准图片语义汇集成标准样本语义,根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面。

10、可选地,所述对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,包括:

11、逐个选取所述样本数据集中的样本数据作为目标样本数据,判断所述目标样本数据的数据容量大小是否大于预设的容量阈值;

12、若否,则返回所述逐个选取所述样本数据集中的样本数据作为目标样本数据的步骤;

13、若是,则将所述样本数据添加到预设的初级样本数据集中,直至所述目标样本数据为所述样本数据集中的最后一个样本数据时,得到次级样本数据集;

14、从所述次级样本数据集中筛除重复的样本数据,得到标准样本数据集。

15、可选地,所述对所述样本文本段集中的各样本文本段进行向量化操作,得到文本段向量集,包括:

16、逐个选取所述样本文本段集中的样本文本段作为目标样本文本段,对所述目标样本文本段进行文本分词操作,得到目标文本词集;

17、从所述目标文本词集中筛除停用词,得到标准文本词集;

18、对所述标准文本词集进行向量化操作,得到目标文本词向量集;

19、对所述目标文本词向量集中的各文本词向量按照频次大小顺序排列,得到标准文本词向量序列;

20、按照从左到右的顺序从所述标准文本词向量序列中筛选出预设个数的文本词向量拼接成文本段向量,并将所有的文本段向量汇集成文本段向量集。

21、可选地,所述提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,包括:

22、逐个选取所述文本段类集中的文本段类作为目标文本段类,将所述目标文本段类的聚类中心作为目标类向量;

23、对所述目标类向量进行格式转码,得到目标类语义;

24、利用预设的语义关键词库对所述目标类语义进行关键词替换,得到文本语义,并将所有的文本语义汇集成文本语义集。

25、可选地,所述提取出所述目标样本图片对应的标准样本图片特征,包括:

26、对所述目标样本图片进行灰度化操作,得到灰度样本图片;

27、利用预设的灰度变化率算法从所述灰度样本图片中提取出兴趣样本图集;

28、逐个选取所述兴趣样本图集中的兴趣样本图片作为目标兴趣样本图片,从所述所述目标样本图片中筛选出所述目标兴趣样本图片所对应的区域图片作为目标色彩图片,对所述目标色彩图片进行色彩分析,得到样本色彩特征;

29、分别从所述目标兴趣样本图片中提取出样本纹理特征、样本情感特征以及样本主体特征;

30、利用全连接层将所述样本色彩特征、所述样本纹理特征、所述样本情感特征以及所述样本主体特征融合成样本描述特征;

31、将所述样本描述特征和所述样本主体特征拼接成样本描述主体特征,并将所有的样本描述主体特征汇集成标准样本图片特征。

32、可选地,所述利用预设的灰度变化率算法从所述灰度样本图片中提取出兴趣样本图集,包括:

33、从所述灰度样本图片中提取出初级样本边缘,根据所述初级样本边缘对所述灰度样本图片进行图片分割,得到分割样本图集;

34、逐个选取所述分割样本图集中的分割样本图片作为目标分割样本图片,利用如下的灰度变化率算法计算出所述目标分割样本图片对应的灰度变化率:

35、;

36、其中,是指所述灰度变化率,是所述目标分割样本图片中像素点的总个数,是所述目标分割样本图片的外接矩阵的像素长度,是所述目标分割样本图片的外接矩阵的像素宽度,是指所述目标分割样本图片的外接矩阵中的横向第个像素,是指所述目标分割样本图片的外接矩阵中的纵向第个像素,是指所述目标分割样本图片预设的灰度采样框的边长,是灰度符号,是指所述目标分割样本图片的外接矩阵中坐标点为的像素的灰度值,是指所述目标分割样本图片的外接矩阵中坐标点为的像素的灰度值,是指所述目标分割样本图片的外接矩阵中坐标点为的像素的灰度值,是指所述目标分割样本图片的外接矩阵中坐标点为的像素的灰度值,是指所述目标分割样本图片的外接矩阵中坐标点为的像素的灰度值;

37、判断所述灰度变化率是否大于预设的变化率阈值;

38、若否,则返回所述逐个选取所述分割样本图集中的分割样本图片作为目标分割样本图片的步骤;

39、若是,则将所述目标分割样本图片作为兴趣样本图片添加至预设的兴趣样本图集中。

40、可选地,所述从所述标准样本图片特征中提取出初级图片语义,包括:

41、逐个选取所述标准样本图片特征中的样本描述主体特征作为目标样本描述主体特征,将所述目标样本描述主体特征中的样本描述特征作为目标描述特征,将所述目标样本描述主体特征中的样本主体特征作为目标主体特征;

42、利用预先训练的分类器模型识别出所述目标描述特征对应的目标描述语义,利用预先训练的卷积神经网络识别出所述目标主体特征对应的目标主体语义;

43、将所述目标描述语义和所述目标主体语义拼接成目标初级语义,并将所有的目标初级语义汇集成初级图片语义。

44、可选地,所述依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,包括:

45、对所述目标样本图片进行倾斜矫正,得到矫正样本图片,并依次对所述矫正样本图片进行图片灰度化和高斯滤波操作,得到滤波样本图片;

46、对所述滤波样本图片进行图片侵蚀,得到图片边缘集,从所述图片边缘集中提取出版面边缘;

47、根据所述版面边缘生成版面掩膜,利用所述版面掩膜对所述滤波样本图片进行图片分割操作,得到版面文本图片。

48、可选地,所述依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,包括:

49、对所述样本文本图片进行字符切割,得到样本字符图集;

50、逐一选取所述样本字符图集中的样本字符图片作为目标样本字符图片,提取出所述目标样本字符图片对应的目标字符特征;

51、对所述目标字符特征进行归一化操作,得到目标字符特征编码;

52、利用所述目标字符特征编码在预设的字符特征编码库中查询出对应的目标字符,并将所有的目标字符拼接成目标图片文本;

53、对所述目标图片文本进行语义识别,得到次级图片语义。

54、为了解决上述问题,本发明还提供一种基于样本信息的数据存储可视化装置,所述装置包括:

55、数据拆分模块,用于获取预设的样本数据集,对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集;

56、文本语义提取模块,用于将所述目标样本文本分段成样本文本段集,对所述样本文本段集中的各样本文本段进行向量化操作,得到文本段向量集,对所述文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义,其中,所述对所述文本段向量集进行段向量聚类操作,得到文本段类集,包括:将所述文本段向量集拆分成多个初级文本段向量组,在各初级文本段向量组中随机选取出初级文本段中心向量;利用如下的文本段距离公式计算出所述文本段向量集中的各文本段向量与各初级文本段中心向量之间的文本段距离:

57、;

58、其中,是指所述文本段距离,是指所述文本段向量中的文本词向量的总数,且所述文本段向量中的文本词向量的总数等于所述初级文本段中心向量中的文本词向量的总数,是指第个文本词向量,是指所述文本段向量中的第个文本词向量,是指所述初级文本段中心向量中的第个文本词向量,是预设的基准系数,是预设的平衡系数;根据所述文本段距离重新对所述文本段向量集中的各文本段向量进行分类,得到多个次级文本段向量组;逐个计算出各次级文本段向量组的次级文本段中心向量,并计算出各初级文本中心向量和对应的所述次级文本段中心向量之间的文本段中心距离,并将所有的文本段中心距离的平均值作为标准文本段中心距离;根据所述标准文本段中心距离对各个次级文本段向量组迭代更新成对应的文本段类,并将所有的文本段类汇集成文本段类集;

59、初级图片语义提取模块,用于逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义;

60、次级图片语义提取模块,用于依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,将所述初级图片语义和所述次级图片语义汇集成单图图片语义,并将所述目标样本图集的所有的单图图片语义汇集成标准图片语义;

61、可视化存储模块,用于将所述标准文本语义和所述标准图片语义汇集成标准样本语义,根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面。

62、本发明实施例通过对所述样本数据集进行初级数据清洗操作,得到标准样本数据集,可以筛除样本数据集中的重复样本数据和不符合文本规范的样本数据,降低数据冗长,提高存储效率,通过逐个选取所述标准样本数据集中的标准样本数据作为目标标准样本数据,将所述目标标准样本数据拆分成目标样本文本以及目标样本图集,可以方便对样本数据的分类分析,提高样本信息分析的准确度,通过将所述目标样本文本分段成样本文本段集,对所述样本文本段集对应的文本段向量集进行段向量聚类操作,得到文本段类集,提取出所述文本段类集中每个文本段类的文本语义,得到文本语义集,并根据所述文本语义集生成标准文本语义,可以根据所述目标样本文本的每一段的语义生成整个目标样本文本的文本语义,从而保留更多的文本语义特征,提高文本语义信息的准确性,通过逐个选取所述目标样本图集中的样本图片作为目标样本图片,提取出所述目标样本图片对应的标准样本图片特征,从所述标准样本图片特征中提取出初级图片语义,可以详细提取出所述目标样本中的每个图片的情感特征、颜色特征、纹理特征以及主体特征,进而得到描述性更加准确的图片语义。

63、通过依次对所述目标样本图片进行文本定位以及图片分割操作,得到样本文本图片,依次对所述样本文本图片进行文字识别和文本语义识别操作,得到次级图片语义,可以从样本图片中的字符中提取出图片的语义,从而进一步提高图片语义识别的精确度,通过根据所述标准样本语义对所述目标标准样本数据进行存储,直至所述所述目标标准样本数据为所述标准样本数据集中的最后一个标准样本数据时,得到存储样本数据库,并根据所有的标准样本语义生成所述存储样本数据库的可视化存储界面,可以提高样本数据样本信息的准确度,精简样本信息的类别,提高存储可视化的直观度和灵活性。因此本发明提出的基于样本信息的数据存储可视化方法和装置,可以解决进行可视化数据存储时的灵活性较低的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1