一种数据处理方法及系统与流程

文档序号:35995832发布日期:2023-11-16 07:58阅读:41来源:国知局
一种数据处理方法及系统与流程

本技术涉及计算机,具体而言,涉及一种数据处理方法及系统。


背景技术:

1、在数据处理领域中,快速准确地处理光谱数据是研究重点之意。目前存在的问题是传统的光谱分析方法需要耗费大量的时间和人力,且结果不一定准确。因此,提出了一种新的数据处理方法及系统,该方法通过构建光谱关系网络和分析网络拓扑结构,采用了多种光谱特征和关系判断方法,可以识别光谱曲线之间的关系,从而提高了数据处理的可靠性和泛化能力。


技术实现思路

1、本技术的实施例提供了一种数据处理方法及系统,进而至少在一定程度上可以更精确的识别光谱曲线之间的关系,从而提高了数据处理的可靠性和泛化能力的问题。

2、本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。

3、根据本技术实施例的一个方面,提供了一种数据处理方法,包括:

4、构建光谱关系网络g:获取光谱库g0,构建训练集;获取待分析光谱曲线集d;构建光谱曲线之间的特征集s,包含多种光谱特征:峰值波长差异、波峰高度差异、波峰宽度差异、相位差;构建关系集r,r包含多种光谱关系:同源关系、相关关系、独立关系;在光谱库g0中收集相同光谱类型t的不同光谱曲线,如紫外光谱、红外光谱、可见光光谱,构建实例集i;每个实例包含s中的光谱特征及r中的光谱关系;在实例集i中选取具有相同t的两条或多条光谱曲线,构建关系判断方法f*识别其同源关系、相关关系或独立关系;选取光谱曲线集d中的任意两条光谱曲线a和b,根据关系判断方法f*判断光谱关系,构建对应的边e与置信度值,并构建光谱关系网络g;

5、分析网络g判断拓扑结构:计算光谱关系网络g的节点特征、层次关系、群组结构、社区结构,获得网络拓扑结构,将拓扑结构添加到光谱关系网络g中,使用更新后的s与f*重新检测d中任意两光谱曲线间的光谱关系,

6、分析g的拓扑结构与度量指标来定义规范约束c,将定义规范约束c加入到方法f*中;更新g0与i;

7、用更新的f*判断新关系:在满足c的光谱曲线间建立新的关系,将其加入更新后的g0与i,当新增光谱曲线集d'中的新关系符合g的拓扑特征时,表明f*已具备较强的泛化能力,可判断判断单个新的光谱曲线的特征和结构。

8、在本技术的一些实施例中,基于前述方案,所述识别其同源关系,包括:

9、计算两个光谱曲线a和b的pearson相关系数r,设定节点相关性阈值tpearson,如果r≥tpearson且置信区间较窄,即a和b构成边e;边e的权值设置为p(y|a,b),则可能属于同源关系;

10、计算a和b的熵h(a)、h(b)和联合熵h(a,b),并计算互信息i(a|b);若互信息i(a|b)大于0.8,且条件熵h(a)-h(a|b)和h(b)-h(b|a)大于0.2,可能属于同源关系;

11、构建logistic回归模型,设置目标变量y为0-5,表示同源程度;使用训练集优化模型参数θ,并输入a和b计算p(y|a,b),若p(y|a,b)≥3,a和b可能存在同源关系;

12、若a和b的吸收峰指数1.5<β<2.5,且a和b的吸收峰出现频率均满足指数分布,且两指数分布曲线的指数β值之差小于0.2,可能属于同源关系;

13、当pearson相关系数、互信息、logistic回归模型、指数分布这四个条件判断a与b属于同源关系,则确认a和b属于同源关系。

14、在本技术的一些实施例中,基于前述方案,所述在实例集i中选取具有相同t的两条或多条光谱曲线,识别其相关关系,包括:

15、当a和b的吸收峰幂值α均在2-3之间,且两幂律分布曲线的幂值α之差小于0.5,则综合判断=ω1·随机森林模型判断+ω2·互信息法判断+ω3·logistic回归模型判断,其中,ω1、ω2和ω3为三种判断方法的权重,设置为0.3-0.5,三者之和为1;如果综合判断值<0.7或置信区间0.1-0.2,则判断a和b为低相关;如果综合判断值在0.7-0.9之间,且置信区间0.05-0.1,则判断a和b为中等相关关系;如果综合判断值>0.9,置信区间<0.05,则判断a和b为高相关关系,将判断过程与结果记录到特征空间s中。

16、在本技术的一些实施例中,基于前述方案,所述在实例集i中选取具有相同t的两条或多条光谱曲线,识别其独立关系,包括:

17、针对红外光谱,设置峰值波长差异阈值:5-8%;峰值高度差异阈值:20-35%;峰值宽度差异阈值:15-25%;波峰数目差异阈值:δn≥4;波峰相对位置差异阈值:δλr≥35%;

18、针对紫外可见光谱,设置峰值波长差异阈值:3-6%;峰值高度差异阈值:10-20%;峰值宽度差异阈值:8-15%;波峰数目差异阈值:δn≥5;波峰相对位置差异阈值:δλr≥40%;δn为两条光谱波峰数目差;s1、s2为两条光谱波峰形状,如尖峰或宽峰,根据波峰的全宽度与半高宽度之比w/wh判断:如果w/wh≤2,则为尖峰;如果w/wh≥5,则为宽峰;w为全宽度,wh为半高宽度;δλr为两条光谱主要波峰相对位置差异比例;

19、当峰值波长差异、峰值高度差异、峰值宽度差异、波峰数目差异、波峰相对位置差异均不符合上述设置的阈值时,可能属于独立关系。

20、在本技术的一些实施例中,基于前述方案,所述选取光谱曲线集d中的任意两条光谱曲线a和b;根据关系判断方法f*判断关系,构建对应的边e与置信度值,构建光谱关系网络g,并计算光谱关系网络g节点特征,包括:

21、构建光谱关系网络g,输入:光谱曲线集d={d1,d2,...,dn},相关性阈值θ,输出:光谱关系网络g=(v,e);采用聚类算法等方法对d进行划分,得到k个“集”{c1,c2,...,ck};在每个“集”ci中随机选择m条光谱曲线构成比较对象组oci;对“集”ci内的每条光谱曲线dj与oci中的每条光谱曲线比较;如果相关性>θ或者属于同源关系,则在dj和oci中的光谱曲线之间构建边e;构建权值为相关性的边e,根据关系判断方法f*,“高”相关关系和同源关系构成边e;构建局部网络ni;重复上述过程构建所有局部网络n1,n2,...,nk;将局部网络n1,n2,...,nk融合构建网络g。

22、在本技术的一些实施例中,基于前述方案,所述计算光谱关系网络g的节点特征、层次关系、群组结构、社区结构,包括:

23、对于光谱关系网络g=(v,e),计算节点特征时,包括节点度数、节点度阈值tdegree和节点度分布情况;计算tdegree,将大于等于tdegree的节点设为重要节点;通过分析节点度分布情况,将节点度分布情况与节点特征相关联,判断g的连接模式,包括但不限于链式、星型、环状、网状、层次连接;计算模块度q,将网络划分为若干社区,然后计算社区内部连接的比例与期望值的差异;判定层次关系和识别群组结构;当g中社区个数大于2,社区内部聚类系数cin/社区间聚类系数cout大于2且cin大于0.5,社区间的边缘度小于0.1或社区间边缘节点数/节点总数小于10%,效果度量nmi大于0.5,节点度和度相关系数小于0时,则存在社区结构。

24、在本技术的一些实施例中,基于前述方案,所述综合节点特征和光谱关系网络g的拓扑结构,包括:

25、根据节点特征判断网络的连接模式,随机网络、小世界网络、无标度网络、句法网络;

26、如果g属于链式或星型连接,且不存在层次、群组和社区结构,则g的全局拓扑结构近似随机网络;

27、如果g属于环状、网状或层次连接,存在层次关系及群组和社区结构,计算模块度q和层次结构确定g的社区结构,则网络g的全局拓扑结构近似小世界网络;

28、如果g的连接模式复杂,不存在群组和社区结构,则g的全局拓扑结构近似无标度网络;

29、判断网络g是否存在较短路径:平均最短路径长度<3,平均路径长度远小于随机网络预测值,网络直径<5,90%路径长度<4,较高的聚集系数(>0.5);如果g同时存在较短路径,较高的聚集系数(平均聚集系数>0.5,聚集系数与节点度呈正相关,高度节点之间的聚集系数>0.7,聚集系数远大于随机网络,q>0.4),存在社区结构,则g呈现出句法网络;

30、根据节点特征计算规范约束c;规范约束c=(α*deg(ni)+β*deg(nj)+γ)/δ,其中,ni和nj是网络g中的两个节点,deg(ni)和deg(nj)分别表示它们的度,α、β设置为0.5-1,γ设置为1,δ设置为2或3;如果c<2,表示节点之间的连接较为稀疏无规则;将节点特征添加到光谱关系网络g中;用g的拓扑结构定义规范约束c,将规范约束c加入到方法f*中,判断新增数据中光谱曲线间的关系。

31、在本技术的一些实施例中,基于前述方案,所述在满足c的光谱曲线间建立新的关系,将其加入更新后的g0与i;当新增光谱曲线集d'中的新关系符合g的拓扑特征时,表明特征比较方法f*依据特征空间s已具备较强的泛化能力,可判断全新的光谱关系,包括:

32、特征集s={特征1(特征参数1,权重w1),特征2(特征参数2,权重w2),...,特征n(特征参数n,权重wn)};添加识别出的非关系特征时,为其指定一个较小的权重0.01-0.1,以降低其对关系判断的影响;

33、关系判断方法f*中考虑特征空间s中特征及权重的设置,非关系特征的权重较小,f*=∑(特征i参数值1-特征i参数值2)2·权重wi(i=1,2,...,n);调整f*方法时,通过修改非关系特征的权重设置来降低其对计算结果的影响,设置为0.1;而关系特征的权重设置为0.5-1;

34、使用关系判断方法f*判断新增光谱曲线集d'中的新关系,判断新的光谱曲线与网络g中已有光谱曲线之间同源关系、相关关系或独立关系;判断新的光谱曲线的光谱类型,包含但不限于紫外光谱、红外光谱或拉曼光谱;判断新的光谱曲线的特征峰值,包括峰值波长、峰值强度、峰值宽度、峰值个数、峰值分布和基线形状。

35、根据本技术实施例的一个方面,提供了一种数据处理系统,包括:

36、光谱关系网络构建模块:用于构建光谱关系网络g,包括获取光谱库g0、构建训练集、获取待分析光谱曲线集d、构建光谱曲线之间的特征集s、构建关系集r、构建实例集i、选取具有相同t的两条或多条光谱曲线,构建关系判断方法f*识别其同源关系、相关关系或独立关系;

37、网络拓扑结构分析模块:用于分析光谱关系网络g的节点特征、层次关系、群组结构、社区结构,获得网络拓扑结构,将拓扑结构添加到光谱关系网络g中;

38、规范约束定义模块:用于分析g的拓扑结构与度量指标来定义规范约束c,将定义规范约束c加入到方法f*中;

39、同源关系识别模块:用于在实例集i中选取具有相同t的两条或多条光谱曲线,识别其同源关系等;

40、相关关系识别模块:用于在实例集i中选取具有相同t的两条或多条光谱曲线,识别其相关关系等;

41、独立关系识别模块:用于在实例集i中选取具有相同t的两条或多条光谱曲线,识别其独立关系;

42、新光谱判断模块:用于根据更新的f,判断单个新的光谱曲线的特征和结构。

43、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。

44、相较于现有技术,本发明的优势:

45、1.采用了多种光谱特征和关系判断方法,包括节点特征、群组结构、社区结构等,提高了数据处理的可靠性和泛化能力。

46、2.通过分析网络拓扑结构来定义规范约束c,并将其加入到方法f*中,进一步提高了识别准确度。

47、3.采用了多种光谱类型的实例,包括紫外光谱、红外光谱或拉曼光谱等,应用范围更广泛。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1