摘要:不同类型或者同一类型不同型号的近红外光谱分析仪器,扫描相同样品得到的近红外光谱数据,都存在着差异性。这会对测量的光谱产生影响,进而导致所建立的光谱多元校正模型在不同仪器上不能共享。模型转移是解决分析仪器或分析方法通用性的关键技术。近红外光谱受测量仪器或测量条件的影响较大,模型转移对近红外光谱技术的实际应用尤为重要。在实际使用过程中,由于各种因素导致无法同时使用同一品牌型号的设备,为便于操作和使用,要使在一台光谱仪器上建立的光谱多元校正模型可以有效的应用到其他新的光谱仪器上或者新的实验条件下,针对这种情况,本次研究设计了在不同型号的傅立叶变换近红外光谱仪上的模型转移。
关键词:近红外光谱仪;傅立叶变换;模型转移
1 实验材料
1.1. 实验仪器
主仪器:Thermo Antaris II 傅立叶变换近红外光谱仪(以下简称Thermo)
从仪器:QuasIR 3000 傅立叶变换近红外光谱仪(以下简称Q3000)
1.2. 实验样品
1.2.1. 样品
具有代表性的烟叶样品。其中包含初烤烟:130个样品,复烤烟:63个样品。
1.2.2. 光谱采集参数
扫描次数:64次,分辨率:8,扫描波段:4000 -10000cm-1,每个样品扫描1次
1.2.3. 校正集与验证集
通过KS算法(Kennard-Stone,一种样本挑选方法——利用样品原始光谱或者光谱主成分之间的欧式距离来选择标准化样品,是一种比较常用的方法),将样品分为校正集和验证集。校正集的样品用于计算两台仪器之间的系统偏差(初烤烟的校正集样品还用于建立定量模型),验证集样品用于验证模型的预测效果。校正集和验证集样品的数量如下表所示。
表1-1-1 校正集与验证集样品分布
校正集 | 验证集 | 样品总数 | |
初烤 | 110 | 20 | 130 |
复烤 | 43 | 20 | 63 |
2 实验方法
2.1. 系统偏差校正法
模型传递:将原始的主机模型,直接用来预测各台仪器扫描的样品光谱,并对比其预测结果。如果预测值与参考值之间出现较为明显的系统偏差(bias),则以该bias对其预测结果进行校正。
2.2. 模型优化方法
添加部分新光谱和参考值至原模型中,重新优化原模型。考虑到Thermo所建模型是多家复烤厂共用的情况,故不优化原模型,直接建立Q3000仪器的定量模型。
2.3. 模型评价方法
2.3.1. 绝对偏差
以样品的实验室化学值作为参考,各台仪器的预测值分别于参考值对比,两者之间的差值就称为绝对偏差。本实验中以Thermo仪器的预测值作为参考值。
2.3.2. 相对偏差
同上,以样品的实验室化学值作为参考,将绝对偏差的数值除以参考值,并乘以百分比,就得到相对偏差。本实验中以Thermo仪器的预测值作为参考值。
2.3.3. 系统偏差(bias)
(1)定义:偏差—bias,反映的是平均预测值与参考值之间的差异情况。
(2)作用:由于各台仪器的预测值与参考值之间,都存在一定程度的偏差,为了消除系统偏差,会对原始数据的预测值进行校正,扣除偏差值,改进预测效果。
(3)算法:首先计算预测值与参考值之间的偏差,然后计算所有样品的偏差值的平均值,这个平均值就是该模型的系统偏差(bias)。
(4)验证:为了验证每台仪器产生的偏差值是否恒定,另外选择验证集的样品进行验证。检查该仪器的bias是否适用于验证集样品的预测值。
2.3.4. RMSEP
预测均方根误差(root mean square error of prediction—RMSEP)值:是计算模型得出的预测值与参考值之间的误差平方和的均方根值,对于同一批次样本,模型RMSEP值越小说明模型准确性越高。 SEP :校正偏差后的预测误差。
3 结果与分析
3.1. 系统偏差校正法的结果
偏差—Bias:偏差又可分为随机偏差和系统偏差。随机偏差是模型预测存在的差异,无法通过扣除平均偏差来改进预测效果的;而系统偏差可能是样品来源、仪器等引起的,可以通过加或减去偏差来明显改进预测效果。本次实验以Thermo仪器的预测值作为参考值进行对比计算。
3.1.1. 初烤烟
将收集到的初烤烟样品,在两台仪器上同时扫样,扫描参数设置相同。调用Thermo建立的初烤烟原始模型,分别预测Thermo仪器扫描的样品光谱和Q3000仪器扫描的样品光谱,对比分析各个指标的预测值之间的偏差情况。
如前面所述,通过分析校正集的110个样品,计算两台仪器之间的系统偏差。然后再调用验证集的样品,进一步验证模型的预测效果。以Thermo预测值作为参考,Q3000预测值与之对比,计算得到两台仪器的系统偏差(bias),各个组分的系统偏差值见表3-1-1, 其中110个样品的详细预测值可参考excel表格。
表3-1-1 初烤烟模型的系统偏差
烟碱 | 总糖 | 还原糖 | 总氮 | 钾 | 氯 | |
bias | 0.04 | 0.62 | -1.29 | -0.06 | -0.44 | 0.07 |
为进一步验证系统偏差对预测值的影响,调用Thermo原始模型,分析20个外部验证集样品,并统计扣除系统偏差前、后的预测情况。扣除系统偏差后,无论是校正集样品还是验证集样品,其预测结果都更接近Thermo仪器的预测值。各个组分的相对偏差、绝对偏差,以及RMSEP都有所改善。
表3-1-2 初烤烟模型扣除bias前、后的相对偏差(平均值)统计
样品数量 | 烟碱 | 总糖 | 还原糖 | 总氮 | 钾(绝对偏差) | 氯(绝对偏差) |
校正集 | 2.344 | 2.354 | 4.992 | 2.786 | -0.438 | 0.074 |
校正集-bias | 1.864 | 1.464 | 1.583 | 1.916 | 0.000 | 0.000 |
验证集 | 2.655 | 2.936 | 4.339 | 2.826 | -0.433 | 0.081 |
验证集-bias | 1.891 | 1.479 | 1.641 | 1.925 | 0.007 | 0.001 |
表3-1-3 初烤烟模型扣除bias前、后的RMSEP统计
校正集 | 验证集 | |||
扣除bias前 | 扣除bias后 | 扣除bias前 | 扣除bias后 | |
烟碱 | 0.066 | 0.049 | 0.074 | 0.060 |
总糖 | 0.892 | 0.649 | 1.066 | 0.469 |
还原糖 | 1.386 | 0.509 | 1.217 | 0.502 |
总氮 | 0.076 | 0.051 | 0.087 | 0.058 |
钾 | 0.466 | 0.160 | 0.451 | 0.128 |
氯 | 0.098 | 0.065 | 0.092 | 0.046 |
从上表可以看出,两台仪器之间存在系统偏差,且偏差值较为稳定。通过扣除系统偏差(bias),各组分的相对偏差(或绝对偏差)值变小,RMSEP也变小。
对于验证集样品而言,烟碱相对偏差从2.655降为1.891;总糖的相对偏差从2.936变为1.479;还原糖的相对偏差从4.339降为1.641;总氮的相对偏差从2.826变为1.925,钾的偏差平均值从-0.433变为0.007,氯的偏差平均值从0.081变为0.001。
同上,验证集样品的RMSEP也有所改善,扣除bias以后,烟碱从0.074降为0.060;总糖从1.066变为0.469;还原糖从1.217降为0.502;总氮从0.087变为0.058,钾从0.451变为0.128,氯从0.092变为0.046。
说明Q3000的预测值与Thermo的预测值逐渐接近,扣除bias后提高了初烤烟模型预测的准确性。
3.1.2. 复烤烟
复烤烟样品的扫描情况与初烤烟类似,都在Thermo和Q3000仪器上同时扫描,扫描参数设置相同。调用Thermo建立的复烤烟原始模型,分别预测Thermo仪器扫描的样品光谱和Q3000仪器扫描的样品光谱,对比分析各个指标的预测值之间的偏差情况。
如前面所述,通过分析校正集的43个样品,计算两台仪器之间的系统偏差。然后再调用验证集的样品,进一步验证模型的预测效果。以Thermo预测值作为参考,Q3000预测值与之对比,计算得到两台仪器的系统偏差(bias),各个组分的系统偏差值见表3-1-4, 其中43个校正集样品的详细预测值见excel表格。
表3-1-4 复烤烟模型的系统偏差
烟碱 | 总糖 | 还原糖 | 总氮 | 钾 | 氯 | |
bias | 0.09 | -0.57 | -0.68 | 0.08 | -0.15 | 0.02 |
为进一步验证系统偏差对预测值的影响,调用Thermo原始模型,分析20个外部验证集样品,并统计扣除系统偏差前、后的预测情况。扣除系统偏差后,无论是校正集样品还是验证集样品,其预测结果都更接近Thermo仪器的预测值。各个组分的相对偏差、绝对偏差,以及RMSEP都有所改善。
表3-1-5 复烤烟模型扣除bias前、后的相对偏差(平均值)统计
样品数量 | 烟碱 | 总糖 | 还原糖 | 总氮 | 钾(绝对偏差) | 氯(绝对偏差) |
校正集 | 4.763 | 1.527 | 2.411 | 4.409 | -0.152 | 0.020 |
校正集-bias | 2.167 | 0.582 | 0.820 | 0.601 | 0.000 | 0.020 |
验证集 | 4.313 | 1.101 | 2.082 | 4.483 | -0.154 | 0.015 |
验证集-bias | 1.992 | 0.524 | 0.578 | 0.778 | -0.003 | 0.015 |
表3-1-6 复烤烟模型扣除bias前、后的RMSEP统计
校正集 | 验证集 | |||
扣除bias前 | 扣除bias后 | 扣除bias前 | 扣除bias后 | |
烟碱 | 0.099 | 0.050 | 0.095 | 0.052 |
总糖 | 0.633 | 0.271 | 0.468 | 0.238 |
还原糖 | 0.740 | 0.289 | 0.624 | 0.210 |
总氮 | 0.083 | 0.015 | 0.086 | 0.019 |
钾 | 0.163 | 0.059 | 0.159 | 0.043 |
氯 | 0.034 | 0.028 | 0.031 | 0.028 |
从表中可以看出,两台仪器之间存在系统偏差,且偏差值较为稳定。通过扣除系统偏差(bias),各组分的相对偏差(或绝对偏差)值变小,RMSEP也变小。
对于验证集样品而言,烟碱相对偏差从4.313降为1.992;总糖的相对偏差从1.101变为0.524;还原糖的相对偏差从2.082降为0.578;总氮的相对偏差从4.483变为0.778,钾的绝对偏差从-0.154变为-0.003,氯的绝对偏差平均值没有变化。
同上,验证集样品的RMSEP也有所改善,扣除bias以后,烟碱从0.095降为0.052;总糖从0.468变为0.238;还原糖从0.624降为0.210;总氮从0.086变为0.019,钾从0.159变为0.043,氯从0.031变为0.028。
说明Q3000的预测值与Thermo的预测值逐渐接近,扣除bias后提高了复烤烟模型预测的准确性。
3.2. 模型优化方法的结果
除了上述扣除系统偏差的方法外,还可以建立Q3000仪器的独立模型。由于复烤烟的样品数量较少,本实验只建立了初烤烟的定量模型。初烤烟样品一共有130个,所有样品均在Q3000仪器上扫样。通过KS算法挑选110个样品作为校正集,20个样品作为外部验证集,以下所处理的光谱均为Q3000仪器的扫描光谱数据。然后以Thermo预测值作为参考值,建立初烤烟6个组分的定量模型,其模型指标值与Thermo原始模型的指标值如下表所示。
表3-2-1 Thermo 模型 vs Q3000模型的指标值
模型名称 | RMSECV | R2 | 维数 | 建模光谱数 |
烟碱-原模型 | 0.083 | 0.996 | 18 | 1193 |
烟碱-Q3000模型 | 0.064 | 0.991 | 14 | 110 |
总糖-原模型 | 0.828 | 0.994 | 18 | 910 |
总糖-Q3000模型 | 0.429 | 0.990 | 14 | 110 |
还原糖-原模型 | 0.745 | 0.992 | 19 | 916 |
还原糖-Q3000模型 | 0.391 | 0.989 | 14 | 110 |
总氮-原模型 | 0.070 | 0.990 | 18 | 813 |
总氮-Q3000模型 | 0.030 | 0.993 | 15 | 110 |
钾-原模型 | 0.124 | 0.977 | 22 | 1002 |
钾-Q3000模型 | 0.125 | 0.867 | 14 | 110 |
氯-原模型 | 0.054 | 0.982 | 20 | 913 |
氯-Q3000模型 | 0.052 | 0.979 | 14 | 110 |
从表3-2-1可以看出,Q3000仪器上扫描的初烤烟光谱,以Thermo预测值作为参考值所建立的初烤烟模型,建模效果接近原模型,部分优于原模型。RMSECV值明显减小,说明样品的偏差值变小,进一步说明样品的预测值逐渐接近Thermo预测值。
本实验中用KS算法挑选了验证集样品,分别调用Thermo原始模型和Q3000模型,预测这20个样品,并以Thermo的预测值作为参考,统计了各个组分的相对偏差平均值的情况,见表3-2-2。
表3-2-2 Q3000模型vsThermo模型预测验证集样品的相对偏差统计表
模型名称 | 烟碱 | 总糖 | 还原糖 | 总氮 | 钾 | 氯 |
Q3000模型 | 2.696 | 1.308 | 1.198 | 1.075 | -0.026 | 0.001 |
Thermo模型-bias | 2.655 | 2.936 | 4.339 | 2.826 | -0.433 | 0.081 |
Thermo原模型扣除bias | 1.891 | 1.479 | 1.641 | 1.925 | 0.007 | 0.001 |
由表3-2-2中数据分析可知, Q3000仪器建立的初烤烟模型,其预测结果接近Thermo原模型的预测结果,部分优于原模型。后期可继续在Q3000仪器上扫描样品,收集建模数据,不断优化、更新初烤烟模型,使得模型的预测结果更准确。
4 结论
1、 Thermo近红外光谱仪与Q3000近红外光谱仪都属于傅立叶变换型仪器,Thermo仪器建立的模型可以直接应用于与其原理大同小异的Q3000仪器上。尽管各个组分的预测值存在系统偏差,但通过扣除系统偏差,两台仪器相同样品的各组分的预测值接近,达到模型转移的要求。
2、在Q3000仪器上扫描烟叶样品,重新建立定量模型,新模型对Q3000仪器的预测值,同样接近Thermo仪器的预测值。
综上所述,通过上述两种方法,既能实现Thermo仪器的原始模型转移至Q3000仪器上,还能建立Q3000仪器的定量模型,其模型预测效果接近原模型。外部验证集样品的预测结果已能达到检测误差的要求;转移后的模型,已能用于实际生产检测中。
致谢:本研究得到了四川维斯派克科技有限公司的设备和技术支持,在此表示感谢。
参考文献
【1】张进;蔡文生;邵学广《近红外光谱模型转移新算法》[J]
重庆中烟,以新质生产力推动企业高质量发展