您好, 访客   登录/注册

基于可见近红外光谱的不同建模方法对河套蜜瓜糖度检测精度的影响

来源:用户上传      作者:

  摘要:以126个金红宝河套蜜瓜为研究对象,采用Maya 2000 pro便携式光谱仪获取蜜瓜在400~1 100 nm波段内的可见近红外光谱信息,研究传统建模方法[偏最小二乘法(PLS)、主成分回归(PCR)、逐步多元线性回归(SMLR)]和新型网络算法[误差反传人工神经网络(BP-ANN)、最小二乘支持向量机(LS-SVM)]对糖度模型精度和预测结果的影响。结果表明,在利用传统建模方法建立的蜜瓜糖度模型中,PLS算法所建模型的效果较佳,模型更稳定,尤其在光谱经多元散射校正(MSC)和一阶微分处理后,所建模型的相关系数为0.844,校正均方根偏差为0.844,预测均方根偏差为0.978;在采用新型网络算法建立的模型中,当选择LS-SVM算法,且参数c=0.500 0,g=0.353 55时,经MSC和一阶微分处理后的光谱和糖度的建模和预测结果最好,均方根偏差为0.97。研究结果可为检测河套蜜瓜糖度的可见近红外光谱建模方法的选择提供理论依据。
  关键词:河套蜜瓜;可见近红外光谱;糖度;建模方法;检测精度
  中图分类号:S127;TP274+.52
  文献标志码:A
  文章编号:1002-1302(2020)16-0235-06
  我国是蜜瓜种植和消费大国,每年的蜜瓜产量和销量均位居世界前列[1]。对于河套蜜瓜而言,其品质好坏直接影响了其商业价值,一直以来,衡量河套蜜瓜品质好坏的一项重要指标是糖度[2]。传统测定蜜瓜糖度常采用破坏性检测方法,虽然检测准确性高,但是测定过程繁琐、效率低、受主观因素影响大,无法实现快速、便携无损检测的目的。
  近几十年来,可见近红外光谱检测方法因其具有检测效率高、无破坏、成本低、操作简单、无需预处理且测定指标多样等突出优点而被广泛应用于水果品质的检测中[3-4]。在采用该技术检测水果品质的过程中,建立数学模型普遍采用的传统建模方法主要有偏最小二乘算法(PLS)、主成分回归分析算法(PCR)和逐步多元线性回归算法(SMLR)等,这些方法虽已被广泛应用于果品的品质检测分析中[5],但是由于表现出不同的预测精度,使得预测结果的差异较大[6];误差反传人工神经网络(BP-ANN)算法和最小二乘支持向量机(LS-SVM)算法是2种在近年来发展迅速的较为灵活的非线性建模方法[7-8]。其中BP-ANN算法具有自我组织、自我学习、分布存储、适应能力强且高度非线性表达能力等优点,被研究者广泛应用于蜜瓜内部品质可见近红外光谱检测分析领域[9];LS-SVM算法是在结构风险最小化原理基础上发展起来的一种高维数、非线性、多输出的方法,可以有效解决少量样本带来的检测精度低等实际问题[10-11]。
  田海清通过研究不同建模方法在西瓜品质指标检测中的建模与预测效果,发现偏最小二乘法是最合适的建模方法[12]。刘春生等采用PLS建立了南丰蜜橘糖度的校正模型,并对预测集进行了验证,结果表明,预测集的相关系数为0.913,校正均方根偏差为0.557,预测均方根偏差为-0.065[13]。牛晓颖等在4 545~9 090 cm-1 波段的光谱范围内比较了BP-ANN、LS-SVM及判别分析的分类模型性能,发现拓扑结构为12-18-3的反向传播神经网络模型分类结果最优,校正集、预测集分类正确率分别为96.68%、97.14%[14]。张德虎等研究了不同特征波长的提取方法[逐步多元线性回归(SMLR)、间隔偏最小二乘法(iPLS)、反向区间偏最小二乘法(biPLS)及联合区间偏最小二乘法(siPLS)等]对蜜瓜样品模型精度和预测结果的影响,结果表明,采用biPLS特征波长提取方法建立模型最佳,对应的校正集、预测集的均方根偏差(RMSE)分别为0.996 1、1.180 0[15]。通过对已有研究成果进行分析发现,利用可见近红外光谱技术对河套蜜瓜内部品质糖度进行研究的相关文献较少,并且研究中运用的建模方法比较单一,各建模方法的检测精度误差较大,没有系统研究建模方法对河套蜜瓜品质检测精度的影响,整体上看研究基础尚浅,因此有必要系统研究多种建模方法对河套蜜瓜糖度检测精度的影响。
  1 材料与方法
  1.1 样品来源
  本试验选用的样品为产自内蒙古巴彦淖尔地区的金红宝河套蜜瓜,数量为126个,该批样品的平均质量为1~2 kg。将蜜瓜清洗并擦拭干净后,利用随机分布的原理将126个样品按约3 ∶ 1的数量比例分成校正集(90个)和预测集(36个),分别编好序号,排列整齐后放置在常温实训室内24 h。
  1.2 可见近红外光谱采集装置
  如图1所示,本研究设计的可见近红外采集装置主要包括光谱采集室、光源固定架、卤素灯、柔性支撑物、光谱仪、准直镜、光纤、笔记本电脑等,卤素灯(12盏,各50 W,共计600 W)对称、均匀地布置在光谱采集室内的圆弧状光源固定架两侧。在本试验中采集光谱用的光谱仪为美国Ocean Optics公司生产的Maya 2000pro便携式光谱仪(工作波段:400~1 100 nm,积分时间:17~10 000 ms)。
  1.3 试验方法
  1.3.1 可见近红外光谱的采集 本试验的蜜瓜可见近红外光谱采集过程如下:光源发出的光线从蜜瓜側上部进入果肉,透射出蜜瓜底部的信号经检测探头、光纤进入光谱仪,再由计算机中的光谱采集软件SpectraSuite进行光谱信号的采集和存储。
  采集软件参数的设置:离散光谱累计采集次数
  为4次,平滑点数为6点,采集积分时间为400 ms。为了保证样品光谱采集的准确性,每个样品在赤道处采集3次、花萼处采集3次,共计6次,将其平均值视为样品光谱。
  1.3.2 糖度的测定方法 本试验样品的糖度采用日本Atago公司生产的PR-101ɑ便携式数字折光仪测定。将样品沿纵向对称切开,选取代表性位置切取大小为10 mm×10 mm×10 mm的果肉共6小块,分别榨汁,用折光仪测量糖度,以6次测量结果的平均值作为样品的糖度,详见表1。   1.3.3 建模方法和模型评价 本研究运用传统建模算法(PLS、PCR、SMLR)和新型网络算法(BP-ANN、LS-SVM)进行蜜瓜糖度数学模型(校正集模型、预测集模型)的构建。以相关系数(r)、校正均方根偏差(RMSEC)、预测均方根偏差(RMSEP)和均方根偏差(RMSE)等指标来评价所建模型的性能,当r越趋近于1.00时,RMSEC越大,RMSEP越小且|RMSEC-RMSEP|越趋于0时,表明模型的性能越好;当RMSE越接近于0时,表明模型的预测能力越强。
  2 结果与分析
  2.1 样品光谱
  图2-a为126个金红宝河套蜜瓜样品品质的可见近红外光谱。为了提高建模效率和质量,本研究选用Omnic v6.1a预处理软件(美国Thermo Nicolet公司)对所采集的原始光谱分别进行多元散射校正(MSC)和导数处理,以提高所建模型的精度和稳定性,处理后的光谱见图2-b。
  2.2 模型的建立
  2.2.1 传统建模方法的建模结果 用PLS、PCR和SMLR等3种常用的经典建模方法对126个金红宝河套蜜瓜样品预处理后的光谱和糖度建立校正模型和预测模型。由表2可见,传统的不同建模方法对模型结果有一定影响,PLS和SMLR法的建模效果优于PCR法;虽然PLS和SMLR模型精度相差不大,但采用PLS法對经多元散射校正和一阶微分处理后的光谱建立的糖度模型效果最佳,预测偏差最小,模型也最为稳定,r=0.844,RMSEC=0.844,RMSEP=0.978。图3为采用PLS法建立的126个样品模型真实值和预测值的关系。
  2.2.2 新型网络算法建模结果
  2.2.2.1 主成分分析(PCA) 样品光谱在400~1 100 nm 范围内有多达1 454个变量,在用BP-ANN和LS-SVM算法进行建模时,如此多的数据输入变量必然会造成模型计算繁琐、费时费力,并且所建模型稳定性差,会使预测出现过拟合现象。为了提高建模的稳定性、建模精度和效果,建模前须用主成分分析法进行输入变量的降维处理。
  本研究选用SPSS 19.0数据分析软件进行光谱输入变量的主成分分析。BP-ANN和LS-SVM模型采用Matlab 7.10(MathWorks公司)软件编程来实现。
  2.2.2.2 原始光谱的BP-ANN和LS-SVM建模结果 分别用BP-ANN和LS-SVM算法对原始
  光谱进行糖度模型训练和预测,评价模型的效果和性能选用r和预测集RMSE 2个指标。
  (1)BP-ANN建模结果。将“2.2.1”节中通过SMLR方法确定的原始光谱的13个特征波长变量进行主成分降维处理,得出前4个主成分的累积贡献率为99.407%,可以作为样品光谱的主要信息,表明BP-ANN算法建模的输入变量为4个,输出变量为1个(糖度值)。为了提高模型质量,BP-ANN建模前须对光谱进行归一化处理,建模时,模型输入层和隐含层的传递函数均选用tansig函数,训练函数选用trainlm函数,trainlm函数中epochs=10 000,trainlm函数中goal=0.000 1,输出层函数选用purelin函数。训练时,用R=m+n+a(m为输入数,n为输出数,a取值范围为0~8)公式进行逐个试凑,进而确定最佳隐含层节点数。如表3所示,用BP-ANN算法对蜜瓜原始光谱进行训练和预测时,其模型相关系数较好, 但RMSE都在1以上,表明误差较大,预测能力一般。此外,隐含层节点数为3~10个,当隐含层节点数为4个时,r=0.81,RMSE=1.23,RMSE较小,模型效果相对较好。
  (2)LS-SVM建模结果。同样以确定的4个主成分值作为LS-SVM算法的输入量,以糖度作为输出量,选择径向基函数(RBF)为核函数。为了提高预测模型的精度和预测能力,可以通过调整参数c、g、s、p来实现。通过多次试验,确定svmtrain函数中options的参数如下:-s=3(svm类型为epsilon-SVR模型),-p=0.01(epsilon-SVR中损失函数的值);另外,惩罚参数c、核函数参数g的确定通过gridreasch函数完成,使c、g在某一离散区间范围内,采用交叉验证均方误差(cross validation mean squares error,简称CVmse)最小的原则确定c、g。由表4可知,通过gridreasch函数确定最佳参数c=1.414 2,g=0.353 55时,采用LS-SVM算法对预测集样品进行预测的效果最理想,RMSE=0.995,预测结果优于BP-ANN(RMSE=1.23)。预测集样品真实值和预测值之间的相关性见图4。
  2.2.2.3 MSC及微分处理后光谱的BP-ANN、LS-SVM建模结果 (1)BP-ANN建模结果。对“2.2.1”节通过SMLR法确定的经MSC和一阶微分处理的光谱的14个特征波长变量进行主成分分析,前6个主成分的累积贡献率达98.808%,将其视为 BP-ANN建模输入量的6个因素,糖度是为输出量。模型输入层和隐含层的传递函数均选用tansig函数,训练函数选用trainlm函数,epochs=10 000,goal=0.000 1,输出层函数选用purelin函数。与原始光谱确定隐含层节点数的方法一样,采用逐个试凑法进行最佳节点数的确定。如表5所示,用 BP-ANN 算法建立的处理后光谱和糖度的模型优于原始光谱和糖度的模型;当隐含层节点数为6个时,r=0.92,RMSE=1.20,RMSE较小,模型效果相对较好。
  (2)LS-SVM建模结果。用LS-SVM算法对经MSC和一阶微分处理后的光谱和糖度进行建模时,函数和参数设置与用原始光谱建模时相同,用不同c、g得到的模型结果不同。由表6可知,采用LS-SVM法对经MSC和一阶微分处理后的光谱和糖度建立模型,效果比原始光谱更理想,RMSE整体上更小,当选择最佳参数c=0.500 0,g=0.353 55时,得到的预测模型结果最好,RMSE=0.97,进一步分析得出预测集样品糖度真实值和预测值的相关性。   采用LS-SVM算法建立样品光谱和糖度校正模型,由图5可见,模型精度和预测效果比 BP-ANN 模型理想,RMSE的变化较小,主要原因是 LS-SVM 法是以结构风险最小化的原理来保证训练和预测具有良好的泛化能力,不同于神经网络的局部最小性。
  3 结论
  目前,国内外研究者利用可见近红外光谱技术对河套蜜瓜内部品质进行的相关研究较少,运用的建模方法相对较少,没有关于建模方法对河套蜜瓜品质检测精度影响的系统研究,研究基础尚浅。因此,本研究利用成熟的可见近红外光谱技术,利用传统建模方法(PLS、PCR、SMLR)和新型网络算法(BP-ANN、LS-SVM)对河套蜜瓜光谱和糖度进行校正建模精度和预测能力的系统研究,通过所建模型精度和预测能力来论证不同建模方法对蜜瓜糖度的检测精度的具体影响,可为后续河套蜜瓜糖度可见近红外光谱建模方法的合理选择提供理论依据。
  本研究运用PLS、PCR、SMLR、BP-ANN、LS-SVM等不同算法对金红宝河套蜜瓜糖度建立数学模型。通过对模型数据的分析发现,在传统算法中,PLS算法对经过MSC和一阶微分处理的光谱与糖度建模的效果最好,r=0.844,RMSEC=0.844,RMSEP=0.978;在网络算法中,LS-SVM算法对经过MSC和一阶微分处理的光谱和糖度建模,当选择c=0.500 0,g=0.353 55时,得到的预测模型结果最佳,RMSE=0.97。综合分析可得,在5种算法中,PLS和LS-SVM算法均可作为河套蜜瓜内部品质检测的首选算法。
  笔者所在课题组设计研制的可见近红外光谱采集装置尚需改进,所采集光谱的准确性和精度还有待提高;本研究所用的建模算法均为单独建模,今后可以考虑运用先进的数据处理方法(蒙特卡罗交叉验证算法、应用无信息变量消除法算法)和建模算法糅合[(PLS+ANN、PLS+LS-SVM、PLS+BPF、PLS+RBF、遗传算法(GA)]的算法研究对河套蜜瓜糖度或硬度建模精度的影响。
  参考文献:
  [1]张德虎. 河套蜜瓜品质可见近红外光谱检测研究[D]. 呼和浩特:内蒙古农业大学,2014.
  [2]候占峰,田海清,刘 超,等. 基于多信息融合技术的河套蜜瓜品质评价[J]. 江苏农业科学,2018,46(6):159-162.
  [3]张德虎,田海清,武士钥,等. 河套蜜瓜糖度可见近红外光谱特征波长提取方法研究[J]. 光谱学与光谱分析,2015,35(9):2505-2509.
  [4]张 烨,韩育梅,付艳茹. 采后热处理对河套蜜瓜贮藏品质的影响[J]. 食品工业,2015,36(5):136-138.
  [5]孙静涛. 基于光谱和图像信息融合的哈密瓜成熟度无损检测研究[D]. 石河子:石河子大學,2017.
  [6]田海清,王春光,吴桂芳. 蜜瓜糖度透射光谱技术[J]. 农业机械学报,2010,41(12):130-133.
  [7]刘雪梅,章海亮. 基于近红外光谱的不同建模方法检测土壤有机质和速效P含量的研究[J]. 西北农林科技大学学报(自然科学版),2013,41(4):52-57.
  [8]牛晓颖,赵志磊,张晓瑜. LS-SVM和BP-ANN在草莓糖度NIR检测中的应用[J]. 农机化研究,2013(5):204-207.
  [9]庞晓宇,杨 忠,吕 斌,等. 基于近红外光谱与误差反向传播神经网络技术的三种人工林木材识别研究[J]. 光谱学与光谱分析,2016,36(11):3552-3556.
  [10]李子文,熊雅婷,王 健,等. 遗传算法联合LS-SVM的苹果原醋成分定量分析[J]. 中国酿造,2016,35(1):120-124.
  [11]孙旭东,郝 勇,张光伟. 近红外光谱结合最小二乘支持向量机的脐橙叶片含水率无损检测[J]. 中国农机化学报,2015,36(2):150-153,168.
  [12]田海清. 西瓜品质可见近红外光谱无损检测技术研究[D]. 杭州:浙江大学,2006.
  [13]刘春生,周华茂,孙旭东,等. 偏最小二乘法-可见/近红外光谱测定南丰蜜桔糖度的研究[J]. 河北师范大学学报(自然科学版),2008,32(6):788-790.
  [14]牛晓颖,邵利敏,赵志磊,等. 基于BP-ANN的草莓品种近红外光谱无损鉴别方法研究[J]. 光谱学与光谱分析,2012,32(8):2095-2099.
  [15]张德虎,田海清,武士钥,等. 河套蜜瓜糖度可见近红外光谱特征波长提取方法研究[J]. 光谱学与光谱分析,2015,35(9):2505-2509.
转载注明来源:https://www.xzbu.com/1/view-15312388.htm