您好, 访客   登录/注册

两种偏最小二乘特征提取方法的比较

来源:用户上传      作者:

  摘要:偏最小二乘法是解决自变量和因变量关系的一种常用的特征提取方法。同时可以用来对因变量进行回归,或者引入类别标识信息提取更有区分性的特征。在引人类别标识信息提取特征的过程中,偏最小二乘方法可以通过常用的两种方法进行求解,一种是非线性迭代的偏最小二乘法,另一种是基于奇异值分解的偏最小二乘法。本文通过分析两种方法在求解过程上的差异,以及在心音分类上的性能,对两种偏最小二乘方法进行了比较。
  关键词:偏最小二乘法:特征提取:心音分类
  0引言
  偏最小二乘法是解决自变量和因变量关系的一种常用的特征提取方法。同时考虑因变量和自变量,使得二者之间的相关性最大,从而使得提取的特征同时包含二者的信息。在特征提取方法中,尤其是在小样本的特征提取方法中,偏最小二乘法通常是有效而稳定的,且被广泛使用。
  除了解决因变量和自变量之间的关系,当自变量是类别标识信息时,偏最小二乘法还可以引入类别标识信息提取更有区分性的特征。在这个过程中,偏最小二乘法将类别标识信息融入到提取的特征里,使得到的特征含有类别标识信息,从而更加具有区分性。
  使用偏最小二乘法引入类别标识信息,提取更有区分性的特征,根据具体的求解算法,可以将偏最小二乘法分为两类。一类是非线性迭代偏最小二乘法(Nonlinear iterative partial least squares.NIPLS),其在每次迭代的时候,根据最大化特征和类别标识信息得到的权值向量,求得得分向量,根据得分向量分别对原始特征和类别标识信息进行表示,得到残差矩阵,最终求得每次迭代得到的权值向量,构成权值矩阵。另一类是基于奇异值分解的偏最小二乘法(Partial least squares based 0n singularvalue decomposition.PLS-SVD),其目标函数仍然是最大化特征和类别标识信息得到的权值向量,所不同的是,根据目标函数PLS-SVD方法进行SVD分解,得到的原始特征对应的奇异矩阵的前n个向量构成方法PLS-SVD的权值矩阵,无须进行迭代。由于特殊的求解过程PLS-SVD方法无法实现自变量对因变量的回归,也即是原始特征对类别标识的回归。但这里主要用偏最小二乘法进行特征提取,而无须进行回归。因此PLS-SVD方法在提取特征的时候是可以使用的。
  NIPLS方法在心音识别中取得了一定的效果,而PLS-SVD方法在心音识别上的效果还没有被充分挖掘。本文在基于规整频谱的基础上,对NIPLS和PLS-SVD方法,分别在PASCAL心音挑战赛,上的数据集Dataset-A和Dataset-B进行了实验,并分析了二者的实验结果。
  1NIPLS方法概述
  对于心音识别,假设心音样本的特征用x来表示,对应的类别标识信息用Y来表示,则NIPLS方法主要是基于迭代的过程求解使得原始特征X和类别标识信息Y最相关的权值向量,
  迭代以上6个步驟直到收敛,既可以得到第一次迭代的权值向量w.根据权值向量w.得到得分向量t=Xw.再根据得分向量分别对原始特征x和类别标识信息Y进行降解,
  2PLS-SVD方法概述
  PLS-SVD方法与NIPLS方法的目标一致,同样是求解使得原始特征X和类别标识信息Y最相关的权值向量,也即是:
  所不同的是,PLS-SVD方法没有进行迭代,所有的权值向量都是通过对XTY进行SVD分解得到的,其中对应的左奇异矩阵的前n个向量构成方法PLS-SVD的权值矩阵,
  事实上,PLS-SVD方法,也可以看成一种迭代的求解过程,只不过与NIPLS的降解方法不一样。首先按照NIPLS方法可以求得权值向量,W和c.根据w和C分别对原始特征X和类别标识信息Y进行降解,
  根据求得的X(2)和Y(2),可以进行下一轮的迭代,直到迭代合适的次数。按照这种迭代求得的权值矩阵和直接对XTY进行SVD分解得到的权值矩阵是等价的。
  上述过程即为PLS-SVD的求解方法,以及对于测试样本的求解。
  3实验结果
  在介绍了NIPLS和PLS-SVD方法之后,根据具体的求解过程分别对NIPLS方法和PLS-SVD方法求取特征的性能进行比较。主要使用PASCAL心音挑战赛的数据集Dataset-A和Dataset-B进行实验。在实验过程中,使用论文中的评估方法进行评估。同时使用支持向量机(Support vectormachine.SVM)进行分类,SVM分类器使用径向基核函数,其中核参数的取值集合为:[1.0.1.0.01.0.001.0.0001];SVM分类器的惩罚因子的取值集合为:[1.10.100.1000]。使用网格搜索法确定最终选择的参数。
  3.1数据集Dataset-A的实验结果
  方法NIPLS和PLS-SVD在数据集Dataset-A上的实验结果见表1。其中方法NIPLS使用的分类器的参数为径向基核函数的参数为0.01.使用的惩罚因子为100。方法PLS-SVD方法使用的径向基核函数的参数为0.001.使用的惩罚因子同样是100。
  由实验结果可以看出:方法NIPLS和PLS-SVD相比较,Extra Heart Sound类别和Artifact类别的准确率有所下降,但是总体准确率和归一化准确率有所提升。综合两种方法的所有差别,NIPLS的性能更好一些,
  3.2数据集Dataset-B的实验结果
  方法NIPLS和PLS-SVD在数据集Dataset-B上的实验结果见表2。其中方法NIPLS使用的分类器为径向基核函数,参数值为0.01.惩罚因子为1。方法PLS-SVD使用的径向基核函数的参数为0.001.惩罚因子为100。
  从实验结果可以看出:方法NIPLS和PLS-SVD相比较,Normal类别的准确率有所下降,但是总体准确率和归一化准确率有所提升。综合来看,NIPLS的性能更好一些。
  4结束语
  本文介绍了两种偏最小二乘方法一NIPLS和PLS-SVD。并分别介绍了其求解过程,比较了求解过程中的异同点。并对二种方法各自在心音数据上的性能表现进行了实验。由实验结论分析,NIPLS方法相比PLS-SVD方法的性能有所提升。
转载注明来源:https://www.xzbu.com/8/view-15125613.htm