您好, 访客   登录/注册

基于改进的Siamese算法进行图像对的相似度判定

来源:用户上传      作者:

  摘  要: 传统人脸图像对的相似度判定方法易受环境、像素值等因素影响,导致其方法的准确率很低。为此,文中为提高人脸图像对的相似度判定准确率,设计一种利用卷积神经网络(CNN)的非线性特点与优化边缘算子特点相结合的轻量化网络。实验结果表明,设计的轻量化网络与传统网络对比在准确率上有效提升大约2%;在模型大小上从原有的40.2 MB缩小到18.9 MB。并且与已有算法做了全面对比,得出改进算法准确率高于已有算法,验证了改进算法的可实施性。
  关键词: 人脸图像对; 相似度判定; 改进Siamese网络; 轻量化网络; 轻量化建模; 对比验证
  中图分类号: TN911.73?34; TP391.4               文献标识码: A                    文章编号: 1004?373X(2020)18?0050?04
  Abstract: The traditional method for deciding the similarity of face image pairs is susceptible to some factors such as environment and pixel values, resulting in low accuracy of the method. Therefore, a lightweight network that combines the nonlinear characteristics of convolutional neural networks (CNN) with the characteristics of optimized edge operators is designed to improve the accuracy of the face image pair similarity determination. The experimental results show that, in comparison with the traditional network, the designed lightweight network can increase the accuracy by about 2%, and the model size is reduced from the original 40.2 MB to 18.9 MB. In the experiment, a comprehensive comparison was made with the existing algorithms. The accuracy of the improved algorithm is higher than that of the existing algorithms.
  Keywords: face image pair; similarity determination; improved Siamese network; lightweight network; lightweight modeling; comparison validation
  0  引  言
  人臉图像对的相似度[1]判定是计算机视觉中重要的方向,并广泛地应用在目标追踪[2]、目标定位检测、单目标图像处理等技术上。随着Geoffrey Hinton的深度学习思想被提出,卷积神经网络(Convolutional Neural Network,CNN)在图像处理领域有了很大的突破,与传统方法相比,在准确率、运行时间上均取得重大突破,其中最具有代表性的CNN模型有VGG[3],GoogLeNet[4],ResNet[5]等。在人脸图像对的相似性判定上,Siamese Network [6]最为经典。Siamese Network将CNN与欧氏距离相结合对人脸图像对进行相似度判定,其CNN部分采用GoogLeNet,但仍存在模型较大,准确率受环境影响等问题。针对以上问题,本文设计将优化的边缘算法与改进后CNN相结合的轻量化My Net 模型优点是:
  1) 优化的边缘算法,简化图像周围环境复杂性干扰;
  2) 改进后的CNN,在准确率不变的前提下,减小模型大小,提升运算速度。
  实验结果证明,My Net模型和Siamese Network相比,不仅准确率得到提高,模型更得到缩小,全面验证了在人脸图像相似度判定上,边缘检测算法和轻量化CNN结合的高效性。
  1 算法改进
  1.1  优化的边缘算子
  在Robinson算子的基础上,设计一种优化的边缘算子NR,在图像的极坐标系的方位处,给出8个极坐标卷积核,具体如图1所示。
  图1i)与8个方位卷积核R1~R8做卷积操作再累加得出结果cov,如下:
  得到cov中的最小值min和最大值max,再代入公式(2),最终得到边缘特征图像P的像素值Pm,i,j为:
  式中:m,i,j分别表示图像的宽、长、通数。
  对比NR算子与LBP+HOG算子[7]的效果,如图2所示。
  图2展示了NR在人脸图像中提取的边缘轮廓比LBP+HOG算子更清晰,并缓解了环境的干扰。
  1.2  My?CNN模型
  多次实验中发现GoogLeNet网络的前半部分主要对图像进行粗略地边缘特征提取,中间部分对人脸图像进行轮廓比例性计算,最后对人脸图像进行更为细节化的计算,最终对人脸图像起到分类效果。这里利用3×3卷积核[8]设计My?CNN结构,如表1所示。   此My?CNN模型主要采用3×3的卷积核,一方面减小网络参数,提升运算速度;另一方面结合NR算子进行高效人脸特征提取。本文会在实验中进行全面性效果对比。
  1.3  My Net模型
  这里主要将NR与表1的My?CNN相结合。利用NR替代传统CNN前半部分进行粗略化人脸特征提取,再利用My?CNN对整体边缘特征进行非线性化操作,得出人脸图像的主要特征值。之后对特征值进行欧氏距离计算得出人脸图像对的相似度。具体算法如图3所示。
  Image1和Image2 两张人脸图像以及对应标签Y作为算法整体的输入,Image1和Image2相似则Y为0,反之Y为1;Image1和Image2经过图像预处理(Image preprocessing)操作,得到225×225格式的灰度图;2张225×225格式的灰度图传输到NR处,进行边缘特征提取,得到2张边缘特征图像;2张边缘特征值图像同时输入到Net网络中,分别得到对应的高维特征值G1和G2;高维特征值G1和G2作欧氏距离(Euclidean Distance)计算得到距离值Dist,将Dist与标签Y对比来优化CNN参数。
  2  实验分析
  2.1  CACD2000数据集
  CACD2000数据集包含16万张人脸图像,并且个人数据集中都包含了其各年龄段,各场景下的人脸图像。这里从CACD2000数据集中随机选出12 000对人脸图像作为训练集,其中6 000对人脸图像作为正确匹配,标注为0,剩余的6 000对人脸图像作为错误匹配,标注为1。从CACD2000数据集中随机选出3 000对人脸图像作为测试集,1 500对的人脸图像作为同一人脸的正确匹配,标注为0,其余的1 500对人脸图像作为非同一人脸的非正确匹配,标注为1。
  2.2  训练模型
  My?CNN是在TensorFlow框架下搭建的网络模型,服务器基本配置:AMD Athlon(tm) Ⅱ X4 640 Processor x4;NVIDIA GeForce GTX 1070 GPU;Ubuntu 16.04系统。
  训练过程中的超参数设置:mini batch?size设为1;初始化的学习率为0.001;学习率的衰减周期为400;衰减的系数为0.47;选用具有自适应学习率优化功能的Adam Optimizer优化器,即在每次学习率迭代周期中,按照预设的学习率衰减系数进行周期性衰减更新学习率,为此来优化网络中的权重和偏置。
  2.3  实验结果与分析
  以下的实验将验证NR处理优于无预处理以及LBP+HOG处理,并进一步验证NR与My?CNN相结合的方式在准确率和模型大小上亦优于传统CNN模型。
  这里采用五折交叉算法来获取图像对的最优阈值。在5个阈值点下,将测试集任意分成5份子测试集,其中的4份子测试集作为训练集用来计算每一个阈值点对应的准确率,取最高准确率的阈值点作为本次循环的较优閾值并计算出另一份子测试集的准确率并视作测试集本次循环下的准确率。
  采用感受性曲线(Receiver Operating Characteristic,ROC)来评价网络的优越性。其中实际标签和测试标签都为0,称作True Positive(tp);实际标签为0而测试标签为1,称作True Negative(tn);实际标签和测试标签都为1,称作False Negative(fn);实际标签为1,测试集标签为0,称作False Positive(fp)。
  为验证NR预处理可行性以及预处理效果优于非预处理效果的前提下,在My?CNN的基础上对比My Net,My Net?NR,My Net?LBP+HOG的准确率。具体如表2所示,对应的ROC趋势图如图4所示。
  由表2和图4看出,以My Net为基础网络,经NR或者LBP+HOG下的预处理要高于无预处理下的准确率;经NR预处理的图片测试的准确率要高于经LBP+HOG处理以及无预处理的准确率。
  下面进一步验证NR与My?CNN相结合的My Net模型要优于传统网络,将在NR以及LBP+HOG基础上分别对比My Net,Mobile Net[9],Squeeze Net[10]的准确率以及模型大小,如表3、表4所示。
  三张网络的ROC曲线图如图5所示。
  由表3、表4和图5看出,在NR,LBP+HOG的基础上,My?Net的准确率要高于Squeeze Net和Mobile Net,并且模型大小得到很大幅度的缩减。结合表2,验证了在模型大小以及准确率方面NR和LBP+HOG可替代传统CNN的前几层并与My?CNN相结合实行模型的轻量化达到更高效的人脸特征提取。表2也验证在预处理方面,本文的NR处理要优于LBP+HOG的处理方式。
  3  结  论
  本文设计利用NR算子特点与CNN特点相结合的轻量化My Net模型。实验充分验证了利用NR特点代替传统CNN前几层的特征提取并与简单的My?CNN组合的My Net,在人脸图像相似度判定上,比传统CNN特征提取更为有效,在模型大小以及准确率上,My Net模型要比传统模型CNN更有突破性。本文在My?CNN基础上,验证了NR要比LBP+HOG在网络预处理方面,更有优越性。
  参考文献
  [1] 王朝卿,沈小林,李磊.图像相似度计算算法分析[J].现代电子技术,2019,42(9):31?34.
  [2] BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully?convolutional Siamese networks for object tracking [C]// European Conference on Computer Vision. Amsterdam: Springer, 2016: 850?865.   [3] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large?scale image recognition [J]. Computer science, 2014(3): 39?42.
  [4] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions [C]// IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 1?9.
  [5] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [J]. IEEE computer society, 2016(1): 770?778.
  [6] CHOPRA S, HADSELL R, LECUN Y. Learning a similarity metric discriminatively, with application to face verification [C]// 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2005: 113?119.
  [7] 李佳妮,张宝华.特征匹配融合结合改进卷积神经网络的人脸识别[J].激光与光电子学进展,2018,55(10):246?253.
  [8] 潘兵,曾上游,杨远飞,等.基于双网络级联卷积神经网络的设计[J].电光与控制,2019,26(2):61?65.
  [9] SANDLER M, HOWARD A, ZHU M L, et al. Inverted residuals and linear bottlenecks: mobile networks for classification, detection and segmentation [J]. Computer science, 2019(21): 302?311.
  [10] IANDOLA F N, HAN S, MOSKEWICZ M W, et al. SqueezeNet: AlexNet?level accuracy with 50x fewer parameters and <0.5MB model size [J]. Computer science, 2016(4): 57?63.
  [11] MA Qinggong, ZHENG Jianfeng. Practical tracking system of intelligent workshop product based on wireless sensor network [J]. Academic journal of engineering and technology science,2019, 2(4): 784?790.
  [12] ZHANG Heming, WANG Xiaolong, ZHU Jingwen, et al. Fast face detection on mobile devices by leveraging global and local facial characteristics [J]. Signal processing: image communication, 2019, 78: 1?8.
  [13] CEVIK Taner, CEVIK Nazife. RIMFRA: Rotation?invariant multi?spectral facial recognition approach by using orthogonal polynomials [J]. Multimedia tools and applications, 2019, 78(18): 26537?26567.
转载注明来源:https://www.xzbu.com/8/view-15310202.htm