您好, 访客   登录/注册

基于自组织映射的数据分析方法

来源:用户上传      作者: 罗维喜 王娜

  摘 要 本文首先介绍SOM算法,然后采用对Hsiao等人得到的人19个组织的59个微阵列实验样本进行分类,通过分类结果的比较,发现自组织映射聚类的方法相对于层次聚类等方法能比较好的按照组织的内在表达模式对其进行分类。
  关键词 自组织映射 组织特异性基因 管家基因 基因表达谱
  一、SOM算法介绍
  由Kohonen提出的自组织映射(SOM)的神经网络是神经网络中适合用于对数据进行分类的有效方法。SOM神经网络包含一个输入层和一个输出层,组织成一个二维的网格结构(图1.1)。该网络能够从任意一个随机选择输入的结点开始最终形成一个拓扑结构的映射,这个映射反映了输入模式的内在的关系。但是运用SOM有一些参数的限制,首先需要指定类别数目,对映射空间结点进行权值的初始化等。如(图1.1)所示,SOM网络是一个的映射,如果这个神经元被安排在一个平面网格上面的话,这个神经网络就称为二维神经网络,因为这个网络将一个高维的输入向量映射到一个二维的平面上面。给定一个网络,输入向量是一个维的向量,相应的第个突触向量的第个元素与输入向量的第个元素相连,这样,一个维的突触向量就和第个神经元实行连接。
  图1.1 SOM网络的基本结构
  SOM算法描述如下:
  (1)令网络学习次数,赋予初始化权值向量一个小的随机向量值,对拓扑邻域()、学习率()进行初始化,设置网络总的学习次数()。
  (2)当学习次数()小于总的学习次数()时,重复步骤3至步骤6。
  (3)随机选一个输入向量进入网络进行训练。
  (4)确定获胜神经元,相应的权值向量为与输入向量距离最短的向量,成为获胜神经元,输入向量与获胜神经元的最短距离为,定义如下:
  (1.1)
  (5)按照下式更新获胜神经元及其邻域内神经元权值向量:
  (1.2)
  与函数定义如下:(1.3)
  (6)令,如果,回到第(3)步继续训练,否则结束训练。
  二、数值模拟计算
  本文以HUGEindex数据库中人7000多条基因在19个正常组织中的表达情况这19个组织中表达的基因为样本对其进行分析。不同组织下的全基因表达数据构成了一个7070x59的数据矩阵,其中每一个元素表示第个基因在第个组织中的表达水平值,行向量代表基因在19个人组织中的表达水平,成为基因的表达谱,列向量代表某一组织的各基因的表达水平。
  (1.4)
  本文运用SOM方法对人基因19个组织的59个样本进行聚类,SOM网络的拓扑结构见(图1.2)及参数选择见表(表1.1)。
  图1.2 样本聚类SOM网络结构图
  上图中,根据Genechip得到的人体19个组织的59个微阵列数据所得到的信息,我们采用4x5的二维拓扑结构的SOM网络对人体组织样本进行分类(其中第(4,5)个结点为空),图中每个结点的位置(结点位置用与输入模式维数相同的向权值向量表示,初始权值由系统自动产生)为各个结点权值尺度化之后所得到的位置。
  三、结论
  通过分类可以将芯片实验的59个样本按照人体组织类别分为19个类别,并且与采用层次聚类法所得结果进行比较,可以看出自组织映射的聚类方法与层次聚类方法比较,可以看出采用SOM网络聚类方法比层次聚类得到的结果更为明确,其分类正确率达到了92.2%,证明了SOM方法是有效的。
  参考文献:
  [1]孙啸,陆祖宏,谢建明.生物信息学基础[M].北京:清华大学出版社,2005:282-285.
  [2]许东,吴铮.基于matlab6.x的神经网络系统分析与设计[M].西安电了科技大学出版社,2002.
  [3]阎凡平,张长水.人工神经网络与模拟进化计算[M].北京:清华大学出版社,2005.:11-34,360-395.
  作者简介:
  罗维喜(1985~),男,云南昭通人,理学硕士,云南冶金集团股份有限公司投资法规部科员,研究方向为数理统计。
  王娜(1985~),女,四川攀枝花人,理学硕士,昆明民族干部学院文化教研室教员,研究方向为数理统计。
转载注明来源:https://www.xzbu.com/8/view-3779295.htm