正在进行安全检测...
发布时间:1714323773 来源:文档文库
小
中
大
字号:
第44卷第6期 2015年i1月 内蒙古师范大学学报(自然科学汉文版) Journal of Inner Mongolia Normal University(Natural Science Edition) V01.44 No.6 NOV.2O15 利用相关系数矩阵M构建SCT算法研究 哈立原,张 岩,白凤伟 (锡林郭勒职业学院信息技术工程系,内蒙古锡林浩特026000) 摘要:在区分肿瘤样本与正常样本的过程中,维数过多的基因表达数据会影响最终的分类结果.针对这一 情况,在去除冗余基因的过程中,利用相关系数矩阵M构建强相关树,得到一种去除冗余基因的强相关树 (Strong Correlation Tree,SCT)算法.实验结果表明,SCT算法能够去除更多的冗余基因,使最终的分类结果更加 准确. 关键词:相关系数;相关系数矩阵;强相关树;基因表达数据 中图分类号:0 243;0 29 文献标志码:A 文章编号:1001—8735(2015)06—0757--04 基因芯片技术的出现,为人们进一步认识、研究基因和寻找基因之间的关系提供了有力的支持.利用基 因芯片技术,可以得到高维的基因表达数据_1],这对肿瘤特别是恶性肿瘤(癌症)的快速鉴别和分析有非常重 要的意义.但面对庞大的数据又让人感到无从下手,哪些基因的表达数据异常,哪些基因共同作用最终导致 样本异常等,都是需要解决的问题.为此,国内外许多学者纷纷加入基因表达数据的研究中,希望找到一种有 效的方法,在庞大的数据中将具有代表性的一小部分异常基因找出来.这些具有代表性的一小部分异常基因 可以看做提供有用信息的基因,称为“肿瘤有效基因”,那些大部分正常的,以及仅能提供少量信息或重复信 息的基因,称为“无关基因”.寻找肿瘤有效基因的过程称为“肿瘤有效基因选择”,选择过程主要由去除无关 基因和去除冗余基因两部分组成.李颖新等[2 提出的“修订的特征记分准则(Revised Feature Score Criteri— on,RFSC)”方法具有较好的效果,但测试发现,在去除冗余基因过程中,使用的两两冗余法还存在一些缺 陷.本文在去除无关基因时使用李颖新提出的方法,而在去除冗余基因时,提出一种新的方法来代替两两冗 余法。称为“强相关树法(Strong Correlation Tree,SCT)”。对比实验表明,强相关树法能够去除更多的冗余 基因,从而得到最有代表性的~小部分异常基因,为进一步分类测试提供更有代表性的信息,使分类测试过 程变得更容易. 1 肿瘤基因表达的数据处理 利用基因芯片技术得到的基因表达数据可描述为 。] G== 其中: 代表第i个样本的第J个基因(共 个样本,每个样本中有 个基因);C 代表样本的类别(正常样 本或患病样本). 1.1 去除无关基因 RFSC方法L2]在去除无关基因环节得到了比较理想的效果,具体算法为 RFSC( )一 收稿日期:2015-03—09 + In(咚±壶), (2) 基金项目:内蒙古自然科学基金资助项目(2013MSO116) 作者简介:哈立原(1964一),男,内蒙古锡林浩特市人,锡林郭勒职业学院副教授,主要从事数据挖掘研究
内蒙古师范大学学报(自然科学汉文版) 第44卷 其中:S代表某个基因;g 为所有正常样本第S个基因的表达数据,g为所有肿瘤样本第S个基因的表达数 据; 表示正常样本第 个基因的均值, 表示肿瘤样本第s个基因的均值; 表示正常样本的标准差, 表示肿瘤样本的标准差. 利用该算法,每个基因都会得到一个分值,分值越高,表示该基因突变的几率越高,所提供的信息量就越 大 .文献E2]将得到的所有分值进行降序,保留分值最高的一小部分基因,剩余的作为无关基因去除掉. 1.2 去除冗余基因 去除无关基因后剩余的基因几乎都是突变基因,但其中有很多基因所提供的信息存在重复性,即冗余信 息,这样的基因称为冗余基因.冗余基因的存在会影响整体样本的分类准确度,还会影响临床医学研究的诊 断效果. 1.2.1 两两冗余算法 两两冗余法算法是把去除无关基因后得到的基因按RFSC值降序排序,利用相关 系数法逐一判断两基因是否为强相关,若计算所得的相关系数大于给定阈值 ,则认为两基因强相关,进而 认为两基因提供的信息冗余,并把RFSC值较小的基因删除,从而实现去除冗余基因的目的. 利用两两冗余法去除冗余基因后,仍然会漏掉很大一部分冗余基因.假设有基因组G一{g ,g ,g } (g 代表第i个基因),该基因组已按RFSC值降序排列,即RFSC(g )>RFSC(g,)>RFSC(g ).若给定 阈值 一O.9,首先计算g 和g,的相关系数,得ID 一0.905,大于阈值 ,则删除g,;然后计算g 和g 的相 关系数P 一0.899,小于阈值 ,则两基因都保留.最终基因组为G 一{g ,g }. 但若将每两个基因的相关系数都计算出来,就会发现g 和g 可能也是强相关的.假设ID =0.903,这 样就可以认为3个基因都是相似基因,只保留RFSC值最高的即可,所以最终基因组应为G 一{g }. 1.2.2 SCT算法 为了弥补了两两冗余算法的不足,本文在去除冗余基因时,用强相关树(SCT)法代替两 两冗余法,将基因组中所有强相关基因都找出来,最终只保留RFSC值最高的基因.SCT算法的步骤如下: (1)求出基因组G==={g ,gz,…,g }中两两基因的相关系数 j,得到相关系数矩阵 ll0 1 l P g2 lD lg M::l‘。 2 -P z 。 {lD l P g 2 lD : ● (3) p《kg k (2)为每个基因设置初始标记sign(g )一0.当该基因成为某树型结构的成员后,其标记sign(g )设 置为1, (3)构建树型结构,将基因组中的g 作为树的根结点,其标记sign(g )一1. (4)将M矩阵第l行中所有与g 强相关的基因都找出来,sign值设为1,并将其作为树型结构的第2层. (5)同理,再逐一寻找与第2层基因强相关,且sign值为0的基因,作为树型结构的第3层. (6)依次类推,直到再也找不出与树型结构中任何一个基因强相关,且sign===O的基因为止.一棵强相关 树构建完毕,只保留该树中RFSC值最大的g ,其余基因视为冗余基因去除. (7)接着寻找基因组中sign===0且RFSC最大的基因,作为另一棵树的根结点,将其标记sign设为1. (8)按照(3)~(6)步骤中的方法不断重复,直到所有基因的sign值都为1为止. 与两两冗余法相比,用SCT方法能够去除更多的冗余基因,为接下来的分类测试提供了更具有代表性 的基因信息,使分类测试过程更容易. 2 CSVM分类器 CSVM作为非常传统的分类器,在处理肿瘤样本较少、基因维数又较高的数据集时,表现出了极好的分 类性能[7],分类算法如下. 给定数据集{ ,Y },正常样本与肿瘤样本用分类标签Y 一{一1,+1}区分,其最优问题表示为 _ ain百1r叫 .叫+C∑ ,
第6期 哈立原等:利用相关系数矩阵M构建SCT算法研究 砌。 +6 ≥ 一 , S.t. . . (4) L4 J I l :≥0,i—l,…, . 其中C是惩罚参数,£是松弛变量. 最优判别函数为 (z)=sign(∑n Y K(z , )+b), s.t.0≤a ≤C. =l (5) 3 应用实例 选择Khan[8 提供的肿瘤数据集进行对比实验,该数据集中共有27个样本,其中16个为正常样本, 11个为肿瘤样本,每个样本中有3467个基因.基因表达数据处理过程如下: (1)利用RFSC法去除无关基因. (2)利用STC法去除冗余基因,并与两两冗余法 进行实验对比. (3)分类测试,利用传统的csVM对(2)中两种不 U ∞ 理 同方法得到的基因组进行分类测试. 3.1 用RFSC法去除无关基因 复 L ■■■■-. 根据RFSC方法得到的基因分值简称为“RFSC 值”.3467个基因的RFSC值按降序排列后如图1所 示,其中RFSC值为0.5~2.1的基因个数只有206 基因个数 图1 3467个基因的RFSC值 Fig,1 RFSC value of 3467 genes 个,占基因总数的5.94 ,大部分基因的RFSC值都趋 近于0.RFSC值在0,5~2.1范围内的206个基因,它 3.2去除冗余基因的对比实验 们突变的可能性较高,所以只把这206个基因留下,其余均作为无关基因去除, 分别利用本文提出的SCT法和两两冗余法对剩余的2o6个基因进行冗余基因去除,然后利用CSVM 分类器对最终的样本集进行分类测试,实验结果见表1.表1的测试结果表明,在同一阈值 下,两两冗余法 仅能去除一部分冗余基因,并且在最终的分类测试中,分类准确度仅为8o ~90 ,所以未去除的冗余基因 将干扰最终的分类效果.本文提出的SCT法可以去除更多的冗余基因,而且分类准确度也比较高,如 —0.85时,仅剩余25个基因,最终分类准确度可达100 . 表1 SCT法和两两冗余法的去冗余对比结果 Tab.1 The comparison results of SCT method and two—two redundancy method 4 小结 快速有效地区分肿瘤样本,并为临床进一步分析、鉴别和研究提供重署依据是当前研究的重点。在区分 肿瘤与正常样本的过程中,维数过多的基因表达数据会影响最终的分类效果,从而导致临床的判断失误,针 对这一情况,在去除冗余基因的过程中,本文提出一种强相关树(SET)算法,该算法能够去除更多的冗余基 因,并在最终的分类测试中取得了良好的效果.与两两冗余法的对比实验结果表明,本文提出的SCT法戛加 合理和有效.
・ 76O ・ 内蒙古师范大学学报(自然科学汉文版) 第44卷 参考文献: Eli陆慧娟,安春霖.基于输出不一致测度的极限学习机集成的基因表达数据分类I-J].计算机学报,2013,36(2):341—348. E2]李颖新,阮晓钢.基于支持向量机的肿瘤分类特征基因选取[J].计算机研究与发展,2005,42(10):1796—1801. [3]焦娜,苗夺谦.基于相容关系的基因选择方法[J].计算机科学,2010,37(10):217—220. I-4] 曾理,成杰峰.使用分布式De Bruijn图遍历基因拼接并行构建和化简[J].软件学报,2013,24(s2):140—149. [5]谢娟英,高红超.基于统计相关性与K—means的区分基因子集选择算法I-J].软件学报,2014,25(9):2050—2075. [6]朱新山,丁杰.一种采用随机归一化相关系数调制的量化水印[J].计算机学报,2O12,35(9):1959—1970. [7]谢娟英,谢维信.基于特征子集区分度与支持向量机的特征选择算法I-J].计算机学报,2014,37(8):1704—1718. [8]Khan.肿瘤基因组学实验室[EB/()I ].E2Ol5-05—15].http://home.ccr.cancer.gov/oncology/oncogenomics/. Research on Constructing SCT Algorithm from Correlation Coefficient Matrix M HA Li—yuan,ZHANG Yan。BAI Feng—wei (Department of Infi)rmation Technology Engineering,Xilingol Vocational College,Xilinhot 026000,InnerMongolia,China) Abstract:In the process of identifying the tumor and normal samples,dimension of gene expression data will affect the final classification result.In view of the situation,in the process of removing redundant