正在进行安全检测...

发布时间:1714323773   来源:文档文库   
字号:
第44卷第6期 2015年i1月 内蒙古师范大学学报(自然科学汉文版) Journal of Inner Mongolia Normal University(Natural Science Edition) V01.44 No.6 NOV.2O15 利用相关系数矩阵M构建SCT算法研究 哈立原,张 岩,白凤伟 (锡林郭勒职业学院信息技术工程系,内蒙古锡林浩特026000) 要:在区分肿瘤样本与正常样本的过程中,维数过多的基因表达数据会影响最终的分类结果.针对这一 情况,在去除冗余基因的过程中,利用相关系数矩阵M构建强相关树,得到一种去除冗余基因的强相关树 Strong Correlaton Tree,SCT)算法.实验结果表明,SCT算法能够去除更多的冗余基因,使最终的分类结果更加 准确. 关键词:相关系数;相关系数矩阵;强相关树;基因表达数据 中图分类号:0 243;0 29 文献标志码:A 文章编号:1001—8735(2015)06—0757-04 基因芯片技术的出现,为人们进一步认识、研究基因和寻找基因之间的关系提供了有力的支持.利用基 因芯片技术,可以得到高维的基因表达数据_],这对肿瘤特别是恶性肿瘤(癌症)的快速鉴别和分析有非常重 要的意义.但面对庞大的数据又让人感到无从下手,哪些基因的表达数据异常,哪些基因共同作用最终导致 样本异常等,都是需要解决的问题.为此,国内外许多学者纷纷加入基因表达数据的研究中,希望找到一种有 效的方法,在庞大的数据中将具有代表性的一小部分异常基因找出来.这些具有代表性的一小部分异常基因 可以看做提供有用信息的基因,称为“肿瘤有效基因”,那些大部分正常的,以及仅能提供少量信息或重复信 息的基因,称为“无关基因”.寻找肿瘤有效基因的过程称为“肿瘤有效基因选择”,选择过程主要由去除无关 基因和去除冗余基因两部分组成.李颖新等[ 提出的“修订的特征记分准则(Revised Feature Score Crieri on,RFSC)”方法具有较好的效果,但测试发现,在去除冗余基因过程中,使用的两两冗余法还存在一些缺 陷.本文在去除无关基因时使用李颖新提出的方法,而在去除冗余基因时,提出一种新的方法来代替两两冗 余法。称为“强相关树法(Stong Correaton Tree,SCT)”。对比实验表明,强相关树法能够去除更多的冗余 基因,从而得到最有代表性的~小部分异常基因,为进一步分类测试提供更有代表性的信息,使分类测试过 程变得更容易.  肿瘤基因表达的数据处理 利用基因芯片技术得到的基因表达数据可描述为 。 G== 其中: 代表第i个样本的第J个基因(共 个样本,每个样本中有 个基因);C 代表样本的类别(正常样 本或患病样本). 1.1 去除无关基因 RFSC方法L]在去除无关基因环节得到了比较理想的效果,具体算法为 RFSC( )一 收稿日期:2015-03—09 + In(咚±壶)  基金项目:内蒙古自然科学基金资助项目(2013MSO116) 作者简介:哈立原(1964一),男,内蒙古锡林浩特市人,锡林郭勒职业学院副教授,主要从事数据挖掘研究 
内蒙古师范大学学报(自然科学汉文版) 第44卷 其中:S代表某个基因;g 为所有正常样本第S个基因的表达数据,g为所有肿瘤样本第S个基因的表达数 据; 表示正常样本第 个基因的均值, 表示肿瘤样本第s个基因的均值; 表示正常样本的标准差, 表示肿瘤样本的标准差. 利用该算法,每个基因都会得到一个分值,分值越高,表示该基因突变的几率越高,所提供的信息量就越 大 .文献E2]将得到的所有分值进行降序,保留分值最高的一小部分基因,剩余的作为无关基因去除掉. 1.2 去除冗余基因 去除无关基因后剩余的基因几乎都是突变基因,但其中有很多基因所提供的信息存在重复性,即冗余信 息,这样的基因称为冗余基因.冗余基因的存在会影响整体样本的分类准确度,还会影响临床医学研究的诊 断效果. 1.2.1 两两冗余算法 两两冗余法算法是把去除无关基因后得到的基因按RFSC值降序排序,利用相关 系数法逐一判断两基因是否为强相关,若计算所得的相关系数大于给定阈值 ,则认为两基因强相关,进而 认为两基因提供的信息冗余,并把RFSC值较小的基因删除,从而实现去除冗余基因的目的. 利用两两冗余法去除冗余基因后,仍然会漏掉很大一部分冗余基因.假设有基因组G一{g ,g ,g } (g 代表第i个基因),该基因组已按RFSC值降序排列,即RFSC(g )>RFSC(g,)>RFSC(g ).若给定 阈值 一O.9,首先计算g 和g,的相关系数,得ID 一0.905,大于阈值 ,则删除g,;然后计算g 和g 的相 关系数P 一0.899,小于阈值 ,则两基因都保留.最终基因组为G 一{g ,g }. 但若将每两个基因的相关系数都计算出来,就会发现g 和g 可能也是强相关的.假设ID =0.903,这 样就可以认为3个基因都是相似基因,只保留RFSC值最高的即可,所以最终基因组应为G 一{g }. 1.2.2 SCT算法 为了弥补了两两冗余算法的不足,本文在去除冗余基因时,用强相关树(SCT)法代替两 两冗余法,将基因组中所有强相关基因都找出来,最终只保留RFSC值最高的基因.SCT算法的步骤如下: (1)求出基因组G=={g ,gz,…,g }中两两基因的相关系数 j,得到相关系数矩阵 0 1 l P g D lg M::l  -P z   l P g  D : ● (3) p《kg  (2)为每个基因设置初始标记sign(g )一0.当该基因成为某树型结构的成员后,其标记sign(g )设 置为1, (3)构建树型结构,将基因组中的g 作为树的根结点,其标记sign(g )一1. (4)将M矩阵第l行中所有与g 强相关的基因都找出来,sign值设为1,并将其作为树型结构的第2层. (5)同理,再逐一寻找与第2层基因强相关,且sign值为0的基因,作为树型结构的第3层. (6)依次类推,直到再也找不出与树型结构中任何一个基因强相关,且sign==O的基因为止.一棵强相关 树构建完毕,只保留该树中RFSC值最大的g ,其余基因视为冗余基因去除. (7)接着寻找基因组中sign==0且RFSC最大的基因,作为另一棵树的根结点,将其标记sign设为1. (8)按照(3)~(6)步骤中的方法不断重复,直到所有基因的sign值都为1为止. 与两两冗余法相比,用SCT方法能够去除更多的冗余基因,为接下来的分类测试提供了更具有代表性 的基因信息,使分类测试过程更容易. 2 CSVM分类器 CSVM作为非常传统的分类器,在处理肿瘤样本较少、基因维数又较高的数据集时,表现出了极好的分 类性能[7],分类算法如下. 给定数据集{ ,Y },正常样本与肿瘤样本用分类标签Y 一{一1,+1}区分,其最优问题表示为 _ in百1叫 .叫+C∑ , 
第6期 哈立原等:利用相关系数矩阵M构建SCT算法研究 砌。 +6 ≥ 一 , S.t. . 
. (4) L4    ≥0,i—l,…, . 其中C是惩罚参数,£是松弛变量. 最优判别函数为 z)=sgn(∑n  K( , )+b), .0≤a ≤C. =l 5) 3 应用实例 选择Khan[ 提供的肿瘤数据集进行对比实验,该数据集中共有27个样本,其中16个为正常样本, 11个为肿瘤样本,每个样本中有3467个基因.基因表达数据处理过程如下: (1)利用RFSC法去除无关基因. (2)利用STC法去除冗余基因,并与两两冗余法 进行实验对比. (3)分类测试,利用传统的csVM对(2)中两种不 U  理 同方法得到的基因组进行分类测试. 3.1 用RFSC法去除无关基因 复 L ■■■■-. 根据RFSC方法得到的基因分值简称为“RFSC 值”.3467个基因的RFSC值按降序排列后如图1所 示,其中RFSC值为0.5~2.1的基因个数只有206 基因个数 图1 3467个基因的RFSC值 Fig,1 RFSC value of 3467 genes 个,占基因总数的5.94 ,大部分基因的RFSC值都趋 近于0.RFSC值在0,5~2.1范围内的206个基因,它 3.2去除冗余基因的对比实验 们突变的可能性较高,所以只把这206个基因留下,其余均作为无关基因去除, 分别利用本文提出的SCT法和两两冗余法对剩余的2o6个基因进行冗余基因去除,然后利用CSVM 分类器对最终的样本集进行分类测试,实验结果见表1.表1的测试结果表明,在同一阈值 下,两两冗余法 仅能去除一部分冗余基因,并且在最终的分类测试中,分类准确度仅为8o ~90 ,所以未去除的冗余基因 将干扰最终的分类效果.本文提出的SCT法可以去除更多的冗余基因,而且分类准确度也比较高,如 —0.85时,仅剩余25个基因,最终分类准确度可达100 . 表1 SCT法和两两冗余法的去冗余对比结果 Tab.1 The comparison results of SCT method and two—two redundancy method 4 小结 快速有效地区分肿瘤样本,并为临床进一步分析、鉴别和研究提供重署依据是当前研究的重点。在区分 肿瘤与正常样本的过程中,维数过多的基因表达数据会影响最终的分类效果,从而导致临床的判断失误,针 对这一情况,在去除冗余基因的过程中,本文提出一种强相关树(SET)算法,该算法能够去除更多的冗余基 因,并在最终的分类测试中取得了良好的效果.与两两冗余法的对比实验结果表明,本文提出的SCT法戛加 合理和有效. 
・ 76O ・ 内蒙古师范大学学报(自然科学汉文版) 第44卷 参考文献: Eli陆慧娟,安春霖.基于输出不一致测度的极限学习机集成的基因表达数据分类IJ].计算机学报,2013,36(2):341—348. E2]李颖新,阮晓钢.基于支持向量机的肿瘤分类特征基因选取[J].计算机研究与发展,2005,42(10):1796—1801. [3]焦娜,苗夺谦.基于相容关系的基因选择方法[J].计算机科学,2010,37(10):217—220. 4] 曾理,成杰峰.使用分布式De Bruin图遍历基因拼接并行构建和化简J].软件学报,2013,24(s2):140—149. [5]谢娟英,高红超.基于统计相关性与K—means的区分基因子集选择算法IJ].软件学报,2014,25(9):2050—2075. [6]朱新山,丁杰.一种采用随机归一化相关系数调制的量化水印[J].计算机学报,2O12,35(9):1959—1970. [7]谢娟英,谢维信.基于特征子集区分度与支持向量机的特征选择算法J].计算机学报,2014,37(8):1704—1718. [8]Khan.肿瘤基因组学实验室[EB/()I ].E2Ol5-05—15].htp://home.ccr.cancer.gov/oncology/oncogenomics/. Research on Constructing SCT Algorithm from Correlation Coefficient Matrix M HA Li—yuan,ZHANG Yan。BAI Feng—wei (Department of Inf)rmation Technology Engineering,Xilingol Vocational College,Xilinhot 026000,InnerMongolia,China) Abstract:In the process of identifying the tumor and normal samples,dimension of gene expression data will affect the final classification result.In view of the situation,in the process of removing redundant genes,we use correlation coefficient matrix M to construct a strong correlation tree,SO that we can get the Strong Correlation Tree algorithm(SCT).Comparative experimental results show that the proposed SCT method can remove more redundant genes,SO as to make the final result more accurate. Key words:correlation coefficient;correlation coefficient matrix;strong correlation tree;gene expres— sion data 【责任编辑陈汉忠】 (上接第756页) Boundedness of Solutions to Neutral Functional Differential Equations HAI Hong (TheChines People’5Armed Pol Forc Academy,Langfang 065000,Hebei,China) Abstract:The boundedness of solutions to neutral functional differential equations with infinite delay s studied in the phase space(c 1.1 )by Liapunov functonal method.It has been proved that the expo nentially asymptotic stability of solutions implies the existence of bounded solutions,and the theorem of the existence of bounded solutions iS established. Key words:infinite delay;neutral functional differential equations;exponentially asymptotic stability; boundedness 【责任编辑陈汉忠】 

本文来源:https://www.2haoxitong.net/k/doc/b106908906a1b0717fd5360cba1aa81145318f33.html

《正在进行安全检测....doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式

相关推荐