首页 > 正在进行安全检测...

正在进行安全检测...

发布时间：1714323773 来源：文档文库

小中大

字号：

手机查看

第４４卷第６期　２０１５年ｉ１月　内蒙古师范大学学报（自然科学汉文版）　Ｊｏｕｒｎａｌ　ｏｆ　Ｉｎｎｅｒ　Ｍｏｎｇｏｌｉａ　Ｎｏｒｍａｌ　Ｕｎｉｖｅｒｓｉｔｙ（Ｎａｔｕｒａｌ　Ｓｃｉｅｎｃｅ　Ｅｄｉｔｉｏｎ）　Ｖ０１．４４　Ｎｏ．６　ＮＯＶ．２Ｏ１５　利用相关系数矩阵Ｍ构建ＳＣＴ算法研究　哈立原，张　岩，白凤伟　（锡林郭勒职业学院信息技术工程系，内蒙古锡林浩特０２６０００）　摘要：在区分肿瘤样本与正常样本的过程中，维数过多的基因表达数据会影响最终的分类结果．针对这一　情况，在去除冗余基因的过程中，利用相关系数矩阵Ｍ构建强相关树，得到一种去除冗余基因的强相关树　（Ｓｔｒｏｎｇ　Ｃｏｒｒｅｌａｔｉｏｎ　Ｔｒｅｅ，ＳＣＴ）算法．实验结果表明，ＳＣＴ算法能够去除更多的冗余基因，使最终的分类结果更加　准确．　关键词：相关系数；相关系数矩阵；强相关树；基因表达数据　中图分类号：０　２４３；０　２９　文献标志码：Ａ　文章编号：１００１—８７３５（２０１５）０６—０７５７－－０４　基因芯片技术的出现，为人们进一步认识、研究基因和寻找基因之间的关系提供了有力的支持．利用基　因芯片技术，可以得到高维的基因表达数据＿１］，这对肿瘤特别是恶性肿瘤（癌症）的快速鉴别和分析有非常重　要的意义．但面对庞大的数据又让人感到无从下手，哪些基因的表达数据异常，哪些基因共同作用最终导致　样本异常等，都是需要解决的问题．为此，国内外许多学者纷纷加入基因表达数据的研究中，希望找到一种有　效的方法，在庞大的数据中将具有代表性的一小部分异常基因找出来．这些具有代表性的一小部分异常基因　可以看做提供有用信息的基因，称为“肿瘤有效基因”，那些大部分正常的，以及仅能提供少量信息或重复信　息的基因，称为“无关基因”．寻找肿瘤有效基因的过程称为“肿瘤有效基因选择”，选择过程主要由去除无关　基因和去除冗余基因两部分组成．李颖新等［２　提出的“修订的特征记分准则（Ｒｅｖｉｓｅｄ　Ｆｅａｔｕｒｅ　Ｓｃｏｒｅ　Ｃｒｉｔｅｒｉ—　ｏｎ，ＲＦＳＣ）”方法具有较好的效果，但测试发现，在去除冗余基因过程中，使用的两两冗余法还存在一些缺　陷．本文在去除无关基因时使用李颖新提出的方法，而在去除冗余基因时，提出一种新的方法来代替两两冗　余法。称为“强相关树法（Ｓｔｒｏｎｇ　Ｃｏｒｒｅｌａｔｉｏｎ　Ｔｒｅｅ，ＳＣＴ）”。对比实验表明，强相关树法能够去除更多的冗余　基因，从而得到最有代表性的～小部分异常基因，为进一步分类测试提供更有代表性的信息，使分类测试过　程变得更容易．　１　肿瘤基因表达的数据处理　利用基因芯片技术得到的基因表达数据可描述为　。］　Ｇ＝＝　其中：　代表第ｉ个样本的第Ｊ个基因（共　个样本，每个样本中有　个基因）；Ｃ　代表样本的类别（正常样　本或患病样本）．　１．１　去除无关基因　ＲＦＳＣ方法Ｌ２］在去除无关基因环节得到了比较理想的效果，具体算法为　ＲＦＳＣ（　）一　收稿日期：２０１５－０３—０９　＋　Ｉｎ（咚±壶），　（２）　基金项目：内蒙古自然科学基金资助项目（２０１３ＭＳＯ１１６）　作者简介：哈立原（１９６４一），男，内蒙古锡林浩特市人，锡林郭勒职业学院副教授，主要从事数据挖掘研究　
内蒙古师范大学学报（自然科学汉文版）　第４４卷　其中：Ｓ代表某个基因；ｇ　为所有正常样本第Ｓ个基因的表达数据，ｇ为所有肿瘤样本第Ｓ个基因的表达数　据；　表示正常样本第　个基因的均值，　表示肿瘤样本第ｓ个基因的均值；　表示正常样本的标准差，　表示肿瘤样本的标准差．　利用该算法，每个基因都会得到一个分值，分值越高，表示该基因突变的几率越高，所提供的信息量就越　大　．文献Ｅ２］将得到的所有分值进行降序，保留分值最高的一小部分基因，剩余的作为无关基因去除掉．　１．２　去除冗余基因　去除无关基因后剩余的基因几乎都是突变基因，但其中有很多基因所提供的信息存在重复性，即冗余信　息，这样的基因称为冗余基因．冗余基因的存在会影响整体样本的分类准确度，还会影响临床医学研究的诊　断效果．　１．２．１　两两冗余算法　两两冗余法算法是把去除无关基因后得到的基因按ＲＦＳＣ值降序排序，利用相关　系数法逐一判断两基因是否为强相关，若计算所得的相关系数大于给定阈值　，则认为两基因强相关，进而　认为两基因提供的信息冗余，并把ＲＦＳＣ值较小的基因删除，从而实现去除冗余基因的目的．　利用两两冗余法去除冗余基因后，仍然会漏掉很大一部分冗余基因．假设有基因组Ｇ一｛ｇ　，ｇ　，ｇ　｝　（ｇ　代表第ｉ个基因），该基因组已按ＲＦＳＣ值降序排列，即ＲＦＳＣ（ｇ　）＞ＲＦＳＣ（ｇ，）＞ＲＦＳＣ（ｇ　）．若给定　阈值　一Ｏ．９，首先计算ｇ　和ｇ，的相关系数，得ＩＤ　一０．９０５，大于阈值　，则删除ｇ，；然后计算ｇ　和ｇ　的相　关系数Ｐ　一０．８９９，小于阈值　，则两基因都保留．最终基因组为Ｇ　一｛ｇ　，ｇ　｝．　但若将每两个基因的相关系数都计算出来，就会发现ｇ　和ｇ　可能也是强相关的．假设ＩＤ　＝０．９０３，这　样就可以认为３个基因都是相似基因，只保留ＲＦＳＣ值最高的即可，所以最终基因组应为Ｇ　一｛ｇ　｝．　１．２．２　ＳＣＴ算法　为了弥补了两两冗余算法的不足，本文在去除冗余基因时，用强相关树（ＳＣＴ）法代替两　两冗余法，将基因组中所有强相关基因都找出来，最终只保留ＲＦＳＣ值最高的基因．ＳＣＴ算法的步骤如下：　（１）求出基因组Ｇ＝＝＝｛ｇ　，ｇｚ，…，ｇ　｝中两两基因的相关系数　ｊ，得到相关系数矩阵　ｌｌ０　１　ｌ　Ｐ　ｇ２　ｌＤ　ｌｇ　Ｍ：：ｌ‘。　２　－Ｐ　ｚ　。　｛ｌＤ　ｌ　Ｐ　ｇ　２　ｌＤ　：　●　（３）　ｐ《ｋｇ　ｋ　（２）为每个基因设置初始标记ｓｉｇｎ（ｇ　）一０．当该基因成为某树型结构的成员后，其标记ｓｉｇｎ（ｇ　）设　置为１，　（３）构建树型结构，将基因组中的ｇ　作为树的根结点，其标记ｓｉｇｎ（ｇ　）一１．　（４）将Ｍ矩阵第ｌ行中所有与ｇ　强相关的基因都找出来，ｓｉｇｎ值设为１，并将其作为树型结构的第２层．　（５）同理，再逐一寻找与第２层基因强相关，且ｓｉｇｎ值为０的基因，作为树型结构的第３层．　（６）依次类推，直到再也找不出与树型结构中任何一个基因强相关，且ｓｉｇｎ＝＝＝Ｏ的基因为止．一棵强相关　树构建完毕，只保留该树中ＲＦＳＣ值最大的ｇ　，其余基因视为冗余基因去除．　（７）接着寻找基因组中ｓｉｇｎ＝＝＝０且ＲＦＳＣ最大的基因，作为另一棵树的根结点，将其标记ｓｉｇｎ设为１．　（８）按照（３）～（６）步骤中的方法不断重复，直到所有基因的ｓｉｇｎ值都为１为止．　与两两冗余法相比，用ＳＣＴ方法能够去除更多的冗余基因，为接下来的分类测试提供了更具有代表性　的基因信息，使分类测试过程更容易．　２　ＣＳＶＭ分类器　ＣＳＶＭ作为非常传统的分类器，在处理肿瘤样本较少、基因维数又较高的数据集时，表现出了极好的分　类性能［７］，分类算法如下．　给定数据集｛　，Ｙ　｝，正常样本与肿瘤样本用分类标签Ｙ　一｛一１，＋１｝区分，其最优问题表示为　＿　ａｉｎ百１ｒ叫　．叫＋Ｃ∑　，　
第６期　哈立原等：利用相关系数矩阵Ｍ构建ＳＣＴ算法研究　砌。　＋６　≥　一　，　Ｓ．ｔ．　．　．　（４）　Ｌ４　Ｊ　Ｉ　ｌ　：≥０，ｉ—ｌ，…，　．　其中Ｃ是惩罚参数，￡是松弛变量．　最优判别函数为　（ｚ）＝ｓｉｇｎ（∑ｎ　Ｙ　Ｋ（ｚ　，　）＋ｂ），　ｓ．ｔ．０≤ａ　≤Ｃ．　＝ｌ　（５）　３　应用实例　选择Ｋｈａｎ［８　提供的肿瘤数据集进行对比实验，该数据集中共有２７个样本，其中１６个为正常样本，　１１个为肿瘤样本，每个样本中有３４６７个基因．基因表达数据处理过程如下：　（１）利用ＲＦＳＣ法去除无关基因．　（２）利用ＳＴＣ法去除冗余基因，并与两两冗余法　进行实验对比．　（３）分类测试，利用传统的ｃｓＶＭ对（２）中两种不　Ｕ　∞　理　同方法得到的基因组进行分类测试．　３．１　用ＲＦＳＣ法去除无关基因　复　Ｌ　■■■■－．　根据ＲＦＳＣ方法得到的基因分值简称为“ＲＦＳＣ　值”．３４６７个基因的ＲＦＳＣ值按降序排列后如图１所　示，其中ＲＦＳＣ值为０．５～２．１的基因个数只有２０６　基因个数　图１　３４６７个基因的ＲＦＳＣ值　Ｆｉｇ，１　ＲＦＳＣ　ｖａｌｕｅ　ｏｆ　３４６７　ｇｅｎｅｓ　个，占基因总数的５．９４　，大部分基因的ＲＦＳＣ值都趋　近于０．ＲＦＳＣ值在０，５～２．１范围内的２０６个基因，它　３．２去除冗余基因的对比实验　们突变的可能性较高，所以只把这２０６个基因留下，其余均作为无关基因去除，　分别利用本文提出的ＳＣＴ法和两两冗余法对剩余的２ｏ６个基因进行冗余基因去除，然后利用ＣＳＶＭ　分类器对最终的样本集进行分类测试，实验结果见表１．表１的测试结果表明，在同一阈值　下，两两冗余法　仅能去除一部分冗余基因，并且在最终的分类测试中，分类准确度仅为８ｏ　～９０　，所以未去除的冗余基因　将干扰最终的分类效果．本文提出的ＳＣＴ法可以去除更多的冗余基因，而且分类准确度也比较高，如　—０．８５时，仅剩余２５个基因，最终分类准确度可达１００　．　表１　ＳＣＴ法和两两冗余法的去冗余对比结果　Ｔａｂ．１　Ｔｈｅ　ｃｏｍｐａｒｉｓｏｎ　ｒｅｓｕｌｔｓ　ｏｆ　ＳＣＴ　ｍｅｔｈｏｄ　ａｎｄ　ｔｗｏ—ｔｗｏ　ｒｅｄｕｎｄａｎｃｙ　ｍｅｔｈｏｄ　４　小结　快速有效地区分肿瘤样本，并为临床进一步分析、鉴别和研究提供重署依据是当前研究的重点。在区分　肿瘤与正常样本的过程中，维数过多的基因表达数据会影响最终的分类效果，从而导致临床的判断失误，针　对这一情况，在去除冗余基因的过程中，本文提出一种强相关树（ＳＥＴ）算法，该算法能够去除更多的冗余基　因，并在最终的分类测试中取得了良好的效果．与两两冗余法的对比实验结果表明，本文提出的ＳＣＴ法戛加　合理和有效．　
・　７６Ｏ　・　内蒙古师范大学学报（自然科学汉文版）　第４４卷　参考文献：　Ｅｌｉ陆慧娟，安春霖．基于输出不一致测度的极限学习机集成的基因表达数据分类Ｉ－Ｊ］．计算机学报，２０１３，３６（２）：３４１—３４８．　Ｅ２］李颖新，阮晓钢．基于支持向量机的肿瘤分类特征基因选取［Ｊ］．计算机研究与发展，２００５，４２（１０）：１７９６—１８０１．　［３］焦娜，苗夺谦．基于相容关系的基因选择方法［Ｊ］．计算机科学，２０１０，３７（１０）：２１７—２２０．　Ｉ－４］　曾理，成杰峰．使用分布式Ｄｅ　Ｂｒｕｉｊｎ图遍历基因拼接并行构建和化简［Ｊ］．软件学报，２０１３，２４（ｓ２）：１４０—１４９．　［５］谢娟英，高红超．基于统计相关性与Ｋ—ｍｅａｎｓ的区分基因子集选择算法Ｉ－Ｊ］．软件学报，２０１４，２５（９）：２０５０—２０７５．　［６］朱新山，丁杰．一种采用随机归一化相关系数调制的量化水印［Ｊ］．计算机学报，２Ｏ１２，３５（９）：１９５９—１９７０．　［７］谢娟英，谢维信．基于特征子集区分度与支持向量机的特征选择算法Ｉ－Ｊ］．计算机学报，２０１４，３７（８）：１７０４—１７１８．　［８］Ｋｈａｎ．肿瘤基因组学实验室［ＥＢ／（）Ｉ　］．Ｅ２Ｏｌ５－０５—１５］．ｈｔｔｐ：／／ｈｏｍｅ．ｃｃｒ．ｃａｎｃｅｒ．ｇｏｖ／ｏｎｃｏｌｏｇｙ／ｏｎｃｏｇｅｎｏｍｉｃｓ／．　Ｒｅｓｅａｒｃｈ　ｏｎ　Ｃｏｎｓｔｒｕｃｔｉｎｇ　ＳＣＴ　Ａｌｇｏｒｉｔｈｍ　ｆｒｏｍ　Ｃｏｒｒｅｌａｔｉｏｎ　Ｃｏｅｆｆｉｃｉｅｎｔ　Ｍａｔｒｉｘ　Ｍ　ＨＡ　Ｌｉ—ｙｕａｎ，ＺＨＡＮＧ　Ｙａｎ。ＢＡＩ　Ｆｅｎｇ—ｗｅｉ　（Ｄｅｐａｒｔｍｅｎｔ　ｏｆ　Ｉｎｆｉ）ｒｍａｔｉｏｎ　Ｔｅｃｈｎｏｌｏｇｙ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｘｉｌｉｎｇｏｌ　Ｖｏｃａｔｉｏｎａｌ　Ｃｏｌｌｅｇｅ，Ｘｉｌｉｎｈｏｔ　０２６０００，ＩｎｎｅｒＭｏｎｇｏｌｉａ，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｉｎ　ｔｈｅ　ｐｒｏｃｅｓｓ　ｏｆ　ｉｄｅｎｔｉｆｙｉｎｇ　ｔｈｅ　ｔｕｍｏｒ　ａｎｄ　ｎｏｒｍａｌ　ｓａｍｐｌｅｓ，ｄｉｍｅｎｓｉｏｎ　ｏｆ　ｇｅｎｅ　ｅｘｐｒｅｓｓｉｏｎ　ｄａｔａ　ｗｉｌｌ　ａｆｆｅｃｔ　ｔｈｅ　ｆｉｎａｌ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ　ｒｅｓｕｌｔ．Ｉｎ　ｖｉｅｗ　ｏｆ　ｔｈｅ　ｓｉｔｕａｔｉｏｎ，ｉｎ　ｔｈｅ　ｐｒｏｃｅｓｓ　ｏｆ　ｒｅｍｏｖｉｎｇ　ｒｅｄｕｎｄａｎｔ　ｇｅｎｅｓ，ｗｅ　ｕｓｅ　ｃｏｒｒｅｌａｔｉｏｎ　ｃｏｅｆｆｉｃｉｅｎｔ　ｍａｔｒｉｘ　Ｍ　ｔｏ　ｃｏｎｓｔｒｕｃｔ　ａ　ｓｔｒｏｎｇ　ｃｏｒｒｅｌａｔｉｏｎ　ｔｒｅｅ，ＳＯ　ｔｈａｔ　ｗｅ　ｃａｎ　ｇｅｔ　ｔｈｅ　Ｓｔｒｏｎｇ　Ｃｏｒｒｅｌａｔｉｏｎ　Ｔｒｅｅ　ａｌｇｏｒｉｔｈｍ（ＳＣＴ）．Ｃｏｍｐａｒａｔｉｖｅ　ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔｓ　ｓｈｏｗ　ｔｈａｔ　ｔｈｅ　ｐｒｏｐｏｓｅｄ　ＳＣＴ　ｍｅｔｈｏｄ　ｃａｎ　ｒｅｍｏｖｅ　ｍｏｒｅ　ｒｅｄｕｎｄａｎｔ　ｇｅｎｅｓ，ＳＯ　ａｓ　ｔｏ　ｍａｋｅ　ｔｈｅ　ｆｉｎａｌ　ｒｅｓｕｌｔ　ｍｏｒｅ　ａｃｃｕｒａｔｅ．　Ｋｅｙ　ｗｏｒｄｓ：ｃｏｒｒｅｌａｔｉｏｎ　ｃｏｅｆｆｉｃｉｅｎｔ；ｃｏｒｒｅｌａｔｉｏｎ　ｃｏｅｆｆｉｃｉｅｎｔ　ｍａｔｒｉｘ；ｓｔｒｏｎｇ　ｃｏｒｒｅｌａｔｉｏｎ　ｔｒｅｅ；ｇｅｎｅ　ｅｘｐｒｅｓ—　ｓｉｏｎ　ｄａｔａ　【责任编辑陈汉忠】　（上接第７５６页）　Ｂｏｕｎｄｅｄｎｅｓｓ　ｏｆ　Ｓｏｌｕｔｉｏｎｓ　ｔｏ　Ｎｅｕｔｒａｌ　Ｆｕｎｃｔｉｏｎａｌ　Ｄｉｆｆｅｒｅｎｔｉａｌ　Ｅｑｕａｔｉｏｎｓ　ＨＡＩ　Ｈｏｎｇ　（ＴｈｅＣｈｉｎｅｓｅ　Ｐｅｏｐｌｅ’５Ａｒｍｅｄ　Ｐｏｌｉｃｅ　Ｆｏｒｃｅ　Ａｃａｄｅｍｙ，Ｌａｎｇｆａｎｇ　０６５０００，Ｈｅｂｅｉ，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｔｈｅ　ｂｏｕｎｄｅｄｎｅｓｓ　ｏｆ　ｓｏｌｕｔｉｏｎｓ　ｔｏ　ｎｅｕｔｒａｌ　ｆｕｎｃｔｉｏｎａｌ　ｄｉｆｆｅｒｅｎｔｉａｌ　ｅｑｕａｔｉｏｎｓ　ｗｉｔｈ　ｉｎｆｉｎｉｔｅ　ｄｅｌａｙ　ｉｓ　ｓｔｕｄｉｅｄ　ｉｎ　ｔｈｅ　ｐｈａｓｅ　ｓｐａｃｅ（ｃ　１．１　）ｂｙ　Ｌｉａｐｕｎｏｖ　ｆｕｎｃｔｉｏｎａｌ　ｍｅｔｈｏｄ．Ｉｔ　ｈａｓ　ｂｅｅｎ　ｐｒｏｖｅｄ　ｔｈａｔ　ｔｈｅ　ｅｘｐｏ　ｎｅｎｔｉａｌｌｙ　ａｓｙｍｐｔｏｔｉｃ　ｓｔａｂｉｌｉｔｙ　ｏｆ　ｓｏｌｕｔｉｏｎｓ　ｉｍｐｌｉｅｓ　ｔｈｅ　ｅｘｉｓｔｅｎｃｅ　ｏｆ　ｂｏｕｎｄｅｄ　ｓｏｌｕｔｉｏｎｓ，ａｎｄ　ｔｈｅ　ｔｈｅｏｒｅｍ　ｏｆ　ｔｈｅ　ｅｘｉｓｔｅｎｃｅ　ｏｆ　ｂｏｕｎｄｅｄ　ｓｏｌｕｔｉｏｎｓ　ｉＳ　ｅｓｔａｂｌｉｓｈｅｄ．　Ｋｅｙ　ｗｏｒｄｓ：ｉｎｆｉｎｉｔｅ　ｄｅｌａｙ；ｎｅｕｔｒａｌ　ｆｕｎｃｔｉｏｎａｌ　ｄｉｆｆｅｒｅｎｔｉａｌ　ｅｑｕａｔｉｏｎｓ；ｅｘｐｏｎｅｎｔｉａｌｌｙ　ａｓｙｍｐｔｏｔｉｃ　ｓｔａｂｉｌｉｔｙ；　ｂｏｕｎｄｅｄｎｅｓｓ　【责任编辑陈汉忠】　

本文来源：https://www.2haoxitong.net/k/doc/b106908906a1b0717fd5360cba1aa81145318f33.html

《正在进行安全检测....doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式

相

关

案

例

正在进行安全检测...

相关推荐

推荐内容