分类数据常用统计方法
在科研数据的统计分析中,经常会遇到分类数据。分类数据包括计数资料和等级资料,两者都是将观察指标分类(组),然后统计每一类(组)数目所得到的数据,区别是如果观察指标的分类是无序的则为计数资料,也叫定性资料或无序分类变量;如果观察指标的分类是有序的,则为等级资料,也叫有序分类数据。如调查某人群的血型分布,按照A、B、AB与O四型分组,计数所得该人群的各血型组的人数就是计数资料(因为A、B、AB与O血型之间是平等的,并没有度或量的差异);观察用某药治疗某病患者的疗效,以患者为观察单位,结果可分为治愈、显效、好转、无效四级,然后对该病的患者,分别计数治愈、显效、无效、好转的人数则为等级数据(因为无效的疗效最差、次之为好转、治愈的疗效最好,它们之间有度或者量的区别)。分类数据进行统计分析时要列成表格,根据表格中分组变量和指标变量的性质、样本含量()和理论频数()的大小以及分析的目的,所用的统计方法是不一样的。下面通过一些有代表性的例子来介绍分类数据常用的统计分析方法。
一、2×2表
2×2表也叫四格表。在实验研究中,将研究对象分为2组进行实验,实验只有2种可能的结果,如阳性与阴性,故叫2×2表;因为基本数据只有4个,所以也叫四格表。根据不同的实验安排,四格表又分为完全随机设计四格表和配对设计四格表。
表1 某抗生素的人群耐药性情况
用药史 | 不敏感 | 敏感 | 合计 | 耐药率(%) |
曾服该药 | 180(174.10) | 215(220.90) | 395 | 45.57 |
未服该药 | 73(78.90) | 106(100.10) | 179 | 40.78 |
合计 | 253 | 321 | 574 | 44.08 |
表1 为完全随机设计四格表。其目的是要比较曾服该抗生素的人群和未曾服过该抗生素的人群,对该抗生素的耐药率有无差异。表格中的四个基本数据(也叫实际频数)分别为180、215、73、106;括号中的四个数据(174.10、220.90、78.90、100.10)为四个理论频数(),因且四个理论频数()均大于5,故应用Pearson检验。经(SPSS 11.0,以下同)计算=1.145,P=0.285>0.05,故可认为曾服过该抗生素的人群和未曾服过该抗生素的人群对该抗生素的耐药率无差异。
表2 两个年级大学生的近视眼患病率比较
年级 | 近视 | 非近视 | 合计 | 近视率(%) |
四年级 | 2(4.67) | 26(23.33) | 28 | 7.14 |
五年级 | 5(2.33) | 9(11.69) | 14 | 35.71 |
合计 | 7 | 35 | 42 | 16.67 |
表2也为完全随机设计四格表。虽但有两个格子的理论频数比1大比5小,此时需对进行连续性校正(因为理论频数太小,会导致增大,易出现错误的有差异的结论)。经计算,连续性校正的=3.621,P=0.057>0.05,可认为大学四年级与大学5年级学生近视眼的患病率无差异。如果不用连续性校正的检验,则=5.486,P=0.019<0.05,则会得出五年级大学生近视眼的患病率高于四年级大学生的错误结论。
表3 两种疗法对腰椎间盘脱出症的疗效
疗法 | 治愈 | 未治愈 | 合计 | 治愈率(%) |
新疗法 | 7 | 2 | 9 | 77.78 |
保守疗法 | 2 | 6 | 8 | 25.00 |
合计 | 9 | 8 | 17 | 52.94 |
表3也为完全随机设计四格表。因=17<40(或有理论频数小于1),即使采用校正公式计算也会有偏差,此时应采用四格表的Fisher确切检验法。经计算P=0.057>0.05,故认为新疗法与保守疗法对腰椎间盘脱出症的治愈率无差异。
表4 198份痰液标本分别用A、B两种培养基的培养结果
A培养基 | B培养基 | 合计 | |
+ | - | ||
+ | 48 | 24 | 72 |
- | 20 | 106 | 126 |
合计 | 68 | 130 | 198 |
表4为配对设计四格表。A、B两种培养基对同一份标本的培养结果视为对子数据,故为配对设计。欲分析A、B两种培养基的培养结果有无差异,应用配对四格表(也叫McNemar)检验。经计算P=0.652>0.05,故认为A、B两种培养基的培养结果无差异。
表5 三个不同地区血型样本的频数分布
地区 | A | B | AB | O | 合计 |
亚洲 | 321 | 369 | 95 | 295 | 1080 |
欧洲 | 258 | 43 | 22 | 194 | 517 |
北美洲 | 408 | 106 | 37 | 444 | 995 |
合计 | 987 | 518 | 154 | 933 | 2592 |
表5为完全随机设计的R×C表。与四格表不同的是:表5的行或列均超过2,此类表格统称为行×列表,也叫R×C表。四格表也可以视为行(或R)=2,列(或C)=2的行×列表。此表因为结果变量(血型)为多分类,故属于多个构成比的比较。欲分析不同地区人群的血型分布构成有无差异,应用Pearson检验。经计算=297.375,P=0.000<0.05,可认为三地区人群的血型分布构成有差异。经进一步分析,发现亚洲地区A(29.7%)、B(34.2%)和O(27.3%)血型的人比较多,欧洲和北美洲A(分别为49.9%和41%)和O(分别为37.5%和44.6%)血型的人比较多。
表6 三组药物治疗失眠的有效率
组别 | 有效 | 无效 | 合计 | 有效率(%) |
新 药 | 6 | 42 | 48 | 12.50 |
传统药 | 11 | 26 | 37 | 29.73 |
安慰剂 | 29 | 8 | 37 | 78.38 |
合 计 | 46 | 76 | 122 | 37.70 |
表6也为完全随机设计R×C表,因结果变量为药物的疗效,分为有效和无效,属于2分类变量,故属于多个率的比较。欲分析不同药物治疗失眠的有效率有无差异,也用Pearson检验。经计算=40.044,P=0.000<0.05,可认为三种药物治疗失眠的有效率有差异。经进一步分析,发现安慰剂治疗失眠的效果最佳。
表7 某地5801人的血型
ABO血型 | MN血型 | 合计 | ||
M | N | MN | ||
O | 431 | 490 | 902 | 1823 |
A | 388 | 410 | 800 | 1598 |
B | 495 | 587 | 950 | 2032 |
AB | 137 | 179 | 32 | 348 |
合计 | 1451 | 1666 | 2684 | 5801 |
表7为双向无序的表格(即ABO血型无等级差别,MN血型也无等级差别)。此表的试验设计类似于配对设计(同一观察对象同时观察两个属性。即同一人既观察ABO血型,又观察MN血型)。欲分析ABO血型系统与MN血型系统之间有无关联,应先做Pearson检验, =213.626,P=0.000<0.05,可认为ABO血型系统与MN血型系统之间有关联。进一步计算列联系数C=0.188,因列联系数(和1相比)不大,故可认为虽然ABO血型系统与MN血型系统之间虽有关联,但联系不是很密切。
表8 三种药物疗效的观察结果
药物 | 疗效 | 合计 | |||
无效 | 好转 | 显效 | 治愈 | ||
A药 | 5 | 31 | 49 | 15 | 100 |
B药 | 22 | 50 | 9 | 4 | 85 |
C药 | 24 | 45 | 15 | 1 | 85 |
合计 | 51 | 126 | 73 | 20 | 270 |
表8为单项有序列联表(即分组变量为药物,为无序分类变量,结果变量为药物的疗效,为有等级顺学的等级变量)。欲分析不同药物的疗效有无差异,应用秩和检验而不能像表5那样用检验。其理由为:如果用检验,则认为疗效的四个等级(无效,好转、显效和无效)之间是平等的,无等级差别,显然是不正确的。经秩和检验得H=61.146,P=0.000<0.05,可认为A、B、C药物的疗效有差异。经进一步分析得A药的疗效最好(95%)。
表9 眼晶状体浑浊度与年龄的关系
年龄 | 晶状体浑浊程度 | 合计 | ||
+ | ++ | +++ | ||
20~ | 215 | 67 | 44 | 326 |
30~ | 131 | 101 | 63 | 295 |
40~ | 148 | 128 | 132 | 408 |
合计 | 494 | 296 | 239 | 1029 |
表9为双向有序属性不同的表格(年龄有等级顺序,眼晶状体浑浊程度有等级顺序)。欲分析不同年龄组眼晶状体浑浊程度有无差异,可把年龄看做无序变量,做秩和检验,经计算得H=68.078,P=0.000<0.05,可认为不同年龄组眼晶状体浑浊程度有差异,经进一步分析得年龄在20~的眼晶状体+所占比例最多(66%);如果欲分析年龄与晶状体浑浊程度之间有无关联,则用Spearman等级相关分析。经计算得=0.253,P=0.000<0.05,可认为年龄与眼晶状体浑浊程度相关,也即年龄越大,眼晶状体浑浊程度越高。
表10 两法检查147例冠心病人室壁收缩运动的符合情况
对比法 | 核素法 | 合计 | ||
正常 | 减弱 | 异常 | ||
正常 | 58 | 2 | 3 | 63 |
减弱 | 1 | 42 | 7 | 50 |
异常 | 8 | 9 | 17 | 34 |
合计 | 67 | 53 | 27 | 147 |
表10为双向有序并且属性相同的表格。此类表格的特点是双向均为按等级分类,且分类属性相同。欲分析两种方法检查结果是否一致,应做一致性(Kappa)检验。经计算,Kappa检验的统计量=11.411,P=0.000<0.05,可认为两种方法检查结果一致,一致率为79.6%。
对上面的内容进行整理,可得出不同分析目的和不同特征表格常用的统计方法见表11。
表11 分类资料常用统计方法总结
分类 | 试验设计 | 条件 | 检验方法 | |
四格表 | 完全随机 设计 | ≥40且T≥5 | Pearson检验(如表1) | |
≥40且1≤T<5 | 校正检验(如表2) | |||
<40或0<T<1 | 确切概率法(fisher检验)(如表3) | |||
配对设计 | 配对检验(McNemar检验)(如表4) | |||
R×C表 | 双项无序属性列联表 | 欲分析构成比则检验;欲分析行指标与列指标有无关联,则检验并求列联(相关)系数;(如表5~7) | ||
分组变量无序,指标变量有序 | 秩和检验(如表8) | |||
分组变量有序,指标变量无序 | 检验 | |||
双项有序属性不同 | 秩和检验或等级相关分析或线性趋势检验(表9) | |||
双项有序属性相同 | 一致性检验(Kappa检验)(表10) | |||
总之,对于分类数据(R×C表)的统计分析应根据R×C表中行变量与列变量的性质、分析目的和理论频数的大小等,选用相应的统计分析方法 。
本文来源:https://www.2haoxitong.net/k/doc/e31cd59bbb0d4a7302768e9951e79b896902680e.html
文档为doc格式