论文首页哲学论文经济论文法学论文教育论文文学论文历史论文理学论文工学论文医学论文管理论文艺术论文 |
【关键词】 统计学; 医学; 数据分析, 统计
Hu CY, Hu LP. J Chin Integr Med. 2009; 7(1): 7478.
Received October 9, 2008; accpted December 1, 2008; published online January 15, 2009.
Indexed/abstracted in and full text link瞣ut at PubMed. Journal title in PubMed: Zhong Xi Yi Jie He Xue Bao.
Free full text (HTML and PDF) is available at .
Forward linking and reference linking via CrossRef.
DOI: 10.3736/jcim20090112Open Access 网 毕业
How to identify statistical data
Chun瞴an HU, Liang瞤ing HU
Consulting Center of Biomedical Statistics, Academy of Military Medical Sciences, Beijing 100850, China
Keywords: statistics; medicine; data analysis, statistical
统计资料是统计分析的对象,正确识别统计资料是合理运用统计分析方法处理统计资料的首要前提;而科学完善的实验设计又是获得准确而又可靠统计资料的基本保证。
1 何为统计资料
1.1 数据不等于统计资料 某研究者提交了如下内容。请问:它们是否叫统计资料?
6.5 5.1 6.13.93.57.72.11.99.67.97.67.84.66.16.42.87.62.54.68.14.86.95.12.06.46.04.58.08.08.66.44.96.46.84.73.47.71.22.80.52.63.26.57.63.55.75.42.37.42.74.26.46.97.26.76.54.07.31.14.92.52.91.93.61.42.54.42.5
它们不叫统计资料,因为这些数据代表什么含义并不清楚,数据的单位是什么不清楚,能派什么用场也不清楚,它们只能叫68个数据而已。
1.2 仅有度量衡单位的数据仍不能称为统计资料 假定前面给出的68个数据的单位是ng/ml,是否可称其为统计资料呢?仍然不可以!因为还缺少数据的名称,即数据的专业含义是什么,必须交代清楚,对其进行分析和讨论才能有的放矢,否则,只能是玩弄数字游戏。
1.3 仅有变量名及其取值的数据仍不能称为统计资料 表1中有很多数据,其中的每一列都能被称为统计资料吗?
有些似乎可以,有些则不可以。因为有些列仅有变量名,其专业含义并不清楚,如“G”代表什么,其下方的“1”与“2”又分别代表什么,“X1”的含义可通过其下方的“男”、“女”得知其代表“性别”,但“X3~X13”的含义都不清楚,“X14”代表联合用药情况。
1.4 有指标名称又有度量衡单位的数据是否一定就可称为统计资料 假定前面给出的68个数据所代表的指标为神经元特异性烯醇化酶(neuron瞫pecific enolase, NSE)的含量,其单位是ng/ml,此时,它们是否就能叫统计资料?若要求不高,基本上可以称其为统计资料;若要求严格,还不能这样称呼。因为它们测自什么样的受试者并不清楚!比如有的测自正常人,有的测自不同疾病患者,甚至有的测自动物。表1 冠心病人与正常人多项指标的观测结果
1.5 统计资料应具备4个基本要素 应当说,指标(或变量)名称、度量衡单位和具体取值是统计资料的3个基本要素。仅有这些基本要素可能还达不到特定的研究目的,也就是说,统计资料还应包括实现特定研究目的所对应的特定条件。比如说,前面给出的68个数据是某年从某地区18~60岁全部正常成年人中随机抽取的68人血液NSE酶的具体数值,而且,在获得这些数据时,测定的时间、地点、方法、仪器设备和测定者等都相同。这样条件下测得的NSE酶含量(ng/ml)所得的统计资料,运用适当的统计分析方法,才可以推测该年该地区18~60岁全部正常成年人血中NSE酶含量的(1-α)100%容许区间(医学上习惯称为正常值范围)和NSE酶含量总体平均值的(1-α)100%置信区间(也有人称为可信区间)。概括起来说,统计资料应具备4个要素:影响因素(测定条件)、有明确专业含义的指标名称、度量衡单位和具体取值。由此可见,统计资料通常是复合型,一般至少含有2个变量,一个称为影响因素,另一个称为观测指标及其取值。前面举的例子中,影响因素是受试者类型,仅测定了正常人,隐含的另一个水平是除这里定义的正常人以外的其他人,要使两组人具有较好的可比性,与其可形成对照的是某年从某地区18~60岁全部非正常成年人中随机抽取的68人。下面的表2中,若给X5~X11加上相应的度量衡单位,就是一个比较正规且可达到一定研究目的的复合型统计资料。 表2 103例冠心病人与100例正常人多项指标的观测结果
2 统计资料的分类
2.1 定性与定量资料 任何一个有一定实用价值的统计资料通常都是复合型统计资料,即至少有两类性质的资料,一类叫定性资料,另一类叫定量资料。通常影响因素是定性资料,而观测结果是定量资料,但有时影响因素和观测结果都可包含定性与定量两类资料。
2.2 资料类型的两种划分方法 资料类型的划分方法有传统与现代两种。现将这两种划分方法作一扼要介绍,并对其加以比较。
2.2.1 资料类型的传统划分方法 资料类型的传统划分方法是将资料分为计量资料、计数资料和等级资料3类。其定义如下。
计量资料:测定每个观察单位某项指标量的大小,所得的资料称为计量资料。例如测得正常成年男子身高(cm)、体质量(kg)、血红蛋白(g/L)和总铁结合力(μmol/L)等所得的资料。
计数资料:将观测单位按某种属性或类别分组计数,得到各组观察单位数称为计数资料。例如某单位全体员工按ABO血型系统划分所得A型、B型、AB型、O型血的人数分别为1 598、2 032、641、1 823人;又例如某小学1年级至6年级的学生人数分别为90、100、86、95、112、96人。
等级资料:将观测单位按某种属性的不同程度分组计数,得到各组观察单位数称为等级资料或半定量资料或有序资料。例如用某种治疗方法医治100名某病患者,最后清点治愈、显效、好转、无效和死亡的人数分别为10、30、40、15和5人;又例如某医院检测1 029例患者,其中眼晶状体混浊程度为+、++、+++的分别有494、296、239人。
2.2.2 资料类型的现代划分方法 资料类型的现代划分方法是将资料先粗分为定量资料和定性资料两大类,然后,再将定量资料划分为计量资料和计数资料两小类;将定性资料划分为名义资料和有序资料两小类。其定义如下。
定量资料:测定每个观察单位某项指标量的大小,所得的资料称为定量资料。
计量资料:指标的取值可以带度量衡单位,甚至可以带小数(标志测量的精度)的定量资料,就叫计量资料。例如测得正常成年男子身高(cm)、体质量(kg)、血红蛋白(g/L)和总铁结合力(μmol/L)等所得的资料,它们首先是定量资料,进一步细分,它们还是计量资料。
计数资料:在定量资料中,若指标的取值可以带度量衡单位,但不可以带小数(只能取整数,通常为正整数)的定量资料,就叫计数资料。例如测得正常成年男子脉搏数(次/min)和引体向上的次数(次/min)。
定性资料:观测每个观察单位某项指标质的状况,所得的资料称为定性资料。
名义资料:在定性资料中,若指标质的不同状况之间在本质上无数量大小或质量好坏之分或先后顺序之分的定性资料,就叫名义资料。例如某单位全体员工按ABO血型系统(A型、B型、AB型、O型)来记录每个人的情况所得的资料;又例如某市全体员工按职业(工人、农民、知识分子、军人……)来记录每个人的情况所得的资料。
有序资料:指标质的不同状况(状态个数≥3)之间在本质上有数量大小或质量好坏或有先后顺序之分的定性资料,就叫有序资料。例如某
[1]