moralscience的个人博客分享 http://www.blog.sciencetimes.com.cn/u/moralscience

博文

数据转换与度量尺度 精选

已有 1878 次阅读 2021-11-28 23:57 |系统分类:科研笔记

对于心理学实证研究来说,几乎都要进行数据分析,特别是进行各种统计显著性检验。如果采用参数检验,那么,数据需要满足一些条件,例如,对于研究的变量,样本来自的总体得符合正态分布,样本数据也得符合正态分布。众所周知,人类的许多属性,比如,身高、智力,都是符合正态分布的。因此,就参数检验的正态分布要求而言,往往是针对样本的。

样本数据是否符合正态分布,可以通过检验而确定。如果检验结果表明,样本数据符合正态分布,就能进行欲做的参数检验。如果检验结果表明,样本数据不符合正态分布,那么,可以改用非参数检验,也可以将数据进行转换,把数据变得符合正态分布,做参数检验。由于非参数检验的效力低,所以,在这种情况下,进行数据转换是更为优先的选择。

许多研究者都会参考已有研究的作法,在需要时进行数据转换,但是,他们很可能并不明白数据为什么可以转换,甚至感到困惑:明明不符合正态分布的数据,却要硬生生转换成符合正态分布的数据,这算怎么回事呢?难道是公然允许篡改数据?因此,一些研究者知道数据转换,也进行过数据转换,然而,推测他们还是不清楚数据转换的原理。特别地,如果一种转换没有把数据变成正态分布,还可以进行另一种转换。这愈加令人不安,如此作法与操弄数据有何两样?

当然,数据转换既不是篡改数据,也不是操弄数据,而是变换数据的度量尺度。通俗地说,数据转换就是转换研究属性的度量单位。小学生在数学课上就学过相应的知识,做过有关的练习。例如,1=3尺、4=4000公斤、5小时=300分钟。当用尺作单位时,假定有3个测量数据分别是3.458.2811.94。如果用米作单位,对应的3个测量数据就分别成了1.152.763.98

由此不难看出,用尺作单位时,数字较大,数字之间的差距也较大;用米作单位时,数字较小,数字之间的差距也较小。更为关键的是,虽然两套数据的数字不同,但是,它们对应的实物长度是相同的。也就是说,数据是重要的,不过,具体数字却不是那么重要,从而,对于一个物体的长度,用3.45表示或用1.15表示,甚至用11.50表示都是可以的。

同时,对于上述的一套数据,如果数字3.45成了1.15,那么,8.2811.94也必然成了2.763.98。显然,这种数字的转换是成系统的,或者说,是按照一定的规则而系统转换的。数据虽然转换成不同的数字了,然而,数据对应的实物属性的数量还是原来的那样。从操作的层面看,就是原来用以尺为单位的尺子去度量,现在用以米为单位的尺子去度量。

实证研究中的量化研究,就是研究者对特定的属性进行测量,获得数据,对数据进行统计分析,得到结果,进而得出结论。虽然研究过程中的每个环节都是重要的,但是,有些环节更为关键。例如,测量就是这样的关键环节之一,毕竟,统计分析的数据来自测量,而研究的结果和结论又基于统计分析。

提到测量,人们很容易想到拿着尺子去量物体的长度。用尺子量长度或许是测量的最初情形。显然,人们不仅需要测量长度,而且需要测量重量;不仅需要测量物理属性,也还需要测量心理属性。对研究的属性,经过测量会得到结果,也就是数字。从而,所谓测量就是依据一定的规则,对事物的属性赋予数字的过程。

可见,测量依据的规则是基础性的,不妨把测量规则称为尺度。在测量时,对于相同的属性,所用尺度不同,获得的数字自然也不同。

有些尺度,人们已经知道或熟悉它们的具体含义,比如,常见的长度、重量、速度的尺度。其实,还有更多的尺度,人们不太熟悉或者根本就不知道,特别地,一些尺度是更为复合的,可能是两种或多种属性的比率,比如,马赫。研究者在具体研究中,还会制定或定义新的尺度。

这里的要点是,研究者在测量时,可能采用了合适的尺度,也可能没有采用合适的尺度。甚至,对于测量的属性,常用的尺度并不是合适的,而合适的尺度尚未发现或定义,从而,用已有尺度测量的数据,相应的数字在使用时并不是特别有效,例如,不符合正态分布,不能进行参数检验。此时,很自然的想法就是转换测量尺度,把测量数字变得符合正态分布,从而进行更为有效的参数检验。

统计学家已经系统研究了数据转换的规律,提出了一些常用的转换方式,例如,标准分数转换、平方根转换、对数转换、正弦转换、余弦转换,等。由此可知,数据转换通常是把度量的尺度由大变小,相应地,把数据之间的差距也由大变小,把不符合正态分布的数据变成符合正态分布的。

总之,理解了测量的基本含义,尤其是度量尺度的问题,也就真正理解了数据转换的原理,从而,研究者就可以根据需要,放心而灵活地进行数据转换了。



http://www.blog.sciencetimes.com.cn/blog-2619783-1314292.html

上一篇:相关分析与回归分析
下一篇:选题技巧与选题论证

11 张晓良 黄永义 王平平 杨正瓴 宁利中 李毅伟 尤明庆 李东风 王兴 段含明 张鹰

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-1-19 12:46

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部