南京师大附中江宁分校 叶军
1936年,美国的《文学摘要》杂志对该年度美国总统选举进行预测.它公开发行了1000万份调查问卷,回收200万份,试图通过这200万份问卷中所反映的选举意向推断出全体选民的选举意向.它的预测结果是兰登与罗斯福的获胜率各为57℅和43℅,而实际结果却是罗斯福以62℅对38℅的巨大优势入主白宫.该杂志因此名声扫地,终于关门大吉.
该调查中,样本容量是200万,已经足够大了,为何还会出现这种反差呢?究其原因,杂志社在发出1000万份调查问卷时,是按照电话本和俱乐部成员名单发放的,所取的样本明显带有倾向性——当时的人很少拥有私人电话或属于某个俱乐部,因此调查一开始就指向了有钱人群体.但是穷人却压倒多数地投了罗斯福的票,这就导致了调查的失败.简言之,该调查的样本部具有代表性,这是个致命的错误抽样的目的是通过对样本的研究以推断总体——这也是统计学的重要意义之一.比如调查某市5000名学生的数学成绩,我们从中抽取500个进行分析.由于样本来自总体,它应包含总体所具有的信息,我们正是通过分析这些信息进而推断总体的特征,比如以上成绩的平均分;但是,如果样本不具有代表性,就会隐藏很多有用的信息,而突出一些不必要的干扰信息——导致了分析结果的误差偏大.选取一个有代表性的样本,是抽样调查有效的首选要素.
另一方面,样本的大小也很重要.总体可以看作一个最大的样本,但是因为时间、人力、物力、破坏性等因素,条件不允许我们做普查,因此只能折中一下:在条件许可的范围内选取一个尽可能大的样本,以期获得更多的必要的信息.
针对不同的问题,有简单随机抽样、系统抽样、分层抽样等多种抽样方法,其共同点是在抽样过程中每个个体被抽取的概率相等,这就从概率的角度保证了所抽取样本尽量具有代表性.下面我们看几个实例.
例1、一个鱼缸里有多少条鱼容易数出来,那么怎样知道一个池塘里有多少条鱼?
[1] [2] 下一页