用样本估计总体

南京师大附中江宁分校叶军

1936年，美国的《文学摘要》杂志对该年度美国总统选举进行预测.它公开发行了1000万份调查问卷，回收200万份，试图通过这200万份问卷中所反映的选举意向推断出全体选民的选举意向.它的预测结果是兰登与罗斯福的获胜率各为57℅和43℅，而实际结果却是罗斯福以62℅对38℅的巨大优势入主白宫.该杂志因此名声扫地，终于关门大吉.

该调查中，样本容量是200万，已经足够大了，为何还会出现这种反差呢？究其原因，杂志社在发出1000万份调查问卷时，是按照电话本和俱乐部成员名单发放的，所取的样本明显带有倾向性——当时的人很少拥有私人电话或属于某个俱乐部，因此调查一开始就指向了有钱人群体.但是穷人却压倒多数地投了罗斯福的票，这就导致了调查的失败.简言之，该调查的样本部具有代表性，这是个致命的错误抽样的目的是通过对样本的研究以推断总体——这也是统计学的重要意义之一.比如调查某市5000名学生的数学成绩，我们从中抽取500个进行分析.由于样本来自总体，它应包含总体所具有的信息，我们正是通过分析这些信息进而推断总体的特征，比如以上成绩的平均分；但是，如果样本不具有代表性，就会隐藏很多有用的信息，而突出一些不必要的干扰信息——导致了分析结果的误差偏大.选取一个有代表性的样本，是抽样调查有效的首选要素.

另一方面，样本的大小也很重要.总体可以看作一个最大的样本，但是因为时间、人力、物力、破坏性等因素，条件不允许我们做普查，因此只能折中一下：在条件许可的范围内选取一个尽可能大的样本，以期获得更多的必要的信息.

针对不同的问题，有简单随机抽样、系统抽样、分层抽样等多种抽样方法，其共同点是在抽样过程中每个个体被抽取的概率相等，这就从概率的角度保证了所抽取样本尽量具有代表性.下面我们看几个实例.

例1、一个鱼缸里有多少条鱼容易数出来，那么怎样知道一个池塘里有多少条鱼？

[1] [2] 下一页