人口和样本之间的区别是什么?每一个人都使用哪些常见的变量和统计数据,以及这些数据之间的关系如何?
人口是被研究的实体的集合。例如,男人的平均身高。这是一个假设的群体,因为它包括所有曾经、现在和将来的男性。我喜欢这个例子,因为它让我们明白了一个道理:作为分析家,我们要选择我们希望研究的人群。通常情况下,我们不可能对整个人口进行调查/测量,因为并非所有成员都是可观察的(例如,将存在于未来的男人)。如果有可能对整个人口进行统计,那么这样做的成本往往很高,而且会花费大量的时间。在上面的例子中,我们有一个人口"男人"和一个感兴趣的参数,他们的身高。
相反,我们可以从这个人群中抽取一个子集,称为样本,并在某些条件下使用这个样本来推断所研究的人群。因此,我们可以测量人口样本中男性的平均身高,我们称之为统计量,并利用它来推断人口中感兴趣的参数。之所以说是推论,是因为根据样本得出关于人口的结论,会有一些不确定性和不准确性。这应该是显而易见的--我们的样本中的成员比我们的人口少,因此我们失去了一些信息。
选择样本的方法有很多,对此的研究被称为抽样理论。一种常用的方法叫做简单随机抽样(SRS)。在SRS中,人口中的每个成员被纳入样本的概率都是相同的,因此称为 "随机""。还有许多其他的抽样方法,如分层抽样、聚类抽样等,都有其优点和缺点。
重要的是要记住,我们从人群中抽取的样本只是大量潜在样本中的一个。如果十个研究人员都在研究同一个人群,抽取他们自己的样本,那么他们可能会得到不同的答案。回到我们之前的例子,十位研究人员中的每一位都可能得出不同的男性平均身高,也就是说,有关的统计数字(平均身高)在不同的样本中是不同的,它有一个分布,叫做抽样分布。我们可以用这个分布来理解我们对人口参数估计的不确定性。
众所周知,样本平均数的抽样分布是一个正态分布,其标准差等于样本标准差除以样本大小。因为这很容易与样本的标准差相混淆,所以更常见的是把抽样分布的标准差称为**标准误差。