群体和样本之间的区别是什么？

人口是被研究的实体的集合。例如，男人的平均身高。这是一个假设的群体，因为它包括所有曾经、现在和将来的男性。我喜欢这个例子，因为它让我们明白了一个道理：作为分析家，我们要选择我们希望研究的人群。通常情况下，我们不可能对整个人口进行调查/测量，因为并非所有成员都是可观察的（例如，将存在于未来的男人）。如果有可能对整个人口进行统计，那么这样做的成本往往很高，而且会花费大量的时间。在上面的例子中，我们有一个人口"男人"和一个感兴趣的参数，他们的身高。

相反，我们可以从这个人群中抽取一个子集，称为样本，并在某些条件下使用这个样本来推断所研究的人群。因此，我们可以测量人口样本中男性的平均身高，我们称之为统计量，并利用它来推断人口中感兴趣的参数。之所以说是推论，是因为根据样本得出关于人口的结论，会有一些不确定性和不准确性。这应该是显而易见的--我们的样本中的成员比我们的人口少，因此我们失去了一些信息。

选择样本的方法有很多，对此的研究被称为抽样理论。一种常用的方法叫做简单随机抽样（SRS）。在SRS中，人口中的每个成员被纳入样本的概率都是相同的，因此称为 "随机&quot"。还有许多其他的抽样方法，如分层抽样、聚类抽样等，都有其优点和缺点。

重要的是要记住，我们从人群中抽取的样本只是大量潜在样本中的一个。如果十个研究人员都在研究同一个人群，抽取他们自己的样本，那么他们可能会得到不同的答案。回到我们之前的例子，十位研究人员中的每一位都可能得出不同的男性平均身高，也就是说，有关的统计数字（平均身高）在不同的样本中是不同的，它有一个分布，叫做抽样分布。我们可以用这个分布来理解我们对人口参数估计的不确定性。

众所周知，样本平均数的抽样分布是一个正态分布，其标准差等于样本标准差除以样本大小。因为这很容易与样本的标准差相混淆，所以更常见的是把抽样分布的标准差称为**标准误差。