В чем разница между популяцией и выборкой? Какие общие переменные и статистические данные используются для каждой из них, и как они связаны друг с другом?
Популяция - это совокупность изучаемых объектов. Например, средний рост мужчин. Это гипотетическая популяция, потому что она включает всех мужчин, которые жили, живут и будут жить в будущем. Мне нравится этот пример, потому что он подчеркивает, что мы, как аналитики, выбираем популяцию, которую хотим изучить. Как правило, невозможно опросить/измерить все население, потому что не все его члены поддаются наблюдению (например, мужчины, которые будут существовать в будущем). Если есть возможность перечислить все население, это часто дорого и займет много времени. В приведенном выше примере у нас есть популяция "мужчин" и интересующий нас параметр - их рост.
Вместо этого мы можем взять подмножество этой популяции, называемое выборкой, и использовать эту выборку для получения выводов об исследуемой популяции, учитывая некоторые условия. Таким образом, мы можем измерить средний рост мужчин в выборке популяции, который мы называем статистикой, и использовать его для получения выводов об интересующем нас параметре в популяции. Это умозаключение, потому что при формировании выводов о популяции на основе выборки будет присутствовать некоторая неопределенность и неточность. Это должно быть очевидно - в нашей выборке меньше членов, чем в нашей популяции, поэтому мы потеряли некоторую информацию.
Существует множество способов отбора выборки, изучение которых называется теорией выборки. Часто используемый метод называется простой случайной выборкой (SRS). В SRS каждый член популяции имеет равную вероятность быть включенным в выборку, отсюда и термин "случайная". Существует множество других методов выборки, например, стратифицированная выборка, кластерная выборка и т.д., и все они имеют свои преимущества и недостатки.
Важно помнить, что выборка, которую мы берем из популяции, является лишь одной из большого числа потенциальных выборок. Если бы десять исследователей изучали одну и ту же популяцию, взяв свои собственные выборки, то они могли бы получить разные ответы. Возвращаясь к нашему предыдущему примеру, каждый из десяти исследователей может получить разный средний рост мужчин, т.е. рассматриваемая статистика (средний рост) варьируется от выборки к выборке - она имеет распределение, называемое распределением выборки. Мы можем использовать это распределение для понимания неопределенности в нашей оценке параметра популяции.
Известно, что выборочное распределение среднего значения выборки является нормальным распределением со стандартным отклонением, равным стандартному отклонению выборки, деленному на объем выборки. Поскольку это отклонение можно легко спутать со стандартным отклонением выборки, более привычно называть стандартное отклонение выборочного распределения стандартной ошибкой.
Популяция - это весь набор значений, или индивидуумов, которые вас интересуют. Выборка - это подмножество популяции и набор значений, которые вы фактически используете в своей оценке.
Так, например, если вы хотите узнать средний рост жителей Китая, то это и есть ваша популяция, то есть население Китая. Дело в том, что это довольно большое число, и вы не сможете получить данные по всем жителям. Поэтому вы делаете выборку, то есть получаете некоторые наблюдения или данные о росте некоторых жителей Китая (подмножество населения, выборка) и на основании этого делаете выводы.
Население - это все, что входит в изучаемую группу. Например, если вы изучаете цену акций Apple, то это исторические, текущие и даже все будущие цены акций. Или, если вы управляете яичной фабрикой, то это все яйца, произведенные на фабрике.
Не всегда нужно делать выборку и проводить статистические тесты. Если ваша популяция - это ваша ближайшая семья, вам не нужно делать выборку, так как популяция мала.
Выборка популярна по целому ряду причин: