Я пытаюсь изучать статистику, потому что я нахожу, что она настолько распространена, что запрещает мне изучать некоторые вещи, если я не понимаю ее должным образом. У меня возникли проблемы с пониманием этого понятия выборочного распределения средних значений. Я не могу понять, как некоторые книги и сайты объясняют это. Я думаю, что у меня есть понимание, но я не уверен, правильно ли это. Ниже моя попытка понять это.
Когда мы говорим о каком-то явлении, имеющем нормальное распределение, оно обычно (не всегда) касается населения.
Мы хотим использовать логическую статистику, чтобы предсказать некоторые данные о населении, но не располагаем всеми данными. Мы используем случайную выборку, и каждая выборка размера n одинаково вероятна для выбора.
Итак, мы берем много выборок, скажем, 100, и тогда распределение средних значений этих выборок будет приблизительно нормальным согласно центральной предельной теореме. Среднее значение выборочных средних будет приблизительно соответствовать среднему значению для населения.
Что я не понимаю, так это то, что вы часто видите «выборку из 100 человек…». Разве нам не нужны 10 или 100 выборок из 100 человек для приблизительной оценки среднего значения? Или это тот случай, когда мы можем взять одну достаточно большую выборку, скажем 1000, а затем сказать, что среднее будет приблизительно соответствовать среднему значению для населения? ИЛИ мы берем выборку из 1000 человек, а затем отбираем 100 случайных выборок по 100 человек в каждой выборке из той исходной 1000 человек, которую мы взяли, и затем используем это как наше приближение?
Всегда ли достаточно большой выборки, чтобы приблизить среднее значение (почти)? Должно ли население быть нормальным, чтобы это работало?
источник
sample std deviation / square root(n)
- квадратный корень из n-части говорит нам, что мы получаем уменьшающуюся отдачу от точности оценки для фиксированных приращений в качестве размера выборки. становится больше (например, перемещение от 10 до 20 человек в выборке повышает точность оценки больше, чем переход от 210 до 220 человек.)источник
Распределением выборки среднего значения является распределение ВСЕХ выборок заданного размера. Среднее значение dist выборки равно среднему значению для населения. Когда мы говорим о выборке из среднего значения для выборок данного размера, мы говорим не об одной выборке или даже о тысяче выборок, а о всех выборках.
источник
Выборка dist среднего значения не имеет ничего общего с доверительными интервалами. Это другая концепция. Для dist выборки население может быть нормальным или ненормальным a) Если pop является нормальным, тогда выборочное значение среднего будет нормальным для любого размера выборки. b) Если pop не является нормальным, то 1) диапазон выборки среднего значения НЕ МОЖЕТ считаться нормальным, если размер выборки не превышает 30 или более. Тогда Центральная предельная теорема говорит нам, что выборка dist может считаться нормальной.
Вы говорите о прогнозировании. Прогнозирование тоже не имеет к этому никакого отношения. Вы вставляете слишком много в семпл дист. Дистанция выборки - это просто Все выборки, а затем берется среднее значение. И среднее значение всех этих выборок, mu sub x bar, равно среднему значению популяции, mu и стандартному размеру выборки dist, sigma sub x bar = sigma, деленное на квадратный корень из n. (Мы не будем говорить о конечном поп-поправочном коэффициенте. Примите вашу статистику за номинал. Не читайте слишком много в концепции. Кулак понимает основную концепцию.
PS Сэмпл dist of mean не имеет ничего общего с
источник
Я думал о проблемах с большими данными и просматривал некоторые из этих сообщений сегодня утром. Я не думаю, что это вообще тривиальная проблема, различие между анализом 1000 данных в одном наборе и анализом 10 наборов из 100. Теоретически , если нулевая гипотеза верна, что данные являются iid, это не делает разница. Тем не менее, кластеризация и шаблоны в данных вообще не рассматриваются, если просто взять среднее из 1000 данных и указать предполагаемое среднее и связанную стандартную ошибку.
Я пришел к выводу, что, просматривая некоторые страницы на stackexchange и wikipedia, я пришел к выводу, что большие данные позволяют увидеть очевидное . Если в популяции есть какие-либо интересные особенности, большой набор данных покажет их как день. Поэтому, если бы у меня был очень большой набор данных, на который я мог бы смотреть визуально, я бы не стал прыгать и принимать краткие итоговые меры без предварительного поиска очень очевидных особенностей. Из моих первых уроков в области статистического вывода меня учили смотреть на графики и визуализации данных как на первый проход. Я не могу подчеркнуть это достаточно. Если набор данных слишком велик для того, чтобы человек мог видеть его на экране, то он должен быть подвергнут дополнительной выборке с разрешением, которое может быть воспринято человеком.
источник