Справочная информация: Я делаю презентацию для коллег по работе по проверке гипотез, и понимаю, что большинство из них прекрасно, но есть один аспект, который я связываю себя в узлах, пытаясь понять, а также объяснить это другим.
Это то, что я думаю, я знаю (пожалуйста, исправьте, если не так!)
- Статистические данные, которые были бы нормальными, если бы дисперсия была известна, следуют распределению, если дисперсия неизвестна
- CLT (Центральная предельная теорема): выборочное распределение среднего значения выборки приблизительно нормальное для достаточно большого (может быть , может быть до для сильно искаженных распределений)30 300
- -распределение можно считать нормальным для степеней свободы> 30
Вы используете -test, если:
- Население нормальное и дисперсия известна (для любого размера выборки)
- Население нормальное, дисперсия неизвестна и (из-за CLT)
- Бином населения, ,n q > 10
Вы используете тест, если:
- Население нормальное, дисперсия неизвестна и
- Нет знаний о населении или дисперсии и , но выборочные данные выглядят нормальными / проходят тесты и т. Д., Поэтому популяция может считаться нормальной
Так что я остался с:
- Для образцов и (?), Никакие знания о населении и дисперсии известны / неизвестны.< ≈ 300
Итак, мои вопросы:
При каком размере выборки вы можете предположить (если нет сведений о распределении или дисперсии населения), что распределение среднего значения выборки является нормальным (т. Е. Наступил CLT), когда распределение выборки выглядит ненормальным? Я знаю, что в некоторых дистрибутивах нужно , но некоторые ресурсы, похоже, используют -test всякий раз, когда ...z n > 30
Для случаев, в которых я не уверен, я полагаю, что я смотрю на данные для нормальности. Теперь, если выборочные данные выглядят нормально, я использую тест (так как предположим, что популяция нормальная, и так как )?n > 30
Как насчет того, где образцы данных для случаев, в которых я не уверен, не выглядят нормально? Есть ли какие-либо обстоятельства, когда вы все еще используете тест или тест, или вы всегда пытаетесь преобразовать / использовать непараметрические тесты? Я знаю, что из-за CLT при некотором значении распределение среднего значения будет приблизительно нормальным, но данные выборки не скажут мне, что это за значение ; данные выборки могут быть ненормальными, тогда как среднее значение выборки следует за нормальным значением / . Были ли случаи, когда вы преобразовывали / использовали непараметрический тест, когда на самом деле распределение выборки среднего было нормальным / но вы не могли сказать? н н т т
Ответы:
@ AdamO прав, вы просто всегда используете тест, если вы не знаете стандартное отклонение популяции априори. Вам не нужно беспокоиться о том, когда переключаться на тест, потому что -распределение «переключается» для вас. Более конкретно, -распределения сходится к нормали, таким образом , это правильное распределение для использования на каждый .T Z T T нN
Здесь также возникает путаница относительно значения традиционной линии при . Есть два вида конвергенции, о которых говорят люди:N= 30
В любом случае, чтобы ответить на ваши вопросы более четко, если вы считаете, что ваши (внутри группы) необработанные данные обычно не распространяются, используйтеU тест Манна-Уитни ; если вы считаете, что ваши данные нормально распространяются, но вы не знаете SD a priori, используйте T -test; и если вы считаете, что ваши данные нормально распространяются, и вы знаете SD a priori, используйте Z -test.
Это может помочь вам прочитать недавний ответ @ GregSnow здесь: Интерпретация p-значения при сравнении пропорций между двумя небольшими группами в R также в отношении этих вопросов.
источник
источник