тест студента требует стандартного отклонения образца . Однако как вычислить если известны только размер выборки и среднее значение выборки?
Например, если размер выборки равен а среднее значение выборки равно , я попытаюсь создать список из идентичных выборок со значениями по каждая. Ожидается, что стандартное отклонение выборки равно . Это создаст проблему деления на ноль в тесте.112 49 112 0 т
ДОПОЛНИТЕЛЬНЫЕ ДАННЫЕ:
Средний доход работников Северного завода ACME составляет . Сообщается, что случайная выборка из рабочих на южной фабрике ACME имела годовой доход . Является ли эта разница статистически значимой?
Правильно ли я сказал, что среднее население составляет ?
t-test
standard-deviation
small-sample
Комплект
источник
источник
Ответы:
Это может удивить многих, но для решения этой проблемы не обязательно оценивать s . На самом деле вам не нужно ничего знать о распространении данных (хотя это было бы полезно, конечно). Например, Уолл, Боэн и Твиди в статье 2001 года описывают, как найти конечный доверительный интервал для среднего значения любого унимодального распределения, основанного на одной ничьей.
В данном случае у нас есть некоторые основания для того, чтобы рассматривать среднее значение выборки 112 как извлечение из приблизительно нормального распределения (а именно распределение выборки среднего по простой случайной выборке из 49 окладов). Мы неявно предполагаем, что существует довольно большое количество фабричных рабочих, и что их распределение заработной платы не является таким искаженным или мультимодальным, чтобы сделать центральную предельную теорему неработоспособной. Тогда консервативный 90% CI для среднего значения распространяется вверх до
четко охватывая истинное среднее значение 200. (См. Уолл и др. формула 3.) Учитывая ограниченную доступную информацию и сделанные здесь предположения, мы поэтому не можем заключить, что 112 отличается «значительно» от 200.
Ссылка: «Эффективный доверительный интервал для среднего значения с образцами первого и второго размера». Американский статистик, май 2001 г., вып. 55, № 2: с. 102-105. ( pdf )
источник
Это выглядит немного надуманным вопросом. 49 является точным квадратом 7. Значение t-распределения с 48 DoF для двустороннего теста p <0,05 очень близко к 2 (2,01).
Мы отвергаем нулевую гипотезу равенства средних, если | sample_mean - popn_mean | > 2 * StdError, т. Е. 200-112> 2 * SE, т. Е. SE <44, т. Е. SD <7 * 44 = 308.
Было бы невозможно получить нормальное распределение со средним значением 112 со стандартным отклонением 308 (или более) без отрицательной заработной платы.
Учитывая, что заработная плата ограничена ниже, она, вероятно, будет асимметричной, поэтому предположим, что логарифмически нормальное распределение было бы более уместным, но для этого все равно потребовалась бы изменчивая заработная плата, чтобы избежать p <0,05 в t-тесте.
источник
среднее значение для выборки составит 112. Фактически, регулируя соотношение работников / генеральных директоров и зарплату генерального директора, мы можем произвольно исключить вероятность того, что выборка из 49 сотрудников будет привлекать генерального директора, в то время как средняя численность населения составляет 200, а выборка означает 112. Таким образом, не делая каких-либо предположений о базовом распределении, вы не сможете сделать какие-либо выводы о средней совокупности.источник
Я предполагаю, что вы имеете в виду один образец t-теста. Его цель - сравнить среднее значение вашей выборки с гипотетическим средним. Затем он вычисляет (при условии, что ваша популяция является гауссовой) значением P, которое отвечает на этот вопрос: если среднее значение популяции действительно было гипотетическим значением, то маловероятно, чтобы было получено выбрать выборку, среднее значение которой было бы столь же далеко от этого значения (или более), чем ты заметил? Конечно, ответ на этот вопрос зависит от размера выборки. Но это также зависит от изменчивости. Если ваши данные имеют большой разброс, они соответствуют широкому кругу населения. Если ваши данные действительно ограничены, они соответствуют меньшему диапазону популяции.
источник