Как выполнить t-тест Стьюдента, имеющий только размер выборки, среднее значение выборки и среднее значение по популяции?

28

тест студента требует стандартного отклонения образца . Однако как вычислить если известны только размер выборки и среднее значение выборки?Tss

Например, если размер выборки равен а среднее значение выборки равно , я попытаюсь создать список из идентичных выборок со значениями по каждая. Ожидается, что стандартное отклонение выборки равно . Это создаст проблему деления на ноль в тесте.112 49 112 0 т49112491120T

ДОПОЛНИТЕЛЬНЫЕ ДАННЫЕ:
Средний доход работников Северного завода ACME составляет . Сообщается, что случайная выборка из рабочих на южной фабрике ACME имела годовой доход . Является ли эта разница статистически значимой?$20049$112

Правильно ли я сказал, что среднее население составляет ?$200

Комплект
источник
Какую проблему ты пытаешься решить? Это поможет нам, если вы расскажете больше.
pmgjones
Конечно. Я добавил образец проблемы.
комплект

Ответы:

32

Это может удивить многих, но для решения этой проблемы не обязательно оценивать s . На самом деле вам не нужно ничего знать о распространении данных (хотя это было бы полезно, конечно). Например, Уолл, Боэн и Твиди в статье 2001 года описывают, как найти конечный доверительный интервал для среднего значения любого унимодального распределения, основанного на одной ничьей.

В данном случае у нас есть некоторые основания для того, чтобы рассматривать среднее значение выборки 112 как извлечение из приблизительно нормального распределения (а именно распределение выборки среднего по простой случайной выборке из 49 окладов). Мы неявно предполагаем, что существует довольно большое количество фабричных рабочих, и что их распределение заработной платы не является таким искаженным или мультимодальным, чтобы сделать центральную предельную теорему неработоспособной. Тогда консервативный 90% CI для среднего значения распространяется вверх до

112+5,84 |112|,

четко охватывая истинное среднее значение 200. (См. Уолл и др. формула 3.) Учитывая ограниченную доступную информацию и сделанные здесь предположения, мы поэтому не можем заключить, что 112 отличается «значительно» от 200.

Ссылка: «Эффективный доверительный интервал для среднего значения с образцами первого и второго размера». Американский статистик, май 2001 г., вып. 55, № 2: с. 102-105. ( pdf )

Whuber
источник
4
Да, это! Вот почему стоит учиться: вызовы нашей интуиции исключительно образовательны. Я впервые узнал об этом из чистой бумаги на веб-странице Карлоса Родригеса (SUNY Albany), но не смог найти ее сегодня утром: похоже, сервер не работает. Попробуйте поискать "статистику Карлоса Рогригеса" позже. (Предполагается, что его статья находится по адресу omega.albany.edu/8008/confint.html , но это может быть старый URL.)
whuber
4
Удивительно. Я этого не знал. Спасибо за ссылку.
Роб Хиндман
4
Спасибо - есть шанс, что вы думаете об этой статье Родригеса? arxiv.org/abs/bayes-an/9504001
АРС
2
Это здорово. Однако мне любопытно, почему вы применили формулу (3) (которая исходит от Эдельмана), которую Уолл и др. Описывают как «шире, чем необходимо». В конце параграфа непосредственно перед упоминанием (3) они используют 4,84 (ровно на 1 меньше, чем 5,84) для интервала 90%, что следует из их уравнения (4). Без сомнения, я что-то пропустил.
Glen_b
2
@Glen_b Наоборот, скорее всего я что-то упустил. Обращу внимание на то, что в следующий раз мне понадобится эта статья, но пока разница в константах здесь не влияет.
whuber
13

Это выглядит немного надуманным вопросом. 49 является точным квадратом 7. Значение t-распределения с 48 DoF для двустороннего теста p <0,05 очень близко к 2 (2,01).

Мы отвергаем нулевую гипотезу равенства средних, если | sample_mean - popn_mean | > 2 * StdError, т. Е. 200-112> 2 * SE, т. Е. SE <44, т. Е. SD <7 * 44 = 308.

Было бы невозможно получить нормальное распределение со средним значением 112 со стандартным отклонением 308 (или более) без отрицательной заработной платы.

Учитывая, что заработная плата ограничена ниже, она, вероятно, будет асимметричной, поэтому предположим, что логарифмически нормальное распределение было бы более уместным, но для этого все равно потребовалась бы изменчивая заработная плата, чтобы избежать p <0,05 в t-тесте.

Thylacoleo
источник
3

μзнак равно0,999*112+0,001*88112знак равно200.49/1000<0,05среднее значение для выборки составит 112. Фактически, регулируя соотношение работников / генеральных директоров и зарплату генерального директора, мы можем произвольно исключить вероятность того, что выборка из 49 сотрудников будет привлекать генерального директора, в то время как средняя численность населения составляет 200, а выборка означает 112. Таким образом, не делая каких-либо предположений о базовом распределении, вы не сможете сделать какие-либо выводы о средней совокупности.

shabbychef
источник
2
$
1
(1) хороший улов. (2), да, я могу сделать установку задачи асимптотически извращенной для фиксированных результатов, задним числом . моя вина. однако я больше не уверен, что ОП пытается проверить. Если они знают, что численность населения составляет 200, почему они пытаются это проверить?
Шаббычеф
1
Кстати, очевидно, что соотношение зарплаты генерального директора и наименее оплачиваемой зарплаты 400 не считается экстремальным в США. 800 немного извращен, хотя.
Шаббычеф
2

Я предполагаю, что вы имеете в виду один образец t-теста. Его цель - сравнить среднее значение вашей выборки с гипотетическим средним. Затем он вычисляет (при условии, что ваша популяция является гауссовой) значением P, которое отвечает на этот вопрос: если среднее значение популяции действительно было гипотетическим значением, то маловероятно, чтобы было получено выбрать выборку, среднее значение которой было бы столь же далеко от этого значения (или более), чем ты заметил? Конечно, ответ на этот вопрос зависит от размера выборки. Но это также зависит от изменчивости. Если ваши данные имеют большой разброс, они соответствуют широкому кругу населения. Если ваши данные действительно ограничены, они соответствуют меньшему диапазону популяции.

Харви Мотульский
источник