Я только что прочитал в довольно уважаемом (популярном) научном журнале (немецкий PM, 02/2013, с.36) об интересном эксперименте (к сожалению, без источника). Это привлекло мое внимание, потому что интуитивно я сомневался в значимости результата, но предоставленной информации было достаточно для воспроизведения статистического тестирования.
Исследователи задавались вопросом, увеличивает ли вероятность простуды в холодную погоду шансы простудиться. Таким образом, они случайным образом разделили группу из 180 студентов на две группы. Одна группа должна была держать ноги в холодной воде в течение 20 минут. Другой оставался в туфлях. Я думаю, что это забавная манипуляция, но, с другой стороны, я не врач, и, возможно, врачи думают смешно. Этические проблемы в стороне.
В любом случае, через 5 дней у 13 учеников в группе лечения была простуда, но только у 5 из группы, которая держала их обувь. Соотношение шансов в этом эксперименте, таким образом, составляет 2,87.
Учитывая довольно маленький размер выборки, я начал задаваться вопросом, может ли эта разница быть значительной. Поэтому я провел два теста.
Сначала простой тест на равенство пропорций с использованием нормального приближения. Этот тест имеет с . Я предполагаю, что это то, что исследователи исследовали. Это действительно просто важно. Однако этот z-тест действителен только для больших выборок, если я не ошибаюсь, из-за нормального приближения. Кроме того, показатели распространенности довольно малы, и мне интересно, не может ли это повлиять на степень охвата доверительного интервала эффекта.р = 0,0468
Поэтому моей второй попыткой был тест независимости хи-квадрат, как с симуляцией Монте-Карло, так и со стандартным хи-квадрат Пирсона. Здесь я нахожу p-значения как о .
Теперь все не так обнадеживает насчет результатов. Я задавался вопросом, есть ли еще варианты для проверки этих данных и каковы ваши мысли о двух тестах (в частности, предположения о первом, значимом, тесте)
Ответы:
Я бы использовал тест перестановки вместо нормального приближения или хи-квадрат. Тест перестановки является точным и наиболее мощным, обусловленным данными.
В этом случае мы не можем вычислить все перестановки групп, но мы можем сгенерировать много случайных перестановок данных и получить довольно точное значение:
который будет указывать значение р 0,039.
ОДНАКО, и это большое, однако, я предполагаю, что предположение, что субъекты, болеющие простудой, являются независимыми событиями, нарушается. Эти люди являются учениками, предположительно, в одной школе. Представьте себе, что двое из них живут в одном классе, общежитии, каком-то другом занятии или кафетерии (в школе с несколькими кафе); события "# 1 простужается" и "# 2 простужается" не являются независимыми. Я мог предположить, что студент сказал бы: «Давайте подпишемся на этот эксперимент!» своему соседу по комнате или друзьям; Я мог предположить, что студенты были приняты на работу из классов, которые преподавали профессора; Я мог бы вообразить множество способов, которыми допущение независимости нарушается. Возможно, статья, которую я не читал, касается некоторых из них, но трудно понять, как она могла бы решить все из них,
источник
@jbowman дал вам хороший вариант. Я подумал, что мог бы предоставить некоторую информацию относительно ваших явных вопросов о пригодности -test против теста . χ 2Z χ2
Существует две проблемы относительно целесообразности использования критерия, оба относительно правильности предполагаемого распределения выборки. Во-первых, тест использует нормальное распределение вместо распределения, подразумевая, что стандартные отклонения известны без ошибки выборки. Во-вторых, распределение выборки является непрерывным, но данные являются дискретными; поскольку возможны только определенные комбинации данных, возможны только определенные результирующие реализованные статистические значения теста, которые могут не соответствовать теоретическому распределению выборки. (Я обсуждаю эту проблему в контексте других тестов здесь: сравнение и контрастирование, p-значения, уровни значимости и ошибка типа I. ) z tz z t
Давайте рассмотрим первую проблему в другом контексте. Если у вас есть две группы с нормально распределенными данными, и вы хотите увидеть, эквивалентны ли средние значения, вам необходимо рассчитать как средние значения, так и стандартные отклонения. Теперь мы знаем, что средства подвержены ошибкам выборки, поэтому нам нужно выполнить тест, а не просто сказать, что эти два образца не идентичны. Однако наши оценки стандартных отклонений также должны быть подвержены ошибкам выборки, и мы должны как-то учитывать этот факт. Когда мы делаем это, оказывается, что тестовая статистика (вид средней разницы) распределена как . Если бы мы использовали нормальное распределение вместо (т.е.з гt z -test), это будет означать, что мы предполагаем, что наши оценки стандартных отклонений без ошибок - идеально. Так почему же -test можно использовать в вашем случае? Причина в том, что ваши данные являются биномиальными (т. Е. Числом «успехов» из известной суммы «испытаний»), а не нормальными. В биномиальном распределении стандартное отклонение является функцией среднего значения, поэтому, как только вы оценили среднее значение, вам не придется беспокоиться о дополнительной неопределенности. Таким образом, нормальное распределение может использоваться в качестве модели распределения выборки тестовой статистики. z
Хотя использование нормального распределения для понимания долгосрочного поведения статистики теста технически правильно, возникает другая проблема. Проблема в том, что нормальное распределение является непрерывным, но поскольку ваши данные дискретны, не все значения теоретического распределения могут быть найдены в вашем наборе данных. (Опять же , я обсуждаю этот вопрос значительно более подробно в выше связанный ответе.) К счастью, матч между возможными результатами ваших данных и теоретическим нормальным распределением выборки становится лучше, чем больше ваш . В вашем случае, независимо от истинных вероятностей, у вас может быть столько же успехов, сколько их нет, или всего один в каждой группе. Это означает, что количество возможных комбинаций равно91 × 91 = 1 ,N N = 180 z91×91=1,729 , что много возможностей. С небольшим набором данных вы действительно можете столкнуться с некоторыми проблемами, которые я обсуждаю в своем связанном ответе, но с вам не о чем беспокоиться. Я считаю, что тест был правильным выбором для исследователей. N=180 z
Но как насчет -test? Я думаю, что это также правильный выбор, но это не будет моим первым выбором. (Позвольте мне отметить, что вторая проблема, рассмотренная выше - несоответствие между дискретными данными и непрерывным распределением ссылок - относится так же к -тесту, как и к -тесту, поэтому существует здесь нет никаких преимуществ.) Проблема сχ 2 z χ 2 χ 2 z zχ2 χ2 z χ2 -проверка заключается в том, что в итоговых значениях столбцов нет ничего особенного относительно итоговых строк; оба рассматриваются так, как если бы они могли иметь другие возможные значения. Однако это не совсем точно отражает экспериментальную установку. Было 180 человек, и 90 были назначены на каждую группу. Единственное, что действительно может отличаться в повторяющихся идентичных исследованиях, - это количество людей, которые простудились в каждой группе. Тест неправильно обрабатывает как количество простуд, так и количество людей в каждой группе, как если бы они могли варьироваться, но тест делает правильное предположение. Вот почему -test обладает большей силой. χ2 z z
Что бы это ни стоило, тест перестановки, предложенный @jbowman, также правильно понимает этот аспект вашего дизайна и не страдает от проблемы дискретного непрерывного несоответствия. Таким образом, это лучший вариант. Но я подумал, что вам может быть интересно узнать немного больше о том, как и тесты сравниваются в вашей ситуации. χ 2z χ2
источник