Группа людей отвечает на один вопрос. Ответ может быть «да» или «нет». Исследователь хочет знать, связан ли возраст с типом ответа.
Связь была оценена с помощью логистической регрессии, где возраст - это объясняющая переменная, а тип ответа (да, нет) - зависимая переменная. Он был отдельно рассмотрен путем расчета среднего возраста групп, ответивших «да» и «нет», соответственно, и путем проведения T- теста для сравнения средних значений .
Оба теста были выполнены по совету разных людей, и ни один из них не уверен, что это правильный путь. С учетом вопроса исследования, какой тест лучше?
Для проверки гипотезы значения р были не значимыми (регрессия) и значимыми (Т-тест). Выборка составляет менее 20 случаев.
regression
logistic
t-test
Гвен
источник
источник
Ответы:
Оба теста неявно моделируют отношения возраст-ответ, но они делают это по-разному. Какой из них выбрать, зависит от того, как вы решите смоделировать эти отношения. Ваш выбор должен зависеть от основной теории, если она есть; о том, какую информацию вы хотите извлечь из результатов; и о том, как образец выбран. Этот ответ обсуждает эти три аспекта по порядку.
Я опишу t-критерий и логистическую регрессию, используя язык, который предполагает, что вы изучаете четко определенную группу людей и хотите сделать выводы из выборки для этой группы.
Чтобы поддержать любой вид статистического вывода, мы должны предположить, что выборка является случайной.
T-критерий предполагает, что люди из выборки, ответившие «нет», представляют собой простую случайную выборку из всех не респондентов в популяции, а люди из выборки, ответившие «да», представляют собой простую случайную выборку из всех респондентов, ответивших «да». Население.
T-критерий делает дополнительные технические предположения о распределении возрастов в каждой из двух групп населения. Существуют различные версии t-теста для обработки вероятных возможностей.
Логистическая регрессия предполагает, что все люди любого возраста являются простой случайной выборкой людей этого возраста в популяции. Отдельные возрастные группы могут демонстрировать разные показатели ответов «да». Предполагается, что эти коэффициенты, выраженные как логарифмические шансы (а не прямые пропорции), линейно связаны с возрастом (или с некоторыми определенными функциями возраста).
Логистическая регрессия легко расширяется для учета нелинейных отношений между возрастом и реакцией. Такое расширение может использоваться для оценки правдоподобия исходного линейного предположения. Это возможно с большими наборами данных, которые предоставляют достаточно деталей для отображения нелинейностей, но вряд ли будут особенно полезны с небольшими наборами данных. Общее эмпирическое правило - регрессионные модели должны иметь в десять раз больше наблюдений, чем параметров - предполагает, что для обнаружения нелинейности необходимо существенно более 20 наблюдений (для которых требуется третий параметр в дополнение к пересечению и наклону линейной функции ).
С помощью t-критерия можно определить, отличаются ли средний возраст респондентов, не принимавших и не ответивших на опрос, в популяции. Логистическая регрессия оценивает, как частота ответов варьируется в зависимости от возраста. Как таковая, она более гибкая и способна предоставлять более подробную информацию, чем t-критерий. С другой стороны, он имеет тенденцию быть менее мощным, чем критерий Стьюдента, с целью выявления различий между средними возрастами в группах.
Для пары тестов возможно продемонстрировать все четыре комбинации значимости и не значимости. Два из них являются проблемными:
T-критерий не имеет значения, но логистическая регрессия. Когда предположения обоих тестов правдоподобны, такой результат практически невозможен, потому что t-критерий не пытается обнаружить такие специфические отношения, как положено логистической регрессией. Однако, когда эти отношения являются достаточно нелинейными, чтобы побудить самых старых и самых молодых субъектов к одному мнению, а к субъектам среднего возраста - другое, расширение логистической регрессии на нелинейные отношения может обнаружить и количественно определить ту ситуацию, которую не смог обнаружить ни один t-критерий. ,
Стьюдент значительный, а логистическая регрессия - нет, как в вопросе. Это часто случается, особенно когда есть группа молодых респондентов, группа пожилых респондентов и немного людей между ними. Это может создать большое разделение между показателями ответов «нет» и «да». Это легко обнаружить с помощью t-теста. Тем не менее, логистическая регрессия либо имела бы относительно мало подробной информации о том, как частота ответов фактически изменяется с возрастом, либо имела бы неубедительную информацию: случай «полного разделения», когда все пожилые люди отвечают одним образом, а все молодые - другим способом - но в этом случае оба теста обычно имеют очень низкие значения p.
Обратите внимание, что план эксперимента может сделать недействительными некоторые допущения теста. Например, если вы выбрали людей в соответствии с их возрастом в многослойной структуре, то допущение t-критерия (что каждая группа отражает простую случайную выборку возрастов) становится сомнительным. Такой дизайн предполагает использование логистической регрессии. Если вместо этого у вас было два пула, один из которых не отвечал, а другой отвечал «да», и был выбран случайным образом из тех, кто определил их возраст, то предположения выборки для логистической регрессии сомнительны, в то время как те из t-теста сохранятся. Этот дизайн предложил бы использовать некоторую форму t-критерия.
(Второй дизайн может показаться глупым, но в обстоятельствах, когда «возраст» заменяется некоторой характеристикой, которую трудно, дорого или долго измерить, это может быть привлекательным.)
источник
Таким образом, в этом смысле две условные модели совместимы.
источник
Лучший тест - тот, который лучше отвечает на ваш вопрос. Ни один не просто лучше на его лице. Различия здесь эквивалентны тем, которые обнаружены при регрессии y на x и x на y, и причины для разных результатов аналогичны. Оцениваемая дисперсия зависит от того, какая переменная рассматривается как переменная отклика в модели.
Ваш исследовательский вопрос очень расплывчатый. Возможно, если вы обдумаете направление причинности, вы сможете прийти к выводу о том, какой анализ вы хотите использовать. Вызывает ли возраст людей ответ «да» или ответ «да», заставляет людей становиться старше? Это скорее первый вариант, и в этом случае дисперсия вероятности «да» - это то, что вы хотите смоделировать, и, следовательно, логистическая регрессия - лучший выбор.
Тем не менее, вы должны проверить предположения испытаний. Их можно найти в Интернете в Википедии или в ваших учебниках по ним. Вполне может быть, что у вас есть веские причины не выполнять логистическую регрессию, и, когда это произойдет, вам может потребоваться задать другой вопрос.
источник