У меня есть концептуальный вопрос "базовая статистика". Будучи студентом, я хотел бы знать, думаю ли я об этом совершенно неправильно и почему, если это так:
Допустим, я гипотетически пытаюсь взглянуть на взаимосвязь между «проблемами управления гневом» и сказать «развод» (да / нет) в рамках логистической регрессии, и у меня есть возможность использовать две разные оценки управления гневом - обе из 100.
Оценка 1 исходит из анкеты рейтингового инструмента 1 и другого моего выбора; оценка 2 исходит из другой анкеты. Гипотетически, у нас есть основания полагать из предыдущей работы, что проблемы управления гневом вызывают развод.
Если в моей выборке из 500 человек дисперсия 1-го балла намного выше, чем 2-го балла, есть ли основания полагать, что 1-й балл лучше использовать в качестве предиктора развода на основе его дисперсии?
Мне это инстинктивно кажется правильным, но так ли это?
Ответы:
Несколько быстрых моментов:
источник
Простой пример помогает нам определить, что важно.
Пусть
где и - параметры, - оценка по первому инструменту (или независимая переменная), а представляет несмещенную ошибку iid. Пусть счет на втором инструменте будет связан с первым черезγ X 1 εC γ X1 ε
Например, оценки по второму инструменту могут варьироваться от 25 до 75, а оценки по первому - от 0 до 100, при . Дисперсия в раза больше дисперсии . Тем не менее, мы можем переписатьX 1 α 2 X 2X1=2X2−50 X1 α2 X2
Параметры изменяются, а дисперсия независимой переменной изменяется , однако прогнозирующая способность модели остается неизменной .
В общем, отношения между и могут быть нелинейными. Что является лучшим показателем будет зависеть от того , имеет более тесную линейную зависимость к . Таким образом, проблема не в масштабе (как показывает дисперсия ), а должна решаться отношениями между инструментами и тем, что они используются для прогнозирования. Эта идея тесно связана с темой, которая исследовалась в недавнем вопросе о выборе независимых переменных в регрессии .X1 X2 Y Y Xi
Могут быть смягчающие факторы. Например, если и являются дискретными переменными и обе одинаково хорошо связаны с , то переменная с большей дисперсией может (если она достаточно равномерно распределена) допускает более тонкие различия между ее значениями и тем самым обеспечивает большую точность. Например , если оба инструмента представляют собой вопросники по шкале Лайкерта 1-5, оба одинаково хорошо коррелируют с , а ответы на - все 2 и 3, а ответы на распределены в диапазоне от 1 до 5, может быть предпочтительным на это основа.X1 X2 Y Y X1 X2 X2
источник
Всегда проверяйте предположения для статистического теста, который вы используете!
Одним из допущений логистической регрессии является независимость от ошибок, что означает, что случаи данных не должны быть связаны. Например. Вы не можете измерить одних и тех же людей в разные моменты времени, что, боюсь, вы могли сделать с помощью опросов по управлению гневом.
Я также был бы обеспокоен тем, что с помощью двух опросов по управлению гневом вы в основном измеряете одно и то же, и ваш анализ может пострадать от мультиколлинеарности.
источник