Преобразование непрерывных переменных для логистической регрессии

11

У меня есть большие данные опроса, двоичная переменная результата и много объясняющих переменных, включая двоичные и непрерывные. Я строю наборы моделей (экспериментирую как с GLM, так и со смешанным GLM) и использую теоретико-информационные подходы для выбора топ-модели. Я тщательно изучил объяснения (как непрерывные, так и категориальные) на предмет корреляций, и я использую только те из них в той же модели, у которых коэффициент Пирсона или Фикорра меньше 0,3. Я хотел бы дать всем моим непрерывным переменным реальную возможность конкурировать за лучшую модель. По моему опыту, преобразование тех, кто нуждается в этом, на основе перекоса, улучшает модель, в которой они участвуют (более низкая AIC).

Мой первый вопрос: это улучшение, потому что преобразование улучшает линейность с логитом? Или исправление перекоса улучшает баланс объясняющих переменных, делая данные более симметричными? Хотелось бы мне понять математические причины этого, но сейчас, если бы кто-то мог объяснить это в простых терминах, это было бы здорово. Если у вас есть какие-либо ссылки, которые я мог бы использовать, я был бы очень признателен.

Многие интернет-сайты говорят, что, поскольку нормальность не является допущением в бинарной логистической регрессии, не преобразовывайте переменные. Но я чувствую, что, не трансформируя свои переменные, я оставляю некоторые в невыгодном положении по сравнению с другими, и это может повлиять на то, что является топ-моделью, и изменить вывод (ну, обычно это не так, но в некоторых наборах данных это происходит). Некоторые из моих переменных работают лучше, когда лог преобразован, некоторые - в квадрате (другое направление перекоса), а некоторые нет.

Может ли кто-нибудь дать мне указание, с чем следует быть осторожным при преобразовании объясняющих переменных для логистической регрессии, и если нет, почему бы и нет?

Жужа
источник
2
Действительно, в логистической регрессии нет предположения о малости (или логистического распределения в этом случае). Функция связи (иногда обозначаемая ) используется для моделирования связи между вероятностью наблюдения ( ) с ковариатами через . Плохое соответствие / производительность может быть связано с выбором функции связи. Альтернативой для решения этой проблемы является использование более гибкого распределения, см., Например, этот документ . F - 1 1 0 P ( Y = 1 | β , X ) = F ( X β )FF110P(Y=1|β,X)=F(Xβ)
Хотя написано в другом контексте, многое из того, о чем вы просите, содержится в моем ответе (или в ссылках в моем ответе) здесь: Нормально распределенные X и Y с большей вероятностью приведут к нормально распределенным остаткам?
gung - Восстановить Монику

Ответы:

3

Вам следует с осторожностью принимать решение о преобразовании или нет переменных только на основании статистики . Вы должны посмотреть на интерпретацию. ¿Разумно ли, чтобы ваши ответы были линейными по ? или это скорее линейный в ? И чтобы это обсудить, нам нужно знать ваши переменные ... Просто в качестве примера: независимо от соответствия модели, я бы не поверил, что смертность является линейной функцией возраста!log ( x )xlog(x)

Поскольку вы говорите, что у вас есть «большие данные», вы можете посмотреть на сплайны, чтобы позволить данным говорить о преобразованиях ... например, пакет mgcv в R. Но даже при использовании такой технологии (или других методов автоматического поиска преобразований), Окончательный тест - спросить себя, что имеет научный смысл . ¿Что другие люди в вашей области делают с подобными данными?

Къетил б Халворсен
источник
Спасибо за поддержку моих забот: действительно, я имею в виду то, что имеет биологический смысл. Проблема в том, что у меня фактически есть два связанных набора данных, и я хотел бы сделать выводы из обоих одновременно. Но в одном подмножестве переменная плотности является лучшей в моделях без преобразования, тогда как в другом журнале преобразование является лучшим. Преобразование журнала улучшает отношения в наборе данных, который имеет более низкие значения для этой переменной, поэтому я думаю, что будет очень трудно согласовать эти два набора данных, если я не оставлю переменную без преобразования в обоих.
Zsuzsa
1
Эксперты в данной области редко способны априори знать «правильные» преобразования для переменных. Я почти никогда не вижу линейных отношений, поэтому, когда размер выборки оправдывает себя, я ослабляю это предположение, используя сплайны регрессии. Я делаю результат интерпретируемым с помощью картинок.
Фрэнк Харрелл
3

Важнейшим вопросом является то, что числа должны представлять в реальном мире и какова гипотетическая связь между этими переменными и зависимой переменной. Вы можете улучшить свою модель, «очистив» свои данные, но если она не лучше отражает реальный мир, вы потерпели неудачу. Возможно, распределение ваших данных означает, что ваш подход к моделированию неверен, и вам нужен совсем другой подход, возможно, у ваших данных есть проблемы.

Почему вы удаляете переменные, если они имеют corr> .3, мне не понятно. Может быть, эти вещи действительно связаны, и оба важны для зависимой переменной. Вы можете справиться с этим с помощью индекса или функции, представляющей совместный вклад коррелированных переменных. Похоже, вы слепо выбрасываете информацию на основе произвольных статистических критериев. Почему бы не использовать corr> .31 или .33?

Джон
источник