У меня есть большие данные опроса, двоичная переменная результата и много объясняющих переменных, включая двоичные и непрерывные. Я строю наборы моделей (экспериментирую как с GLM, так и со смешанным GLM) и использую теоретико-информационные подходы для выбора топ-модели. Я тщательно изучил объяснения (как непрерывные, так и категориальные) на предмет корреляций, и я использую только те из них в той же модели, у которых коэффициент Пирсона или Фикорра меньше 0,3. Я хотел бы дать всем моим непрерывным переменным реальную возможность конкурировать за лучшую модель. По моему опыту, преобразование тех, кто нуждается в этом, на основе перекоса, улучшает модель, в которой они участвуют (более низкая AIC).
Мой первый вопрос: это улучшение, потому что преобразование улучшает линейность с логитом? Или исправление перекоса улучшает баланс объясняющих переменных, делая данные более симметричными? Хотелось бы мне понять математические причины этого, но сейчас, если бы кто-то мог объяснить это в простых терминах, это было бы здорово. Если у вас есть какие-либо ссылки, которые я мог бы использовать, я был бы очень признателен.
Многие интернет-сайты говорят, что, поскольку нормальность не является допущением в бинарной логистической регрессии, не преобразовывайте переменные. Но я чувствую, что, не трансформируя свои переменные, я оставляю некоторые в невыгодном положении по сравнению с другими, и это может повлиять на то, что является топ-моделью, и изменить вывод (ну, обычно это не так, но в некоторых наборах данных это происходит). Некоторые из моих переменных работают лучше, когда лог преобразован, некоторые - в квадрате (другое направление перекоса), а некоторые нет.
Может ли кто-нибудь дать мне указание, с чем следует быть осторожным при преобразовании объясняющих переменных для логистической регрессии, и если нет, почему бы и нет?
Ответы:
Вам следует с осторожностью принимать решение о преобразовании или нет переменных только на основании статистики . Вы должны посмотреть на интерпретацию. ¿Разумно ли, чтобы ваши ответы были линейными по ? или это скорее линейный в ? И чтобы это обсудить, нам нужно знать ваши переменные ... Просто в качестве примера: независимо от соответствия модели, я бы не поверил, что смертность является линейной функцией возраста!log ( x )x log(x)
Поскольку вы говорите, что у вас есть «большие данные», вы можете посмотреть на сплайны, чтобы позволить данным говорить о преобразованиях ... например, пакет mgcv в R. Но даже при использовании такой технологии (или других методов автоматического поиска преобразований), Окончательный тест - спросить себя, что имеет научный смысл . ¿Что другие люди в вашей области делают с подобными данными?
источник
Важнейшим вопросом является то, что числа должны представлять в реальном мире и какова гипотетическая связь между этими переменными и зависимой переменной. Вы можете улучшить свою модель, «очистив» свои данные, но если она не лучше отражает реальный мир, вы потерпели неудачу. Возможно, распределение ваших данных означает, что ваш подход к моделированию неверен, и вам нужен совсем другой подход, возможно, у ваших данных есть проблемы.
Почему вы удаляете переменные, если они имеют corr> .3, мне не понятно. Может быть, эти вещи действительно связаны, и оба важны для зависимой переменной. Вы можете справиться с этим с помощью индекса или функции, представляющей совместный вклад коррелированных переменных. Похоже, вы слепо выбрасываете информацию на основе произвольных статистических критериев. Почему бы не использовать corr> .31 или .33?
источник