В настоящее время я работаю над созданием модели с использованием множественной линейной регрессии. После того, как я возился с моей моделью, я не уверен, как лучше определить, какие переменные оставить, а какие удалить.
Моя модель началась с 10 предикторов для DV. При использовании всех 10 предикторов четыре считались значимыми. Если я удаляю только некоторые из явно неверных предикторов, некоторые из моих предикторов, которые изначально не были значимыми, становятся значимыми. Что приводит меня к моему вопросу: как определить, какие предикторы следует включить в их модель? Мне показалось, что вы должны запустить модель один раз со всеми предикторами, удалить те, которые не являются значимыми, а затем снова выполнить. Но если удаление только некоторых из этих предикторов делает другие значимыми, мне остается только задаться вопросом, правильно ли я отношусь ко всему этому.
Я считаю, что эта ветка похожа на мой вопрос, но я не уверен, что правильно интерпретирую дискуссию. Возможно, это скорее тема экспериментального дизайна, но, может быть, у кого-то есть опыт, которым они могут поделиться.
Ответы:
Основываясь на вашей реакции на мой комментарий:
Вы ищете прогноз. Таким образом, вы не должны полагаться на (не) значимость коэффициентов. Вы бы лучше
В отношении каждой интересующей модели : в этом и заключается загвоздка. С 10 потенциальными предикторами, это грузовик потенциальных моделей. Если у вас есть время или процессоры для этого (или если ваши данные достаточно малы, чтобы модели подходили и оценивались достаточно быстро): имейте мяч. Если нет, вы можете сделать это с помощью образованных догадок, прямого или обратного моделирования (но используя критерий вместо значимости), или еще лучше: используйте некоторый алгоритм, который выбирает разумный набор моделей. Один алгоритм, который делает это, - наказывается регрессией, в частности регрессией Лассо. Если вы используете R, просто подключите пакет glmnet, и вы готовы к работе.
источник
Нет простого ответа на это. Когда вы удаляете некоторые несущественные объясняющие переменные, другие, которые связаны с ними, могут стать значимыми. В этом нет ничего плохого, но это делает выбор модели, по крайней мере, частично искусством, а не наукой. Вот почему эксперименты направлены на сохранение объяснительных переменных, ортогональных друг другу, чтобы избежать этой проблемы.
Традиционно аналитики пошагово добавляли и вычитали переменные в модель по одной (аналогично тому, что вы сделали) и тестировали их по отдельности или в небольших группах с помощью t- или F-тестов. Проблема в том, что вы можете пропустить некоторую комбинацию переменных, чтобы вычесть (или сложить), где их объединенный эффект (или не-эффект) скрыт коллинеарностью.
Благодаря современным вычислительным возможностям можно уместить все 2 ^ 10 = 1024 возможных комбинаций объясняющих переменных и выбрать лучшую модель по одному из ряда возможных критериев, например, AIC, BIC или прогнозирующей мощности (например, возможность прогнозировать значения тестового подмножества данных, которые вы отделили от набора, который вы используете, чтобы соответствовать вашей модели). Однако, если вы собираетесь тестировать (неявно или явно) модели 1024, вам нужно переосмыслить свои p-значения из классического подхода - относитесь с осторожностью ...
источник
Если вы заинтересованы только в прогнозирующих показателях, то, вероятно, лучше использовать все функции и использовать метод регрессии гребня, чтобы избежать чрезмерного соответствия обучающей выборки. По сути, это совет, приведенный в приложении к монографии Миллара «Выбор подмножества в регрессии». , поэтому он имеет разумную родословную!
Причина этого заключается в том, что если вы выберете подмножество на основе оценки производительности, основанной на фиксированной выборке данных (например, AIC, BIC, перекрестной проверки и т. Д.), Критерий выбора будет иметь конечную дисперсию, и поэтому возможно переопределить сам критерий выбора. Другими словами, для начала, когда вы минимизируете критерий выбора, производительность обобщения улучшится, однако наступит момент, когда чем больше вы уменьшите критерий выбора, тем хуже будет обобщение. Если вам не повезло, вы можете легко получить регрессионную модель, которая работает хуже, чем та, с которой вы начали (то есть модель со всеми атрибутами).
Это особенно вероятно, когда набор данных небольшой (поэтому критерий выбора имеет высокую дисперсию) и когда существует много возможных вариантов выбора модели (например, выбор комбинаций признаков). Регуляризация, по-видимому, менее склонна к чрезмерной подгонке, поскольку это скалярный параметр, который необходимо настроить, и это дает более ограниченное представление о сложности модели, то есть меньше эффективных степеней свободы, с которой можно переопределять критерий выбора. ,
источник
Используйте библиотеку прыжков. Когда вы строите переменные, на оси Y отображается R ^ 2 с настройкой. Вы смотрите, где ящики черные на самом высоком R ^ 2. Это покажет переменные, которые вы должны использовать для множественной линейной регрессии.
Пример вина ниже:
источник
leaps
явно вычисляет «лучшие подмножества», хотя и не советует вам выбирать среди подмножеств различного размера. (Это вопрос между вами и вашим статистическим духовенством.)leaps
он основан на «коде FORTRAN77 Алана Миллера [...], который более подробно описан в его книге« Выбор подмножества в регрессии », книге, которая упоминается Дикраном в другом ответе на этот вопрос :-)Вы также можете использовать функцию шага в информационном критерии Акайке. Пример ниже. https://en.wikipedia.org/wiki/Akaike_information_criterion
источник
Почему бы не сделать корреляционный анализ Сначала и затем включить в регрессию только те, которые связаны с Dv?
источник
Мой советник предложил другой возможный способ сделать это. Запустите все свои переменные один раз, а затем удалите те, которые не соответствуют некоторому порогу (мы устанавливаем наш порог как p <.25). Продолжайте итерацию таким образом, пока все переменные не упадут ниже этого значения .25, а затем сообщите о значимых значениях.
источник