Вопросы с тегом «regression-strategies»

Стратегии регрессионного моделирования

78
В чем выгода разделения непрерывной переменной-предиктора?

Мне интересно, каково значение брать непрерывную переменную предиктора и разбивать ее (например, на квинтили), прежде чем использовать ее в модели. Мне кажется, что при биннинге переменной мы теряем информацию. Это просто для того, чтобы мы могли моделировать нелинейные эффекты? Если бы мы...

50
Можно ли использовать случайный лес для выбора признаков в множественной линейной регрессии?

Так как RF может обрабатывать нелинейность, но не может предоставить коэффициенты, было бы разумно использовать случайный лес для сбора наиболее важных признаков, а затем включить эти объекты в модель множественной линейной регрессии для получения их коэффициентов?...

28
Переоснащение модели логистической регрессии

Можно ли переоснастить модель логистической регрессии? Я видел видео, в котором говорилось, что если моя площадь под кривой ROC превышает 95%, то, скорее всего, она будет переопределена, но возможно ли переопределить модель логистической...

27
Соответствующие остаточные степени свободы после отбрасывания членов из модели

Я размышляю над обсуждением этого вопроса и, в частности, комментарием Фрэнка Харрелла о том, что для оценки дисперсии в сокращенной модели (т. Е. Той, в которой ряд объясняющих переменных были проверены и отклонены) следует использовать Обобщенные степени свободы Йе . Профессор Харрелл указывает,...

24
Оценка логистической регрессии и интерпретации Хосмера-Лемешоу Goodness of Fit

Как мы все знаем, есть 2 метода для оценки модели логистической регрессии, и они тестируют очень разные вещи Прогнозирующая сила: Получите статистику, которая измеряет, насколько хорошо вы можете предсказать зависимую переменную на основе независимых переменных. Хорошо известными псевдо R ^ 2...

23
Должна ли окончательная (готовая к производству) модель обучаться на полных данных или только на тренировочном наборе?

Предположим, я обучил несколько моделей на тренировочном наборе, выбрал лучшую, используя набор перекрестной проверки, и измерил производительность на тестовом наборе. Так что теперь у меня есть одна последняя лучшая модель. Должен ли я переучивать его на всех имеющихся у меня данных или судовом...

22
Когда квантильная регрессия хуже, чем OLS?

Помимо некоторых уникальных обстоятельств, когда мы абсолютно должны понимать условные средние отношения, в каких ситуациях исследователь должен выбрать OLS вместо квантильной регрессии? Я не хочу, чтобы ответ был «если нет смысла в понимании отношений хвоста», так как мы могли бы просто...

20
Байесовское мышление о переоснащении

Я посвятил много времени разработке методов и программного обеспечения для проверки прогностических моделей в традиционной статистической области. Внедряя больше байесовских идей в практику и обучая, я вижу некоторые ключевые отличия, которые следует принять Во-первых, байесовское прогнозирующее...

18
Страдает ли LASSO от тех же проблем, что и ступенчатая регрессия?

Пошаговые алгоритмические методы выбора переменных имеют тенденцию выбирать для моделей, которые смещают более или менее каждую оценку в регрессионных моделях ( ββ\beta s и их SE, p-значения , F- статистику и т. Д.), И примерно с такой же вероятностью исключают истинные предикторы, как включают...

18
Что значит сделать размер выборки случайной величиной?

Фрэнк Харрелл завел блог ( статистическое мышление) . В своем главном посту он перечисляет некоторые ключевые особенности своей статистической философии. Среди прочих предметов в него входят: Сделайте размер выборки случайной величиной, если это возможно Что значит «сделать размер выборки случайной...

17
Построение и отбор моделей с использованием Hosmer et al. 2013. Прикладная логистическая регрессия в R

Это мой первый пост на StackExchange, но я уже давно использую его в качестве ресурса, я сделаю все возможное, чтобы использовать соответствующий формат и внести соответствующие изменения. Кроме того, это вопрос, состоящий из нескольких частей. Я не был уверен, должен ли я разделить вопрос на...

15
Можем ли мы использовать категориальную независимую переменную в дискриминантном анализе?

В дискриминантном анализе зависимая переменная является категориальной, но могу ли я использовать категориальную переменную (например, статус проживания: сельский, городской) вместе с некоторой другой непрерывной переменной в качестве независимой переменной в линейном дискриминантном...

15
Могу ли я игнорировать коэффициенты для незначительных уровней факторов в линейной модели?

После поиска разъяснений по поводу коэффициентов линейной модели здесь у меня возник вопрос о не значащем значении (высокое значение p) для коэффициентов уровней факторов. Пример: если моя линейная модель включает в себя фактор с 10 уровнями, и только 3 из этих уровней имеют значимые значения p,...

14
Какие переменные объясняют, какие компоненты PCA, и наоборот?

Используя эти данные: head(USArrests) nrow(USArrests) Я могу сделать PCA следующим образом: plot(USArrests) otherPCA <- princomp(USArrests) Я могу получить новые компоненты в otherPCA$scores и доля дисперсии объясняется компонентами с summary(otherPCA) Но что, если я хочу знать, какие переменные...

13
Почему сопоставление оценки склонности работает для причинного вывода?

Сопоставление баллов склонности используется для определения причинно-следственных связей в наблюдательных исследованиях (см. Статью Розенбаума / Рубина ). Что за простая интуиция, почему она работает? Другими словами, почему, если мы удостоверимся, что вероятность участия в лечении одинакова для...

13
Как мне проверить предположение о линейности логита для непрерывных независимых переменных в логистическом регрессионном анализе?

Меня смущает предположение о линейности логита для переменных непрерывного предиктора в логистическом регрессионном анализе. Нужно ли проверять линейные отношения при проверке потенциальных предикторов с использованием анализа неизменяемой логистической регрессии? В моем случае я использую...

13
Выбор модели: логистическая регрессия

Предположим, у нас есть ковариат x 1 , … , x n и двоичная переменная результата y . Некоторые из этих ковариат являются категориальными с несколькими уровнями. Другие непрерывны. Как бы вы выбрали «лучшую» модель? Другими словами, как вы выбираете, какие ковариаты включить в...

13
Тестирование нелинейности в логистической регрессии (или других формах регрессии)

Одним из допущений логистической регрессии является линейность в логите. Поэтому, как только я установил и запустил свою модель, я тестировал нелинейность с помощью теста Бокса-Тидвелла. Один из моих постоянных предикторов (X) дал положительный результат на нелинейность. Что я должен делать дальше?...

12
Логистическая регрессия со сплайнами регрессии в R

Я разрабатывал модель логистической регрессии на основе ретроспективных данных из национальной базы данных о травмах головы в Великобритании. Ключевым результатом является 30-дневная смертность (обозначается как «выживаемая» мера). Другие меры с опубликованным доказательством существенного влияния...