Я ищу лучшее распределение для рассматриваемой независимой переменной, или чтобы уменьшить влияние выбросов или что-то
Стратегии регрессионного моделирования
Я ищу лучшее распределение для рассматриваемой независимой переменной, или чтобы уменьшить влияние выбросов или что-то
Мне интересно, каково значение брать непрерывную переменную предиктора и разбивать ее (например, на квинтили), прежде чем использовать ее в модели. Мне кажется, что при биннинге переменной мы теряем информацию. Это просто для того, чтобы мы могли моделировать нелинейные эффекты? Если бы мы...
Так как RF может обрабатывать нелинейность, но не может предоставить коэффициенты, было бы разумно использовать случайный лес для сбора наиболее важных признаков, а затем включить эти объекты в модель множественной линейной регрессии для получения их коэффициентов?...
Можно ли переоснастить модель логистической регрессии? Я видел видео, в котором говорилось, что если моя площадь под кривой ROC превышает 95%, то, скорее всего, она будет переопределена, но возможно ли переопределить модель логистической...
Я размышляю над обсуждением этого вопроса и, в частности, комментарием Фрэнка Харрелла о том, что для оценки дисперсии в сокращенной модели (т. Е. Той, в которой ряд объясняющих переменных были проверены и отклонены) следует использовать Обобщенные степени свободы Йе . Профессор Харрелл указывает,...
Как мы все знаем, есть 2 метода для оценки модели логистической регрессии, и они тестируют очень разные вещи Прогнозирующая сила: Получите статистику, которая измеряет, насколько хорошо вы можете предсказать зависимую переменную на основе независимых переменных. Хорошо известными псевдо R ^ 2...
Предположим, я обучил несколько моделей на тренировочном наборе, выбрал лучшую, используя набор перекрестной проверки, и измерил производительность на тестовом наборе. Так что теперь у меня есть одна последняя лучшая модель. Должен ли я переучивать его на всех имеющихся у меня данных или судовом...
Помимо некоторых уникальных обстоятельств, когда мы абсолютно должны понимать условные средние отношения, в каких ситуациях исследователь должен выбрать OLS вместо квантильной регрессии? Я не хочу, чтобы ответ был «если нет смысла в понимании отношений хвоста», так как мы могли бы просто...
Я посвятил много времени разработке методов и программного обеспечения для проверки прогностических моделей в традиционной статистической области. Внедряя больше байесовских идей в практику и обучая, я вижу некоторые ключевые отличия, которые следует принять Во-первых, байесовское прогнозирующее...
Пошаговые алгоритмические методы выбора переменных имеют тенденцию выбирать для моделей, которые смещают более или менее каждую оценку в регрессионных моделях ( ββ\beta s и их SE, p-значения , F- статистику и т. Д.), И примерно с такой же вероятностью исключают истинные предикторы, как включают...
Фрэнк Харрелл завел блог ( статистическое мышление) . В своем главном посту он перечисляет некоторые ключевые особенности своей статистической философии. Среди прочих предметов в него входят: Сделайте размер выборки случайной величиной, если это возможно Что значит «сделать размер выборки случайной...
Это мой первый пост на StackExchange, но я уже давно использую его в качестве ресурса, я сделаю все возможное, чтобы использовать соответствующий формат и внести соответствующие изменения. Кроме того, это вопрос, состоящий из нескольких частей. Я не был уверен, должен ли я разделить вопрос на...
В дискриминантном анализе зависимая переменная является категориальной, но могу ли я использовать категориальную переменную (например, статус проживания: сельский, городской) вместе с некоторой другой непрерывной переменной в качестве независимой переменной в линейном дискриминантном...
После поиска разъяснений по поводу коэффициентов линейной модели здесь у меня возник вопрос о не значащем значении (высокое значение p) для коэффициентов уровней факторов. Пример: если моя линейная модель включает в себя фактор с 10 уровнями, и только 3 из этих уровней имеют значимые значения p,...
Используя эти данные: head(USArrests) nrow(USArrests) Я могу сделать PCA следующим образом: plot(USArrests) otherPCA <- princomp(USArrests) Я могу получить новые компоненты в otherPCA$scores и доля дисперсии объясняется компонентами с summary(otherPCA) Но что, если я хочу знать, какие переменные...
Сопоставление баллов склонности используется для определения причинно-следственных связей в наблюдательных исследованиях (см. Статью Розенбаума / Рубина ). Что за простая интуиция, почему она работает? Другими словами, почему, если мы удостоверимся, что вероятность участия в лечении одинакова для...
Меня смущает предположение о линейности логита для переменных непрерывного предиктора в логистическом регрессионном анализе. Нужно ли проверять линейные отношения при проверке потенциальных предикторов с использованием анализа неизменяемой логистической регрессии? В моем случае я использую...
Предположим, у нас есть ковариат x 1 , … , x n и двоичная переменная результата y . Некоторые из этих ковариат являются категориальными с несколькими уровнями. Другие непрерывны. Как бы вы выбрали «лучшую» модель? Другими словами, как вы выбираете, какие ковариаты включить в...
Одним из допущений логистической регрессии является линейность в логите. Поэтому, как только я установил и запустил свою модель, я тестировал нелинейность с помощью теста Бокса-Тидвелла. Один из моих постоянных предикторов (X) дал положительный результат на нелинейность. Что я должен делать дальше?...
Я разрабатывал модель логистической регрессии на основе ретроспективных данных из национальной базы данных о травмах головы в Великобритании. Ключевым результатом является 30-дневная смертность (обозначается как «выживаемая» мера). Другие меры с опубликованным доказательством существенного влияния...