Я пытаюсь понять, как логистическая регрессия использует биномиальное распределение.
Допустим, я изучаю успех гнезда у птиц. Вероятность успеха гнезда составляет 0,6. Используя биномиальное распределение, я могу вычислить вероятность r успехов, учитывая n испытаний (количество изученных гнезд).
Но как биномиальное распределение используется в контексте моделирования? Допустим, я хочу знать, как средняя дневная температура влияет на успех гнезда, и я использую логистическую регрессию для изучения этого вопроса.
В контексте, который я описал, как логистическая регрессия использует биномиальное распределение?
Я ищу интуитивный ответ, поэтому ответ без уравнений! Я думаю, что уравнения полезны только тогда, когда понимание было достигнуто на интуитивном уровне.
Ответы:
Предположим, вы наблюдаете несколько гнезд при разных среднесуточных температурах . Как зависит вероятность успеха гнезда π ( t ) от температуры t ? (Если гнезда независимы, то количество гнезд с успехом при температуре t затем биномиально распределяется с n, равным числу наблюдаемых гнезд и вероятности успеха π ( t ) .)t π(t) t t n π(t)
Логистическая регрессия - это один из подходов (с использованием логистической функции) определения вероятности успеха в зависимости от температуры посредством растяжения и сдвига логистической кривой, причем объем растяжения и сдвига требуется оценивать по данным.
источник
Без уравнений? Хлоп. Посмотрим:
Модель логистической регрессии является буквально моделью для параметраp биномиального распределения; с непрерывным предиктором каждая точка может иметь свое собственное распределение. (В случаях, когда наблюдения 0-1, мы имеем дело с частным случаем Бернулли; это обычная ситуация.)
Поскольку логистическая ссылка является канонической для биномиального семейства, она даже лучше, поскольку достаточная статистика имеет очень простую форму - это делает ее удобной для работы с большими выборками или даже для разработки «онлайновых» алгоритмов.
Конечно,p , будучи вероятностью, лежит между 0 и 1. Это, естественно, означает, что когда мы пишем модель для нее в терминах какой-либо другой переменной, эта модель не должна падать через эти пределы, так как независимая переменная получает достаточно большие или маленькие, отношения должны изгибаться, чтобы оставаться в пределах.
При логистической регрессии эта кривая (функция связи) является логистической функцией. Возможны и другие функции, и многие пакеты реализуют несколько (в R есть три подходящих,
glm
если я правильно помню).Никакие символы равенства не пострадали при создании этого поста.
источник
Ваша модель предполагает, что успех гнезда можно рассматривать как азартную игру: Бог подбрасывает нагруженную монету сторонами, обозначенными как «успех» и «провал». Результат броска для одного гнезда не зависит от результата броска для любого другого гнезда.
Однако у птиц есть что-то для них: монета может сильно способствовать успеху при одних температурах по сравнению с другими. Таким образом, когда у вас есть возможность наблюдать за гнездами при данной температуре, количество успехов равно количеству успешных бросков одной и той же монеты - той, что для этой температуры. Соответствующее биномиальное распределение описывает шансы на успех. То есть он устанавливает вероятность нулевого успеха, одного, двух, ... и т. Д. По количеству гнезд.
Одна разумная оценка взаимосвязи между температурой и тем, как Бог загружает монеты, определяется долей успехов, наблюдаемых при этой температуре. Это оценка максимального правдоподобия (MLE).
В верхнем ряду рисунка показаны MLE при каждой из четырех наблюдаемых температур. Красная кривая на панели «Fit» показывает, как монета загружается, в зависимости от температуры. По построению этот след проходит через каждую точку данных. (Что он делает при промежуточных температурах, неизвестно; я грубо связал значения, чтобы подчеркнуть этот момент.)
Эта «насыщенная» модель не очень полезна именно потому, что она не дает нам оснований оценивать, как Бог будет загружать монеты при промежуточных температурах. Для этого мы должны предположить, что есть какая-то «трендовая» кривая, которая связывает нагрузки монет с температурой.
Нижний ряд рисунка соответствует такой тенденции. Тенденция ограничена в том, что она может делать: при построении в соответствующих («log odds») координатах, как показано на панелях «Logit Response» слева, она может следовать только по прямой линии. Любая такая прямая линия определяет загрузку монеты при всех температурах, как показано соответствующей изогнутой линией на панелях «Подгонка». Эта нагрузка, в свою очередь, определяет биномиальные распределения при всех температурах. В нижнем ряду приведены распределения для температур, в которых наблюдались гнезда. (Пунктирные черные линии отмечают ожидаемые значения распределений, помогая идентифицировать их довольно точно. Эти линии не отображаются в верхнем ряду рисунка, поскольку они совпадают с красными сегментами.)
Теперь необходимо найти компромисс: линия может проходить близко к некоторым точкам данных только для того, чтобы отклониться от других. Это заставляет соответствующее биномиальное распределение назначать более низкие вероятности большинству наблюдаемых значений, чем раньше. Это можно ясно увидеть при 10 и 15 градусах: вероятность наблюдаемых значений не является максимально возможной и не близка к значениям, назначенным в верхнем ряду.
Логистическая регрессия скользит и покачивает возможные линии вокруг (в системе координат, используемой панелями «Logit Response»), преобразует их высоты в биномиальные вероятности (панели «Fit»), оценивает шансы, назначенные для наблюдений (четыре правые панели ) и выбирает линию, которая дает наилучшую комбинацию этих шансов.
Что такое "лучший"? Просто, что суммарная вероятность всех данных настолько велика, насколько это возможно. Таким образом, ни одна из вероятностей (красные сегменты) не может быть действительно крошечной, но обычно большая часть вероятностей не будет такой высокой, как в насыщенной модели.
Вот одна итерация поиска логистической регрессии, где линия была повернута вниз:
Я надеюсь, что это обсуждение помогло вам сформировать мысленное представление о биномиальных вероятностях, изменяющихся при изменении линии, в то же время сохраняя данные одинаковыми. Линия, соответствующая логистической регрессии, пытается сделать эти красные столбцы как можно выше. Таким образом, связь между логистической регрессией и семейством биномиальных распределений является глубокой и тесной.
Приложение:
R
код для изготовления фигуристочник