В дополнение к превосходному ответу Kjetil, я хотел добавить несколько конкретных примеров, чтобы прояснить значение условного распределения , которое может быть немного неуловимым понятием.
Допустим, вы взяли случайную выборку из 100 рыб из озера, и вам интересно посмотреть, как возраст рыбы влияет на несколько переменных результата:
- Вес рыбы (Вес);
- Является ли рыба длиннее 30 см;
- Количество рыбьей чешуи.
Первая переменная результата является непрерывной, вторая - двоичной (0 = рыба НЕ длиннее 30 см; 1 = рыба длиннее 30 см), а третья переменная счета.
Простая линейная регрессия
Как возраст влияет на вес? Вы собираетесь сформулировать простую модель линейной регрессии вида:
Вес = β0+ β1∗ возраст + ϵ
где 's независимы, идентично распределены, следуя нормальному распределению со средним 0 и стандартным отклонением . В этой модели предполагается, что среднее значение переменной веса для всех рыб в озере, имеющих один и тот же возраст, изменяется линейно с возрастом. Условное среднее значение представлено как . Это называется условным, потому что это средний вес для всех рыб в озере того же возраста . (Безусловным средним весом будет средний вес всех рыб в озере, независимо от их возраста.) εσβ0+ β1* Возраст
Простая бинарная логистическая регрессия
Как Возраст влияет на длину рыбы более 30 см? Вы собираетесь сформулировать простую бинарную модель логистической регрессии в виде:
л о г( р1 - р) = β0+ β1* Возраст
где обозначает условную вероятность того, что рыба данного возраста длиннее 30см. В этой модели предполагается, что условное среднее переменной «длина рыбы больше 30 см», соответствующей всем рыбам в озере, имеющим одинаковый возраст, предполагается линейно изменяющимся с возрастом после подачи в логит-преобразование. Условно-преобразованное логит-преобразование представляет собой . Эта модель работает, потому что мы предполагаем, что распределение значений переменной «независимо от того, длинна рыбы превышает 30 см» для данного возраста и является распределением Бернулли. Напомним, что для этого распределения дисперсия является функцией среднего значения, поэтому, если мы можем оценить ее среднее значение, мы также можем оценить ее дисперсию.пβ0+ β1* Возрастp и дисперсия .) См. также https://www.theanalysisfactor.com/link-functions-and-errors-in-logistic-regression/ .p∗(1−p)
Простая Пуассоновская регрессия
Как возраст влияет на количество рыбьей чешуи? Вы собираетесь сформулировать простую пуассоновскую регрессионную модель вида:
log(μ)=β0+β1∗Age
где обозначает условное среднее значение выходной переменной «количество рыбьей чешуи» для рыб данного возраста (то есть ожидаемое количество рыбьей чешуи для всех рыб в озере данного возраста). В этой модели предполагается, что условное среднее значение переменной результата линейно изменяется с возрастом после подачи в логарифмическое преобразование. Условно-преобразованное логарифмическое среднее значение представлено как . Эта модель работает, потому что мы предполагаем, что распределение значений переменной «количество рыбьей чешуи» для всех рыб в озере данного возраста является распределением Пуассона. Напомним, что для этого распределения среднее значение и дисперсия равны, поэтому достаточно смоделировать ее среднее значение.μβ0+β1∗Age
Подводя итог, условное распределение представляет собой распределение значений результата для конкретных значений переменной (ей) предиктора, включенных в модель . Каждый тип модели регрессии, проиллюстрированный выше, налагает определенные предположения о распределении на условное распределение исходной переменной с учетом возраста. На основании этих предположений о распределении модель переходит к формулировке того, как (1) среднее условного распределения изменяется как функция возраста (простая линейная регрессия), (2) логит-преобразованное среднее условного распределения изменяется как функция age (простая бинарная логистическая регрессия) или (3) среднее значение логического преобразования условного распределения зависит от возраста.
Для каждого типа модели можно определить соответствующие остатки с целью проверки модели. В частности, могут быть определены остатки Пирсона и отклонения для моделей логистической и пуассоновской регрессии.