Информация вне матрицы для логистической регрессии

12

Мне ясно и хорошо объяснено на нескольких сайтах, какую информацию дают значения на диагонали матрицы шляп для линейной регрессии.

Шляпная матрица модели логистической регрессии мне менее понятна. Идентична ли она той информации, которую вы получаете из шляпной матрицы, применяя линейную регрессию? Это определение шляпной матрицы, которую я нашел в другой теме резюме (источник 1):

H=VX(XVX)1XV

с X вектор переменных-предикторов, а V - диагональная матрица с .(π(1π))

Верно ли, другими словами, также, что конкретное значение матрицы шляп наблюдения также просто представляет положение ковариат в ковариатном пространстве и не имеет ничего общего с конечным значением этого наблюдения?

Об этом написано в книге «Категориальный анализ данных» Агрести:

Чем больше рычаг наблюдения, тем больше его потенциальное влияние на подгонку. Как и в обычной регрессии, рычаги попадают между 0 и 1 и суммируются с количеством параметров модели. В отличие от обычной регрессии, значения шляп зависят от подгонки, а также от матрицы модели, и точки, имеющие экстремальные значения предикторов, не обязательно должны иметь высокое левередж.

Таким образом, из этого определения, кажется, мы не можем использовать его, как мы используем его в обычной линейной регрессии?

Источник 1: Как рассчитать шляпную матрицу для логистической регрессии в R?

Kasper
источник

Ответы:

13

Позвольте мне немного изменить обозначение и записать матрицу шапки как где - диагональная симметричная матрица с общими элементами . Обозначим как группы лиц с одинаковым ковариатным значением . Вы можете получить диагональный элемент ( ) шляпной матрицы как Тогда сумма дает количество параметров, как в линейной регрессии. Теперь к вашему вопросу: Vvj=mjπ(xj)[1-π(xj)]mjx=xjjth

H=V12X(XVX)1XV12
Vvj=mjπ(xj)[1π(xj)]mjx=xjjthhj
hj=mjπ(xj)[1π(xj)]xj(XVX)1xj
hj

Интерпретация значений кредитного плеча в матрице шляп зависит от предполагаемой вероятности . Если , вы можете интерпретировать значения кредитного плеча таким же образом, как в случае линейной регрессии, то есть, если вы будете находиться дальше от среднего значения, вы получите более высокие значения. Если вы находитесь в крайних точках распределения вероятностей, эти значения кредитного плеча могут больше не измерять расстояние в том же смысле. Это показано на рисунке ниже, взятом из Hosmer and Lemeshow (2000):π0.1<π<0.9

введите описание изображения здесь

В этом случае самые экстремальные значения в ковариатном пространстве могут дать вам наименьшее кредитное плечо, что противоречит случаю линейной регрессии. Причина в том, что левередж в линейной регрессии является монотонной функцией, что неверно для нелинейной логистической регрессии. В приведенной выше формулировке диагональных элементов матрицы шляпы присутствует монотонно возрастающая часть, представляющая расстояние от среднего значения. Это часть , на которую вы можете посмотреть, если интересуетесь только расстоянием как таковым. Большинство диагностических статистических данных для логистических регрессий используют полный рычаг , поэтому эта отдельная монотонная часть редко рассматривается отдельно.xj(XVX)1xjhj

Если вы хотите глубже изучить эту тему, взгляните на статью Прегибона (1981), которая вывела матрицу логистической шляпы, и книгу Хосмера и Лемешоу (2000).

Энди
источник