Я не знаю, смогу ли я дать вам полный ответ, но я могу дать вам некоторые мысли, которые могут быть полезны. Во-первых, все статистические модели / тесты имеют допущения. Однако логистическая регрессия в значительной степени не предполагает, что остатки обычно распределяются, а дисперсия постоянна. Скорее, предполагается, что данные распределены в виде бинома, , то есть с числом испытаний Бернулли, равным количеству наблюдений в этом точном наборе ковариатных значений и с вероятностью, связанной с этим набором ковариатных значений. Помните, что дисперсия бинома равна . Таким образом, еслиB(nxi,pxi)np(1−p)nРазличаются на разных уровнях ковариаты, различия также будут. Кроме того, если какой-либо из ковариат вообще связан с переменной отклика, то вероятности будут варьироваться, и, следовательно, также будут и дисперсии. Это важные факты о логистической регрессии.
Во-вторых, сравнение моделей обычно выполняется между моделями с различными спецификациями (например, с различными наборами ковариат), а не по разным подмножествам данных. Если честно, я не уверен, как это будет правильно сделано. С линейной моделью, можно посмотреть на 2 с , чтобы увидеть , насколько лучше подгонка с аномальными данными исключены, но это будет только описательное, и вы должны знать , что будет иметь идти вверх. Однако с логистической регрессией стандарт не может быть использован. Существуют различные псевдо-R2R2R2R2s ', которые были разработаны для предоставления аналогичной информации, но они часто считаются ошибочными и не часто используются. Для обзора различных псевдо- которые существуют, смотрите здесь . Для некоторого обсуждения и критики их смотрите здесь . Другая возможность может заключаться в том, чтобы разыграть бета-версии с включенными выбросами и без них, чтобы увидеть, как их исключение способствует стабилизации распределения выборок. Еще раз, это будет только описательным (то есть, это не будет тест, чтобы сказать вам, какую модель - подмножество ваших данных - предпочитать), и дисперсия должна снизиться. Эти вещи являются правдой, как для псевдо-R2R2s и распределения с закрытыми ногами, потому что вы выбрали эти данные для исключения на основании того факта, что они выглядят экстремально.
Я согласен с приведенным выше замечанием AdamO в целом: если предположить, что 1 миллиардер представляет 1/100 населения, это совершенно нормально. Однако, если присутствие 1 миллиардера искажает данные настолько сильно, что это влияет на прогноз для остальных 99 человек, я бы убрал 1 миллиардера. Я предпочел бы ошибиться с предсказанием выброса, чем все остальные.
Сказав это, если вы удалите точки данных, используя значения D Кука (т. Е. Что-нибудь> 4 / df), то вы можете использовать площадь под кривыми ROC для обеих моделей, чтобы проверить улучшение.
источник