Является ли логистическая регрессия непараметрическим тестом?

15

Я недавно получил следующий вопрос по электронной почте. Я выложу ответ ниже, но мне было интересно услышать, что думают другие.

Вы бы назвали логистическую регрессию непараметрическим тестом? Насколько я понимаю, простой маркировки теста непараметрическим, потому что его данные обычно не распределяются, недостаточно. Это больше связано с отсутствием предположений. Логистическая регрессия имеет предположения.

Джером англим
источник
7
(+1) Для записи - и в качестве контрапункта к утверждениям в вопросе - я не знаю надежной ссылки, которая определяет (или даже характеризует) непараметрические методы как «недостающие предположения». Все статистические процедуры делают предположения. Большинство непараметрических процедур на самом деле делают ограничительные количественные предположения о базовых распределениях вероятностей, но эти предположения не сужают возможные состояния дел до набора, имеющего структуру конечномерного вещественного многообразия.
whuber
Если мы говорим о линейной логистической регрессии (которая кажется неявной, основываясь на ответе, который вы написали), то, конечно, это параметрическая модель, но стоит отметить, что если вы подгоняете ковариатный эффект, используя непараметрическую гладкую функцию, например, тогда нет никаких параметрических ограничений на предполагаемую вероятность как функция . Это относится не только к логистической ссылке; та же логика применима для любой функции обратимой связи.
log(P(Yi=1|Xi=x)P(Yi=0|Xi=x))=f(x)
x
Макрос
Я задаю связанный вопрос здесь . Я начинаю понимать, что некоторые случаи GLM (например, логистическая модель) обеспечивают непараметрический тест. Я посмотрю на книгу Вассермана, хотя (если не ошибаюсь) есть некоторые разногласия по поводу некоторых принципов и выводов его работы.
AdamO

Ответы:

19

Ларри Вассерман определяет параметрическую модель как набор распределений, «которые могут быть параметризованы конечным числом параметров». (с.87) Напротив, непараметрическая модель представляет собой набор распределений, которые не могут быть параметризованы конечным числом параметров.

Таким образом, по этому определению стандартная логистическая регрессия является параметрической моделью. Модель логистической регрессии является параметрической, поскольку она имеет конечный набор параметров. В частности, параметры являются коэффициентами регрессии. Они обычно соответствуют одному для каждого предиктора плюс константа. Логистическая регрессия является частной формой обобщенной линейной модели. В частности, это включает использование функции связи logit для моделирования биномиально распределенных данных.

Интересно, что можно выполнить непараметрическую логистическую регрессию (например, Hastie, 1983). Это может включать использование сплайнов или некоторую форму непараметрического сглаживания для моделирования эффекта предикторов.

Ссылки

  • Вассерман Л. (2004). Вся статистика: краткий курс статистического вывода. Springer Verlag.
  • Hastie, T. (1983). Непараметрическая логистическая регрессия. SLAC PUB-3160, июнь. PDF
Джером англим
источник
Модель представляет собой набор распределений? Там чего-то не хватает.
rolando2
Это обычно, чтобы задать вопрос и ответить на него самостоятельно?
1
@fcop приветствуется. blog.stackoverflow.com/2011/07/…
Джером Энглим
Хорошо, извините, я не знал
Не стоит беспокоиться. Для меня основной целью сайта является создание ресурсов, которые другие открывают для поиска ответов в будущем. Вклад ваших собственных ответов помогает во всем этом.
Jeromy Anglim
16

Я бы сказал, что логистическая регрессия вообще не является тестом; однако логистическая регрессия может затем привести к отсутствию тестов или нескольких тестов.

Вы совершенно правы, что маркировки чего-то непараметрического, потому что это ненормально, недостаточно. Я бы назвал экспоненциальное семейство явно параметрическим, поэтому я обычно рассматриваю логистическую регрессию (и пуассоновскую регрессию и гамма-регрессию и ...) как параметрическую, хотя могут быть обстоятельства, при которых я мог бы принять аргумент, что конкретные логистические регрессии могут следует рассматривать как непараметрический (или, по крайней мере, в некотором неопределенном смысле, только квазипараметрический).

Остерегайтесь любой путаницы по поводу двух чувств, в которых регрессия может быть названа непараметрической.

ИксYx

yИкс

Оба чувства используются, но когда дело доходит до регрессии, второй тип фактически используется чаще.

Это также возможно , чтобы быть непараметрический в обоих смыслах, но труднее (с достаточными данными, я мог бы, например, соответствовать Theil локально-взвешенной линейной регрессии).

В случае GLM вторая форма непараметрической множественной регрессии включает GAM; эта вторая форма - это смысл, в котором обычно работает Хасти (и в котором он действует в этой цитате).

Glen_b - Восстановить Монику
источник
3

Одно полезное различие, которое может добавить немного к ответам выше: Эндрю Нг дает эвристику для того, что значит быть непараметрической моделью в лекции 1 из материалов курса для курса CS-229 Стэнфорда по машинному обучению.

Там Нг говорит (стр. 14-15):

θiθiчас

Я думаю, что это полезный контрастный способ думать об этом, потому что он напрямую вводит понятие сложности. Непараметрические модели по своей природе не являются менее сложными, поскольку они могут требовать хранения гораздо большего количества обучающих данных. Это просто означает, что вы не сокращаете использование данных обучения, сжимая их в конечно параметризованный расчет. Для эффективности или непредвзятости или множества других свойств, вы можете захотеть параметризоваться. Но может быть выигрыш в производительности, если вы можете позволить себе отказаться от параметризации и хранить много данных.

Ely
источник
0

Я думаю, что логистическая регрессия является параметрической техникой.

Это может быть полезно, от Wolfowitz (1942) [Аддитивные функции разбиения и класс статистических гипотез Анналы математической статистики, 1942, 13, 247-279]:

« Предполагается, что функции распределения [примечание: множественное число !!!] различных стохастических переменных, которые входят в их задачи, имеют известную функциональную форму, а теории оценки и проверки гипотез являются теориями оценки и проверки гипотез о один или несколько параметров, конечное число которых, знание которых будет полностью определять различные задействованные функции распределения. Мы будем называть эту ситуацию для краткости параметрическим случаем, а противоположную ситуацию, в которой функциональные формы распределений неизвестны ', будем называть непараметрическим случаем.

Кроме того, услышав, что это обсуждалось довольно много, я нашел это забавным Нетером (1984) [Непараметрика: первые годы - впечатления и воспоминания. Американский статистик, 1984, 38, 173-178]:

«Термин непараметрический может иметь некоторое историческое значение и значение для теоретических статистиков, но он только вводит в заблуждение прикладных статистиков».

AndyF
источник
0

Хасти и Тибширани определяют, что линейная регрессия является параметрическим подходом, поскольку она принимает линейную функциональную форму f (X). Непараметрические методы не принимают явно форму для f (X). Это означает, что непараметрический метод будет соответствовать модели на основе оценки f, рассчитанной по модели. Логистическая регрессия устанавливает, что p (x) = Pr (Y = 1 | X = x), где вероятность вычисляется логистической функцией, но логистическая граница, разделяющая такие классы, не предполагается, что подтверждает, что LR также непараметрический

Хуан Самора
источник