Я недавно получил следующий вопрос по электронной почте. Я выложу ответ ниже, но мне было интересно услышать, что думают другие.
Вы бы назвали логистическую регрессию непараметрическим тестом? Насколько я понимаю, простой маркировки теста непараметрическим, потому что его данные обычно не распределяются, недостаточно. Это больше связано с отсутствием предположений. Логистическая регрессия имеет предположения.
hypothesis-testing
logistic
nonparametric
Джером англим
источник
источник
Ответы:
Ларри Вассерман определяет параметрическую модель как набор распределений, «которые могут быть параметризованы конечным числом параметров». (с.87) Напротив, непараметрическая модель представляет собой набор распределений, которые не могут быть параметризованы конечным числом параметров.
Таким образом, по этому определению стандартная логистическая регрессия является параметрической моделью. Модель логистической регрессии является параметрической, поскольку она имеет конечный набор параметров. В частности, параметры являются коэффициентами регрессии. Они обычно соответствуют одному для каждого предиктора плюс константа. Логистическая регрессия является частной формой обобщенной линейной модели. В частности, это включает использование функции связи logit для моделирования биномиально распределенных данных.
Интересно, что можно выполнить непараметрическую логистическую регрессию (например, Hastie, 1983). Это может включать использование сплайнов или некоторую форму непараметрического сглаживания для моделирования эффекта предикторов.
Ссылки
источник
Я бы сказал, что логистическая регрессия вообще не является тестом; однако логистическая регрессия может затем привести к отсутствию тестов или нескольких тестов.
Вы совершенно правы, что маркировки чего-то непараметрического, потому что это ненормально, недостаточно. Я бы назвал экспоненциальное семейство явно параметрическим, поэтому я обычно рассматриваю логистическую регрессию (и пуассоновскую регрессию и гамма-регрессию и ...) как параметрическую, хотя могут быть обстоятельства, при которых я мог бы принять аргумент, что конкретные логистические регрессии могут следует рассматривать как непараметрический (или, по крайней мере, в некотором неопределенном смысле, только квазипараметрический).
Остерегайтесь любой путаницы по поводу двух чувств, в которых регрессия может быть названа непараметрической.
Оба чувства используются, но когда дело доходит до регрессии, второй тип фактически используется чаще.
Это также возможно , чтобы быть непараметрический в обоих смыслах, но труднее (с достаточными данными, я мог бы, например, соответствовать Theil локально-взвешенной линейной регрессии).
В случае GLM вторая форма непараметрической множественной регрессии включает GAM; эта вторая форма - это смысл, в котором обычно работает Хасти (и в котором он действует в этой цитате).
источник
Одно полезное различие, которое может добавить немного к ответам выше: Эндрю Нг дает эвристику для того, что значит быть непараметрической моделью в лекции 1 из материалов курса для курса CS-229 Стэнфорда по машинному обучению.
Там Нг говорит (стр. 14-15):
Я думаю, что это полезный контрастный способ думать об этом, потому что он напрямую вводит понятие сложности. Непараметрические модели по своей природе не являются менее сложными, поскольку они могут требовать хранения гораздо большего количества обучающих данных. Это просто означает, что вы не сокращаете использование данных обучения, сжимая их в конечно параметризованный расчет. Для эффективности или непредвзятости или множества других свойств, вы можете захотеть параметризоваться. Но может быть выигрыш в производительности, если вы можете позволить себе отказаться от параметризации и хранить много данных.
источник
Я думаю, что логистическая регрессия является параметрической техникой.
Это может быть полезно, от Wolfowitz (1942) [Аддитивные функции разбиения и класс статистических гипотез Анналы математической статистики, 1942, 13, 247-279]:
Кроме того, услышав, что это обсуждалось довольно много, я нашел это забавным Нетером (1984) [Непараметрика: первые годы - впечатления и воспоминания. Американский статистик, 1984, 38, 173-178]:
источник
Хасти и Тибширани определяют, что линейная регрессия является параметрическим подходом, поскольку она принимает линейную функциональную форму f (X). Непараметрические методы не принимают явно форму для f (X). Это означает, что непараметрический метод будет соответствовать модели на основе оценки f, рассчитанной по модели. Логистическая регрессия устанавливает, что p (x) = Pr (Y = 1 | X = x), где вероятность вычисляется логистической функцией, но логистическая граница, разделяющая такие классы, не предполагается, что подтверждает, что LR также непараметрический
источник