Каковы реальные примеры «непараметрических статистических моделей»?

12

Я читаю здесь статью о статистических моделях в Википедии , и я несколько озадачен значением «непараметрических статистических моделей», а именно:

Статистическая модель является непараметрической, если множество параметров бесконечномерно. Статистическая модель является полупараметрической, если она имеет как конечномерные, так и бесконечномерные параметры. Формально, если d - размерность Θ, а n - число выборок, то и полупараметрические, и непараметрические модели имеют d при n . Если d / n 0 при n , то модель является полупараметрической; в противном случае модель является непараметрической.ΘdΘndnd/n0n

Я понимаю, что если размерность (я понимаю это буквально как число параметров) модели конечна, то это параметрическая модель.

Что не имеет смысла для меня, так это то, как мы можем иметь статистическую модель, которая имеет бесконечное число параметров, так что мы можем назвать ее «непараметрической». Кроме того, даже если это имело место, почему «не», если на самом деле существует бесконечное количество измерений? И наконец, поскольку я пришел к этому с точки зрения машинного обучения, есть ли разница между этой «непараметрической статистической моделью» и, скажем, «непараметрическими моделями машинного обучения»? Наконец, какими могут быть конкретные примеры таких «непараметрических бесконечномерных моделей»?

Creatron
источник
3
Использование другой вики-страницы ( en.wikipedia.org/wiki/… ): «Непараметрические модели отличаются от параметрических моделей тем, что структура модели не указана априори, а определяется из данных. Термин «непараметрический» не означает, что в таких моделях полностью отсутствуют параметры, но что число и характер параметров являются гибкими и не фиксируются заранее ». таким образом, непараметрический не имеет бесконечное количество параметров, но неизвестное количество параметров.
Рифф
Я сомневаюсь. В непараметрических моделях мы априори определяем структуру модели. Например, в деревьях решений (которые являются непараметрической моделью) мы определяем max_depth. Тогда как вы можете сказать, что этот параметр действительно изучен / определен из самих данных, а не предопределен нами?
Амарприт Сингх

Ответы:

5

Джоннибойкуртис ответил, что непараметрические методы - это те, которые не предполагают распределения населения или размера выборки для генерации модели.

Модель k-NN является примером непараметрической модели, поскольку она не учитывает никаких предположений для разработки модели. Наивный байесовский или К-средний является примером параметрического, поскольку он предполагает распределение для создания модели.

Например, K-means предполагает следующее для разработки модели. Все кластеры сферические (например, гауссовские). Все оси имеют одинаковое распределение и, следовательно, дисперсию. Все кластеры имеют одинаковый размер.

Что касается K-NN, он использует полный набор обучения для прогнозирования. Он рассчитывает ближайших соседей из контрольной точки для прогнозирования. Он не предполагает распространения для создания модели.

Для получения дополнительной информации:

  1. http://pages.cs.wisc.edu/~jerryzhu/cs731/stat.pdf
  2. /stats//a/133841/86202
  3. /stats//a/133694/86202
Prashanth
источник
Можете ли вы расширить это, пожалуйста? Почему KNN является примером непараметрического, и почему K-средства могут быть? Это те детали, которые мне нужны, особенно примеры непараметрических методов, и почему / как они не имеют предположения о распределении населения. Благодаря!
Creatron
@Creatron Я изменил ответ для большего объяснения.
Прашант
3

Итак, я думаю, что вы упускаете несколько очков. Во-первых, и самое главное,

Статистический метод называется непараметрическим, если он не делает никаких предположений о распределении населения или размере выборки.

Вот простой (прикладной) учебник по некоторым непарметрическим моделям: http://www.r-tutor.com/elementary-statistics/non-parametric-methods

Исследователь может решить использовать непараметрическую модель по сравнению с параметрической моделью, скажем, непараметрическая регрессия по сравнению с линейной регрессией, потому что данные нарушают допущения, содержащиеся в параметрической модели. Поскольку вы работаете в сфере ML, я просто предполагаю, что вы никогда не изучали типичные предположения модели линейной регрессии. Вот ссылка: https://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php

Нарушение допущений может исказить ваши оценки параметров и в конечном итоге увеличить риск неверных выводов. Непараметрическая модель является более устойчивой к выбросам, нелинейным отношениям и не зависит от многих предположений о распределении населения, следовательно, может обеспечить более достоверные результаты при попытке сделать выводы или предсказания.

Для краткого руководства по непараметрической регрессии я рекомендую следующие слайды: http://socserv.socsci.mcmaster.ca/jfox/Courses/Oxford-2005/slides-handout.pdf

Джон
источник
Спасибо за ссылки, я их пройду. Одна вещь, однако, как мы должны объединить это с «бесконечным числом параметров», которые составляют «непараметрическую» модель? Спасибо
Creatron
Там нет цитирования для этого "бесконечного числа параметров", поэтому я не могу комментировать. Я никогда не видел такой ссылки на тему непараметрической статистической модели, поэтому мне нужно увидеть ссылку, прежде чем я смогу дать ответ / интерпретацию. На данный момент, я бы беспокоился о допущениях для конкретных моделей против целого поля.
Джон
Статья в Википедии, процитированная в моем вопросе, относится к бесконечной размерности. Буквально: «Статистическая модель является непараметрической, если набор параметров бесконечномерен». Что это значит? Это то, что я имею в виду.
Creatron
Я знаю. Но Википедия не приводит цитату для этого утверждения. Не могу доверять чему-либо без ссылки.
Джон
3

В настоящее время я прохожу курс по машинному обучению, где мы используем следующее определение непараметрических моделей: «Непараметрические модели усложняются в зависимости от размера данных».

Параметрическая модель

Чтобы увидеть, что это значит, давайте посмотрим на линейную регрессию, параметрическую модель: там мы пытаемся предсказать функцию, параметризованную в : . Размерность w не зависит от числа. наблюдений, или размер ваших данных.wd

f(x)=wTx

Непараметрические модели

Вместо этого регрессия ядра пытается предсказать следующую функцию: где у нас есть точек данных, - веса, а является функцией ядра. При этом число параметров это зависит от количества точек .

f(x)=i=1nαik(xi,x)
nαik(xi,x)αin

То же самое относится и к ядру перцептрона:

f(x)=sign(i=1nαiyik(xi,x)))

Давайте вернемся к вашему определению и скажем, что d было числом . Если мы позволим то . Это именно то, что просит определение в Википедии. n d αind

Я взял функцию регрессии ядра из своих слайдов лекций и функцию перцептрона с ядрами из википедии: https://en.wikipedia.org/wiki/Kernel_method

sop_se
источник