С точки зрения непрофессионала, в чем разница между моделью и распределением?

28

Ответы (определения), определенные в Википедии, возможно, немного загадочны для тех, кто не знаком с высшей математикой / статистикой.

В математических терминах, статистическая модель обычно считается как пара ( $S, \mathcal{P}$ ), где $S$ есть множество возможных наблюдений, т.е. выборочного пространства, и есть множество вероятностных распределений на . $\mathcal{P}$ $S$

В вероятности и статистике распределение вероятностей присваивает вероятности каждому измеримому подмножеству возможных результатов случайного эксперимента, опроса или процедуры статистического вывода. Найдены примеры, чье пространство выборок не числовое, где распределение будет категориальным распределением.

Я студент средней школы очень заинтересован в этой области , как хобби , и я в настоящее время борюсь с различиями между тем, что является statistical modelиprobability distribution

Мое нынешнее и очень элементарное понимание таково:

Статистические модели представляют собой математические попытки приблизить измеренные распределения
распределения вероятностей - это измеренные описания из экспериментов, которые присваивают вероятности каждому возможному исходу случайного события

путаница еще более усугубляется тенденцией в литературе видеть слова «распределение» и «модель» взаимозаменяемо или, по крайней мере, в очень похожих ситуациях (например, биномиальное распределение против биномиальной модели)

Может ли кто-нибудь проверить / исправить мои определения и, возможно, предложить более формализованный (хотя и с точки зрения простого английского) подход к этим понятиям?

distributions model terminology AlanSTACK
источник

1

Итог: нет абсолютно никакой разницы между статистической моделью и распределением вероятностей. Каждая статистическая модель описывает распределение вероятностей и наоборот. Не позволяйте им путать вас с длинными текстами.

Кагдас Озгенц

3

@Cagdas Согласно определению цитируется в вопросе, есть есть разница: статистическая модель является частным организованной совокупностью вероятностных распределений. Когда имеется только одно распределение вероятностей, тогда мы больше не делаем статистику, потому что цель статистического анализа была достигнута: мы знаем распределение!

whuber

2

@cagdas Википедия держит компанию с лучшими текстами. Я полностью согласен с этим.

whuber

4

@CagdasOzgenc, почему бы не представить некоторые доказательства, подтверждающие ваши резкие и определенные претензии. Доказательство властью редко (если вообще) приемлемо. Без наглядности трудно (если не невозможно) провести продуктивную дискуссию; необоснованные претензии редко бывают намного больше, чем шум.

Ричард Харди

2

@RichardHardy Вопрос, заданный «условиями непрофессионала», и посмотрите на ответы, которые он получил. Извините, но я ненавижу видеть, как студенты страдают только потому, что кто-то решает выпендриться. Ответ так же прост, как 2 + 2 = 4, и я действительно не думаю, что это требует авторитетной ссылки на 20 страниц.

Кагдас Озгенц

25

Распределение вероятностей - это математическая функция, описывающая случайную величину. Чуть точнее, это функция, которая присваивает вероятности числам, и ее вывод должен согласовываться с аксиомами вероятности .

Статистическая модель - это абстрактное идеализированное описание некоторого явления в математических терминах с использованием вероятностных распределений. Цитата Вассермана (2013):

Статистическая модель представляет собой набор распределений (или плотности или функции регрессии). Параметрическая модель представляет собой набор , который может быть параметризован конечным числом параметров. [...] $\mathfrak{F}$ $\mathfrak{F}$

В общем, параметрическая модель принимает вид

$F = {f (x; θ) : θ \in Θ}$ $\mathfrak{F} = \{ f (x; \theta) : \theta \in \Theta \}$
где - неизвестный параметр (или вектор параметров), который может принимать значения в пространстве параметров . Если является вектором, но нас интересует только один компонент , мы называем оставшиеся параметры неприятными параметрами . Непараметрическая модель представляет собой набор , который не может быть параметризован конечным числом параметров. $\theta$ $\Theta$ $\theta$ $\theta$ $\mathfrak{F}$

Во многих случаях мы используем дистрибутивы в качестве моделей (вы можете проверить этот пример ). Вы можете использовать биномиальное распределение в качестве модели количества голов в серии бросков монет. В таком случае мы предполагаем, что это распределение в упрощенной форме описывает фактические результаты. Это не означает, что это единственный способ описать такое явление, а также то, что биномиальное распределение не может использоваться только для этой цели. Модель может использовать одно или несколько распределений, в то время как байесовские модели определяют также предыдущие распределения.

Более формально это обсуждается McCullaugh (2002):

Согласно принятым в настоящее время теориям [Кокс и Хинкли (1974), глава 1; Lehmann (1983), глава 1; Barndorff-Nielsen and Cox (1994), раздел 1.1; Бернардо и Смит (1994), Глава 4] статистическая модель представляет собой набор вероятностных распределений на пространстве образца . Параметризованное статистическая модель представляет собой параметр & ; устанавливается вместе с функцией , который присваивает каждую точку параметра & ; распределение вероятностей ; на . Здесь - множество всех $\mathcal{S}$ $\Theta$ $P : \Theta \rightarrow \mathcal{P} (\mathcal{S})$ $\mathcal{\theta \in \Theta}$ $P \theta$ $\mathcal{S}$ $\mathcal{P}(\mathcal{S})$ распределения вероятностей на . В большинстве следующих случаев важно различать модель как функцию и связанный с ней набор распределений . $\mathcal{S}$ $P : \Theta \rightarrow \mathcal{P} (\mathcal{S})$ $P\Theta \subset \mathcal{P} (\mathcal{S})$

Таким образом, статистические модели используют распределения вероятностей для описания данных в их терминах. Параметрические модели также описываются в терминах конечного набора параметров.

Это не означает, что все статистические методы требуют распределения вероятностей. Например, линейная регрессия часто описывается в терминах предположения о нормальности , но на самом деле она довольно устойчива к отклонениям от нормальности, и нам необходимо предположение о нормальности ошибок для доверительных интервалов и проверки гипотез. Таким образом, чтобы регрессия работала, нам не нужно такое предположение, но чтобы иметь полностью определенную статистическую модель, нам нужно описать ее в терминах случайных величин., поэтому нам нужны распределения вероятностей. Я пишу об этом, потому что часто можно услышать, как люди говорят, что они использовали регрессионную модель для своих данных - в большинстве случаев они скорее означают, что они описывают данные в терминах линейной связи между целевыми значениями и предикторами, используя некоторые параметры, а не настаивают на нормальность.

McCullagh, P. (2002). Что такое статистическая модель? Летопись статистики, 1225-1267.

Вассерман Л. (2013). Вся статистика: краткий курс статистического вывода. Springer.

Тим
источник

4

@ JCLeitão, поэтому я добавил уведомление;) Классический OLS - это всего лишь подгонка линии. Допущения нормальности касаются только шума, в то время как основная идея состоит в том, что мы моделируем E (y) как линейную функцию X. Нормальность необходима для доверительных интервалов и тестирования, но регрессия касается подгонки линии, а ошибки имеют меньшее значение. (Грубо говоря.)

Тим

Спасибо за ваш ответ. Не могли бы вы дать 2 кратких определения, чтобы подвести итог? (также я не понимаю последнюю строку

In much of the following, it is important to distinguish between the model as a function and the associated set of distributions

) Вы просто комментируете присущую неоднозначность между двумя значениями, разделяющими один и тот же термин, modelили я что-то упускаю?

AlanSTACK

@ В двух первых абзацах приводятся два кратких определения, а в цитате и ссылках более строгое определение. Не могли бы вы уточнить, что неясно? Что касается последней строки цитаты: она в основном говорит о том, что модель определяется в терминах распределения вероятностей и параметров, и хорошо помнить, что она имеет эти два аспекта, иногда полезно различать их. Я рекомендую цитируемую статью для строгого обсуждения (она свободно доступна по ссылке).

Тим

8

Думайте о как о наборе билетов . Вы можете написать вещи на билете. Обычно билет начинается с имени какого-то реального человека или объекта, который он «представляет» или «моделирует». На каждом билете много свободного места для написания других вещей. $\mathcal{S}$

Вы можете сделать столько копий каждого билета, сколько захотите. Вероятностная модель для этого реального мирового населения или процесса заключается в проведении одного или нескольких копий каждого билета, смешивая их, и положить их в коробку. Если вы - аналитик - можете установить, что процесс получения одного билета случайным образом из этого блока имитирует все важное поведение того, что вы изучаете, тогда вы можете многое узнать о мире, подумав об этом окне. Поскольку некоторые билеты могут быть более многочисленными в коробке, чем другие, у них могут быть разные шансы на получение. Теория вероятностей изучает эти шансы. $\mathbb{P}$

Когда числа написаны на билетах (последовательным образом), они приводят к (вероятности) распределения. Распределение вероятностей лишь характеризует долю билетов в поле число которых лежит в пределах любого заданного интервала.

Поскольку мы обычно не знаем точно, как ведет себя мир, мы должны представить разные коробки, в которых билеты появляются с разными относительными частотами. Множество этих ящиков . Мы считаем , что мир , как адекватно описывается поведение одной из коробок в . Ваша цель состоит в том, чтобы сделать разумные предположения относительно того, какой это ящик, основываясь на том, что вы видите на билетах, которые вы вынули из него. $\mathcal{P}$ $\mathcal{P}$

В качестве примера (который является практичным и реалистичным, а не учебник игрушка), предположим , что вы изучаете скорость химической реакции , как она изменяется в зависимости от температуры. Предположим, что теория химии предсказывает, что в диапазоне температур от до градусов скорость пропорциональна температуре. $y$ $0$ $100$

Вы планируете изучить эту реакцию как при и при градусах, делая несколько наблюдений при каждой температуре. Поэтому вы составляете очень, очень большое количество коробок. Вы собираетесь заполнить каждую коробку с билетами. На каждом написана константа скорости. Все билеты в любой данной ячейке имеют одинаковую константу ставки. Различные блоки используют разные константы скорости. $0$ $100$

Используя константу курса, записанную на любом билете, вы также записываете скорость в и скорость в градусов: назовите эти и . Но этого недостаточно для хорошей модели. Химики также знают, что ни одно вещество не является чистым, никакое количество точно не измеряется, и встречаются другие формы наблюдательной изменчивости. Чтобы смоделировать эти «ошибки», вы делаете очень, очень много копий ваших билетов. На каждой копии вы меняете значения и . На большинстве из них вы меняете их лишь немного. На очень немногих вы можете их сильно изменить. Вы записываете столько измененных значений, сколько планируете наблюдать при каждой температуре. Эти $0$ $100$ $y_0$ $y_{100}$ $y_0$ $y_{100}$ Наблюдения представляют возможные наблюдаемые результаты вашего эксперимента. В поле вставьте каждый такой набор этих билетов: это модель вероятности того, что вы могли бы наблюдать для данной константы скорости.

То , что вы действительно наблюдаете моделируются рисунок билета из этого ящика и чтение только замечаний , написанных там. Вы не видите базовые (истинные) значения или . Вы не можете прочитать (истинную) константу скорости. Это не предусмотрено вашим экспериментом. $y_0$ $y_{100}$

Каждая статистическая модель должна делать некоторые предположения о билетах в этих (гипотетических) клетках. Например, мы надеемся, что когда вы изменили значения и , вы сделали это без последовательного увеличения или последовательного уменьшения одного из них (в целом, в рамке): это было бы формой систематического смещения. $y_0$ $y_{100}$

Поскольку наблюдения, записанные на каждом билете, являются числами, они приводят к распределению вероятностей. Предположения, сделанные в отношении блоков, обычно формулируются в терминах свойств этих распределений, таких как то, должны ли они усредняться до нуля, быть симметричными, иметь форму "колоколообразной формы", некоррелированы или что-то еще.

Это действительно все, что нужно сделать. Во многом благодаря тому, что примитивная шкала из двенадцати тонов породила всю западную классическую музыку, коллекция коробок, содержащих билеты, представляет собой простую концепцию, которую можно использовать чрезвычайно богатым и сложным способом. Он может моделировать практически все, начиная от броска монеты до библиотеки видео, баз данных взаимодействий веб-сайтов, квантово-механических ансамблей и всего, что можно наблюдать и записывать.

Whuber
источник

3

$\pi$

Типичные параметрические статистические модели описывают, как параметр (и) распределения зависят от определенных вещей, таких как факторы (переменная, которая имеет дискретные значения) и ковариаты (непрерывные переменные). Например, если в нормальном распределении вы предполагаете, что среднее значение может быть описано некоторым фиксированным числом («перехват») и некоторым числом («коэффициент регрессии»), умноженным на значение ковариации, вы получаете модель линейной регрессии с нормально распределенный термин ошибки. Для биномиального распределения - одна обычно используемая модель («логистическая регрессия»). $\pi$ $\pi/(1-\pi)$ $\text{intercept}+\beta_1 \text{covariate}_1+\ldots$

Бьерн
источник

2

Да, но ... Модель не только о параметрах, но также может быть о структуре проблемы (например, вероятностная модель, которая напоминает предполагаемый процесс генерирования данных); Существуют также непараметрические модели.

Тим

2

Распределение вероятностей дает всю информацию о том, как колеблется случайная величина. На практике мы обычно не имеем полного распределения вероятностей нашего количества интереса. Мы можем знать или предполагать что-то об этом, не зная или не предполагая, что мы знаем об этом все. Например, мы можем предположить, что некоторое количество обычно распределяется, но ничего не знаем о среднем и дисперсии. Затем у нас есть коллекция кандидатов для распределения на выбор; в нашем примере это все возможные нормальные распределения. Эта коллекция распределений образует статистическую модель. Мы используем его, собирая данные, а затем ограничивая наш класс кандидатов, чтобы все оставшиеся кандидаты соответствовали данным в некотором подходящем смысле.

Ян
источник

2

Модель указывается в PDF, но это не PDF.

Распределение вероятностей (PDF) - это функция, которая присваивает вероятности числам, и ее вывод должен согласовываться с аксиомами вероятности, как объяснил Тим .

Модель полностью определяется распределением вероятностей, но это больше, чем это. В примере с подбрасыванием монеты наша модель может быть «монета справедлива» + «каждый бросок независим». Эта модель определяется PDF, который является биномом с p = 0,5.

$P(x_1, x_2, x_3, ...)$

Одно из различий между моделью и PDF заключается в том, что модель можно интерпретировать как статистическую гипотезу. Например, при подбрасывании монеты мы можем рассмотреть модель, в которой монета справедлива (р = 0,5), и что каждый бросок является независимым (биномиальным), и сказать, что это наша гипотеза, которую мы хотим проверить против конкурирующей гипотезы. ,

$p$ $p$

Хорхе Лейтао
источник

Можете ли вы уточнить ваше последнее предложение? Мне кажется, это основная часть непараметрической статистики.

Ян

Я всегда интерпретировал непараметрические модели как менее ограничивающие для PDF x_i, но для них все еще требуется PDF для статистики, которую они используют. Например, ранговая корреляция Кендала предполагает нормальность для вычисления p-значения . Но может быть, что есть встречный пример. Мне было бы интересно.

Хорхе Лейтао

Я просто не понимаю, что вы имеете в виду, когда говорите "нет смысла говорить о конкурирующих PDF-файлах". Это именно то, что мы действительно делаем, даже в параметрической статистике: у нас есть несколько PDF-файлов, которые, по нашему мнению, могут быть полезны для проблемы, мы берем некоторые данные и на основании этих данных делаем вывод, что некоторые подмножества наших PDF-файлов лучше. Затем мы определяем, что мы подразумеваем под «лучше». (Кроме того, в элементарном контексте вам действительно не следует использовать «PDF» для всего. В смысле распределения это в конечном итоге сработает, но это довольно сложный механизм ...)

Ян

A model is specified by a PDFЯ не согласен. Модель также может быть указана в нескольких PDF. И модель может быть указана без PDF: подумайте о чем-то вроде SVM или дерева регрессии.

Рикардо Крус

2

Вы задали очень важный вопрос, Алан, и получили несколько хороших ответов выше. Я хотел бы предложить более простой ответ, а также указать дополнительное измерение для различия, которое вышеупомянутые ответы не рассматривали. Для простоты все, что я скажу здесь, относится к параметрическим статистическим моделям.

$y = a x^2 + b x + c$ $y = m x + b$ $F = -k x$ $m$ $b$ $k$

Итак, мой краткий ответ № 1 на ваш вопрос: статистическая модель - это семейство распределений.

Еще один момент я хотел сделать относится к классификатору, статистическому . Как указывает Иудея Перл в своем «золотом правиле причинного анализа» [1, с. 350],

Никакая причинная претензия не может быть установлена чисто статистическим методом, будь то оценки склонности, регрессия, стратификация или любой другой дизайн, основанный на распределении.

$F=-kx$ то есть утверждений о вероятностных распределениях.

Таким образом, мой ответ № 2 на ваш вопрос: модели обычно воплощают причинные идеи, которые не могут быть выражены в чисто распределительных терминах.

[1]: Жемчужина, Иудея. Причинность: модели, рассуждения и умозаключения. 2-е издание. Кембридж, Великобритания; Нью-Йорк: издательство Кембриджского университета, 2009. Ссылка на §11.3.5, в том числе цитируемая с. 351,

Дэвид С. Норрис
источник

Прости мое невежество, но что ты имеешь в виду под словом causal? Есть ли в нём более нюансированное значение или это просто относится к понятию causalityи отношениям, связанным между causesи effects? Спасибо за ваш ответ, кстати.

AlanSTACK

F

$F$

x

$x$

F = - k x

$F=-kx$

=

$=$

Дэвид С. Норрис,

С точки зрения непрофессионала, в чем разница между моделью и распределением?

Ответы: