Ответы (определения), определенные в Википедии, возможно, немного загадочны для тех, кто не знаком с высшей математикой / статистикой.
В математических терминах, статистическая модель обычно считается как пара ( ), где есть множество возможных наблюдений, т.е. выборочного пространства, и есть множество вероятностных распределений на . S
В вероятности и статистике распределение вероятностей присваивает вероятности каждому измеримому подмножеству возможных результатов случайного эксперимента, опроса или процедуры статистического вывода. Найдены примеры, чье пространство выборок не числовое, где распределение будет категориальным распределением.
Я студент средней школы очень заинтересован в этой области , как хобби , и я в настоящее время борюсь с различиями между тем, что является statistical model
иprobability distribution
Мое нынешнее и очень элементарное понимание таково:
Статистические модели представляют собой математические попытки приблизить измеренные распределения
распределения вероятностей - это измеренные описания из экспериментов, которые присваивают вероятности каждому возможному исходу случайного события
путаница еще более усугубляется тенденцией в литературе видеть слова «распределение» и «модель» взаимозаменяемо или, по крайней мере, в очень похожих ситуациях (например, биномиальное распределение против биномиальной модели)
Может ли кто-нибудь проверить / исправить мои определения и, возможно, предложить более формализованный (хотя и с точки зрения простого английского) подход к этим понятиям?
источник
Ответы:
Распределение вероятностей - это математическая функция, описывающая случайную величину. Чуть точнее, это функция, которая присваивает вероятности числам, и ее вывод должен согласовываться с аксиомами вероятности .
Статистическая модель - это абстрактное идеализированное описание некоторого явления в математических терминах с использованием вероятностных распределений. Цитата Вассермана (2013):
Во многих случаях мы используем дистрибутивы в качестве моделей (вы можете проверить этот пример ). Вы можете использовать биномиальное распределение в качестве модели количества голов в серии бросков монет. В таком случае мы предполагаем, что это распределение в упрощенной форме описывает фактические результаты. Это не означает, что это единственный способ описать такое явление, а также то, что биномиальное распределение не может использоваться только для этой цели. Модель может использовать одно или несколько распределений, в то время как байесовские модели определяют также предыдущие распределения.
Более формально это обсуждается McCullaugh (2002):
Таким образом, статистические модели используют распределения вероятностей для описания данных в их терминах. Параметрические модели также описываются в терминах конечного набора параметров.
Это не означает, что все статистические методы требуют распределения вероятностей. Например, линейная регрессия часто описывается в терминах предположения о нормальности , но на самом деле она довольно устойчива к отклонениям от нормальности, и нам необходимо предположение о нормальности ошибок для доверительных интервалов и проверки гипотез. Таким образом, чтобы регрессия работала, нам не нужно такое предположение, но чтобы иметь полностью определенную статистическую модель, нам нужно описать ее в терминах случайных величин., поэтому нам нужны распределения вероятностей. Я пишу об этом, потому что часто можно услышать, как люди говорят, что они использовали регрессионную модель для своих данных - в большинстве случаев они скорее означают, что они описывают данные в терминах линейной связи между целевыми значениями и предикторами, используя некоторые параметры, а не настаивают на нормальность.
McCullagh, P. (2002). Что такое статистическая модель? Летопись статистики, 1225-1267.
Вассерман Л. (2013). Вся статистика: краткий курс статистического вывода. Springer.
источник
In much of the following, it is important to distinguish between the model as a function and the associated set of distributions
) Вы просто комментируете присущую неоднозначность между двумя значениями, разделяющими один и тот же термин,model
или я что-то упускаю?Думайте о как о наборе билетов . Вы можете написать вещи на билете. Обычно билет начинается с имени какого-то реального человека или объекта, который он «представляет» или «моделирует». На каждом билете много свободного места для написания других вещей.S
Вы можете сделать столько копий каждого билета, сколько захотите. Вероятностная модель для этого реального мирового населения или процесса заключается в проведении одного или нескольких копий каждого билета, смешивая их, и положить их в коробку. Если вы - аналитик - можете установить, что процесс получения одного билета случайным образом из этого блока имитирует все важное поведение того, что вы изучаете, тогда вы можете многое узнать о мире, подумав об этом окне. Поскольку некоторые билеты могут быть более многочисленными в коробке, чем другие, у них могут быть разные шансы на получение. Теория вероятностей изучает эти шансы.п
Когда числа написаны на билетах (последовательным образом), они приводят к (вероятности) распределения. Распределение вероятностей лишь характеризует долю билетов в поле число которых лежит в пределах любого заданного интервала.
Поскольку мы обычно не знаем точно, как ведет себя мир, мы должны представить разные коробки, в которых билеты появляются с разными относительными частотами. Множество этих ящиков . Мы считаем , что мир , как адекватно описывается поведение одной из коробок в P . Ваша цель состоит в том, чтобы сделать разумные предположения относительно того, какой это ящик, основываясь на том, что вы видите на билетах, которые вы вынули из него.п п
В качестве примера (который является практичным и реалистичным, а не учебник игрушка), предположим , что вы изучаете скорость химической реакции , как она изменяется в зависимости от температуры. Предположим, что теория химии предсказывает, что в диапазоне температур от 0 до 100 градусов скорость пропорциональна температуре.Y 0 100
Вы планируете изучить эту реакцию как при и при 100 градусах, делая несколько наблюдений при каждой температуре. Поэтому вы составляете очень, очень большое количество коробок. Вы собираетесь заполнить каждую коробку с билетами. На каждом написана константа скорости. Все билеты в любой данной ячейке имеют одинаковую константу ставки. Различные блоки используют разные константы скорости.0 100
Используя константу курса, записанную на любом билете, вы также записываете скорость в и скорость в 100 градусов: назовите эти y 0 и y 100 . Но этого недостаточно для хорошей модели. Химики также знают, что ни одно вещество не является чистым, никакое количество точно не измеряется, и встречаются другие формы наблюдательной изменчивости. Чтобы смоделировать эти «ошибки», вы делаете очень, очень много копий ваших билетов. На каждой копии вы меняете значения y 0 и y 100 . На большинстве из них вы меняете их лишь немного. На очень немногих вы можете их сильно изменить. Вы записываете столько измененных значений, сколько планируете наблюдать при каждой температуре. Эти0 100 Y0 Y100 Y0 Y100 Наблюдения представляют возможные наблюдаемые результаты вашего эксперимента. В поле вставьте каждый такой набор этих билетов: это модель вероятности того, что вы могли бы наблюдать для данной константы скорости.
То , что вы действительно наблюдаете моделируются рисунок билета из этого ящика и чтение только замечаний , написанных там. Вы не видите базовые (истинные) значения или y 100 . Вы не можете прочитать (истинную) константу скорости. Это не предусмотрено вашим экспериментом.Y0 Y100
Каждая статистическая модель должна делать некоторые предположения о билетах в этих (гипотетических) клетках. Например, мы надеемся, что когда вы изменили значения и y 100 , вы сделали это без последовательного увеличения или последовательного уменьшения одного из них (в целом, в рамке): это было бы формой систематического смещения.Y0 Y100
Поскольку наблюдения, записанные на каждом билете, являются числами, они приводят к распределению вероятностей. Предположения, сделанные в отношении блоков, обычно формулируются в терминах свойств этих распределений, таких как то, должны ли они усредняться до нуля, быть симметричными, иметь форму "колоколообразной формы", некоррелированы или что-то еще.
Это действительно все, что нужно сделать. Во многом благодаря тому, что примитивная шкала из двенадцати тонов породила всю западную классическую музыку, коллекция коробок, содержащих билеты, представляет собой простую концепцию, которую можно использовать чрезвычайно богатым и сложным способом. Он может моделировать практически все, начиная от броска монеты до библиотеки видео, баз данных взаимодействий веб-сайтов, квантово-механических ансамблей и всего, что можно наблюдать и записывать.
источник
Типичные параметрические статистические модели описывают, как параметр (и) распределения зависят от определенных вещей, таких как факторы (переменная, которая имеет дискретные значения) и ковариаты (непрерывные переменные). Например, если в нормальном распределении вы предполагаете, что среднее значение может быть описано некоторым фиксированным числом («перехват») и некоторым числом («коэффициент регрессии»), умноженным на значение ковариации, вы получаете модель линейной регрессии с нормально распределенный термин ошибки. Для биномиального распределения - одна обычно используемая модель («логистическая регрессия»).π π/ (1-π) перехватить + β1коварьировать1+ …
источник
Распределение вероятностей дает всю информацию о том, как колеблется случайная величина. На практике мы обычно не имеем полного распределения вероятностей нашего количества интереса. Мы можем знать или предполагать что-то об этом, не зная или не предполагая, что мы знаем об этом все. Например, мы можем предположить, что некоторое количество обычно распределяется, но ничего не знаем о среднем и дисперсии. Затем у нас есть коллекция кандидатов для распределения на выбор; в нашем примере это все возможные нормальные распределения. Эта коллекция распределений образует статистическую модель. Мы используем его, собирая данные, а затем ограничивая наш класс кандидатов, чтобы все оставшиеся кандидаты соответствовали данным в некотором подходящем смысле.
источник
Модель указывается в PDF, но это не PDF.
Распределение вероятностей (PDF) - это функция, которая присваивает вероятности числам, и ее вывод должен согласовываться с аксиомами вероятности, как объяснил Тим .
Модель полностью определяется распределением вероятностей, но это больше, чем это. В примере с подбрасыванием монеты наша модель может быть «монета справедлива» + «каждый бросок независим». Эта модель определяется PDF, который является биномом с p = 0,5.
Одно из различий между моделью и PDF заключается в том, что модель можно интерпретировать как статистическую гипотезу. Например, при подбрасывании монеты мы можем рассмотреть модель, в которой монета справедлива (р = 0,5), и что каждый бросок является независимым (биномиальным), и сказать, что это наша гипотеза, которую мы хотим проверить против конкурирующей гипотезы. ,
источник
A model is specified by a PDF
Я не согласен. Модель также может быть указана в нескольких PDF. И модель может быть указана без PDF: подумайте о чем-то вроде SVM или дерева регрессии.Вы задали очень важный вопрос, Алан, и получили несколько хороших ответов выше. Я хотел бы предложить более простой ответ, а также указать дополнительное измерение для различия, которое вышеупомянутые ответы не рассматривали. Для простоты все, что я скажу здесь, относится к параметрическим статистическим моделям.
Итак, мой краткий ответ № 1 на ваш вопрос: статистическая модель - это семейство распределений.
Еще один момент я хотел сделать относится к классификатору, статистическому . Как указывает Иудея Перл в своем «золотом правиле причинного анализа» [1, с. 350],
Таким образом, мой ответ № 2 на ваш вопрос: модели обычно воплощают причинные идеи, которые не могут быть выражены в чисто распределительных терминах.
[1]: Жемчужина, Иудея. Причинность: модели, рассуждения и умозаключения. 2-е издание. Кембридж, Великобритания; Нью-Йорк: издательство Кембриджского университета, 2009. Ссылка на §11.3.5, в том числе цитируемая с. 351,
источник
causal
? Есть ли в нём более нюансированное значение или это просто относится к понятиюcausality
и отношениям, связанным междуcauses
иeffects
? Спасибо за ваш ответ, кстати.