В чем разница между «вероятностью» и «вероятностью»?

474

На странице википедии утверждается, что вероятность и вероятность - это разные понятия.

На нетехническом языке «правдоподобие» обычно является синонимом «вероятности», но при статистическом использовании существует четкое различие в перспективе: число, которое является вероятностью некоторых наблюдаемых результатов при наборе значений параметров, рассматривается как вероятность набора значений параметров с учетом наблюдаемых результатов.

Может кто-нибудь дать более практичное описание того, что это значит? Кроме того, некоторые примеры того, как «вероятность» и «вероятность» не согласны, были бы хорошими.

Дуглас С. Стоунс
источник
9
Отличный вопрос Я бы тоже добавил туда «шансы» и «шанс» :)
Нил Макгиган
5
Я думаю, что вы должны взглянуть на этот вопрос stats.stackexchange.com/questions/665/… потому что вероятность для статистических целей и вероятность для вероятности.
Робин Жирар
3
Вау, это действительно хорошие ответы. Так что большое спасибо за это! В какой-то момент я выберу тот, который мне особенно нравится, в качестве «принятого» ответа (хотя есть несколько, которые я считаю одинаково заслуженными).
Дуглас С. Стоунс
1
Также обратите внимание, что «отношение правдоподобия» на самом деле является «отношением вероятностей», поскольку является функцией наблюдений.
JohnRos

Ответы:

321

Ответ зависит от того, имеете ли вы дело с дискретными или непрерывными случайными переменными. Итак, я разделю свой ответ соответственно. Я предполагаю, что вам нужны некоторые технические детали, а не обязательно объяснение на простом английском языке.

Дискретные случайные величины

Предположим, что у вас есть случайный процесс, который принимает дискретные значения (например, результаты бросания монеты 10 раз, количество покупателей, которые приходят в магазин за 10 минут и т. Д.). В таких случаях мы можем вычислить вероятность наблюдения определенного набора результатов, сделав подходящие предположения о лежащем в основе стохастическом процессе (например, вероятность попадания монет в головы равна p а броски монет независимы).

Обозначим наблюдаемые результаты через O и множество параметров, описывающих случайный процесс, как θ . Таким образом, когда мы говорим о вероятности, мы хотим вычислить P(O|θ) . Другими словами, учитывая конкретные значения & θ , P(O|θ) есть вероятность того, что мы будем наблюдать результаты , представленные O .

Однако, когда мы моделируем реальный случайный процесс, мы часто не знаем θ . Мы просто наблюдаем O , а затем цель состоит в том, чтобы прийти к оценке & θ , которая была бы правдоподобной выбор с учетом наблюдаемых результатов O . Мы знаем, что при заданном значении θ вероятность наблюдения O равна P(O|θ) . Таким образом, «естественный» процесс оценки является выбор , что значение & θ , что бы максимизировать вероятность того, что мы на самом деле наблюдать O . Другими словами, мы находим значения параметров θ которые максимизируют следующую функцию:

L(θ|O)=P(O|θ)

L(θ|O) называется функцией правдоподобия. Обратите внимание, что по определению функция правдоподобия обусловлена ​​наблюдаемымO и является функцией неизвестных параметровθ .

Непрерывные случайные величины

В непрерывном случае ситуация похожа с одним важным отличием. Мы больше не можем говорить о вероятности того, что мы наблюдали O заданном θ поскольку в непрерывном случае P(O|θ)=0 . Не вдаваясь в технические детали, основная идея заключается в следующем:

Обозначим функцию плотности вероятности (pdf), связанную с результатами O : f(O|θ) . Таким образом, в непрерывном случае мы оцениваем θ учетом наблюдаемых результатов O , максимизируя следующую функцию:

L(θ|O)=f(O|θ)

В этой ситуации, мы не можем утверждать , что технически мы находим значение параметра , которое максимизирует вероятность того, что мы наблюдаем O , как мы максимально PDF , связанный с наблюдаемыми исходами O .

nbro
источник
35
Различие между дискретными и непрерывными переменными исчезает с точки зрения теории меры.
whuber
24
@whuber да, но ответ с использованием теории меры не так доступен для всех.
16
@Srikant: Согласен. Комментарий был в пользу ОП, который является математиком (но, возможно, не статистиком), чтобы не вводить себя в заблуждение, полагая, что в разнице есть что-то фундаментальное.
whuber
6
Вы можете интерпретировать непрерывную плотность так же, как и в дискретном случае, если заменяется на d O , в том смысле, что если мы просим P r ( O ( O , O + d O ) | θ ) (то есть вероятность что данные O содержатся в бесконечно малой области около O ) и ответом является f ( O | θ ) d O (the d O OdOPr(O(O,O+dO)|θ)OOf(O|θ)dOdOЭто ясно дает понять, что мы рассчитываем площадь бесконечно тонкой "ячейки" гистограммы).
вероятностная
9
Я опоздал на вечеринку более чем на 5 лет, но я думаю, что очень важным продолжением этого ответа будет stats.stackexchange.com/questions/31238/…, который подчеркивает тот факт, что функция правдоподобия не является PDF относительно θ . L ( θ ) действительно представляет собой pdf-файл данных с учетом значения параметра, но, поскольку L является функцией только θ (с данными, хранящимися как константы), не имеет значения, что L ( θ ) является pdf-файлом данных с заданным θ , L(θ)θL(θLθL(θ)θ
Шобхит
136

На этот вопрос ответят практически все, и я ожидаю, что все ответы будут хорошими. Но вы математик, Дуглас, поэтому позвольте мне предложить математический ответ.

Статистическая модель должна соединять две различные концептуальные сущности: данные , которые являются элементами x некоторого набора (например, векторного пространства), и возможную количественную модель поведения данных. Модели обычно представлены точками θ на конечномерном многообразии, многообразии с границей или функциональном пространстве (последнее называется «непараметрической» задачей).

Данные x связаны с возможными моделями θ с помощью функции Λ(x,θ) . Для любого заданного & θ , Λ(x,θ) предназначено , чтобы быть вероятность (или плотность вероятности) x . С другой стороны, для любого данного x , Λ(x,θ) можно рассматривать как функцию от θ и обычно предполагается, что он обладает определенными хорошими свойствами, такими как непрерывная вторая дифференцируемость. Намерение просмотреть Λтаким образом, и чтобы ссылаться на эти предположения, объявляется Λ "вероятностью".

Это очень похоже на различие между переменными и параметрами в дифференциальном уравнении: иногда мы хотим изучить решение (т.е. мы фокусируемся на переменных в качестве аргумента), а иногда мы хотим изучить, как решение меняется в зависимости от параметров. Основное различие заключается в том, что в статистике нам редко требуется изучать одновременное изменение обоих наборов аргументов; не существует статистического объекта, который естественно соответствует изменению как данных x и параметров модели θ . Вот почему вы слышите больше об этой дихотомии, чем в аналогичных математических условиях.

Whuber
источник
6
+1, какой классный ответ. Аналогия с дифференциальными уравнениями кажется очень уместной.
mpiktas
3
Как экономист, хотя этот ответ не так тесно связан, как предыдущий, с концепциями, которые я изучил, он был наиболее информативным в интуитивном смысле. Большое спасибо.
Робсон
1
На самом деле, это утверждение не совсем верно: «не существует статистического объекта, который естественно соответствует изменению как данных x, так и параметров модели θ». Существует, это называется «сглаживание, фильтрация и прогнозирование», в линейных моделях это фильтр Калмана, в нелинейных моделях они имеют полные нелинейные фильтры, en.wikipedia.org/wiki/Kushner_equation и т. Д.
ворон
1
Да, отличный ответ! Как бы громко это ни звучало, выбрав вместо стандартного обозначения P ( x , θ ) , мне было легче увидеть, что мы начинаем с совместной вероятности, которую можно определить как либо вероятность, либо условная вероятность. Плюс, комментарий "некоторые хорошие свойства" помог. Спасибо! Λ(x,θ)P(x,θ)
Майк Уильямсон
2
@whuber Да, я знаю, что не обычное обозначение. Именно поэтому это помогло! Я перестал думать, что это должно иметь определенное значение, и вместо этого просто следовал логике. ;-pΛ
Майк Уильямсон
111

Я постараюсь свести к минимуму математику в моем объяснении, поскольку уже есть несколько хороших математических объяснений.

Как указывает Робин Жиранд, разница между вероятностью и вероятностью тесно связана с разницей между вероятностью и статистикой . В некотором смысле вероятность и статистика занимаются проблемами, которые противоположны или обратны друг другу.

Рассмотрим бросок монеты. (Мой ответ будет аналогичен примеру 1 в Википедии .) Если мы знаем, что монета справедлива ( ), типичный вопрос о вероятности таков: какова вероятность получения двух голов подряд. Ответ P ( H H ) = P ( H ) × P ( H ) = 0,5 × 0,5 = 0,25 .p=0.5P(HH)=P(H)×P(H)=0.5×0.5=0.25

Типичный статистический вопрос: честна ли монета? Чтобы ответить на этот вопрос, нам нужно спросить: в какой степени наша выборка поддерживает нашу гипотезу, что ?P(H)=P(T)=0.5

Первое, на что следует обратить внимание: направление вопроса изменилось. По вероятности мы начинаем с предполагаемого параметра ( ) и оцениваем вероятность данной выборки (две головы подряд). В статистике мы начинаем с наблюдения (две головы подряд) и определяем наш параметр ( p = P ( H ) = 1 - P ( T ) = 1 - q ).P(head)p=P(H)=1P(T)=1q

Пример 1 в Википедии показывает нам, что оценка максимального правдоподобия после 2-х глав подряд составляет p M L E = 1 . Но данные никоим образом не исключают истинное значение параметра p ( H ) = 0,5 (давайте не будем сейчас вдаваться в детали). Действительно, только очень маленькие значения p ( H ) и особенно p ( H ) = 0 могут быть разумно устранены после n = 2P(H)pMLE=1p(H)=0.5p(H)p(H)=0n=2(два броска монеты). После того, как третий бросок подходит к хвостам, мы можем теперь исключить вероятность того, что (то есть это не двуглавая монета), но большинство значений между ними могут быть обоснованно подтверждены данными . (Точный биномиальный 95% доверительный интервал для p ( H ) составляет от 0,094 до 0,992.P(H)=1.0p(H)

После 100 бросков монет и (скажем) 70 голов у нас теперь есть разумное основание для подозрения, что монета на самом деле не справедлива. Точный 95% CI для теперь составляет от 0,600 до 0,787, а вероятность того, что результат будет таким же экстремальным, как 70 или более голов (или хвостов) при 100 бросках с учетом p ( H ) = 0,5, составляет 0,0000785.p(H)p(H)=0.5

Хотя я явно не использовал вычисления вероятности, этот пример отражает концепцию правдоподобия: вероятность - это мера степени, в которой образец обеспечивает поддержку определенных значений параметра в параметрической модели .

Thylacoleo
источник
3
Отличный ответ! Особенно три последних абзаца очень полезны. Как бы вы расширили это, чтобы описать непрерывный случай?
Деметрис
8
Для меня лучший ответ. Я вообще не против математики, но для меня математика - это инструмент, которым руководствуется то, что я хочу (я не наслаждаюсь математикой ради нее самой, но за то, что она помогает мне делать). Только с этим ответом я знаю последнее.
Мёрре
73

Я дам вам точку зрения с точки зрения теории правдоподобия, которая возникла у Фишера - и является основой для статистического определения в цитируемой статье Википедии.

Предположим , у вас есть случайное случайных величин , которые возникают из параметризованных распределения F ( X ; θ ) , где θ параметр , характеризующий F . Тогда вероятность X = x будет: P ( X = x ) = F ( x ; θ ) с известным θ . XF(X;θ)θFX=xP(X=x)=F(x;θ)θ

Чаще всего у вас есть данные и θ неизвестно. Учитывая предполагаемую модель F , вероятность определяется как вероятность наблюдаемых данных как функция от θ : L ( θ ) = P ( θ ; X = x ) . Обратите внимание, что X известен, но θ неизвестен; на самом деле мотивация для определения вероятности заключается в определении параметра распределения.XθFθL(θ)=P(θ;X=x)Xθ

Хотя кажется, что мы просто переписали функцию вероятности, ключевым следствием этого является то, что функция правдоподобия не подчиняется законам вероятности (например, она не привязана к интервалу [0, 1]). Однако функция правдоподобия пропорциональна вероятности наблюдаемых данных.

Эта концепция правдоподобия на самом деле ведет к другой школе мысли, «правдоподобиям» (отличной от частых и байесовских), и вы можете в Google искать все различные исторические дебаты. Краеугольным камнем является принцип правдоподобия, который, по сути, гласит, что мы можем выполнить вывод непосредственно из функции правдоподобия (ни байесовские, ни частые специалисты не принимают это, поскольку это не вывод, основанный на вероятности). В наши дни многое из того, что преподается в школах как «частый человек», на самом деле представляет собой смесь частого и вероятностного мышления.

Для более глубокого понимания хорошее начало и историческая справка - вероятность Эдвардса . Для современного подхода я бы порекомендовал замечательную монографию Ричарда Роялла « Статистические данные: парадигма правдоподобия» .

АРС
источник
3
Интересный ответ, я на самом деле думал, что «школа правдоподобия» - это «частые люди, которые не проектируют школу образцов», а «школа дизайна» - остальные частые люди. Мне на самом деле трудно сказать, что я за «школа», так как у меня есть знания из каждой школы. Школа «Вероятность как расширенная логика» - моя любимая (да), но у меня нет достаточного практического опыта в применении ее к реальным проблемам, чтобы быть догматичным.
вероятностная
5
+1 для «функция правдоподобия не подчиняется законам вероятности (например, она не связана с интервалом [0, 1]). Однако функция правдоподобия пропорциональна вероятности наблюдаемых данных».
Кошка Морж
10
«функция правдоподобия не подчиняется законам вероятности» могла бы использовать некоторые дополнительные пояснения, особенно потому, что она была записана как θ: L (θ) = P (θ; X = x), т.е. приравнивается к вероятности!
Redcalx
Спасибо за Ваш ответ. Не могли бы вы обратиться к комментарию, который сделал @locster?
Вивек Субраманян
2
Для меня, как для математика, это звучит как религиозная математика, с разными убеждениями, приводящими к разным значениям шансов на события. Можете ли вы сформулировать это так, чтобы было легче понять, что представляют собой разные убеждения и почему все они имеют смысл, вместо того, чтобы одно было просто неверным, а другое - верным? (предположение, что существует один правильный способ расчета шансов на события)
Zelphir Kaltstahl
57

Учитывая все тонкие технические ответы, приведенные выше, позвольте мне вернуться к языку: Вероятность количественно определяет ожидание (результата), вероятность - количественно доверие (в модели).

Предположим, кто-то бросает нам вызов в «прибыльную азартную игру». Тогда вероятности будут служить нам для вычисления таких вещей, как ожидаемый профиль ваших прибылей и убытков (среднее значение, режим, медиана, дисперсия, соотношение информации, значение риска, разорение игроков и т. Д.). Напротив, вероятность будет служить нам для количественной оценки того, доверяем ли мы этим вероятностям в первую очередь; или мы «пахнем крысой».


Между прочим, поскольку кто-то упомянул о религиях статистики, я полагаю, что отношение правдоподобия является неотъемлемой частью как байесовского, так и частого мира: в байесовском мире формула Байеса просто сочетает в себе предшествующее с вероятностью создания последующего.

цыганский
источник
Этот ответ подводит итог для меня. Я должен был продумать, что это значит, когда я прочитал, что вероятность - это не вероятность, а следующий случай произошел со мной. Какова вероятность, что монета справедлива, учитывая, что мы видим четыре головы подряд? Мы не можем ничего сказать о вероятности здесь, но слово «доверие» кажется подходящим. Чувствуем ли мы, что можем доверять монете?
18:00
Первоначально это могло быть исторически намеченной целью вероятностей, но в настоящее время вероятности являются каждым байесовским вычислением, и известно, что вероятности могут объединять убеждения и правдоподобие, именно поэтому была создана теория Демпстера-Шафера, чтобы устранить неоднозначность обеих интерпретаций.
Габорист
50

Предположим, у вас есть монета с вероятностью p для приземления голов и (1p) для приземления хвостов. Пусть x=1 обозначает головы, а x=0 обозначает хвосты. Определите f следующим образом

f(x,p)=px(1p)1x

f(x,2/3) есть вероятность х заданногоp=2/3 , f(1,p) является вероятность p дано x=1 . В основном вероятность и вероятность говорит вам, какой параметр плотности считается переменной

Ярослав Булатов
источник
Хорошее дополнение к теоретическим определениям, использованным выше!
Фрэнк Мейленаар
Я вижу, что дает вероятность наличия n голов в k испытаниях. Ваш p x ( 1 - p ) 1 - x выглядит как k-й корень этого: x = nCknpn(1p)knnkpx(1p)1xk . Что это значит? x=n/k
Маленький инопланетянин
41

Если у меня есть честная монета (значение параметра), то вероятность того, что она выпадет головой, равна 0,5. Если я подбрасываю монету 100 раз, и она поднимается головой 52 раза, тогда у нее высокая вероятность быть справедливой (числовая величина вероятности потенциально принимает несколько форм).

Джон
источник
4
Это и ответ Цыган должен быть на вершине! Интуиция и ясность выше сухой математической строгости, если не сказать чего-то более уничижительного.
Неманя Радойкович
24

можно увидеть с двух точек зрения:P(x|θ)

  • Как функция , рассматривая θ как известную / наблюдаемую. xθЕсли не является случайной величиной, то P ( x | θ ) называется ( параметризованной ) вероятностью x для заданных параметров модели θ , которая иногда также записывается как P ( x ; θ ) или P θ ( x ) . Если θ - случайная величина, как в байесовской статистике, то P (θP(x|θ)xθP(x;θ)Pθ(x)θ - этоP(x|θ)условная вероятность, определенная как .P(xθ)/P(θ)
  • В зависимости от , рассматривая x как наблюдалось. θxНапример, при попытке найти определенное задание & thetas для & thetas , что максимизирует P ( х | & thetas ; ) , тоθ^θP(x|θ) называетсямаксимального правдоподобияпо & thetas данных в данных х , иногда записываетсявиде L ( θ | x ) . Итак, термин правдоподобие - это просто сокращение, обозначающее вероятность P (P(x|θ^)θxL(θ^|x) для некоторых данных x,получаются в θ для хорошего решения). Таким образом, он часто используется как целевая функция, а также как показатель эффективности для сравнения двух моделей, как присравнении байесовской модели.P(x|θ)xчто является результатом присвоения различных значений (например, когда один пересекает пространство поискаθθ

Часто это выражение все еще является функцией обоих аргументов, поэтому это скорее вопрос акцента.

Ленар Хойт
источник
Во втором случае я думал, что люди обычно пишут P (theta | x).
Юйцянь
Изначально я интуитивно думал, что это оба слова для одного и того же с разницей в перспективе или формулировках естественного языка, поэтому я чувствую, что «Что? Но если это так, то почему их так важно различать? Английский не был моим родным языком, я вырос только с одним словом для, казалось бы, обоих терминов (или я просто никогда не сталкивался с проблемой, когда мне нужно было различать термины?) И никогда не знал, что есть какая-то разница. Только теперь, когда я знаю два английских термина, я начинаю сомневаться в своем понимании этих вещей.
Зельфир Кальцталь
3
Ваш ответ кажется очень понятным и легким для понимания. Интересно, почему так мало голосов.
Джулиан
4
Обратите внимание, что P (x | θ ) является условной вероятностью, только если является случайной величиной, если θ является параметром, то это просто вероятность x, параметризованного θ . θθθ
Мирча Мироненко
Я думаю, что это лучший ответ среди всех
Аарон
4

Насколько я понимаю, самое важное различие заключается в том, что вероятность не является вероятностью ).θ

В задаче оценки указан X, и вероятность описывает распределение X, а не θ . То есть P ( X | θ ) d θ не имеет смысла, так как вероятность не является pdf из θ , хотя она действительно характеризует θP(X|θ)θP(X|θ)dθθθ в некоторой степени .

Response777
источник
1
Как указывает ответ @Lenar Hoyt, если theta - это случайная переменная (что может быть), то вероятность - это вероятность. Таким образом, реальный ответ, кажется, состоит в том, что вероятность может быть вероятностью, но иногда это не так.
Майк Мудрый
@MikeWise, я думаю, что тэту всегда можно рассматривать как «случайную» переменную, в то время как есть вероятность, что она не такая уж «случайная» ...
Response777
4

Знаете ли вы пилота сериала "num3ers", в котором ФБР пытается определить местонахождение базы серийного преступника, который, кажется, выбирает своих жертв случайным образом?

p(x|θ)xθxθpθ(x)=p(x|θ)xθ

xθ .

θθp(x|θ)xlx(θ)=p(x|θ)θxxθ^ на кекс.

lx(θ)θpθ(x)xp(x|θ)xθ

schotti
источник