На странице википедии утверждается, что вероятность и вероятность - это разные понятия.
На нетехническом языке «правдоподобие» обычно является синонимом «вероятности», но при статистическом использовании существует четкое различие в перспективе: число, которое является вероятностью некоторых наблюдаемых результатов при наборе значений параметров, рассматривается как вероятность набора значений параметров с учетом наблюдаемых результатов.
Может кто-нибудь дать более практичное описание того, что это значит? Кроме того, некоторые примеры того, как «вероятность» и «вероятность» не согласны, были бы хорошими.
probability
likelihood
Дуглас С. Стоунс
источник
источник
Ответы:
Ответ зависит от того, имеете ли вы дело с дискретными или непрерывными случайными переменными. Итак, я разделю свой ответ соответственно. Я предполагаю, что вам нужны некоторые технические детали, а не обязательно объяснение на простом английском языке.
Дискретные случайные величины
Предположим, что у вас есть случайный процесс, который принимает дискретные значения (например, результаты бросания монеты 10 раз, количество покупателей, которые приходят в магазин за 10 минут и т. Д.). В таких случаях мы можем вычислить вероятность наблюдения определенного набора результатов, сделав подходящие предположения о лежащем в основе стохастическом процессе (например, вероятность попадания монет в головы равнаp а броски монет независимы).
Обозначим наблюдаемые результаты черезO и множество параметров, описывающих случайный процесс, как θ . Таким образом, когда мы говорим о вероятности, мы хотим вычислить P(O|θ) . Другими словами, учитывая конкретные значения & θ , P(O|θ) есть вероятность того, что мы будем наблюдать результаты , представленные O .
Однако, когда мы моделируем реальный случайный процесс, мы часто не знаемθ . Мы просто наблюдаем O , а затем цель состоит в том, чтобы прийти к оценке & θ , которая была бы правдоподобной выбор с учетом наблюдаемых результатов O . Мы знаем, что при заданном значении θ вероятность наблюдения O равна P(O|θ) . Таким образом, «естественный» процесс оценки является выбор , что значение & θ , что бы максимизировать вероятность того, что мы на самом деле наблюдать O . Другими словами, мы находим значения параметров θ которые максимизируют следующую функцию:
Непрерывные случайные величины
В непрерывном случае ситуация похожа с одним важным отличием. Мы больше не можем говорить о вероятности того, что мы наблюдалиO заданном θ поскольку в непрерывном случае P(O|θ)=0 . Не вдаваясь в технические детали, основная идея заключается в следующем:
Обозначим функцию плотности вероятности (pdf), связанную с результатамиO : f(O|θ) . Таким образом, в непрерывном случае мы оцениваем θ учетом наблюдаемых результатов O , максимизируя следующую функцию:
В этой ситуации, мы не можем утверждать , что технически мы находим значение параметра , которое максимизирует вероятность того, что мы наблюдаемO , как мы максимально PDF , связанный с наблюдаемыми исходами O .
источник
На этот вопрос ответят практически все, и я ожидаю, что все ответы будут хорошими. Но вы математик, Дуглас, поэтому позвольте мне предложить математический ответ.
Статистическая модель должна соединять две различные концептуальные сущности: данные , которые являются элементамиx некоторого набора (например, векторного пространства), и возможную количественную модель поведения данных. Модели обычно представлены точками θ на конечномерном многообразии, многообразии с границей или функциональном пространстве (последнее называется «непараметрической» задачей).
Данныеx связаны с возможными моделями θ с помощью функции Λ(x,θ) . Для любого заданного & θ , Λ(x,θ) предназначено , чтобы быть вероятность (или плотность вероятности) x . С другой стороны, для любого данного x , Λ(x,θ) можно рассматривать как функцию от θ и обычно предполагается, что он обладает определенными хорошими свойствами, такими как непрерывная вторая дифференцируемость. Намерение просмотреть Λ таким образом, и чтобы ссылаться на эти предположения, объявляется Λ "вероятностью".
Это очень похоже на различие между переменными и параметрами в дифференциальном уравнении: иногда мы хотим изучить решение (т.е. мы фокусируемся на переменных в качестве аргумента), а иногда мы хотим изучить, как решение меняется в зависимости от параметров. Основное различие заключается в том, что в статистике нам редко требуется изучать одновременное изменение обоих наборов аргументов; не существует статистического объекта, который естественно соответствует изменению как данныхx и параметров модели θ . Вот почему вы слышите больше об этой дихотомии, чем в аналогичных математических условиях.
источник
Я постараюсь свести к минимуму математику в моем объяснении, поскольку уже есть несколько хороших математических объяснений.
Как указывает Робин Жиранд, разница между вероятностью и вероятностью тесно связана с разницей между вероятностью и статистикой . В некотором смысле вероятность и статистика занимаются проблемами, которые противоположны или обратны друг другу.
Рассмотрим бросок монеты. (Мой ответ будет аналогичен примеру 1 в Википедии .) Если мы знаем, что монета справедлива ( ), типичный вопрос о вероятности таков: какова вероятность получения двух голов подряд. Ответ P ( H H ) = P ( H ) × P ( H ) = 0,5 × 0,5 = 0,25 .p=0.5 P(HH)=P(H)×P(H)=0.5×0.5=0.25
Типичный статистический вопрос: честна ли монета? Чтобы ответить на этот вопрос, нам нужно спросить: в какой степени наша выборка поддерживает нашу гипотезу, что ?P(H)=P(T)=0.5
Первое, на что следует обратить внимание: направление вопроса изменилось. По вероятности мы начинаем с предполагаемого параметра ( ) и оцениваем вероятность данной выборки (две головы подряд). В статистике мы начинаем с наблюдения (две головы подряд) и определяем наш параметр ( p = P ( H ) = 1 - P ( T ) = 1 - q ).P(head) p=P(H)=1−P(T)=1−q
Пример 1 в Википедии показывает нам, что оценка максимального правдоподобия после 2-х глав подряд составляет p M L E = 1 . Но данные никоим образом не исключают истинное значение параметра p ( H ) = 0,5 (давайте не будем сейчас вдаваться в детали). Действительно, только очень маленькие значения p ( H ) и особенно p ( H ) = 0 могут быть разумно устранены после n = 2P(H) pMLE=1 p(H)=0.5 p(H) p(H)=0 n=2 (два броска монеты). После того, как третий бросок подходит к хвостам, мы можем теперь исключить вероятность того, что (то есть это не двуглавая монета), но большинство значений между ними могут быть обоснованно подтверждены данными . (Точный биномиальный 95% доверительный интервал для p ( H ) составляет от 0,094 до 0,992.P(H)=1.0 p(H)
После 100 бросков монет и (скажем) 70 голов у нас теперь есть разумное основание для подозрения, что монета на самом деле не справедлива. Точный 95% CI для теперь составляет от 0,600 до 0,787, а вероятность того, что результат будет таким же экстремальным, как 70 или более голов (или хвостов) при 100 бросках с учетом p ( H ) = 0,5, составляет 0,0000785.p(H) p(H)=0.5
Хотя я явно не использовал вычисления вероятности, этот пример отражает концепцию правдоподобия: вероятность - это мера степени, в которой образец обеспечивает поддержку определенных значений параметра в параметрической модели .
источник
Я дам вам точку зрения с точки зрения теории правдоподобия, которая возникла у Фишера - и является основой для статистического определения в цитируемой статье Википедии.
Предположим , у вас есть случайное случайных величин , которые возникают из параметризованных распределения F ( X ; θ ) , где θ параметр , характеризующий F . Тогда вероятность X = x будет: P ( X = x ) = F ( x ; θ ) с известным θ .X F(X;θ) θ F X=x P(X=x)=F(x;θ) θ
Чаще всего у вас есть данные и θ неизвестно. Учитывая предполагаемую модель F , вероятность определяется как вероятность наблюдаемых данных как функция от θ : L ( θ ) = P ( θ ; X = x ) . Обратите внимание, что X известен, но θ неизвестен; на самом деле мотивация для определения вероятности заключается в определении параметра распределения.X θ F θ L(θ)=P(θ;X=x) X θ
Хотя кажется, что мы просто переписали функцию вероятности, ключевым следствием этого является то, что функция правдоподобия не подчиняется законам вероятности (например, она не привязана к интервалу [0, 1]). Однако функция правдоподобия пропорциональна вероятности наблюдаемых данных.
Эта концепция правдоподобия на самом деле ведет к другой школе мысли, «правдоподобиям» (отличной от частых и байесовских), и вы можете в Google искать все различные исторические дебаты. Краеугольным камнем является принцип правдоподобия, который, по сути, гласит, что мы можем выполнить вывод непосредственно из функции правдоподобия (ни байесовские, ни частые специалисты не принимают это, поскольку это не вывод, основанный на вероятности). В наши дни многое из того, что преподается в школах как «частый человек», на самом деле представляет собой смесь частого и вероятностного мышления.
Для более глубокого понимания хорошее начало и историческая справка - вероятность Эдвардса . Для современного подхода я бы порекомендовал замечательную монографию Ричарда Роялла « Статистические данные: парадигма правдоподобия» .
источник
Учитывая все тонкие технические ответы, приведенные выше, позвольте мне вернуться к языку: Вероятность количественно определяет ожидание (результата), вероятность - количественно доверие (в модели).
Предположим, кто-то бросает нам вызов в «прибыльную азартную игру». Тогда вероятности будут служить нам для вычисления таких вещей, как ожидаемый профиль ваших прибылей и убытков (среднее значение, режим, медиана, дисперсия, соотношение информации, значение риска, разорение игроков и т. Д.). Напротив, вероятность будет служить нам для количественной оценки того, доверяем ли мы этим вероятностям в первую очередь; или мы «пахнем крысой».
Между прочим, поскольку кто-то упомянул о религиях статистики, я полагаю, что отношение правдоподобия является неотъемлемой частью как байесовского, так и частого мира: в байесовском мире формула Байеса просто сочетает в себе предшествующее с вероятностью создания последующего.
источник
Предположим, у вас есть монета с вероятностьюp для приземления голов и (1−p) для приземления хвостов. Пусть x=1 обозначает головы, а x=0 обозначает хвосты. Определите f следующим образом
источник
Если у меня есть честная монета (значение параметра), то вероятность того, что она выпадет головой, равна 0,5. Если я подбрасываю монету 100 раз, и она поднимается головой 52 раза, тогда у нее высокая вероятность быть справедливой (числовая величина вероятности потенциально принимает несколько форм).
источник
можно увидеть с двух точек зрения:P(x|θ)
Часто это выражение все еще является функцией обоих аргументов, поэтому это скорее вопрос акцента.
источник
Насколько я понимаю, самое важное различие заключается в том, что вероятность не является вероятностью ).θ
В задаче оценки указан X, и вероятность описывает распределение X, а не θ . То есть ∫ P ( X | θ ) d θ не имеет смысла, так как вероятность не является pdf из θ , хотя она действительно характеризует θP(X|θ) θ ∫P(X|θ)dθ θ θ в некоторой степени .
источник
Знаете ли вы пилота сериала "num3ers", в котором ФБР пытается определить местонахождение базы серийного преступника, который, кажется, выбирает своих жертв случайным образом?
источник