В чем разница между вероятностью и статистикой?

Ответы:

114

Короткий ответ на этот вопрос, который я услышал от Persi Diaconis, следующий: проблемы, рассматриваемые вероятностью и статистикой, обратны друг другу. В теории вероятностей мы рассматриваем некоторый базовый процесс, который имеет некоторую случайность или неопределенность, моделируемую случайными величинами, и выясняем, что происходит. В статистике мы наблюдаем что-то, что произошло, и пытаемся выяснить, какой основной процесс объяснил бы эти наблюдения.

Марк Мекес
источник
2
Итак, статистика наблюдает за тем, что происходит в физическом мире, теоретизирует о базовом процессе, а затем, обнаружив процесс, использует его в смысле вероятности, чтобы предсказать, что произойдет дальше?
hslc
Я не статистик, но, насколько я понимаю, я бы сказал, да, эта часть статистики делает.
Марк Мекес
16
Индукция против дедукции?
Паоло
6
Как сказал Паоло, теория вероятностей в основном связана с дедуктивной частью, статистикой с индуктивной частью моделирования процессов с неопределенностью. Возможно, интересно упомянуть, что если кто-то считает, что правдоподобные индуктивные рассуждения должны быть последовательными, то на самом деле результатом является байесовская статистика, и что более интересно, это можно извлечь из теории вероятностей. Так что байесовская статистика - это, в сущности, прикладная теория вероятностей.
Thies Heidecke
1
Статистический вывод @Paolo считается "Индуктивной статистикой"
kervin
77

Мне нравится пример банки с красными и зелеными желейными бобами.

Вероятностный аналитик начинает с того, что знает пропорцию каждого из них, и спрашивает о вероятности нарисовать красный желейный боб. Статистик определяет долю красных желейных бобов, отбирая образцы из банки.

Джон Д. Кук
источник
Но разве это не просто формулировка? Вероятный участник может спросить: «Если бы я нарисовал три красных боба, какова вероятность того, что эта пропорция будет пятьдесят на пятьдесят?»
Томас Але
2
@ThomasAhle: Это не вполне определенный вопрос о вероятности, если только вы не примете какую-то основную вероятностную модель для исходного распределения цветов.
Марк Мекес
55

Просто вводить в заблуждение то, что статистика просто обратная вероятность. Да, статистические вопросы - это вопросы обратной вероятности, но они являются некорректными обратными проблемами , и это имеет большое значение с точки зрения их решения.

Вероятность - это раздел чистой математики - вероятностные вопросы могут быть поставлены и решены с использованием аксиоматических рассуждений, и поэтому существует один правильный ответ на любой вероятностный вопрос.

Статистические вопросы могут быть преобразованы в вероятностные вопросы с использованием вероятностных моделей . Как только мы сделаем определенные предположения о механизме генерации данных, мы сможем ответить на статистические вопросы, используя теорию вероятностей. ОДНАКО правильная формулировка и проверка этих вероятностных моделей столь же важны или даже более важны, чем последующий анализ проблемы с использованием этих моделей.

Можно сказать, что статистика состоит из двух частей. Первая часть - это вопрос о том, как сформулировать и оценить вероятностные модели для проблемы; это стремление лежит в области «философии науки». Вторая часть - это вопрос получения ответов после принятия определенной модели. Эта часть статистики, действительно, является предметом прикладной теории вероятностей и на практике также содержит значительный объем численного анализа.

Смотрите: http://bactra.org/reviews/error/

charles.y.zheng
источник
2
Я люблю тебя за этот ответ
badatmath
16

Мне нравится это из рассчитанных ставок Стива Скиенны (см. Ссылку для полного обсуждения):

Таким образом, теория вероятностей позволяет нам находить последствия данного идеального мира, в то время как статистическая теория позволяет нам измерять степень идеальности нашего мира.

АРС
источник
13

Вероятность - это чистая наука (математика), статистика о данных. Они связаны, так как вероятность формирует некую основу для статистики, обеспечивая основные идеи.


источник
3
Значит, вероятность - это чистая математика, а статистика - прикладная математика?
hslc
4
Статистика может применяться, а может и нет; Тем не менее концепция данных всегда присутствует.
13

Таблица 3.1 Интуитивной Биостатистики отвечает на этот вопрос диаграммой, показанной ниже. Обратите внимание, что все стрелки указывают вправо для вероятности и указывают влево для статистики.

ВЕРОЯТНОСТЬ

Общие ---> Конкретные

Население ---> Образец

Модель ---> Данные

СТАТИСТИКА

Общий <--- Специальный

Население <--- Образец

Модель <--- Данные

Харви Мотульский
источник
1
Таким образом, статистика является синонимом анализа данных?
hslc
3
Я не вижу различий.
Харви Мотульский
3
Некоторые данные анализа не опираются на статистику частых.
о.
11

Вероятность отвечает на вопросы о том, что произойдет, статистика отвечает на вопросы о том, что произошло.

Джастин Бозонье
источник
3
Однако согласно этому определению интервал прогнозирования является скорее вероятностью, чем статистикой.
Glen_b
10

Вероятность заключается в количественном определении неопределенности, в то время как статистика объясняет разницу в некоторой мере интереса (например, почему уровни дохода меняются?), Которую мы наблюдаем в реальном мире.

Мы объясняем разницу, используя некоторые наблюдаемые факторы (например, пол, уровень образования, возраст и т. Д. В качестве примера дохода). Однако, поскольку мы не можем принять во внимание все возможные факторы, влияющие на доход, мы оставляем любые необъяснимые отклонения случайным ошибкам (вот где возникает количественная неопределенность).

Поскольку мы приписываем «Вариация = Влияние наблюдаемых факторов + Влияние случайных ошибок», нам нужны инструменты, предоставляемые вероятностью, чтобы учесть влияние случайных ошибок на наблюдаемое нами изменение.

Вот несколько примеров:

Количественная оценка неопределенности

Пример 1: Вы бросаете шестигранный кубик. Какова вероятность получения 1?

Пример 2. Какова вероятность того, что годовой доход взрослого человека, выбранного случайным образом из Соединенных Штатов, составляет менее 40 000 долларов США?

Объясняя вариацию

Пример 1. Мы наблюдаем, что годовой доход человека варьируется. Какие факторы объясняют разницу в доходах человека?

Ясно, что мы не можем объяснить все факторы. Таким образом, мы связываем доход человека с некоторыми наблюдаемыми факторами (например, уровень образования, пол, возраст и т. Д.) И оставляем любые оставшиеся отклонения от неопределенности (или на языке статистики: от случайных ошибок).

Пример 2. Мы наблюдаем, что некоторые потребители выбирают Tide большую часть времени, покупая моющие средства, тогда как другие потребители выбирают марку моющего средства xyz. Чем объясняется разница в выборе? Мы связываем различия в выборе с некоторыми наблюдаемыми факторами, такими как цена, название бренда и т. Д., И оставляем необъяснимое изменение случайным ошибкам (или неопределенности).

Alexis
источник
1
Что если случайные ошибки со временем станут больше наблюдаемых факторов?
hslc
В этом случае вы переделываете свою модель, поскольку она больше не соответствует реальности.
8

Вероятность - это погоня за неопределенностью, в то время как статистика - это эмпирическое, хищное стремление к истине (за исключением, конечно, проклятых лжецов).


источник
Здесь я имею в виду всю частоту / байесовскую вероятность и всю описательную / исследовательскую / логическую статистику.
7

Подобно тому, что сказал Марк, статистику исторически называли обратной вероятностью , поскольку статистика пытается определить причины события на основании наблюдений, в то время как вероятность имеет тенденцию быть наоборот.

raegtin
источник
6

Вероятность каждого события является его долгосрочной перспективой относительной частоты. Таким образом, это, в основном, дает вам шанс , например, получить «голову» на следующем броске монеты или получить «3» на следующем броске кубика.

Статистики любая числовая мера вычисляется по выборке населения. Например, образец означает. Мы используем это как статистику, которая оценивает среднее население, которое является параметром. Так что в основном это дает вам какое-то краткое изложение примера.

  • Вы можете получить статистику только из выборки, в противном случае, если вы вычисляете числовую меру для совокупности, она называется параметром совокупности.
Тони Бреял
источник
6

Вероятностные исследования, ну, насколько вероятны события. Вы интуитивно знаете, что такое вероятность.

Статистика - это изучение данных: их отображение (с использованием таких инструментов, как диаграммы), их обобщение (с использованием средних и стандартных отклонений и т. Д.), Заключение о мире, из которого эти данные были получены (подгонка линий к данным и т. Д.), И - это ключевой момент - количественная оценка того, насколько мы уверены в наших выводах.

Чтобы определить, насколько мы можем быть уверены в наших выводах, нам нужно использовать Вероятность. Допустим, у вас есть прошлогодние данные о количестве осадков в регионе, где вы живете и где я живу. В прошлом году шел дождь в среднем 1/4 дюйма в неделю, где вы живете, и 3/8 дюйма, где я живу. Таким образом, мы можем сказать, что количество осадков в моем регионе в среднем на 50% больше, чем там, где вы живете, верно? Не так быстро, Спарки. Это может быть совпадением: возможно, в прошлом году, когда я живу, случился сильный дождь. Мы можем использовать Вероятность, чтобы оценить, насколько мы уверены в том, что мой дом на 50% более скудный, чем ваш.

Таким образом, в основном вы можете сказать, что вероятность - это математическая основа теории статистики.

Карлос Аккиоли
источник
5

В теории вероятностей нам в некотором роде дают случайные величины X1, X2, ..., а затем мы изучаем их свойства, то есть вычисляем вероятность P {X1 \ in B1}, изучаем сходимость X1, X2, ... и т. Д. ,

В математической статистике нам дано n реализаций некоторой случайной величины X и множество распределений D; проблема состоит в том, чтобы найти среди распределений из D тот, который наиболее вероятно сгенерирует данные, которые мы наблюдали.


источник
Таким образом, мы можем найти только шаблоны, которые мы искали в первую очередь?
HSLC
4

Распределение вероятностей известно и известно заранее - вы начинаете с известной функции распределения вероятностей (или аналогичной) и выбираете ее.

В статистике распределение неизвестно заранее. Это может быть даже непостижимо. Предположения предполагаются относительно распределения вероятностей за наблюдаемыми данными, чтобы иметь возможность применить теорию вероятностей к этим данным, чтобы узнать, может ли быть отклонена нулевая гипотеза об этих данных или нет.

Существует философская дискуссия о том, существует ли такая вещь, как вероятность, в реальном мире, или является ли она идеальным плодом нашего математического воображения, и все наши наблюдения могут быть только статистическими.

EnergyNumbers
источник
3

Статистика - это поиск истины перед лицом неопределенности. Вероятность - это инструмент, который позволяет нам количественно оценить неопределенность.

(Я предоставил другой, более длинный ответ, который предполагал, что то, что спрашивали, было чем-то вроде «как бы вы объяснили это своей бабушке?»)

Карлос Аккиоли
источник
3

(Ω,F,P)θ(Ω,F,Pθ)θ

θθ

Отказ от ответственности: выше приведены математические ответы. В действительности, большая часть статистики также связана с разработкой / обнаружением подходящих моделей, опросом существующих моделей, разработкой экспериментов, обработкой несовершенных данных и т. Д. «Все модели ошибочны».

гусль
источник
4
Аналогично, если спросить "что такое химия?" мы могли бы ответить, что это набор дифференциальных уравнений. Описание математической теории может дать нам небольшое представление о предмете, но это не сам предмет.
whuber
3

Вероятность : учитывая известные параметры, найдите вероятность наблюдения определенного набора данных.

Статистика : учитывая определенный набор наблюдаемых данных, сделайте вывод о том, какими могут быть параметры.

Статистика «более субъективна» и «больше искусства, чем науки» (относительно вероятности).

Example_

p

p=12HHH

18

HHHp

Разные статистики дадут разные, часто затянувшиеся ответы.

Кенни ЖЖ
источник
3

Разница между вероятностями и статистикой заключается в том, что в вероятностях нет ошибки. Мы уверены в вероятности, потому что мы точно знаем, сколько сторон имеет монету или сколько синих карамелей в вазе. Но в статистике мы исследуем часть совокупности того, что исследуем, и из этого мы пытаемся увидеть правду, но всегда есть% ошибочных выводов. Единственное, что в статистике верно, так это ошибка%, которая на самом деле является вероятностью.

TheodoreM
источник
2

Текст Сэвиджа Основы статистики цитировался в Google Scholar более 12000 раз. [3] Это говорит следующее.

Все согласны с тем, что статистика как-то зависит от вероятности. Но что касается вероятности и того, как она связана со статистикой, со времен Вавилонской башни редко случались такие полные разногласия и нарушения коммуникации. Несомненно, большая часть разногласий является просто терминологической и исчезнет при достаточно резком анализе.

https://en.wikipedia.org/wiki/Foundations_of_statistics

Поэтому вопрос о том, что теория вероятностей является основой статистики, вряд ли оспаривается. Все остальное - честная игра.

Но пытаясь быть более полезным, практичным с ответом ...

Тем не менее, теория вероятностей содержит многое, что в основном представляет математический интерес и не имеет прямого отношения к статистике. Более того, многие темы в статистике не зависят от теории вероятностей

https://en.wikipedia.org/wiki/Probability_and_statistics

Вышеизложенное не является исчерпывающим или авторским в любом случае, но я считаю, что это полезно.

Обычно это помогло мне увидеть такие вещи, как ...

Дискретная математика >> Теория вероятностей >> Статистика

В среднем каждый из них интенсивно используется в основах следующего. То есть есть большие пересечения в том, как мы изучаем основы следующего.

PS. Есть индуктивная и дедуктивная статистика, так что разница не в этом.

Kervin
источник
0

Многие люди и математики говорят, что «СТАТИСТИКА - обратная сторона ВЕРОЯТНОСТИ», но это не особенно верно. Способ приближения или метод решения этих двух совершенно разные, но они взаимосвязаны .

я хотел бы сослаться на моего друга Джона Д. Кука .....

«Мне нравится пример банки с красными и зелеными желейными бобами.

Вероятностный специалист начинает с определения пропорции каждого и, скажем, находит вероятность нарисовать красный желейный боб. Статистик делает вывод о доле красных желейных бобов путем отбора проб из банки ».

Теперь доля красного желейного боба, полученного путем отбора проб из банки, используется вероятностным исследователем для определения вероятности получения красного боба из банки.

Рассмотрим этот пример ---- >>>

В экзамене 30% студентов не смогли по физике, 25% не смогли по математике, 12% не смогли по физике и математике. Студент, выбранный случайным образом, находит вероятность того, что студент потерпел неудачу в физике, если известно, что он потерпел неудачу в математике.

Приведенная выше сумма является проблемой вероятности, но если мы посмотрим внимательно, мы обнаружим, что сумма снабжена некоторыми статистическими данными

30% студентов потерпели неудачу в физике, 25% "" "математика" Это в основном частоты, если рассчитываются проценты. Таким образом, нам предоставляют статистические данные, которые, в свою очередь, помогают нам найти вероятность

ТАК ЧТО ВЕРОЯТНОСТЬ И СТАТИСТИКА ОЧЕНЬ ОЧЕНЬ ВЗАИМОСВЯЗАНЫ ИЛИ СЛИШКОМ МОЖНО СКАЗАТЬ, ЧТО ВЕРОЯТНОСТЬ ЗАВИСИТ ОТ МНОГО СТАТИСТИКИ

Хирак Мондал
источник
0

Термин «статистика» прекрасно объясняется Дж. К. Максвеллом в статье « Молекулы»Nature 8, 1873, pp. 437–441). Позвольте мне процитировать соответствующий отрывок:

Когда работающие члены Секции F получают отчет о переписи или любой другой документ, содержащий числовые данные экономических и социальных наук, они начинают с распределения всего населения по группам в соответствии с возрастом, подоходным налогом, образованием, религиозные убеждения или преступные убеждения. Количество людей слишком велико, чтобы позволить им отслеживать историю каждого из них в отдельности, поэтому, чтобы уменьшить свой труд в человеческих пределах, они концентрируют свое внимание на небольшом количестве искусственных групп. Различное количество людей в каждой группе, а не разное состояние каждого человека, является основным источником данных, из которого они работают.

Это, конечно, не единственный метод изучения человеческой натуры. Мы можем наблюдать за поведением отдельных людей и сравнивать его с тем поведением, которое заставило бы нас ожидать их предыдущий характер и их нынешние обстоятельства, согласно наилучшей существующей теории. Те, кто практикует этот метод, стремятся улучшить свои знания об элементах человеческой природы почти так же, как астроном корректирует элементы планеты, сравнивая ее фактическое положение с тем, которое выводится из полученных элементов. Поэтому изучение человеческой природы родителями и учителями, историками и государственными деятелями следует отличать от исследований, проводимых регистраторами и табуляторами, а также теми государственными деятелями, которые верят в цифры. Один из них можно назвать историческим, а другой - статистическим методом.

Уравнения динамики полностью выражают законы исторического метода применительно к материи, но применение этих уравнений предполагает совершенное знание всех данных. Но самая маленькая часть материи, которую мы можем подвергнуть эксперименту, состоит из миллионов молекул, ни одна из которых никогда не станет для нас индивидуально чувствительной. Поэтому мы не можем установить фактическое движение какой-либо одной из этих молекул, поэтому мы вынуждены отказаться от строгого исторического метода и принять статистический метод работы с большими группами молекул.

Он дает это объяснение статистического метода в нескольких других работах. Например, «в статистическом методе исследования мы не следим за системой во время ее движения, но мы фиксируем наше внимание на определенной фазе и выясняем, находится ли система в этой фазе или нет, а также когда она входит в фазу и когда он покидает его »(Trans. Cambridge Philos. Soc. 12, 1879, pp. 547–570).

Есть еще один прекрасный отрывок Максвелла о «вероятности» (из письма Кэмпбеллу, 1850, перепечатано в «Жизни Джеймса Клерка Максвелла» , стр. 143):

настоящая наука о логике в настоящее время знакома только с определенными, невозможными или совершенно сомнительными вещами , о которых мы не должны (к счастью) рассуждать. Поэтому истинная логика для этого мира - это исчисление вероятностей, которое учитывает величину вероятности (которая есть или должна быть в уме разумного человека).

Итак, мы можем сказать:

- в статистике мы «концентрируем наше внимание на небольшом количестве искусственных групп» или количествах; мы делаем какую-то каталогизацию или перепись.

- По вероятности мы рассчитываем нашу неопределенность относительно некоторых событий или количеств.

Два отличны, и мы можем делать одно без другого.

Например, если мы проводим полную перепись всего населения страны и подсчитываем точное количество людей, принадлежащих к определенным группам, таким как возраст, пол и т. Д., Мы проводим статистику. Здесь нет никакой неопределенности - вероятности - потому что числа, которые мы находим, точны и известны.

С другой стороны, представьте, что кто-то проходит мимо нас на улице, и мы задаемся вопросом об их возрасте. В этом случае мы не уверены и используем вероятность, но статистика не используется, поскольку мы не проводим какую-либо перепись или каталог.

Но эти два также могут происходить вместе. Если мы не можем провести полную перепись населения, мы должны угадать, сколько людей входит в конкретные возрастные группы. Следовательно, мы используем вероятность, делая статистику. Наоборот, мы можем рассмотреть точные статистические данные о возрасте людей, и на основе этих данных попытаться сделать более точную догадку о человеке, проходящем перед нами. Следовательно, мы используем статистику при определении вероятности.

pglpm
источник
Спасибо за ваш вклад. Хотя это интересно, оно не согласуется ни с тем, что статистики считают статистикой, ни с тем, что они на самом деле делают, как показано на stats.stackexchange.com/questions/140547/… .
whuber
Это спорный вопрос. Я знаю профессиональных статистиков, которые не согласны с определением ASA (которое очень расплывчато) и согласны с Максвеллом.
pglpm