Разница между гистограммой и PDF?

18

Если мы хотим наглядно увидеть распределение непрерывных данных, какую из гистограммы и pdf следует использовать?

Каковы различия, а не по формуле, между гистограммой и PDF?

csgillespie
источник
Не могли бы вы уточнить, относится ли этот вопрос к данным (распределение которых может быть представлено гистограммой) или к теоретическим конструкциям (таким как PDF, который описывает распределение вероятностей).
whuber
4
Но откуда взялся pdf? По определению, PDF описывает теоретическое распределение вероятностей. Возможно, вы имеете в виду edf (эмпирическая функция распределения)?
whuber

Ответы:

22

Чтобы уточнить точку Диркс:

Скажите, что ваши данные являются образцом нормального распределения. Вы могли бы построить следующий сюжет:

альтернативный текст

Красная линия - это эмпирическая оценка плотности, синяя линия - теоретическая pdf основного нормального распределения. Обратите внимание, что гистограмма здесь выражена в плотностях, а не в частотах. Это сделано для построения графиков, в общем случае частоты используются в гистограммах.

Итак, чтобы ответить на ваш вопрос: вы используете эмпирическое распределение (т. Е. Гистограмму), если вы хотите описать свой образец, и PDF, если вы хотите описать предполагаемое основное распределение.

Сюжет генерируется следующим кодом в R:

x <- rnorm(100)
y <- seq(-4,4,length.out=200)

hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)
Йорис Мейс
источник
какая разница между частотой и плотностью?
Лакшай
2
Частота @Lakshay являются подсчетами. Все частоты суммируются равными количеству наблюдений. Плотность коротка для PDF (функция плотности вероятности), которая является прокси для вероятности иметь определенное значение. Область под PDF суммируется в 1.
Joris Meys
13

Гистограмма - это предварительная компьютерная оценка плотности. Оценка плотности является альтернативой.

В наши дни мы используем оба, и есть богатая литература о том, какие значения по умолчанию следует использовать.

PDF, с другой стороны, является выражением закрытой формы для данного распределения. Это отличается от описания вашего набора данных с предполагаемой плотностью или гистограммой.

Дирк Эддельбюттель
источник
1
μσ2density
*ab***ab**$\sqrt{2}$2
6

Здесь нет жесткого и быстрого правила. Если вы знаете плотность своего населения, тогда PDF лучше. С другой стороны, часто мы имеем дело с выборками, и гистограмма может передавать некоторую информацию, которую покрывает предполагаемая плотность. Например, Эндрю Гельман делает следующее замечание:

Вариации на гистограмме

Ключевое преимущество гистограммы состоит в том, что в качестве графика необработанных данных она содержит семена собственной оценки ошибок. Или, другими словами, неровность слегка недогладленной гистограммы оказывает полезную услугу, визуально показывая изменчивость выборки. Вот почему, если вы посмотрите на гистограммы в моих книгах и опубликованных статьях, я почти всегда использую множество бинов. Мне также почти никогда не нравятся оценки плотности ядра, которые люди иногда используют для отображения одномерных распределений. Я лучше посмотрю гистограмму и узнаю, где находятся данные.

АРС
источник
3
Должен признаться, я никогда полностью не понимаю, почему Гельман выступает за использование гистограммы с небольшой шириной бина; почему бы не использовать график с полосками или необработанные данные с наложенными оценками плотности ядра, которые намного лучше отражают эмпирическое распределение наблюдаемых данных?
ЧЛ
2
@chl: Конечно, есть и другие хорошие методы визуализации, чтобы получить представление об изменчивости выборки. Но по поводу более узкого сравнения обсуждаемой здесь гистограммы и pdf, я думаю, что его точка зрения хорошо сформулирована.
АРС
1
Это хорошая ссылка, как и документы, обсуждаемые там. Но подходит ли этот подход для моделирования, и в этом случае мы на самом деле пытаемся оценить плотность?
Дэвид Лебауэр
1

Гистограмма относительной частоты ( дискретная )

  • ось 'y' - нормализованный счет
  • ось 'y' - это дискретная вероятность для этого конкретного бина / диапазона
  • Нормализованные суммы сумм до 1

Гистограмма плотности ( дискретная )

  • ось «у» - значение плотности («нормализованный счет», деленный на «ширину бункера»)
  • Сумма баров до 1

Функция плотности вероятности PDF ( непрерывно )

  • PDF - это непрерывная версия гистограммы, поскольку ячейки гистограммы дискретны
  • общая площадь под кривой интегрируется в 1

Эти ссылки были полезны :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function

Continuous_probability_distribution с сайта выше

http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html

Харша Манджунатх
источник