Как использовать статистику CDF и PDF для анализа

12

Это может быть слишком много общего вопроса, но я надеюсь, что я могу найти помощь здесь. Я начинаю работу в RA в моем университете, и моя тема будет связана с анализом интернет-трафика. Я довольно новичок в мире анализа, но я предполагаю, что в мире исследований это то, что я должен сделать много.

Я просмотрел несколько статей, и во многих из них я обнаружил, что они используют Вероятностную плотность (PDF), CDF, CCDF и т. Д., Чтобы объяснить полученные результаты. Например, PDF продолжительности сеанса пользователя, CDF байтов, передаваемых каждый день, и т. Д. Я взял класс вероятности и статистики, поэтому я понимаю, что это такое, но я все еще путаюсь со случаями, когда такое представление будет выбрано.

Итак, если есть кто-то, кто делает такие графики и анализ (в любой другой теме в целом или в этом), вы могли бы просто сказать мне, в какой ситуации я бы использовал одно или другое из этих представлений

Sfactor
источник

Ответы:

17

Отчасти это вопрос вкуса и условностей, но теория, внимание к вашим целям и небольшой кусочек когнитивной нейробиологии [см. Ссылки] могут служить руководством.

Поскольку pdf и cdf передают одну и ту же информацию, различие между ними связано с тем, как они это делают: pdf представляет вероятность с областями, а cdf представляет вероятность с (вертикальными) расстояниями . Исследования показывают, что люди сравнивают расстояния быстрее и точнее, чем сравнивают районы, и что они систематически неверно оценивают районы. Таким образом, если ваша цель - предоставить графический инструмент для считывания вероятностей, вы должны предпочесть использование cdf.

Pdfs и cdfs также представляют плотность вероятности : первый делает это посредством высоты, в то время как последний представляет плотность по наклону . Теперь таблицы перевернуты, потому что люди плохо оценивают наклон (который является касательной к углу; мы склонны видеть сам угол). Плотности хороши при передаче информации о модах, тяжести хвостов и зазорах. Не используйте pdfs в таких ситуациях и в любом другом месте, где необходимо подчеркнуть местные детали распределения вероятностей.

Иногда PDF или CDF предоставляет полезную теоретическую информацию. Его значение (или, скорее, его обратное значение) используется в формулах для стандартных ошибок для квантилей, экстремальных значений и статистики рангов. Отображать PDF, а не PDF в таких ситуациях. При изучении многомерных корреляций в непараметрических условиях, таких как связки , cdf оказывается более полезным (возможно, потому, что именно эта функция преобразует непрерывный закон вероятности в однородный).

PDF или cdf могут быть тесно связаны с определенным статистическим тестом. Тест Колмогорова-Смирнова (и статистика KS) имеет простое графическое представление в виде вертикального буфера вокруг cdf; он не имеет простого графического представления в терминах PDF (что я знаю).

Ccdf (дополнительный cdf) используется в специальных приложениях, ориентированных на выживание и редкие события. Его использование имеет тенденцию быть установленным соглашением.

Ссылки

WS Cleveland (1994). Элементы графического отображения данных. Саммит, Нью-Джерси, США: Хобарт Пресс. ISBN 0-9634884-1-4

Б. Д. Дент (1999). Картография: тематическая карта дизайн 5-е изд. Бостон, Массачусетс, США: WCB McGraw-Hill.

AM MacEachren (2004). Как работают карты. Нью-Йорк, штат Нью-Йорк, США: Гилфорд Пресс. ISBN 1-57230-040-X

Whuber
источник
(+1), особенно для понимания интерпретируемости расстояний против площадей и наклона против высоты.
Штеффен
8

Я согласен с ответом Уубера, но у меня есть еще один важный момент:

CDF имеет простую непараметрическую оценку, которая не требует выбора: эмпирическая функция распределения . Это не совсем так просто оценить PDF. Если вы используете гистограмму, вам нужно выбрать ширину бина и начальную точку для первого бина. Если вы используете оценку плотности ядра, вам нужно выбрать форму ядра и пропускную способность. Подозрительный или циничный читатель может задаться вопросом, действительно ли вы выбрали их полностью априори или вы пробовали несколько других значений и выбрали те, которые дали наиболее понравившийся вам результат.

Это только второстепенный момент. Те, которые сделал whuber, более важны, так что я бы, вероятно, использовал это, чтобы выбрать, когда я все еще не определился после их рассмотрения.

универсальный
источник
Это все еще интересный момент. Спасибо, что подняли это.
whuber
2

Я думаю, это зависит от того, какую статистику или результаты вы собираетесь узнать, исследовать, изучать или сообщать. Я предполагаю, что вы, вероятно, будете использовать эти графики для представления результатов по вашей университетской теме, верно?

Как, например, если вы хотите представить свои выводы, скажем, «Как долго пользователи остаются на определенном веб-сайте», возможно, было бы неплохо показать его в CDF, поскольку он показывает накопленное время, которое он провел на этом веб-сайте, на страницах и т. Д. ,

С другой стороны, если вы хотите просто показать вероятность того, что пользователи нажмут на рекламную ссылку (например, ссылку Google AdWords), вы можете представить ее в формате PDF, так как она, вероятно, будет кривой нормального распределения, и вы можете показать вероятность того, что происходит.

Надеюсь, это поможет, Джефф


источник