В этом комментарии Ник Кокс написал:
Объединение в классы - древний метод. Хотя гистограммы могут быть полезны, современное статистическое программное обеспечение позволяет легко и целесообразно адаптировать распределения к необработанным данным. Биннинг просто отбрасывает детали, которые имеют решающее значение при определении того, какие распределения правдоподобны.
Контекст этого комментария предлагает использовать QQ-графики в качестве альтернативного средства для оценки соответствия. Утверждение звучит очень правдоподобно, но я хотел бы узнать о надежной ссылке, подтверждающей это утверждение. Есть ли какая-то статья, которая более тщательно исследует этот факт, помимо простого «ну, это звучит очевидно»? Какие-нибудь реальные систематические сравнения результатов или лайков?
Я также хотел бы увидеть, насколько далеко может быть распространено это преимущество QQ-графиков перед гистограммами, до приложений, отличных от подгонки модели. Ответы на этот вопрос согласны с тем, что «QQ-сюжет […] просто говорит вам, что« что-то не так »». Я думаю об использовании их в качестве инструмента для идентификации структуры в наблюдаемых данных по сравнению с нулевой моделью и задаюсь вопросом, существуют ли какие-либо установленные процедуры для использования QQ-графиков (или их базовых данных), чтобы не только обнаруживать, но и описывать неслучайные структура в наблюдаемых данных. Поэтому ссылки, которые включают это направление, будут особенно полезны.
Ответы:
Каноническая статья здесь была
Уилк М.Б. и Р. Гнанадесикан. 1968. Вероятность построения методов анализа данных. Биометрика 55: 1-17
и это все еще возвращает близкое и повторное чтение.
Ясное лечение со многими хорошими примерами было дано
Cleveland, WS 1993. Визуализация данных. Саммит, Нью-Джерси: Хобарт Пресс.
и стоит упомянуть более вводный
Cleveland, WS 1994. Элементы графического представления данных. Саммит, Нью-Джерси: Хобарт Пресс.
Другие тексты, содержащие обоснованное воздействие этого подхода, включают
Дэвисон, AC 2003. Статистические модели. Кембридж: издательство Кембриджского университета.
Райс, JA 2007. Математическая статистика и анализ данных. Белмонт, Калифорния: Даксбери.
Кроме того, я не знаю ничего такого, о чем ты просишь. После того, как вы увидели точку квантиль-квантильных графиков, детальное показание того, что гистограммы являются второсортной альтернативой, не кажется ни интересным, ни полезным, слишком похоже на отстрел рыбы в бочке.
Но я бы подвел итог так:
Биннинг подавляет детали, а детали часто важны. Это может относиться не только к тому, что происходит в хвосте, но и к тому, что происходит посередине. Например, могут быть важны гранулярность или мультимодальность, а также асимметрия или вес хвоста.
Для биннинга требуются решения о происхождении бина и его ширине, что может сильно повлиять на внешний вид гистограмм, поэтому трудно понять, что реально, а что является побочным эффектом выбора. Если ваше программное обеспечение принимает эти решения за вас, проблемы остаются. (Например, выбор корзин по умолчанию часто разрабатывается таким образом, чтобы вы не использовали «слишком много корзин», то есть с целью сглаживания немного.)
Графическая и психологическая проблема сравнения двух гистограмм более сложна, чем оценка соответствия набора точек прямой линии.
[Добавлено 27 сентября 2017 г.] 4. Квантовые графики можно очень легко варьировать при рассмотрении одного или нескольких преобразованных масштабов. Под преобразованием здесь я подразумеваю нелинейное преобразование, а не, например, масштабирование по максимуму или стандартизацию (значение- значит) / SD. Если квантили - это просто статистика по порядку, то все, что вам нужно сделать, это применить преобразование, как, например, логарифм максимума, тождественно максимум логарифма и т. Д. (Тривиально, взаимное обращение меняет порядок.) Даже если вы строите выбранные квантили, основанные на статистике двух порядков, обычно они просто интерполируются между двумя исходными значениями данных, и эффект интерполяции тривиален. Напротив, гистограммы в логарифмическом или других преобразованных масштабах требуют нового решения о происхождении и ширине бина, что не особенно сложно, но не является тривиальным. То же самое можно сказать об оценке плотности как способ суммировать распределение.
источник
Смотрите работы Уильяма С. Кливленда.
Визуализация данных , вероятно, является лучшим единственным источником, но также посмотрите его веб-страницу , особенно библиографию и страницу для визуализации данных (включая код S +, который можно адаптировать для использования в
R
).У Кливленда есть много причин, почему графики QQ хороши и почему гистограммы не так хороши.
источник
Как только вы научитесь их использовать, графики QQ позволят вам определить асимметрию, тяжеловесность, общую форму, пики и т. Д., Те же самые особенности, которые люди склонны использовать гистограммы для оценки.
Оценки плотности ядра или лог-сплайновые оценки могут избежать некоторых проблем с гистограммами, на которые Гала указал в комментариях.
Рассмотрим этот пример по этой ссылке:
Однако, если вам не очень повезло, иногда можно пропустить неожиданную дискретность с гистограммой и даже с гладкими оценками плотности (потому что они, естественно, сглаживаются), но часто это будет очевидно на графиках QQ. Гладкие оценки плотности - если не рассматриваются специально - также могут иметь проблемы с ограниченными переменными.
Гистограммы и гладкие оценки плотности основаны на приближении к данным, что может быть полезно, но могут также содержать артефакты или некоторые искаженные данные.
источник