Я только что натолкнулся на квартет Анскомба (четыре набора данных, которые имеют почти неразличимую описательную статистику, но выглядят совсем иначе при построении графика), и мне любопытно, есть ли другие более или менее известные наборы данных, которые были созданы, чтобы продемонстрировать важность определенных аспектов статистического анализа.
regression
data-visualization
dataset
спящий режим
источник
источник
Ответы:
Наборы данных, которые выступают в качестве контрпримеров к популярным недоразумениям *, существуют - я сам создавал многие из них при различных обстоятельствах, но я уверен, что большинство из них вам не будут интересны.
* (это то, что делают данные Anscombe, поскольку это ответ людям, действующим из-за неправильного понимания того, что качество модели можно определить по той же статистике, которую вы упомянули)
Я приведу здесь несколько, которые могут представлять больший интерес, чем большинство из тех, что я генерирую:
1) Одним из примеров (из многих) являются некоторые примеры дискретных распределений (и, следовательно, наборов данных), которые я построил, чтобы противостоять общему утверждению, что нулевая асимметрия третьего момента подразумевает симметрию. ( Усовершенствованная теория статистики Кендалла и Стюарта предлагает более впечатляющую непрерывную семью.)
Вот один из тех примеров дискретного распределения:
(Набор данных для контрпримера в случае выборки тем самым очевиден: )- 4 , - 4 , 1 , 1 , 1 , 5
Как видите, это распределение не симметрично, но его асимметрия третьего момента равна нулю. Точно так же можно легко построить контрпримеры к аналогичному утверждению относительно второй наиболее распространенной меры асимметрии, второго коэффициента асимметрии Пирсона ().3 ( м е а н - м е дя пσ)
Действительно, я также придумал распределения и / или наборы данных, для которых две меры противоположны по знаку - этого достаточно, чтобы противостоять идее, что асимметрия является единственной, легко понимаемой концепцией, а не несколько скользкой идеей, которой мы на самом деле не являемся знать, как правильно измерить во многих случаях.
2) В этом ответном графике для мультимодального распределения построен ряд данных , основанный на подходе Choonpradub & McNeil (2005), в котором показаны четыре набора данных очень разных типов с одним и тем же блок-графиком.
В частности, отчетливо искаженное распределение с симметричным коробочным графиком имеет тенденцию удивлять людей.
3) Есть еще несколько наборов контрпримеров, которые я построил в ответ на чрезмерную зависимость людей от гистограмм, особенно с несколькими бинами и только с одной шириной бина и источником бина; что приводит к ошибочно уверенным утверждениям о форме распределения. Эти наборы данных и примеры отображений можно найти здесь
Вот один из примеров оттуда. Это данные:
И вот две гистограммы:
4) Недавно я сконструировал несколько наборов данных, чтобы продемонстрировать непереходность теста Уилкоксона-Манна-Уитни, то есть показать, что можно отказаться от односторонней альтернативы для каждой из трех или четырех пар наборов данных A, B и C (и D в случае четырех образцов), так что один пришел к выводу, чтоп( B > A ) > 12
Вот один из таких наборов данных с 30 наблюдениями в каждой выборке, помеченных от A до D:
Вот пример теста:
Как видите, односторонний тест отклоняет ноль; значения из A, как правило, меньше значений из B. Тот же вывод (с тем же p-значением) применим к B против C, C против D и D против A. Сам по себе этот цикл отклонений не является проблемой , если мы не понимаем, что это означает что-то, что это не так. (Это просто - получить гораздо меньшие значения p с аналогичными, но большими выборками.)
Больший «парадокс» возникает здесь, когда вы вычисляете (в данном случае односторонние) интервалы для сдвига местоположения - в каждом случае 0 исключается (интервалы не идентичны в каждом случае). Это приводит нас к заключению, что при перемещении по столбцам данных от А к В к С к D местоположение перемещается вправо, и все же то же самое происходит снова, когда мы возвращаемся к А.
С более крупными версиями этих наборов данных (аналогичное распределение значений, но большее их количество) мы можем получить значимость (одну или две хвостики) при существенно меньших уровнях значимости, чтобы можно было использовать, например, корректировки Бонферрони, и при этом завершить каждый группа пришла из дистрибутива, который был перенесен со следующего.
Это показывает нам, среди прочего, что отклонение в Уилкоксон-Манн-Уитни само по себе не оправдывает претензию на изменение местоположения.
(Хотя это не относится к этим данным, также возможно создать наборы, в которых средние значения выборки являются постоянными, в то время как результаты, аналогичные приведенным выше, применимы.)
Добавлено в последующем редакторе: очень информативный и образовательный справочник по этому
Браун Б.М. и Гетманспергер Т.П. (2002)
Крускал-Уоллис, множественные сокамерники и кости Эфрона.
Aust & N.ZJ Stat. , 44 , 427–438.
5) Еще одна пара связанных контрпримерах придумать здесь где ANOVA может быть значимым, но все парные сравнения нет (интерпретируются там двумя разными способами, приводя к различным контрпримерам).
Таким образом, существует несколько контрпримеров, которые противоречат недоразумениям, с которыми можно столкнуться.
Как вы можете догадаться, я создаю такие контрпримеры достаточно часто (как и многие другие люди), обычно по мере необходимости. Для некоторых из этих распространенных недоразумений вы можете охарактеризовать контрпримеры таким образом, что новые могут быть сгенерированы по желанию (хотя чаще используется определенный уровень работы).
Если есть определенные виды вещей, которые могут вас заинтересовать, я мог бы найти больше таких наборов (моих или других) или, возможно, даже сконструировать некоторые из них.
Один полезный прием для генерации данных случайной регрессии с нужными коэффициентами заключается в следующем (часть в скобках представляет собой схему кода R):
а) установить нужные коэффициенты без шума (
y = b0 + b1 * x1 + b2 * x2
)б) генерировать погрешность с заданными характеристиками (
n = rnorm(length(y),s=0.4
)в) установить регрессию шума на тех же х (
nfit = lm(n~x1+x2)
)d) добавить остатки от этого к переменной y (
y = y + nfit$residuals
)Выполнено. (все это на самом деле может быть сделано в пару строк R)
источник
Что касается создания (например, ваших собственных) наборов данных для аналогичных целей, вас могут заинтересовать:
Что касается наборов данных, которые просто используются для демонстрации хитрых / нелогичных явлений в статистике, их много, но вам необходимо указать, какие явления вы хотите продемонстрировать. Например, что касается демонстрации парадокса Симпсона , набор данных случая гендерного смещения Беркли очень известен.
Для большого обсуждения самого известного набора данных из всех, см .: Какие аспекты набора данных "Iris" делают его настолько успешным, как набор данных пример / обучение / тестирование .
источник
В статье «Давайте разместим регрессии мусорных баков и пробиты мусорных баков там, где они принадлежат» (C. Achen, 2004), автор создает синтетический набор данных с нелинейностью, который предназначен для отражения реальных случаев, когда данные возможно, произошла ошибка кодирования во время измерения (например, искажение при назначении данных категориальным значениям или неправильные процедуры квантования).
Синтетические данные создаются из идеального линейного отношения с двумя положительными коэффициентами, но как только вы примените нелинейную ошибку кодирования, стандартные методы регрессии будут производить коэффициент, который неправильный знак и также статистически значим (и станет больше, если вы загрузили больший синтетический набор данных).
Хотя это всего лишь небольшой синтетический набор данных, в статье представлено большое опровержение наивного регресса «сбросить все, что я могу думать с правой стороны», показывающего, что даже с крошечными / тонкими нелинейностями (которые на самом деле довольно что часто встречается в таких вещах, как ошибки кодирования или ошибки квантования), вы можете получить сильно вводящие в заблуждение результаты, если просто доверяете результатам стандартного регрессионного кнопочного анализа.
источник