Подобные Anscombe наборы данных с одним и тем же блоком и графиком усов (среднее / стандартное / медианное / MAD / мин / макс)

21

РЕДАКТИРОВАТЬ: Поскольку этот вопрос был завышен, краткое изложение: поиск различных значимых и интерпретируемых наборов данных с одинаковой смешанной статистикой (среднее значение, медиана, средний диапазон и связанные с ними дисперсии и регрессия).

Квартет Анскомба (см. « Цель визуализации высокоразмерных данных?» ) Является известным примером четырех наборов данных Икс - Y с одинаковым предельным средним / стандартным отклонением (по четырем Икс и четырем Y отдельно) и одинаковым линейным соответствием OLS. , регрессия и остаточная сумма квадратов и коэффициент корреляции р2 . Таким образом, статистика типа 2 (маргинальная и объединенная) одинакова, а наборы данных весьма различны.

Квартет Анскомба

РЕДАКТИРОВАТЬ (из комментариев OP) Оставив небольшой размер набора данных, позвольте мне предложить некоторые интерпретации. Набор 1 можно рассматривать как стандартную линейную (аффинно, чтобы быть правильной) взаимосвязь с распределенным шумом. Набор 2 показывает чистые отношения, которые могут быть высшей степенью подгонки. Набор 3 показывает четкую линейную статистическую зависимость с одним выбросом. Набор 4 более хитрый: попытка «предсказать» из x кажется обреченной на неудачу. Схема x может выявить явление гистерезиса с недостаточным диапазоном значений, эффект квантования ( x может быть слишком сильно квантован) или пользователь переключил зависимые и независимые переменные.yxxx

Так сводные характеристики скрыть различное поведение. Набор 2 может быть лучше решен с полиномиальной подгонкой. В наборе 3 используются устойчивые к выбросам методы ( 1 и т. П.), А также в наборе 4. Можно задаться вопросом, могут ли другие функции затрат или индикаторы расхождения соответствовать или, по крайней мере, улучшить распознавание наборов данных. РЕДАКТИРОВАТЬ (из комментариев OP): сообщение в блоге Любопытные регрессии утверждают, что:21

Между прочим, мне сказали, что Фрэнк Анскомб никогда не раскрывал, как он пришел с этими наборами данных. Если вы считаете, что получить всю сводную статистику и результаты регрессии очень просто, попробуйте!

В наборах данных, построенных с целью, аналогичной цели квартета Анскомба, дано несколько интересных наборов данных, например, с такими же гистограммами на основе квантилей. Я не видел смеси значимых отношений и смешанной статистики.

Мой вопрос: есть там двумерный (или trivariate, чтобы сохранить визуализацию) Анскомбы подобных наборам данных таким образом, что, в дополнении к тому же типа статистики2 :

  • их графики можно интерпретировать как отношения между и y , как если бы кто-то искал закон между измерениями,xy
  • они обладают одинаковыми (более устойчивыми) предельными свойствами (одинаковые медиана и медиана абсолютного отклонения),1
  • они имеют одинаковые ограничивающие рамки: одинаковые min, max (и, следовательно, -типа среднего и среднего диапазона).

Такие наборы данных будут иметь одни и те же итоговые значения графика типа « квадраты и усы» (с минимальным, максимальным, медианным, медианным абсолютным отклонением / MAD, средним и стандартным значением) для каждой переменной и все равно будут весьма различаться в интерпретации.

Было бы еще интереснее, если бы некоторые наименее абсолютные регрессии были одинаковыми для наборов данных (но, может быть, я уже слишком много спрашиваю). Они могут служить предостережением, когда речь идет об устойчивой, а не надежной регрессии, и помогают учитывать цитату Ричарда Хэмминга:

Цель вычислений - понимание, а не цифры

РЕДАКТИРОВАТЬ (из комментариев ОП) Схожие проблемы решаются при создании данных с идентичными статистическими данными, но с разнородной графикой , Sangit Chatterjee и Aykut Firata, данными American Statistician, 2007 или Cloning: создание наборов данных с точно такой же подгонкой множественной линейной регрессии, J. Aust. N.-Z. Стат. J. 2009.

В Chatterjee (2007) цель состоит в том, чтобы генерировать новые пары с одинаковыми средними значениями и стандартными отклонениями от исходного набора данных, одновременно максимизируя различные целевые функции «несоответствие / различие». Поскольку эти функции могут быть невыпуклыми или недифференцируемыми, они используют генетические алгоритмы (GA). Важные шаги состоят в орто-нормализации, которая очень согласуется с сохранением среднего значения и (единичной) дисперсии. Цифры бумаги (половина содержания бумаги) накладывают входные и выходные данные GA. Мое мнение таково, что результаты GA теряют много оригинальной интуитивной интерпретации.(x,y)

И технически, ни средний , ни среднего класса сохраняется, и документ не упоминает процедуры перенормировки , что бы сохранить , л 1 и л статистику.21

Лоран Дюваль
источник
3
Если вы хотите, чтобы однофакторные наборы данных были с одними и теми же коробочными диаграммами, я дал набор в ответ на вопрос некоторое время назад, основываясь на разработках в статье. Постой, я откопаю. (редактировать) ... здесь . Легко сделать больше наборов данных с теми же свойствами ... Я обращаюсь к этому в другом ответе, здесь .
Glen_b
2
ИксY
ИксY
3
Чаттерджи и Фират ( The American Statistician , 2007) , связанные с этим ответом на этот вопрос , предлагают довольно общий генетический алгоритм, который вы должны легко адаптировать к вашим целям.
С. Коласса - Восстановить Монику
1
Графики являются примерами бессмысленности моментов населения, когда моменты распределения игнорируются. Среднее значение, стандартное отклонение, асимметрия и другие моменты популяции не соответствуют ожидаемым значениям, стандартным отклонениям, асимметрии и другим моментам распределений, которые лучше всего описывают эти группы населения. Когда вышеприведенные графики рассматриваются как распределения значений x и y, все они различны и поэтому имеют разные моменты распределения. Это хуже, чем просто игнорирование остаточной структуры, которая, возможно, была главной, которую нельзя игнорировать ни безнаказанно.
Карл

Ответы:

1

Чтобы быть конкретным, я рассматриваю проблему создания двух наборов данных, каждый из которых предлагает отношения, но отношения каждого различны, и в то же время имеют примерно одинаковые значения:

  • значит х
  • значит у
  • SD x
  • SD y
  • средний х
  • средний у
  • минимум х
  • минимум у
  • максимум х
  • максимум у
  • Медиана абсолютного отклонения от медианы х
  • медиана абсолютного отклонения от медианы у
  • коэффициенты от простой линейной регрессии у на х

означатьYзнак равно0минYзнак равно-МаксимумY

Рассмотрим, например,

Икс019293949596979891Y-1-1201211120-12-1

который имеет восходящий V-образный график, как это:

график

Y-Y

Kodiologist
источник
Хороший вклад. В самом деле, я упал горизонтальная линия немного обмануть по сравнению с OLS. Отражение - хорошая идея, но если наборы данных разные, они остаются похожими. Но я думаю, что у вас есть хорошая идея, возможно, форма «N» и форма «W» таким же образом могли бы стать началом пути
Лоран Дюваль