Подобные Anscombe наборы данных с одним и тем же блоком и графиком усов (среднее / стандартное / медианное / MAD / мин / макс)

РЕДАКТИРОВАТЬ: Поскольку этот вопрос был завышен, краткое изложение: поиск различных значимых и интерпретируемых наборов данных с одинаковой смешанной статистикой (среднее значение, медиана, средний диапазон и связанные с ними дисперсии и регрессия).

Квартет Анскомба (см. « Цель визуализации высокоразмерных данных?» ) Является известным примером четырех наборов данных $x$ - $y$ с одинаковым предельным средним / стандартным отклонением (по четырем $x$ и четырем $y$ отдельно) и одинаковым линейным соответствием OLS. , регрессия и остаточная сумма квадратов и коэффициент корреляции $R^2$ . Таким образом, статистика типа $\ell_2$ (маргинальная и объединенная) одинакова, а наборы данных весьма различны.

РЕДАКТИРОВАТЬ (из комментариев OP) Оставив небольшой размер набора данных, позвольте мне предложить некоторые интерпретации. Набор 1 можно рассматривать как стандартную линейную (аффинно, чтобы быть правильной) взаимосвязь с распределенным шумом. Набор 2 показывает чистые отношения, которые могут быть высшей степенью подгонки. Набор 3 показывает четкую линейную статистическую зависимость с одним выбросом. Набор 4 более хитрый: попытка «предсказать» из кажется обреченной на неудачу. Схема может выявить явление гистерезиса с недостаточным диапазоном значений, эффект квантования ( может быть слишком сильно квантован) или пользователь переключил зависимые и независимые переменные. $y$ $x$ $x$ $x$

Так сводные характеристики скрыть различное поведение. Набор 2 может быть лучше решен с полиномиальной подгонкой. В наборе 3 используются устойчивые к выбросам методы ( и т. П.), А также в наборе 4. Можно задаться вопросом, могут ли другие функции затрат или индикаторы расхождения соответствовать или, по крайней мере, улучшить распознавание наборов данных. РЕДАКТИРОВАТЬ (из комментариев OP): сообщение в блоге Любопытные регрессии утверждают, что: $\ell_2$ $\ell_1$

Между прочим, мне сказали, что Фрэнк Анскомб никогда не раскрывал, как он пришел с этими наборами данных. Если вы считаете, что получить всю сводную статистику и результаты регрессии очень просто, попробуйте!

В наборах данных, построенных с целью, аналогичной цели квартета Анскомба, дано несколько интересных наборов данных, например, с такими же гистограммами на основе квантилей. Я не видел смеси значимых отношений и смешанной статистики.

Мой вопрос: есть там двумерный (или trivariate, чтобы сохранить визуализацию) Анскомбы подобных наборам данных таким образом, что, в дополнении к тому же типа статистики $\ell_2$ :

их графики можно интерпретировать как отношения между и , как если бы кто-то искал закон между измерениями, $x$ $y$
они обладают одинаковыми (более устойчивыми) предельными свойствами (одинаковые медиана и медиана абсолютного отклонения), $\ell_1$
они имеют одинаковые ограничивающие рамки: одинаковые min, max (и, следовательно, -типа среднего и среднего диапазона). $\ell_\infty$

Такие наборы данных будут иметь одни и те же итоговые значения графика типа « квадраты и усы» (с минимальным, максимальным, медианным, медианным абсолютным отклонением / MAD, средним и стандартным значением) для каждой переменной и все равно будут весьма различаться в интерпретации.

Было бы еще интереснее, если бы некоторые наименее абсолютные регрессии были одинаковыми для наборов данных (но, может быть, я уже слишком много спрашиваю). Они могут служить предостережением, когда речь идет об устойчивой, а не надежной регрессии, и помогают учитывать цитату Ричарда Хэмминга:

Цель вычислений - понимание, а не цифры

РЕДАКТИРОВАТЬ (из комментариев ОП) Схожие проблемы решаются при создании данных с идентичными статистическими данными, но с разнородной графикой , Sangit Chatterjee и Aykut Firata, данными American Statistician, 2007 или Cloning: создание наборов данных с точно такой же подгонкой множественной линейной регрессии, J. Aust. N.-Z. Стат. J. 2009.

В Chatterjee (2007) цель состоит в том, чтобы генерировать новые пары с одинаковыми средними значениями и стандартными отклонениями от исходного набора данных, одновременно максимизируя различные целевые функции «несоответствие / различие». Поскольку эти функции могут быть невыпуклыми или недифференцируемыми, они используют генетические алгоритмы (GA). Важные шаги состоят в орто-нормализации, которая очень согласуется с сохранением среднего значения и (единичной) дисперсии. Цифры бумаги (половина содержания бумаги) накладывают входные и выходные данные GA. Мое мнение таково, что результаты GA теряют много оригинальной интуитивной интерпретации. $(x,y)$

И технически, ни средний , ни среднего класса сохраняется, и документ не упоминает процедуры перенормировки , что бы сохранить , и статистику. $\ell_2$ $\ell_1$ $\ell_\infty$

regression descriptive-statistics curve-fitting estimators Лоран Дюваль
источник

Если вы хотите, чтобы однофакторные наборы данных были с одними и теми же коробочными диаграммами, я дал набор в ответ на вопрос некоторое время назад, основываясь на разработках в статье. Постой, я откопаю. (редактировать) ... здесь . Легко сделать больше наборов данных с теми же свойствами ... Я обращаюсь к этому в другом ответе, здесь .

Glen_b

x

$x$

y

$y$

x

$x$

y

$y$

Чаттерджи и Фират ( The American Statistician , 2007) , связанные с этим ответом на этот вопрос , предлагают довольно общий генетический алгоритм, который вы должны легко адаптировать к вашим целям.

С. Коласса - Восстановить Монику

Графики являются примерами бессмысленности моментов населения, когда моменты распределения игнорируются. Среднее значение, стандартное отклонение, асимметрия и другие моменты популяции не соответствуют ожидаемым значениям, стандартным отклонениям, асимметрии и другим моментам распределений, которые лучше всего описывают эти группы населения. Когда вышеприведенные графики рассматриваются как распределения значений x и y, все они различны и поэтому имеют разные моменты распределения. Это хуже, чем просто игнорирование остаточной структуры, которая, возможно, была главной, которую нельзя игнорировать ни безнаказанно.

Карл

Подобные Anscombe наборы данных с одним и тем же блоком и графиком усов (среднее / стандартное / медианное / MAD / мин / макс)

Ответы: