Что такое хорошие наборы данных для иллюстрации отдельных аспектов статистического анализа?

16

Я понимаю, что это субъективно, но я подумал, что было бы неплохо поговорить о наших любимых наборах данных и о том, что, по нашему мнению, делает их интересными. Существует огромное количество данных, и что со всеми API (например, Datamob ) вместе с классическими наборами данных (например, данные R ), я думаю, что это могло бы иметь некоторые очень интересные ответы.

Например, мне всегда нравились наборы данных, такие как набор данных «Boston Housing» (несмотря на неудачные последствия) и «mtcars» за их универсальность. С педагогической точки зрения можно показать преимущества широкого спектра статистических методов, использующих их; и набор данных радужной оболочки Андерсона / Фишера всегда будет иметь место в моем сердце.

Мысли?

DA
источник
2
Тот, который используется для моей диссертации, потому что это
даст
3
Добро пожаловать в Cross Validated! Этот сайт предназначен для вопросов и ответов, а не для дискуссионного форума. Таким образом, я не верю, что этот тип вопросов мы хотим на этом сайте. Пожалуйста, смотрите FAQ .
Майкл МакГоуэн
4
Я знаю, что он задуман как вопросы и ответы, но с такими вопросами, как "Какой ваш любимый мультфильм статистики?" будучи высоко оцененным, я подумал, что это было бы ужасно неуместно. Особенно с педагогической точки зрения, если кто-то пытается узнать об анализе данных и методах исследования, было бы полезно получить некоторую обратную связь по общедоступным наборам данных, которые предлагают богатую структуру и имеют большой объем истории и исследований.
DA
4
Я склонен позволить сообществу принять решение о том, должен ли он быть закрыт (как неконструктивный) или нет, хотя я бы добавил, что подробные и аргументированные ответы вполне могут послужить поддержкой для будущих вопросов по конкретным аспектам анализа данных. Тем временем я конвертирую это в CW, потому что, очевидно, нет единственного лучшего ответа.
ЧЛ
2
Этот вопрос и его ответы очень полезны для меня. Пожалуйста, не удаляйте.
подписано

Ответы:

12

Исследование низкого веса при рождении

Это один из наборов данных в учебнике Хосмера и Лемешоу по прикладной логистической регрессии (2000, Wiley, 2nd ed.). Целью этого проспективного исследования было выявить факторы риска, связанные с рождением ребенка с низкой массой тела при рождении (весом менее 2500 грамм). Данные были собраны по 189 женщинам, 59 из которых имели детей с низким весом при рождении и 130 из которых имели детей с нормальным весом при рождении. Четырьмя переменными, которые считались важными, были возраст, вес субъекта во время последней менструации, раса и количество посещений врача в первом триместре беременности.

Это доступно в R как data(birthwt, package="MASS")или в Stata с webuse lbw. Текстовая версия появляется здесь: lowbwt.dat ( описание ). Следует отметить, что существует несколько версий этого набора данных, потому что он был расширен до исследования типа «случай-контроль» (1-1 или 1-3, сопоставимого по возрасту), как показано Хосмером и Лемешоу в главе 7 ALR.

Раньше я проводил вводные курсы на основе этого набора данных по следующим причинам:

  • Это интересно с исторической и эпидемиологической точки зрения (данные были собраны в 1986 году); Для понимания основных идей и вопросов, которые можно задать в ходе этого исследования, не требуется предварительный опыт в области медицины или статистики.
  • χ2
  • Это позволяет обсуждать различные перспективы моделирования (объяснительный или прогнозирующий подходы) и значение схемы выборки при разработке моделей (стратификация / сопоставленные случаи).

Другие моменты, на которые можно обратить внимание, в зависимости от аудитории и уровня экспертизы статистического программного обеспечения или статистики в целом.

  1. Что касается набора данных, доступного в R, категориальные предикторы оцениваются как целые числа (например, для этнической принадлежности матери мы имеем «1» = белый, «2» = черный, «3» = другой), несмотря на тот факт, что для некоторых предикторов естественное упорядочение (например, количество предыдущих преждевременных родов или количество посещений врача) или использование явных меток (всегда полезно использовать «да» / «нет» вместо 1/0 для двоичных переменных, даже если это не так » ничего не менять в матрице дизайна!) просто отсутствуют. Таким образом, легко обсудить, какие проблемы могут возникнуть, игнорируя уровни или единицы измерения в анализе данных.

  2. Переменные смешанных типов интересны, когда нужно провести некоторый предварительный анализ и обсудить, какие графические отображения подходят для суммирования одномерных, двумерных или тривариатных отношений. Аналогичным образом, создание хороших сводных таблиц и более общий отчет - еще один интересный аспект этого набора данных (но Hmisc::summary.formulaкоманда упрощает его в R).

  3. Хосмер и Лемешоу сообщили, что фактические данные были изменены для защиты конфиденциальности субъекта (стр. 25). Может быть интересно обсудить вопросы конфиденциальности данных, как это было сделано в одном из наших предыдущих журналов Journal Club , но посмотрите его стенограмму . (Должен признать, я никогда не буду вдаваться в подробности.)

  4. Легко ввести некоторые пропущенные значения или ошибочные значения (которые являются общими проблемами в реальной жизни статистика), которые приводят к обсуждению (а) их обнаружения с помощью кодовой книги ( Hmisc::describeили статистики Stata codebook) или исследовательской графики (всегда сначала наносите данные на график!) и (b) возможное исправление (вменение данных, удаление по списку или попарная мера ассоциации и т. д.).

Чл
источник
+1 Спасибо за предоставленный примерный ответ, который показывает, что эта ветка может быть полезна, и предоставляет стандарт изложения, к которому могут (и должны) стремиться другие ответы.
whuber
Это фантастика и именно то, что я искал, задавая вопрос. Я благодарю вас за понимание.
DA
5

Конечно, наборы данных Anscombe 4 очень хороши для обучения - они выглядят очень по-разному, но имеют одинаковые простые статистические свойства.

Я также предлагаю наборы данных KDD Cup http://www.kdd.org/kddcup/, потому что они были хорошо изучены и есть много решений, поэтому студенты могут сравнивать свои результаты и видеть, как они ранжируются.

В моем курсе интеллектуального анализа данных я организовал конкурс наборов данных Microarray, который может быть использован профессорами http://www.kdnuggets.com/data_mining_course/

Григорий Пятецкий
источник
Другие наборы данных, которые были разработаны для педагогических целей аналогично квартету Анскомба, см. В этом вопросе .
Серебряная рыба
3

Многие из моих курсов статистического анализа в Cal Poly использовали набор данных "Iris", который уже есть в R. Он имеет категориальные переменные и сильно коррелированные переменные.

Куртис Ворис
источник
Не могли бы вы расширить свои последние пункты: как этот набор данных помогает в обучении статистике? (AFAICT, набор данных радужной оболочки имеет только одну категориальную переменную, а именно класс радужной оболочки.)
chl
Вот нить, полностью посвященная использованию набора данных Iris в обучении .
Серебряная рыба
3

Набор данных Титаник, используемый Харреллом в «Стратегиях регрессионного моделирования». Я использую упрощенную версию его анализа при объяснении логистической регрессии, объясняя выживание, используя пол, класс и возраст.

В наборе данных Loyn, рассмотренном Джерри Куинном и Миком Кеоу в «Экспериментальном дизайне и анализе данных для биологов», содержатся замечательные проблемы, требующие преобразования для множественной линейной регрессии.

Луис Апиолаза
источник