Я понимаю, что это субъективно, но я подумал, что было бы неплохо поговорить о наших любимых наборах данных и о том, что, по нашему мнению, делает их интересными. Существует огромное количество данных, и что со всеми API (например, Datamob ) вместе с классическими наборами данных (например, данные R ), я думаю, что это могло бы иметь некоторые очень интересные ответы.
Например, мне всегда нравились наборы данных, такие как набор данных «Boston Housing» (несмотря на неудачные последствия) и «mtcars» за их универсальность. С педагогической точки зрения можно показать преимущества широкого спектра статистических методов, использующих их; и набор данных радужной оболочки Андерсона / Фишера всегда будет иметь место в моем сердце.
Мысли?
Ответы:
Исследование низкого веса при рождении
Это один из наборов данных в учебнике Хосмера и Лемешоу по прикладной логистической регрессии (2000, Wiley, 2nd ed.). Целью этого проспективного исследования было выявить факторы риска, связанные с рождением ребенка с низкой массой тела при рождении (весом менее 2500 грамм). Данные были собраны по 189 женщинам, 59 из которых имели детей с низким весом при рождении и 130 из которых имели детей с нормальным весом при рождении. Четырьмя переменными, которые считались важными, были возраст, вес субъекта во время последней менструации, раса и количество посещений врача в первом триместре беременности.
Это доступно в R как
data(birthwt, package="MASS")
или в Stata сwebuse lbw
. Текстовая версия появляется здесь: lowbwt.dat ( описание ). Следует отметить, что существует несколько версий этого набора данных, потому что он был расширен до исследования типа «случай-контроль» (1-1 или 1-3, сопоставимого по возрасту), как показано Хосмером и Лемешоу в главе 7 ALR.Раньше я проводил вводные курсы на основе этого набора данных по следующим причинам:
Другие моменты, на которые можно обратить внимание, в зависимости от аудитории и уровня экспертизы статистического программного обеспечения или статистики в целом.
Что касается набора данных, доступного в R, категориальные предикторы оцениваются как целые числа (например, для этнической принадлежности матери мы имеем «1» = белый, «2» = черный, «3» = другой), несмотря на тот факт, что для некоторых предикторов естественное упорядочение (например, количество предыдущих преждевременных родов или количество посещений врача) или использование явных меток (всегда полезно использовать «да» / «нет» вместо 1/0 для двоичных переменных, даже если это не так » ничего не менять в матрице дизайна!) просто отсутствуют. Таким образом, легко обсудить, какие проблемы могут возникнуть, игнорируя уровни или единицы измерения в анализе данных.
Переменные смешанных типов интересны, когда нужно провести некоторый предварительный анализ и обсудить, какие графические отображения подходят для суммирования одномерных, двумерных или тривариатных отношений. Аналогичным образом, создание хороших сводных таблиц и более общий отчет - еще один интересный аспект этого набора данных (но
Hmisc::summary.formula
команда упрощает его в R).Хосмер и Лемешоу сообщили, что фактические данные были изменены для защиты конфиденциальности субъекта (стр. 25). Может быть интересно обсудить вопросы конфиденциальности данных, как это было сделано в одном из наших предыдущих журналов Journal Club , но посмотрите его стенограмму . (Должен признать, я никогда не буду вдаваться в подробности.)
Легко ввести некоторые пропущенные значения или ошибочные значения (которые являются общими проблемами в реальной жизни статистика), которые приводят к обсуждению (а) их обнаружения с помощью кодовой книги (
Hmisc::describe
или статистики Statacodebook
) или исследовательской графики (всегда сначала наносите данные на график!) и (b) возможное исправление (вменение данных, удаление по списку или попарная мера ассоциации и т. д.).источник
Конечно, наборы данных Anscombe 4 очень хороши для обучения - они выглядят очень по-разному, но имеют одинаковые простые статистические свойства.
Я также предлагаю наборы данных KDD Cup http://www.kdd.org/kddcup/, потому что они были хорошо изучены и есть много решений, поэтому студенты могут сравнивать свои результаты и видеть, как они ранжируются.
В моем курсе интеллектуального анализа данных я организовал конкурс наборов данных Microarray, который может быть использован профессорами http://www.kdnuggets.com/data_mining_course/
источник
Многие из моих курсов статистического анализа в Cal Poly использовали набор данных "Iris", который уже есть в R. Он имеет категориальные переменные и сильно коррелированные переменные.
источник
Набор данных Титаник, используемый Харреллом в «Стратегиях регрессионного моделирования». Я использую упрощенную версию его анализа при объяснении логистической регрессии, объясняя выживание, используя пол, класс и возраст.
В наборе данных Loyn, рассмотренном Джерри Куинном и Миком Кеоу в «Экспериментальном дизайне и анализе данных для биологов», содержатся замечательные проблемы, требующие преобразования для множественной линейной регрессии.
источник