Какие аспекты набора данных «Iris» делают его таким успешным, как набор данных для примера / обучения / тестирования

28

Набор данных "Iris", вероятно, знаком большинству людей здесь - это один из канонических тестовых наборов данных и примерный набор данных для всего - от визуализации данных до машинного обучения. Например, все в этом вопросе в конечном итоге использовали его для обсуждения диаграмм рассеяния, разделенных обработкой.

Что делает набор данных Iris таким полезным? Просто что там было первым? Если кто-то пытается создать полезный пример / набор данных для тестирования, какие уроки он может извлечь из него?

фомиты
источник
13
Маленький, но не тривиальный. Просто, но сложно. Реальные данные. Репутация Фишера, хотя это не его данные. Традиция. Инерция. Непрерывность. Вы можете найти цветочные картины, чтобы разобрать это.
Ник Кокс
И теперь он работает как по маслу.
Майкл М
Я бы сказал, что @NickCox на высоте.
Марк Клазен
@NickCox Хотите немного рассказать об этом в качестве ответа?
Fomite
6
Набор данных 'iris' может использоваться для дискриминантного анализа, а также для неконтролируемой классификации (кластеризация на основе модели или без модели) для иллюстративных целей. Этот вопрос заслуживает перекрестной ссылки на Что такое хорошие наборы данных, чтобы проиллюстрировать конкретные аспекты статистического анализа?
chl

Ответы:

40

Набор данных Iris заслуженно широко используется в статистической науке, особенно для иллюстрации различных проблем статистической графики, многомерной статистики и машинного обучения.

  • Содержащий 150 наблюдений, он небольшой, но не тривиальный.

  • Задача различения трех видов радужной оболочки на основании измерений их лепестков и чашелистиков проста, но сложна.

  • Данные являются реальными данными, но, видимо, хорошего качества. В принципе и на практике тестовые наборы данных могут быть синтетическими, и это может быть необходимо или полезно для подведения итогов. Тем не менее, мало кто возражает против реальных данных.

  • Эти данные были использованы знаменитым британским статистиком Рональдом Фишером в 1936 году. (Позже он был посвящен в рыцари и стал сэром Рональдом.) По крайней мере, некоторым учителям нравится идея набора данных со ссылкой на кого-то, столь известного в этой области. Данные были первоначально опубликованы статистически мыслящим ботаником Эдгаром С. Андерсоном, но это более раннее происхождение не уменьшает ассоциацию.

  • Использование нескольких известных наборов данных - это одна из традиций, которую мы передаем, например, рассказываем каждому новому поколению, что Студент работал на Гиннесса или что многие известные статистики поссорились друг с другом. Это может звучать как инерция, но при сравнении старых и новых методов и при оценке любого метода часто считается полезным опробовать их на известных наборах данных, тем самым поддерживая некоторую преемственность в том, как мы оцениваем методы.

  • И наконец, что не менее важно, набор данных Iris может быть приятно связан с изображениями соответствующих цветов, например, из полезной записи Википедии в наборе данных .

Заметка. Внесите свой вклад в биологическую правильность, тщательно цитируя соответствующие растения. Iris setosa , Iris versicolor и Iris virginica - три вида (не разновидности, как в некоторых статистических отчетах); их биноминалы должны быть представлены курсивом, как здесь; и Iris как название рода, а другие названия, обозначающие конкретные виды, должны начинаться с прописных и строчных букв соответственно.

Ник Кокс
источник
3
(+1) Спасибо, что приятно расширили свой комментарий в ответ.
кардинал
5
Я дал бы дополнительный +1, если бы мог за принципиальную позицию за биологическую правильность.
Fomite
6

Набор данных достаточно большой и интересный, чтобы быть нетривиальным, но достаточно маленьким, чтобы «поместиться в вашем кармане» и не замедлять эксперименты с ним.

Я думаю, что ключевым аспектом является то, что он также учит о переоснащении. Колонок недостаточно, чтобы дать идеальный результат: мы видим это сразу, когда смотрим на диаграммы рассеяния, и они перекрываются и сталкиваются друг с другом. Таким образом, любой подход к машинному обучению, который получает отличную оценку, может рассматриваться как подозрительный.

Даррен Кук
источник