Набор данных "Iris", вероятно, знаком большинству людей здесь - это один из канонических тестовых наборов данных и примерный набор данных для всего - от визуализации данных до машинного обучения. Например, все в этом вопросе в конечном итоге использовали его для обсуждения диаграмм рассеяния, разделенных обработкой.
Что делает набор данных Iris таким полезным? Просто что там было первым? Если кто-то пытается создать полезный пример / набор данных для тестирования, какие уроки он может извлечь из него?
Ответы:
Набор данных Iris заслуженно широко используется в статистической науке, особенно для иллюстрации различных проблем статистической графики, многомерной статистики и машинного обучения.
Содержащий 150 наблюдений, он небольшой, но не тривиальный.
Задача различения трех видов радужной оболочки на основании измерений их лепестков и чашелистиков проста, но сложна.
Данные являются реальными данными, но, видимо, хорошего качества. В принципе и на практике тестовые наборы данных могут быть синтетическими, и это может быть необходимо или полезно для подведения итогов. Тем не менее, мало кто возражает против реальных данных.
Эти данные были использованы знаменитым британским статистиком Рональдом Фишером в 1936 году. (Позже он был посвящен в рыцари и стал сэром Рональдом.) По крайней мере, некоторым учителям нравится идея набора данных со ссылкой на кого-то, столь известного в этой области. Данные были первоначально опубликованы статистически мыслящим ботаником Эдгаром С. Андерсоном, но это более раннее происхождение не уменьшает ассоциацию.
Использование нескольких известных наборов данных - это одна из традиций, которую мы передаем, например, рассказываем каждому новому поколению, что Студент работал на Гиннесса или что многие известные статистики поссорились друг с другом. Это может звучать как инерция, но при сравнении старых и новых методов и при оценке любого метода часто считается полезным опробовать их на известных наборах данных, тем самым поддерживая некоторую преемственность в том, как мы оцениваем методы.
И наконец, что не менее важно, набор данных Iris может быть приятно связан с изображениями соответствующих цветов, например, из полезной записи Википедии в наборе данных .
Заметка. Внесите свой вклад в биологическую правильность, тщательно цитируя соответствующие растения. Iris setosa , Iris versicolor и Iris virginica - три вида (не разновидности, как в некоторых статистических отчетах); их биноминалы должны быть представлены курсивом, как здесь; и Iris как название рода, а другие названия, обозначающие конкретные виды, должны начинаться с прописных и строчных букв соответственно.
источник
Набор данных достаточно большой и интересный, чтобы быть нетривиальным, но достаточно маленьким, чтобы «поместиться в вашем кармане» и не замедлять эксперименты с ним.
Я думаю, что ключевым аспектом является то, что он также учит о переоснащении. Колонок недостаточно, чтобы дать идеальный результат: мы видим это сразу, когда смотрим на диаграммы рассеяния, и они перекрываются и сталкиваются друг с другом. Таким образом, любой подход к машинному обучению, который получает отличную оценку, может рассматриваться как подозрительный.
источник