Я новичок в машинном обучении и ищу некоторые наборы данных, с помощью которых я могу сравнить и сравнить различия между различными алгоритмами машинного обучения (Деревья решений, Повышение, SVM и Нейронные сети)
Где я могу найти такие наборы данных? Что я должен искать при рассмотрении набора данных?
Было бы здорово, если бы вы могли указать на некоторые хорошие наборы данных, а также сказать мне, что делает их хорошим набором данных?
machine-learning
dataset
Кролик кролик
источник
источник
Ответы:
Наборы данных на следующих сайтах доступны бесплатно. Эти наборы данных использовались для обучения студентов алгоритмам ML, потому что для большинства из них есть описания с наборами данных. Также было упомянуто, какие алгоритмы применимы.
источник
Kaggle имеет целый ряд наборов данных, с которыми вы можете практиковаться.
(Я удивлен, что это не было упомянуто до сих пор!)
У него есть две вещи (среди многих других), которые делают его чрезвычайно ценным ресурсом:
источник
Во-первых, я бы порекомендовал начать с примера данных, которые предоставляются с программным обеспечением. Большинство дистрибутивов программного обеспечения включают примеры данных, которые вы можете использовать для ознакомления с алгоритмом, не имея дело с типами данных и переводя данные в правильный формат для алгоритма. Даже если вы строите алгоритм с нуля, вы можете начать с примера из аналогичной реализации и сравнить производительность.
Во-вторых, я бы порекомендовал поэкспериментировать с синтетическими наборами данных, чтобы понять, как работает алгоритм, когда вы знаете, как были сгенерированы данные, и отношение сигнал / шум.
В R вы можете перечислить все наборы данных в установленных пакетах с помощью этой команды:
Пакет R mlbench имеет реальные наборы данных и может генерировать синтетические наборы данных, которые полезны для изучения производительности алгоритма.
Python scikit-learn имеет примеры данных и также генерирует синтетический / игрушечный набор данных.
SAS имеет доступный для загрузки набор обучающих данных, а пример данных SPSS устанавливается вместе с программным обеспечением по адресу C: \ Program Files \ IBM \ SPSS \ Statistics \ 22 \ Samples
Наконец, я бы посмотрел на данные в дикой природе. Я бы сравнил производительность различных алгоритмов и параметров настройки на реальных наборах данных. Обычно это требует гораздо больше работы, потому что вы редко найдете набор данных с типами данных и структурами, которые вы можете вставить в свои алгоритмы.
Для данных в дикой природе, я бы порекомендовал:
Архив данных Reddit
Список KDnugget
источник
Набор данных радужной оболочки руки вниз. Это также в базе R.
источник
На мой взгляд, вы должны начать с небольших наборов данных, которые не имеют слишком много функций.
Одним из примеров будет набор данных Iris (для классификации). Он имеет 3 класса, 50 образцов для каждого класса, всего 150 точек данных. Одним из отличных ресурсов, который поможет вам изучить этот набор данных, является серия видео от Data School.
Другой набор данных для извлечения - это набор данных Wine Quality из хранилища UCI -ML. Имеет 4898 точек данных с 12 атрибутами.
источник