Что такое свободно доступный набор данных для классификации с более чем 1000 объектов (или точек выборки, если он содержит кривые)?
Уже есть вики сообщества о бесплатных наборах данных: поиск свободно доступных образцов данных
Но здесь было бы неплохо иметь более сфокусированный список, который можно использовать более удобно , также я предлагаю следующие правила:
- Один пост на набор данных
- нет ссылки на набор данных
каждый набор данных должен быть связан с
имя (чтобы понять, что речь идет о) и ссылку на набор данных (R наборы данных могут быть названы с именем пакета)
количество объектов (допустим, что это p ), размер набора данных (допустим, это n ) и количество меток / класса (пусть это k )
типичный уровень ошибок из вашего опыта (укажите используемый алгоритм в словах) или из литературы (в последнем случае ссылка на статью)
источник
Ответы:
Доротея
n = 1950
p = 100000 (0,1M, половина - это искусственно добавленный шум)
k = 2 (~ 10x несбалансировано)
Из NIPS2003 .
источник
Жизет
n = 13500
p = 5000 (половина - это искусственно добавленный шум)
k = 2 (сбалансировано).
Из NIPS2003 .
источник
Декстер
n = 2600
p = 20000 (10k + 53 - искусственный шум)
k = 2 (сбалансированный)
Из NIPS2003 .
источник
Arcene
n = 900
p = 10000 (3k - это искусственно добавленный шум)
k = 2 (~ сбалансировано)
Из NIPS2003 .
источник
Простата (матрица генной экспрессии)
Доступно через (среди прочего) R пакет SPLS имя набора данных: простата
коэффициент ошибок = 3/102 (см. здесь ) также я думаю, что есть бумага, которая показывает 1/102 ошибок. Я бы сказал, что это простой тестовый пример.
источник