Свободный набор данных для очень высокой размерной классификации [закрыто]

35

Что такое свободно доступный набор данных для классификации с более чем 1000 объектов (или точек выборки, если он содержит кривые)?

Уже есть вики сообщества о бесплатных наборах данных: поиск свободно доступных образцов данных

Но здесь было бы неплохо иметь более сфокусированный список, который можно использовать более удобно , также я предлагаю следующие правила:

  1. Один пост на набор данных
  2. нет ссылки на набор данных
  3. каждый набор данных должен быть связан с

    • имя (чтобы понять, что речь идет о) и ссылку на набор данных (R наборы данных могут быть названы с именем пакета)

    • количество объектов (допустим, что это p ), размер набора данных (допустим, это n ) и количество меток / класса (пусть это k )

    • типичный уровень ошибок из вашего опыта (укажите используемый алгоритм в словах) или из литературы (в последнем случае ссылка на статью)

robin girard
источник
+1, но у NIPS2003 есть только train.labels - в документе NIPS2003 четко сказано, что «метки валидации и тестовых наборов не разглашаются».
Денис
Спасибо. Комментарий о NIPS для ответа от @mbq.
Робин Джирард
У кого-нибудь здесь есть высокомерный набор данных с более чем двумя метками классов?
hlin117

Ответы:

3

Доротея
n = 1950
p = 100000 (0,1M, половина - это искусственно добавленный шум)
k = 2 (~ 10x несбалансировано)
Из NIPS2003 .

оборота user88
источник
Можете ли вы объяснить, как это 100000 функций? Я смотрю на данные обучения, и в каждой строке может быть 2500 целых чисел в строке.
JeremyKun
Это разреженный массив, целое число N означает, что значение атрибута N равно 1.
3

Жизет
n = 13500
p = 5000 (половина - это искусственно добавленный шум)
k = 2 (сбалансировано).
Из NIPS2003 .

user88
источник
3

Декстер
n = 2600
p = 20000 (10k + 53 - искусственный шум)
k = 2 (сбалансированный)
Из NIPS2003 .

оборота user88
источник
Я не понимаю ... один набор на человека?
@robin & @mbq Я бы посоветовал хранить один набор данных на пост. Это так, чтобы люди могли указать голосами, кто из предложенных там также предлагает / поддерживает
Питер Смит
@ Питер, хорошо, я следую твоей идее, я соответственно изменил вопрос.
Робин Жирар
3

Arcene
n = 900
p = 10000 (3k - это искусственно добавленный шум)
k = 2 (~ сбалансировано)
Из NIPS2003 .

user88
источник
2

Простата (матрица генной экспрессии)

  • к = 2
  • п = 48 + 52
  • р = 6033

Доступно через (среди прочего) R пакет SPLS имя набора данных: простата

коэффициент ошибок = 3/102 (см. здесь ) также я думаю, что есть бумага, которая показывает 1/102 ошибок. Я бы сказал, что это простой тестовый пример.

оборота Робин Жирар
источник