В качестве специфической задачи, с которой я работаю (соревнование), у меня есть следующие настройки: 21 функция (числовое на [0,1]) и двоичный выход. У меня около 100 К рядов. Настройка кажется очень шумной.
Я и другие участники на какое-то время применяем генерацию признаков, и встраивание стохастических соседей с t-распределением оказалось довольно мощным в этой ситуации.
Я наткнулся на этот пост «Как эффективно использовать t-SNE», но все же я не могу сделать вывод о том, как выбрать гиперпараметры лучше всего в моей настройке классификации.
Существуют ли какие-либо практические правила (количество функций, размерность вложения -> выбор недоумения)?
Я просто применяю специальные настройки в данный момент, так как для итерации различных настроек требуется слишком много времени. Спасибо за любые комментарии.
Ответы:
Позвольте мне указать, что я описываю эвристику . Как упоминалось в начале моего поста, ручная проверка результатов является незаменимым способом оценки качества результирующего сокращения / кластеризации размерности.
источник
Мы обычно устанавливаем недоумение в 5% от размера набора данных. Поэтому для набора данных со 100К строк я бы начал с недоумения в 5000 или, по крайней мере, 1000, если у вас нет высокопроизводительного компьютера. Наши наборы данных взяты из анализа проточной цитометрией, они обычно имеют от 50 до 500 тыс. Точек данных, каждая из которых имеет от 10 до 20 числовых значений.
источник
Для вас может быть интересно взглянуть на «Автоматический выбор недоумения t-SNE» Цао и Вана :
источник