Мне интересно, есть ли какие-либо эвристики по количеству признаков и количеству наблюдений. Очевидно, что если число признаков равно количеству наблюдений, модель будет соответствовать. Используя разреженные методы (LASSO, эластичная сетка), мы можем удалить несколько функций, чтобы уменьшить модель.
Мой вопрос (теоретически): прежде чем использовать метрики для оценки выбора модели, существуют ли какие-либо эмпирические наблюдения, которые связывают оптимальное количество признаков с количеством наблюдений?
Например: для проблемы бинарной классификации с 20 экземплярами в каждом классе, есть ли верхний предел количества используемых функций?
источник
из моего собственного опыта: в одном случае я работал с реальной базой данных, которая очень мала (300 изображений) со многими классами, серьезной проблемой дисбаланса данных, и в итоге я использовал 9 функций: SIFT, HOG, Shape context, SSIM, GM и 4 функции на основе DNN. В другом случае я работал с очень большой базой данных (> 1 млн изображений) и в итоге использовал только функцию HOG. Я думаю, что нет прямой связи между количеством экземпляров и количеством функций, необходимых для достижения высокой точности. НО: количество классов, сходство между классами и вариациями внутри одного класса (эти три параметра) могут влиять на количество признаков. если у вас большая база данных с большим количеством классов и большим сходством между классами и большими вариациями в одном классе, вам нужно больше возможностей для достижения высокой точности. ПОМНИТЬ:
источник
Это зависит ... но, конечно, этот ответ никуда тебя не приведет.
Он является эмпирическим правилом для сложности модели: обучение на основе данных - измерение VC
«Очень грубо» вам нужно 10 точек данных для каждого параметра модели. А количество параметров модели может совпадать с количеством функций.
источник
Немного опоздал на вечеринку, но вот некоторые эвристики.
Для обучения линейных классификаторов рекомендуется 3 - 5 независимых случаев на класс и особенность. Этот предел дает вам надежно стабильные модели, он не гарантирует хорошую модель (это невозможно: у вас могут быть неинформативные данные, в которых ни одна модель не может обеспечить хорошую производительность обобщений)
Однако для размеров выборки, таких как ваш сценарий, узким местом является проверка (валидация), а не обучение, а верификация зависит от абсолютного числа тестовых случаев, а не от случаев, связанных со сложностью модели: как правило, вам нужно ≈ 100 тестов. случаи в знаменателе для оценки пропорции с доверительным интервалом, ширина которого не превышает 10%.
К сожалению, это также означает, что вы в принципе не можете получить эмпирическую кривую обучения для своего приложения: вы не можете измерить ее достаточно точно, и на практике у вас все равно возникнут огромные трудности с экстраполяцией, потому что для обучения вы реагируете на небольшой размер выборки, ограничивая вашу модель. сложность - и вы бы расслабились с увеличением размера выборки.
Подробности смотрите в нашей статье: Beleites, C. and Neugebauer, U. и Bocklitz, T. и Krafft, C. и Popp, J .: Планирование размера выборки для классификационных моделей. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
принята рукопись на arXiv: 1211.1323
У меня никогда не было ничего похожего на эти рекомендации (данные спектроскопии, в том числе для медицинских применений). Что я делаю тогда: я очень тщательно измеряю стабильность модели как часть процесса моделирования и проверки.
источник