У меня есть набор данных, состоящий из 24 строк ежемесячных данных. Особенности ВВП, прибытие в аэропорт, месяц и некоторые другие. Зависимой переменной является количество посетителей популярного туристического направления. Подойдет ли Random Forest для такой проблемы?
Данные не являются общедоступными, поэтому я не могу опубликовать образец.
random-forest
small-sample
hughesdan
источник
источник
Ответы:
Случайный лес - это, в основном, стартовая выборка и деревья принятия решений по выборкам, поэтому в ответе на ваш вопрос необходимо ответить на эти два вопроса.
Bootstrap передискретизации это не лекарство для маленьких образцов . Если в вашем наборе данных всего двадцать четыре наблюдения, то каждая из выборок, взятых с заменой из этих данных, будет состоять не более чем из двадцати четырех различных значений. Перестановка дел и отсутствие некоторых из них не сильно изменили бы вашу способность узнавать что-то новое о базовом дистрибутиве. Таким образом, небольшая выборка является проблемой для начальной загрузки.
Деревья решений обучаются путем условного разделения данных на переменные предиктора, по одной переменной за раз, чтобы найти такие подвыборки, которые имеют наибольшую дискриминационную силу. Если у вас есть только двадцать четыре случая, то скажите, что если вам повезло, и все расщепления были даже по размеру, то с двумя расщеплениями у вас получилось бы четыре группы по шесть дел, с расщеплением деревьев, с восемью группами по три. Если вы вычислили условные средние по выборкам (для прогнозирования непрерывных значений в деревьях регрессии или условных вероятностей в деревьях решений), вы бы основали свое заключение только на этих нескольких случаях! Таким образом, подвыборки, которые вы будете использовать для принятия решений, будут даже меньше, чем ваши исходные данные.
Для небольших образцов обычно целесообразно использовать простые методы . Более того, вы можете отобрать небольшую выборку, используя информативные априорные значения в байесовской среде (если у вас есть разумные знания о проблеме, основанные на нехватке данных), поэтому вы можете рассмотреть возможность использования специальной байесовской модели.
источник
С одной стороны, это небольшой набор данных, и случайный лес требует много данных.
С другой стороны, может быть, что-то лучше, чем ничего. Нет ничего более, чем сказать «попробуй и посмотри». Вы решаете, является ли какая-то конкретная модель "хорошей"; Более того, мы не можем сказать вам, подходит ли какая-либо модель для определенной цели (и вы не хотели бы, чтобы мы это делали - для нас это бесплатно, если мы ошибаемся!).
источник