Прогнозирование данных счета со случайным лесом

12

Можно ли обучить Случайный Лес для правильного прогнозирования данных счета? Как это будет продолжаться? У меня довольно широкий диапазон значений, поэтому классификация не имеет смысла. Если бы я использовал регрессию, я бы просто усек результат? Я совершенно потерян здесь. Есть идеи?

JEquihua
источник
1
Вы не можете использовать регрессию Пуассона?
RJ-
Я хотел использовать что-то непараметрическое. На самом деле я не помню предположения о пуассоновых регрессиях, но я уверен, что одно из них состоит в том, что наблюдения независимы, и это глубоко не выполняется здесь. Может ли это сильно повлиять на меня?
JEquihua
2
Вы просто пытались сделать РЧ регрессию (возможно, также в журнале)? Это может просто работать достаточно хорошо.
1
Нет. Но это был мой первый инстинкт. Лог или квадратный корень преобразования. Но я хотел посмотреть, есть ли у кого-нибудь опыт по этому вопросу.
JEquihua
Я попытался просто сделать регрессию на ответ, журнал (ответ) и sqrt (ответ) и не получил ничего хорошего. Я думаю, проблема в том, что мои независимые переменные объясняют ответ. Ну что ж.
JEquihua

Ответы:

8

Существует пакет R, который называется mobForestреальным случайным лесом для данных подсчета. Он основан на mod()( на основе модели рекурсивного разделения) в partyпакете. Он выполняет регрессию Пуассона, если familyаргумент указан как poisson(). Пакета больше нет в репозитории CRAN, но ранее доступные версии можно получить из архива.

Если вы не ограничены случайным лесом / расфасовкой, для данных подсчета также доступна улучшающая версия. То есть gbm(обобщенные модели регрессии с усилением). Это может также соответствовать модели Пуассона.

Randel
источник
5

Я вижу несколько возможностей.

  • Вы можете поместить ответ в несколько произвольных категорий и использовать дерево классификации.
  • Если счетчик обычно очень низкий, 0, 0, 0, 1, 0, 3, 0, 2, вы можете рассматривать каждое целое число как класс и снова использовать дерево классификации (вероятно, не ваш случай). В этих случаях будет сложнее получить объясненную метрику типа с высокой дисперсией, а не непрерывную регрессию.
  • Если счетчик, как правило, не низкий, и есть много вариантов, я бы просто пошел на это с деревом регрессии. Например, использование пуассоновской регрессии по сравнению с линейной регрессией - это просто удовольствие, когда дело доходит до получения хорошего линейного предиктора. Если вы не видите хорошей прогностической силы в случайном лесу, то я сомневаюсь, что более изощренная модель, специально учитывающая данные подсчета, многое сделает для вас.
Бен Огорек
источник