Прогнозирующее моделирование. Должны ли мы заботиться о смешанном моделировании?

19

Для прогностического моделирования, нужно ли нам заниматься статистическими понятиями, такими как случайные эффекты и отсутствие независимости наблюдений (повторные измерения)? Например....

У меня есть данные из 5 кампаний прямой почтовой рассылки (проводившихся в течение года) с различными атрибутами и флагом для покупки. В идеале я бы использовал все эти данные вместе, чтобы построить модель для покупки с учетом атрибутов клиента во время кампании. Причина в том, что событие покупки происходит редко, и я хотел бы использовать как можно больше информации. Существует вероятность того, что данный клиент может участвовать в любом из 1–5 кампаний, что означает отсутствие независимости между записями.

Имеет ли это значение при использовании:

1) подход машинного обучения (например, дерево, MLP, SVM)

2) Статистический подход (логистическая регрессия)?

**ADD:**

Я думаю о прогнозном моделировании, если модель работает, используйте ее. Так что я никогда не задумывался о важности предположений. Размышление о случае, который я описал выше, заставило меня задуматься.

Возьмите алгоритмы машинного обучения, такие как MLP and SVM. Они успешно используются для моделирования двоичного события, такого как мой пример выше, но также и для данных временных рядов, которые четко коррелируют. Однако многие используют функции потерь, которые являются вероятностными и получены из предположения, что ошибки устранены. Например, деревья с градиентным усилением в R gbmиспользуют функции потери девиации, полученные из бинома ( стр. 10 ).

B_Miner
источник
1
Это будет иметь значение для статистических подходов, которые предполагают независимость между записями, потому что вы имеете дело с повторными измерениями.
Мишель
4
Мне кажется, одно из главных отличий между машинным обучением, ориентированным на прогнозирование, и статистикой, ориентированной на умозаключения, заключается именно в том, что вы говорите, B_Miner. Машинное обучение больше касается того, что работает, в то время как традиционная статистика уделяет особое внимание предположениям. В обоих случаях вам необходимо знать о допущениях / свойствах ваших подходов, а затем принимать обоснованное решение, независимо от того, имеют ли они значение или нет. Вы можете обманывать себя в прогностическом моделировании о том, работает ли ваша модель, если вы не понимаете предположений / свойств подхода.
Энн З.
2
@ AnneZ. Если вы следуете рекомендованному подходу к валидации для обучения, тестирования и валидации (все достаточно большие выборки) в прогностическом моделировании, и вы найдете что-то, что работает, нужно ли еще беспокоиться, если базовые предположения выполнены? Я, конечно, не рекомендую бессмысленное применение ML, мне просто интересно ...
Штеффен
2
В этом контексте может быть интересна статья «Статистическое моделирование: две культуры» , которая обсуждается в третьем кросс-валидированном журнальном клубе
steffen

Ответы:

14

Мне самому это интересно , и вот мои предварительные выводы. Я был бы рад, если бы кто-нибудь мог дополнить / исправить это своими знаниями и любыми ссылками на эту тему.

Если вы хотите проверить гипотезы о коэффициентах логистической регрессии, проверив статистическую значимость, вам необходимо смоделировать корреляцию между наблюдениями (или иным образом исправить несезависимость), потому что в противном случае ваши стандартные ошибки будут слишком малы, по крайней мере, если вы рассматриваете кластерные эффекты. Но коэффициенты регрессии беспристрастны даже при коррелированных наблюдениях, поэтому следует использовать такую ​​модель для прогнозирования.

В прогностическом моделировании вам не нужно явно учитывать корреляцию при обучении вашей модели, используете ли вы логистическую регрессию или какой-либо другой подход. Однако, если вы хотите использовать набор удержания для проверки или вычисления ошибки вне выборки, вы должны убедиться, что наблюдения для каждого отдельного человека присутствуют только в одном наборе, либо в обучении, либо в проверке, но не в обоих. В противном случае ваша модель будет предсказывать для людей, о которых она уже имеет некоторую информацию, и вы не получите истинное представление о возможности классификации вне выборки.

Энн З.
источник