Для прогностического моделирования, нужно ли нам заниматься статистическими понятиями, такими как случайные эффекты и отсутствие независимости наблюдений (повторные измерения)? Например....
У меня есть данные из 5 кампаний прямой почтовой рассылки (проводившихся в течение года) с различными атрибутами и флагом для покупки. В идеале я бы использовал все эти данные вместе, чтобы построить модель для покупки с учетом атрибутов клиента во время кампании. Причина в том, что событие покупки происходит редко, и я хотел бы использовать как можно больше информации. Существует вероятность того, что данный клиент может участвовать в любом из 1–5 кампаний, что означает отсутствие независимости между записями.
Имеет ли это значение при использовании:
1) подход машинного обучения (например, дерево, MLP, SVM)
2) Статистический подход (логистическая регрессия)?
**ADD:**
Я думаю о прогнозном моделировании, если модель работает, используйте ее. Так что я никогда не задумывался о важности предположений. Размышление о случае, который я описал выше, заставило меня задуматься.
Возьмите алгоритмы машинного обучения, такие как MLP and SVM
. Они успешно используются для моделирования двоичного события, такого как мой пример выше, но также и для данных временных рядов, которые четко коррелируют. Однако многие используют функции потерь, которые являются вероятностными и получены из предположения, что ошибки устранены. Например, деревья с градиентным усилением в R gbm
используют функции потери девиации, полученные из бинома ( стр. 10 ).
Ответы:
Мне самому это интересно , и вот мои предварительные выводы. Я был бы рад, если бы кто-нибудь мог дополнить / исправить это своими знаниями и любыми ссылками на эту тему.
Если вы хотите проверить гипотезы о коэффициентах логистической регрессии, проверив статистическую значимость, вам необходимо смоделировать корреляцию между наблюдениями (или иным образом исправить несезависимость), потому что в противном случае ваши стандартные ошибки будут слишком малы, по крайней мере, если вы рассматриваете кластерные эффекты. Но коэффициенты регрессии беспристрастны даже при коррелированных наблюдениях, поэтому следует использовать такую модель для прогнозирования.
В прогностическом моделировании вам не нужно явно учитывать корреляцию при обучении вашей модели, используете ли вы логистическую регрессию или какой-либо другой подход. Однако, если вы хотите использовать набор удержания для проверки или вычисления ошибки вне выборки, вы должны убедиться, что наблюдения для каждого отдельного человека присутствуют только в одном наборе, либо в обучении, либо в проверке, но не в обоих. В противном случае ваша модель будет предсказывать для людей, о которых она уже имеет некоторую информацию, и вы не получите истинное представление о возможности классификации вне выборки.
источник