У меня есть набор данных с около 5000 часто коррелированных признаков / ковариат и двоичным ответом. Данные были переданы мне, я не собирал их. Я использую Лассо и повышение градиента для построения моделей. Я использую повторную вложенную перекрестную проверку. Я сообщаю о самых больших (абсолютных) 40 коэффициентах Лассо и 40 самых важных особенностях в деревьях с градиентным повышением (в 40 не было ничего особенного; это просто казалось разумным количеством информации). Я также сообщаю о дисперсии этих величин по сгибам и итерациям CV.
Я как бы размышляю над «важными» особенностями, не делая никаких заявлений о p-значениях, причинности или чем-то еще, но вместо этого рассматриваю этот процесс как своего рода - хотя и несовершенный и случайный - понимание какого-то явления.
Предполагая, что я все это сделал правильно (например, правильно выполнил перекрестную проверку, масштабирован для лассо), является ли этот подход разумным? Существуют ли проблемы, например, с проверкой нескольких гипотез, последующим анализом, ложным обнаружением? Или другие проблемы?
Задача
Предсказать вероятность неблагоприятного события
- Прежде всего, точно оценить вероятность
- Более незначительный - как проверка работоспособности, но также, возможно, чтобы выявить некоторые новые предикторы, которые можно было бы изучить далее, проверить коэффициенты и значения, как упомянуто выше.
потребитель
- Исследователи, заинтересованные в прогнозировании этого события, и люди, которым в конечном итоге придется зафиксировать событие, если оно произойдет
Что я хочу, чтобы они из этого вышли
Дайте им возможность прогнозировать событие, если они захотят повторить процесс моделирования, как описано, со своими собственными данными.
Пролить немного света на неожиданных предсказателей. Например, может оказаться, что что-то совершенно неожиданное является лучшим предсказателем. Поэтому разработчики в других местах могут уделять более серьезное внимание упомянутому предиктору.
Ответы:
Нет проблем с точностью прогнозов. Неопределенность в ваших прогнозах оценивается путем перекрестной проверки. Возможно, одно предостережение заключается в том, что если вы тестируете множество настроек параметров, то вы переоцениваете точность, поэтому вам следует использовать проверочный набор для оценки точности вашей окончательной модели. Кроме того, ваши данные должны быть репрезентативными для данных, для которых вы собираетесь делать прогнозы.
Для вас ясно, и для читателя должно быть ясно, что ваши предикторы не являются причинами эффекта, они просто предикторы, которые делают хороший прогноз и хорошо работают эмпирически. Хотя я полностью согласен с вашей осторожностью, в любом случае вывести любую причину из данных наблюдений проблематично. Такие вещи, как значимость и тому подобное, являются «действительными» концепциями в хорошо спланированных, контролируемых исследованиях, и, кроме того, они являются лишь инструментами, которые вы и другие должны интерпретировать с умом и осторожностью. Могут быть общие причины, побочные эффекты, маскирование и другие вещи, происходящие в нормальной линейной регрессии с сообщенными доверительными интервалами, а также в модели лассо, а также в модели дерева с градиентным усилением.
источник