Под методами регуляризации я имею в виду лассо, ребристую регрессию, эластичную сеть и тому подобное.
Рассмотрим прогностическую модель данных здравоохранения, содержащую демографические и диагностические данные, где прогнозируется продолжительность пребывания в стационаре. Для некоторых людей есть несколько наблюдений LOS (то есть, более одного эпизода IP) в течение базового периода времени, которые коррелированы.
Имеет ли смысл, например, строить упругую чистую прогностическую модель, которая содержит термин перехват случайного эффекта для каждого человека?
Ответы:
Есть несколько работ, посвященных этому вопросу. Я бы посмотрел в произвольном порядке:
Pen.LME: Говард Д. Бонделл, Арун Кришна и Суджит К. Гхош. Совместный выбор переменных для фиксированных и случайных эффектов в линейных моделях смешанных действий. Biometrics, 66 (4): 1069-1077, 2010.
GLMMLASSO: Юрг Шеллдорфер, Питер Бульманн, Сара ван де Гир. Оценка для многомерных линейных смешанных моделей с использованием L1-штрафования. Скандинавский журнал статистики, 38 (2): 197-214, 2011.
который можно найти в Интернете.
Я заканчиваю работу по применению эластичного чистого штрафа к смешанной модели (LMMEN) сейчас и планирую отправить его для обзора журнала в следующем месяце.
В общем, если вы моделируете данные, которые либо являются ненормальными, либо не имеют идентификационной ссылки, я бы пошел с GLMMLASSO, (но учтите, что он не может обрабатывать много RE). В противном случае Pen.LME хорош, учитывая, что у вас нет сильно коррелированных данных, будь то фиксированные или случайные эффекты. В последнем случае вы можете написать мне, и я был бы рад выслать вам код / бумагу (я поставлю его на кран в ближайшем будущем).
Я загрузил в CRAN сегодня - lmmen . Он решает задачу линейной смешанной модели с штрафом типа упругой сети на фиксированные и случайные эффекты одновременно.
В нем также есть функции cv для пакетов lmmlasso и glmmLasso .
источник
Я всегда рассматривал регрессию гребня как просто эмпирические модели случайных эффектов, не ограниченные одной категориальной переменной (и не представляющие собой причудливые матрицы корреляции). Почти всегда можно получить одни и те же прогнозы из перекрестной проверки штрафа за гребень и подбора / оценки простого случайного эффекта. В вашем примере вы могли бы получить фантазию и получить отдельную оценку штрафа за функции демо / диагонали и еще одну за индикаторы пациента (используя что-то, выравнивающее коэффициент масштабирования штрафа в
glmnet
). В качестве альтернативы, вы можете добавить необычный случайный эффект, который влияет на человека по времени. Ни одна из этих возможностей не является правильной или неправильной, они просто полезны.источник
Я сейчас думаю о подобном вопросе. Я думаю, что в приложении вы можете сделать это, если оно работает, и вы считаете, что это разумно. Если это обычная настройка для случайных эффектов (это означает, что вы провели повторные измерения для каждой группы), то речь идет о технике оценки, которая менее спорна. Если у вас фактически нет многократных повторных измерений для большинства групп, то это может лежать на границе обычной модели случайных эффектов, и вы можете тщательно обосновать ее обоснованность (с точки зрения методологии), если хотите предложить ее в качестве общего метод.
источник