Я понимаю, что это может быть потенциально широкий вопрос, но мне было интересно, существуют ли обобщенные предположения, которые указывают на использование GAM (Обобщенная аддитивная модель) над GLM (Обобщенная линейная модель)?
Кто-то недавно сказал мне, что GAM следует использовать только тогда, когда я предполагаю, что структура данных является «аддитивной», то есть я ожидаю, что добавления x предсказывают y. Другой человек указал, что GAM выполняет регрессионный анализ другого типа, чем GLM, и что GLM предпочтительнее, когда можно предположить линейность.
В прошлом я использовал GAM для экологических данных, например:
- непрерывная серия
- когда данные не имели линейной формы
- У меня было многократное x, чтобы предсказать, что у меня было некоторое нелинейное взаимодействие, которое я мог визуализировать, используя «графики поверхности» вместе со статистическим тестом.
Я, очевидно, не очень хорошо понимаю, что GAM делает иначе, чем GLM. Я считаю, что это действительный статистический тест (и я вижу увеличение использования GAM, по крайней мере, в экологических журналах), но мне нужно лучше знать, когда его использование указано в других регрессионных анализах.
Ответы:
Основное отличие imho заключается в том, что хотя «классические» формы линейных или обобщенно-линейных моделей принимают фиксированную линейную или некоторую другую параметрическую форму отношения между зависимой переменной и ковариатами, GAM априори не принимает какой-либо конкретной формы этого отношения, и могут быть использованы для выявления и оценки нелинейных эффектов ковариаты на зависимую переменную. Более подробно, в то время как в (обобщенных) линейных моделей линейный предсказатель является взвешенной суммойN ковариатами, ΣNя = 1βяИкся , в Gams этот термин заменяется на сумму гладкой функции, например , ΣNя = 1ΣQJ = 1βяsJ( хя) , гдеs1( ⋅ ) , … , сQ( ⋅ ) - гладкие базисные функции (например, кубические сплайны) иQ является базовым измерением. Комбинируя базовые функции, GAM могут представлять большое количество функциональных отношений (для этого они полагаются на предположение, что истинные отношения, скорее всего, будут гладкими, а не волнистыми). По сути, они являются продолжением GLM, однако они разработаны таким образом, чтобы сделать их особенно полезными для выявления нелинейных эффектов числовых ковариат, а также для «автоматического» подхода (из оригинальной статьи Хасти и Тибширани они имеют « преимущество того, чтобы быть полностью автоматическим, то есть никакой «детективной» работы не требуется со стороны статистики » ).
источник
mgcv
делает много вещей, с которыми вы не можете ничего сделатьglm
, но могли бы быть выполнены и в этих рамках ...mgcv
)?Я бы подчеркнул, что GAM гораздо более гибкие, чем GLM, и, следовательно, нуждаются в большей осторожности при их использовании. С большей силой приходит большая ответственность.
Вы упомянули об их использовании в экологии, что я тоже заметил. Я был в Коста-Рике и увидел какое-то исследование в тропическом лесу, где некоторые аспиранты бросили некоторые данные в GAM и приняли его сумасшедшие сложные сглаживатели, потому что программное обеспечение сообщило об этом. Это было довольно удручающе, за исключением юмористического / замечательного факта, что они строго включили сноску, которая документировала тот факт, что они использовали GAM и сглаживатели высшего порядка, которые в результате.
Вам не нужно точно понимать, как работают GAM, чтобы их использовать, но вам действительно нужно подумать о ваших данных, о проблеме, о которой вы говорите, об автоматизированном выборе вашей программой параметров, таких как более плавные заказы, ваш выбор (что вы сглаживаете, взаимодействия, если сглаживание оправдано и т. д.), и правдоподобие ваших результатов.
Делайте много графиков и смотрите на свои кривые сглаживания. Они сходят с ума в областях с небольшим количеством данных? Что происходит, когда вы указываете сглаживание низкого порядка или полностью удаляете сглаживание? Является ли степень 7 более гладкой для этой переменной, является ли она переобучающей, несмотря на заверения в том, что она перекрестно проверяет свой выбор? Достаточно ли у вас данных? Это качественно или шумно?
Мне нравится GAMS, и я думаю, что их недооценивают для исследования данных. Они просто супер-гибки, и если вы позволите себе заниматься наукой без строгости, они уведут вас дальше в статистическую пустыню, чем более простые модели, такие как GLM.
источник
mgcv
обрабатывают мои данные. Я пытаюсь быть экономным с моими параметрами, и я проверяю, насколько хорошо предсказанные значения соответствуют моим данным. Ваши комментарии являются хорошим напоминанием о том, чтобы быть немного более строгим - и, возможно, наконец, получить книгу Саймон Вудс!У меня нет репутации, чтобы просто добавить комментарий. Я полностью согласен с комментарием Уэйна: с большей властью приходит большая ответственность . GAM могут быть очень гибкими, и часто мы получаем / видим сумасшедшие сложные сглаживатели . Затем я настоятельно рекомендую исследователям ограничить степени свободы (количество узлов) гладких функций и проверить различные модельные структуры (взаимодействия / отсутствия взаимодействий и т. Д.).
GAM можно рассматривать между подходами, основанными на моделях (хотя граница нечеткая, я бы включил GLM в этой группе), и подходами, основанными на данных (например, искусственные нейронные сети или случайные леса, которые предполагают полностью взаимодействующие эффекты нелинейных переменных). В соответствии с этим, я не полностью согласен с Хасти и Тибширани, потому что ГАМам по-прежнему нужна детективная работа (надеюсь, никто не убивает меня за такие слова).
С экологической точки зрения, я бы рекомендовал использовать мошенничество с пакетом R , чтобы избежать этих ненадежных переменных сумасшедших сложных сглаживателей . Он был разработан Натальей Пья и Саймоном Вудом и позволяет ограничивать гладкие кривые желаемыми формами (например, унимодальными или монотонными) даже для двусторонних взаимодействий. Я думаю, что GLM становится незначительной альтернативой после ограничения формы гладких функций, но это только мое личное мнение.
Пя Н., Вуд С.Н., 2015. Аддитивные модели с ограниченными формами. Стат. Вычи. 25 (3), 543–559. 10,1007 / s11222-013-9448-7
источник