Как может быть полезна модель регрессии, если вы не знаете функцию, для которой вы пытаетесь получить параметры?
Я видел исследование, в котором говорилось, что матери, которые кормили своих детей грудью, реже страдают диабетом. Исследование было проведено на основе опроса около 1000 матерей и контролировалось на различные факторы, и была использована логлинейная модель.
Значит ли это, что они учитывают все факторы, определяющие вероятность того, что диабет вписывается в хорошую функцию (предположительно экспоненциальную), которая аккуратно переводится в линейную модель с бревнами, и что оказалось, что кормление грудью женщины оказалось статистически значимым?
Я что-то упускаю, я уверен, но как, черт возьми, они знают модель?
regression
modeling
epidemiology
log-linear
Джонатан Эндрюс
источник
источник
Ответы:
Это помогает рассматривать регрессию как линейное приближение истинной формы. Предположим, что истинные отношения
источник
Другая сторона ответа, дополняющая ответ mpiktas, но до сих пор не упомянутая:
«Это не так, но как только они примут какую-то структуру модели, они смогут проверить ее по данным».
Две основные вещи, которые могут пойти не так: форма функции, например, она не линейна в логах. Таким образом, вы начнете с построения соответствующего остатка относительно ожидаемых значений. Или выбор условного распределения , например, наблюдаемые пересчеты по сравнению с Пуассоном. Таким образом, вы будете проверять отрицательную биномиальную версию той же модели или посмотреть, не объясняют ли дополнительные ковариаты дополнительные вариации.
Вы также хотели бы проверить на выбросы, влиятельные наблюдения и множество других вещей. Разумное место, где можно прочитать о проверке такого рода типовых проблем, - гл.5 Кэмерона и Триведи 1998 года. (Несомненно, для эпидемиологически ориентированных исследователей есть лучшее место для начала - возможно, другие люди могут предложить это).
Если эти диагностические данные показывают, что модель не соответствует данным, вы измените соответствующий аспект модели и начнете весь процесс заново.
источник
Отличный первый вопрос! Я согласен с ответом mpiktas, то есть кратким ответом «они этого не делают, но они надеются получить приближение к правильной модели, которая дает приблизительно правильный ответ».
На языке эпидемиологии эта неопределенность модели является одним из источников так называемого « остаточного смешения ». Смотрите страницу Стива Саймона «Что такое остаточное смущение?» для хорошего краткого описания, или статья Хейко Бехера в журнале « Статистика в медицине» за 1992 г. (req'd подписки) для более продолжительного, более математического подхода, или более свежая статья Дэйви Смита и Стерна в « Американском журнале эпидемиологии» (подписка req'd). ).
Это одна из причин того, что эпидемиология небольших эффектов трудна, а результаты часто противоречивы - если измеренный размер эффекта мал, трудно исключить остаточное смешение или другие источники смещения в качестве объяснения.
источник
Есть известная цитата «По сути, все модели ошибочны, но некоторые из них полезны» Джорджа Бокса . При подборе таких моделей мы стараемся (или должны) думать о процессе генерации данных и о физическом, реальном мире, отношениях между ответом и ковариатами. Мы пытаемся выразить эти отношения в модели, которая соответствует данным. Или, другими словами, это согласуется с данными. Как таковая эмпирическая модель производится.
Является ли это полезным или нет, определяется позже - дает ли он хорошие, надежные прогнозы, например, для женщин, не привыкших соответствовать модели? Являются ли коэффициенты модели интерпретируемыми и имеют научное значение? Значимы ли размеры эффекта?
источник
Ответы, которые вы уже получили, отличные, но я собираюсь дать (надеюсь) дополнительный ответ с точки зрения эпидемиолога. У меня действительно есть три мысли по этому поводу:
Во-первых, они этого не делают. Смотрите также: Все модели не правы, некоторые модели полезны. Цель не состоит в том, чтобы произвести единственное, определенное число, которое принимается за «истину» основной функции. Цель состоит в том, чтобы произвести оценку этой функции с количественной оценкой неопределенности вокруг нее, которая является разумным и полезным приближением основной функции.
Это особенно верно для мер с большим эффектом. Сообщение «забрать» из исследования, в котором обнаружен относительный риск 3,0, на самом деле не отличается, если «истинное» соотношение равно 2,5 или 3,2. Как упомянул @onestop, с небольшими оценками оценки эффекта это усложняется, потому что разница между 0,9, 1,0 и 1,1 может быть огромной с точки зрения здоровья и политики.
Во-вторых, в большинстве эпидемиологических работ скрыт процесс. Это фактический процесс выбора модели . Мы склонны сообщать о модели, с которой мы работали, а не обо всех моделях, которые мы рассматривали (потому что это было бы утомительно, если ничего больше). Существует множество этапов построения моделей, концептуальные схемы, диагностика, статистика соответствия, анализ чувствительности, ругань на компьютерах и каракули на белых досках, участвующие в анализе даже небольших наблюдательных исследований.
Потому что в то время как вы будете делать предположение, многие из них также предположений , которые вы можете проверить.
В-третьих, иногда нет. А потом мы идем на конференции и спорим друг с другом об этом;)
Если вам интересны основные аспекты эпидемиологии как области и того, как мы проводим исследования, лучше всего начать с « Эпидемиологии третьего издания » Ротмана, Гренландии и Лэша. Это в меру технический и очень хороший обзор того, как проводится исследование Epi.
источник