В этой статье под названием «ВЫБОР СРЕДИ ОБОБЩЕННЫХ ЛИНЕЙНЫХ МОДЕЛЕЙ, ПРИМЕНЯЕМЫХ К МЕДИЦИНСКИМ ДАННЫМ» авторы пишут:
В обобщенной линейной модели среднее значение преобразуется функцией связи вместо преобразования самого отклика. Два метода преобразования могут привести к совершенно разным результатам; например, среднее значение логарифмически преобразованных ответов не совпадает с логарифмом среднего ответа . В целом, первое не может быть легко преобразовано в средний ответ. Таким образом, преобразование среднего значения часто позволяет легче интерпретировать результаты, особенно в том смысле, что средние параметры остаются в том же масштабе, что и измеренные отклики.
Похоже, что они советуют подгонять обобщенную линейную модель (GLM) с логарифмической связью вместо линейной модели (LM) с лог-преобразованным откликом. Я не понимаю преимуществ этого подхода, и он кажется мне довольно необычным.
Моя переменная ответа выглядит нормально распределенной по журналу. Я получаю схожие результаты с точки зрения коэффициентов и их стандартных ошибок при любом подходе.
Тем не менее, мне интересно: если переменная имеет лог-нормальное распределение, не является ли среднее значение лог-преобразованной переменной предпочтительным по сравнению с логарифмом средней нетрансформированной переменной , так как среднее является естественной суммой нормального распределения и журнала -трансформированная переменная нормально распределена, тогда как сама переменная нет?
Ответы:
Хотя может показаться, что среднее значение лог-преобразованных переменных является предпочтительным (поскольку именно так обычно логарифмируется параметризация), с практической точки зрения логарифм среднего значения обычно гораздо более полезен.
Это особенно верно, когда ваша модель не совсем верна, и, если процитировать слова Джорджа Бокса: «Все модели неверны, некоторые полезны»
Предположим, что какое-то количество нормально распределено, скажем, артериальное давление (я не медик!), И у нас две популяции, мужчины и женщины. Можно предположить, что среднее артериальное давление у женщин выше, чем у мужчин. Это точно соответствует вопросу о том, является ли логарифм среднего артериального давления выше у женщин, чем у мужчин. Это не то же самое, что спрашивать, является ли среднее значение логарифмического давления выше у женщин, чем у мужчин .
Очевидно, что это делает алгебру ужасно сложной, но она все еще работает и означает то же самое.
До сих пор мы предполагали, что кровяное давление обычно является нормальным. Если истинные распределения не совсем логарифмически нормальны, то преобразование данных (как правило) сделает вещи еще хуже, чем выше - так как мы не будем точно знать, что на самом деле означает наш «средний» параметр. Т.е. мы не будем знать, что эти два уравнения для среднего и дисперсии, которые я дал выше, верны. Использование их для преобразования туда-сюда приведет к дополнительным ошибкам.
источник
Вот мои два цента из курса углубленного анализа данных, который я прошел, изучая биостатистику (хотя у меня нет никаких ссылок, кроме заметок моего профессора):
Это сводится к тому, нужно ли вам учитывать линейность и гетероскедастичность (неравные отклонения) в ваших данных, или просто линейность.
Она отмечает, что преобразование данных влияет на предположения о линейности и дисперсии модели. Например, если у ваших остатков есть проблемы с обоими, вы можете рассмотреть преобразование данных, которое потенциально может исправить оба. Преобразование преобразует ошибки и, следовательно, их дисперсию.
Напротив, использование функции связи влияет только на предположение о линейности, а не на дисперсию. Лог берется из среднего значения (ожидаемое значение), и, следовательно, дисперсия остатков не изменяется.
Таким образом, если у вас нет проблемы с непостоянной дисперсией, она предлагает использовать функцию связи вместо преобразования, потому что вы не хотите изменять свою дисперсию в этом случае (вы уже соответствуете предположению).
источник
Если истинный ответ не является симметричным (не распределен как обычно), но логарифмически преобразованный отклик является нормальным, то используется линейная регрессия по трансформированному отклику, а коэффициент экспоненты дает нам соотношение геометрического среднего.
Если истинный ответ симметричен (распределен как обычно), но отношение между пояснительным (X) и ответом не является линейным, но ожидаемое значение логарифма является линейной функцией X, тогда используется GLM с логарифмической связью, а коэффициент экспоненты дает нам отношение среднего арифметического
источник