Почему бы не преобразовать в лог все переменные, которые не представляют основного интереса?

10

В книгах и дискуссиях часто утверждается, что при возникновении проблем (из которых есть несколько) с предиктором, log-transformimg это возможно. Теперь я понимаю, что это зависит от распределений, и нормальность в предикторах не является предположением о регрессии; но преобразование журнала делает данные более однородными, меньше подверженными выбросам и так далее.

Я думал о преобразовании журнала всех моих непрерывных переменных, которые не являются основными интересами, то есть переменными, для которых я только настраиваюсь.

Это неправильно? Хорошо? Бесполезный?

Адам Робинссон
источник

Ответы:

24

Теперь я понимаю, что это зависит от распределения и нормальности в предикторах

преобразование журнала делает данные более однородными

Как общее утверждение, это неверно - но даже если бы это было так, почему однородность была бы важна?

Рассмотрим, например,

i) двоичный предиктор, принимающий только значения 1 и 2. Взятие журналов оставило бы его в качестве двоичного предиктора, принимающего только значения 0 и log 2. Это на самом деле не влияет ни на что, кроме перехвата и масштабирования терминов с участием этого предиктора. Даже р-значение предиктора будет неизменным, как и соответствующие значения.

введите описание изображения здесь

II) рассмотреть левосторонний предиктор. Теперь возьмите логи. Это обычно становится более левым перекосом.

введите описание изображения здесь

iii) единообразные данные становятся левосторонними

введите описание изображения здесь

(хотя часто это не всегда так сильно меняется)

меньше пострадали от выбросов

Как общее утверждение, это неверно. Рассмотрим низкие выбросы в предикторе.

введите описание изображения здесь

Я думал о преобразовании журнала всех моих непрерывных переменных, которые не представляют особого интереса

Для чего? Если бы изначально отношения были линейными, они бы больше не были.

введите описание изображения здесь

И если они уже изогнуты, автоматическое выполнение этого может сделать их хуже (более изогнутыми), а не лучше.

-

Иногда может подойти регистрация логов предиктора (будь то первичный интерес или нет), но это не всегда так.

Glen_b - Восстановить Монику
источник
2
Большое спасибо за этот великолепный ответ. Я думаю, что многим из нас, по крайней мере мне, нужно было видеть это таким образом. Но согласны ли вы с тем, что искаженные данные должны подвергаться преобразованию журнала? Больше чем другие перекосы и формы?
Адам Робинссон
1
Нет, вообще нет. Возможно, в очень специфических условиях.
Glen_b
β^=0.50
(не), чем, например, сказать, что при увеличении длины окружности ствола на один дюйм средняя высота дерева увеличивается на половину фута. Последнее легче интерпретировать и легче вычислить в поле без калькулятора.
StatsStudent
10

По моему мнению, не имеет смысла выполнять преобразование журналалюбое преобразование данных , в этом отношении) только ради этого. Как упоминалось в предыдущих ответах, в зависимости от данных некоторые преобразования могут быть либо недействительными , либо бесполезными . Я настоятельно рекомендую вам прочитать следующий превосходный вводный материал IMHO по преобразованию данных : http://fmwww.bc.edu/repec/bocode/t/transint.html . Обратите внимание, что примеры кода в этом документе написаны на языке Stata , но в остальном документ достаточно универсален и, таким образом, полезен также для пользователей, не являющихся членами Stata.

В этой статье можно найти некоторые простые методы и инструменты для решения общих проблем , связанных с данными , таких как отсутствие нормальности , выбросов и распределений смеси (обратите внимание, что стратификация как подход к решению проблемы распределения смеси, скорее всего, самая простая - более общим и сложным подходом к этому является анализ смесей , также известный как модели конечных смесей , описание которых выходит за рамки этого ответа). Преобразование Бокса-Кокса, кратко упомянутый в двух ссылках выше, является довольно важным преобразованием данных, особенно для ненормальных данных (с некоторыми оговорками). Более подробную информацию о преобразовании Бокса-Кокса см. В этой вводной статье .

Александр Блех
источник
2
Отличные ссылки Александр. Спасибо за то, что поделились этим столь необходимым скептизмом Спасибо.
Адам Робинссон
1
@AdamRobinsson: С удовольствием, Адам! Рад, что тебе понравился мой ответ.
Александр Блех
8

Преобразование журналов не всегда делает вещи лучше. Очевидно, что вы не можете лог-преобразовать переменные, которые достигают нуля или отрицательных значений, и даже положительные, которые обнимают ноль, могут получить отрицательные выбросы, если преобразовать лог.

Вы должны не просто регулярно регистрировать все, но это хорошая практика, чтобы ДУМАТЬ о преобразовании выбранных положительных предикторов (соответственно, часто журнал, но, возможно, что-то еще), прежде чем подгонять модель. То же самое касается переменной ответа. Знание предмета также важно. Некоторая теория из физики или социологии или что-то еще может привести к определенным преобразованиям. Как правило, если вы видите переменные с положительным перекосом, то здесь может помочь журнал (или, может быть, квадратный корень или обратный).

Некоторые регрессионные тексты, кажется, предполагают, что вы должны смотреть на диагностические графики, прежде чем рассматривать какие-либо преобразования, но я не согласен. Я думаю, что лучше сделать все возможное, чтобы сделать этот выбор, прежде чем устанавливать какие-либо модели, чтобы у вас была наилучшая возможная отправная точка; затем посмотрите на диагностику, чтобы узнать, нужно ли оттуда настраиваться.

Русь Лент
источник
Все добавляют, что эти соображения относятся как к важным, так и к неважным предикторам.
Расс Лент
Спасибо @rvl! Меня всегда смущает несоответствие между тем, когда и как выбирать преобразования; В книгах часто утверждается, что, как вы писали, нужно проверять форму всех переменных, прежде чем касаться регрессии. Спасибо за предоставление ваших идей.
Адам Робинссон
@rvl, спасибо за ответ. Не могли бы вы преобразовать snoqнабор данных в этой теме CrossValidated (учитывая, что цель состоит в том, чтобы подогнать смесь гауссиан)?
Жубарб
-3

1) данные счета (y> 0) -> log (y) или y = exp (b0 + biXi) 2) данные счета + ноль (y> = 0) -> модель препятствий (биномиальное число + рег. Счета) 3) все мультипликативные эффекты (и ошибки) будут аддитивными 4) дисперсия ~ среднее -> log (y) или y = exp (b0 + biXi) 5) ...

Иван Кшнясев
источник
Этот ответ трудно прочитать, и неясно, пытается ли он ответить на вопрос.
Юхо Коккала
1
TEX