Теперь я понимаю, что это зависит от распределения и нормальности в предикторах
преобразование журнала делает данные более однородными
Как общее утверждение, это неверно - но даже если бы это было так, почему однородность была бы важна?
Рассмотрим, например,
i) двоичный предиктор, принимающий только значения 1 и 2. Взятие журналов оставило бы его в качестве двоичного предиктора, принимающего только значения 0 и log 2. Это на самом деле не влияет ни на что, кроме перехвата и масштабирования терминов с участием этого предиктора. Даже р-значение предиктора будет неизменным, как и соответствующие значения.
II) рассмотреть левосторонний предиктор. Теперь возьмите логи. Это обычно становится более левым перекосом.
iii) единообразные данные становятся левосторонними
(хотя часто это не всегда так сильно меняется)
меньше пострадали от выбросов
Как общее утверждение, это неверно. Рассмотрим низкие выбросы в предикторе.
Я думал о преобразовании журнала всех моих непрерывных переменных, которые не представляют особого интереса
Для чего? Если бы изначально отношения были линейными, они бы больше не были.
И если они уже изогнуты, автоматическое выполнение этого может сделать их хуже (более изогнутыми), а не лучше.
-
Иногда может подойти регистрация логов предиктора (будь то первичный интерес или нет), но это не всегда так.
По моему мнению, не имеет смысла выполнять преобразование журнала (и любое преобразование данных , в этом отношении) только ради этого. Как упоминалось в предыдущих ответах, в зависимости от данных некоторые преобразования могут быть либо недействительными , либо бесполезными . Я настоятельно рекомендую вам прочитать следующий превосходный вводный материал IMHO по преобразованию данных : http://fmwww.bc.edu/repec/bocode/t/transint.html . Обратите внимание, что примеры кода в этом документе написаны на языке Stata , но в остальном документ достаточно универсален и, таким образом, полезен также для пользователей, не являющихся членами Stata.
В этой статье можно найти некоторые простые методы и инструменты для решения общих проблем , связанных с данными , таких как отсутствие нормальности , выбросов и распределений смеси (обратите внимание, что стратификация как подход к решению проблемы распределения смеси, скорее всего, самая простая - более общим и сложным подходом к этому является анализ смесей , также известный как модели конечных смесей , описание которых выходит за рамки этого ответа). Преобразование Бокса-Кокса, кратко упомянутый в двух ссылках выше, является довольно важным преобразованием данных, особенно для ненормальных данных (с некоторыми оговорками). Более подробную информацию о преобразовании Бокса-Кокса см. В этой вводной статье .
источник
Преобразование журналов не всегда делает вещи лучше. Очевидно, что вы не можете лог-преобразовать переменные, которые достигают нуля или отрицательных значений, и даже положительные, которые обнимают ноль, могут получить отрицательные выбросы, если преобразовать лог.
Вы должны не просто регулярно регистрировать все, но это хорошая практика, чтобы ДУМАТЬ о преобразовании выбранных положительных предикторов (соответственно, часто журнал, но, возможно, что-то еще), прежде чем подгонять модель. То же самое касается переменной ответа. Знание предмета также важно. Некоторая теория из физики или социологии или что-то еще может привести к определенным преобразованиям. Как правило, если вы видите переменные с положительным перекосом, то здесь может помочь журнал (или, может быть, квадратный корень или обратный).
Некоторые регрессионные тексты, кажется, предполагают, что вы должны смотреть на диагностические графики, прежде чем рассматривать какие-либо преобразования, но я не согласен. Я думаю, что лучше сделать все возможное, чтобы сделать этот выбор, прежде чем устанавливать какие-либо модели, чтобы у вас была наилучшая возможная отправная точка; затем посмотрите на диагностику, чтобы узнать, нужно ли оттуда настраиваться.
источник
snoq
набор данных в этой теме CrossValidated (учитывая, что цель состоит в том, чтобы подогнать смесь гауссиан)?1) данные счета (y> 0) -> log (y) или y = exp (b0 + biXi) 2) данные счета + ноль (y> = 0) -> модель препятствий (биномиальное число + рег. Счета) 3) все мультипликативные эффекты (и ошибки) будут аддитивными 4) дисперсия ~ среднее -> log (y) или y = exp (b0 + biXi) 5) ...
источник