Я занимался проблемой классификации, и я читал код и учебные пособия многих людей. Одна вещь, которую я заметил, это то, что многие люди принимают np.log
или log
непрерывные переменные, такие как loan_amount
или applicant_income
т.
Я просто хочу понять причину этого. Помогает ли это улучшить точность прогнозирования нашей модели? Это обязательно? или есть какая-то логика за этим?
Пожалуйста, предоставьте некоторые объяснения, если это возможно. Спасибо.
источник
Главным образом из-за перекошенного распределения. Логарифм естественным образом уменьшает динамический диапазон переменной, поэтому различия сохраняются, а масштаб не так сильно искажен. Представьте себе, что некоторые люди получили 100 000 000 кредитов, а некоторые - 10000 и некоторые 0. Любое масштабирование объектов, вероятно, поместит 0 и 10000 так близко друг к другу, что наибольшее число в любом случае сдвинет границу. Логарифм решает проблему.
источник
источник
Еще одна причина, почему логарифмические преобразования полезны, вступает в игру для данных отношения, в связи с тем, что
log(A/B) = -log(B/A)
. Если вы строите распределение соотношений в необработанном масштабе, ваши точки попадают в диапазон(0, Inf)
. Любые отношения, меньшие 1, будут сдавлены на небольшую область графика, и, кроме того, график будет выглядеть совершенно иначе, если вы измените соотношение(B/A)
вместо(A/B)
. Если вы сделаете это в логарифмическом масштабе, диапазон будет теперь(-Inf, +Inf)
, означая, что отношения менее 1 и больше 1 более равномерно распределены. Если вы решили изменить соотношение, вы просто переверните график вокруг 0, в противном случае он выглядит точно так же. В логарифмическом масштабе не имеет значения, показываете ли вы отношение как1/10 or 10/1
, что полезно, когда нет очевидного выбора, каким оно должно быть.источник
Вы должны посмотреть на логнормальное распределение .
Люди могут использовать журналы, потому что они думают, что они сжимают масштаб или что-то в этом роде, но принципиальное использование журналов заключается в том, что вы работаете с данными, которые имеют нормальное распределение журналов. Это, как правило, такие вещи, как заработная плата, цены на жилье и т. Д., Где все значения положительны, а большинство относительно скромны, но некоторые очень велики.
Если вы можете взять журнал данных, и он станет нормальным, то вы сможете воспользоваться многими функциями нормального распределения, такими как четко определенное среднее значение, стандартное отклонение (и, следовательно, z-показатели), симметрия и т. Д.
Точно так же добавление журналов аналогично умножению значений un-log'd. Это означает, что вы превратили распределение, в котором ошибки являются аддитивными, в то, что они мультипликативны (то есть основаны на процентах). Поскольку такие методы, как регрессия OLS, требуют нормального распределения ошибок, работа с журналами расширяет их применимость от аддитивных до мультипликативных процессов.
источник
Я бы сказал, что главная причина не в распределении, а в нелинейных отношениях. Журналы часто фиксируют насыщающие отношения ...
источник