Я часто вижу людей, делающих измерение / особенность набора данных нулевым средним, удаляя среднее из всех элементов. Но я так и не понял, зачем это делать? Каков эффект от этого в качестве шага предварительной обработки? Улучшает ли это эффективность классификации? Помогает ли это что-то ответить о наборе данных? Помогает ли это при визуализации понимать данные?
data-mining
dataset
Джек Твен
источник
источник
Ответы:
Некоторые случаи, когда «центрирование данных по их среднему значению» (далее просто «де-смысл») полезно:
2) Упростите вычисления более высоких моментов: хотя добавление константы к случайной переменной не меняет ее дисперсию или ее ковариацию с другой случайной величиной, тем не менее, если у вас есть ненулевое среднее значение, и вы должны выписать подробные вычисления, Вы должны написать все условия и показать, что они отменяют. Если переменные не имеют значения, вы сохраняете много бесполезных вычислений.
3) Случайные переменные с центром в среднем значении являются предметом центральной предельной теоремы
4) Отклонения от «среднего значения» во многих случаях представляют интерес, и имеют ли они тенденцию быть «выше или ниже среднего», а не фактические значения случайных величин. «Перевод» (визуально и / или в вычислительном отношении) отклонений ниже среднего значения в виде отрицательных значений и отклонений выше среднего значения в качестве положительных значений делает сообщение более четким и сильным.
Более подробные обсуждения см. Также
При проведении множественной регрессии, когда вы должны центрировать свои предикторные переменные и когда вы должны стандартизировать их?
Центрирование данных в множественной регрессии
Если вы будете искать «центрированные данные» в резюме, вы также найдете другие интересные посты.
источник
Также по практическим причинам выгодно центрировать данные, например, при обучении нейронных сетей.
Идея состоит в том, что для обучения нейронной сети необходимо решить невыпуклую задачу оптимизации с использованием некоторого градиентного подхода. Градиенты рассчитываются с помощью обратного распространения. Теперь эти градиенты зависят от входных данных, а центрирование данных устраняет возможные отклонения в градиентах.
Конкретно, ненулевое среднее значение отражается в большом собственном значении, что означает, что градиенты имеют тенденцию быть больше в одном направлении, чем в других (смещение), тем самым замедляя процесс сходимости, что в конечном итоге приводит к худшим решениям.
источник
Чтобы добавить к сказанному Алекосом, что очень хорошо, центрирование ваших данных на нуле чрезвычайно важно при использовании байесовской статистики или регуляризации, поскольку в противном случае данные могут быть соотнесены с перехватом, что делает регуляризацию не такой, какой вы обычно хотите.
Если данные равны нулю, это может уменьшить многие недиагональные члены ковариационной матрицы, что делает данные более легко интерпретируемыми, а коэффициенты - более значимыми, поскольку каждый коэффициент применяется в большей степени к этому фактору и действует меньше благодаря корреляции с другие факторы.
источник