Обычным этапом предварительной обработки алгоритмов машинного обучения является отбеливание данных.
Кажется, что всегда полезно делать отбеливание, так как оно не коррелирует данные, что упрощает их моделирование.
Когда отбеливание не рекомендуется?
Примечание: я имею в виду декорреляцию данных.
Ответы:
Предварительное отбеливание - это обобщение нормализации признаков, которая делает вход независимым путем преобразования его в преобразованную матрицу ковариации входных данных. Я не понимаю, почему это может быть плохо.
Тем не менее, быстрый поиск выявил «Возможность отбеливания данных для улучшения производительности метеорологического радара» ( pdf ), которая гласит:
Я недостаточно образован, чтобы комментировать это. Возможно, ответ на ваш вопрос заключается в том, что отбеливание всегда хорошо, но есть определенные ошибки (например, со случайными данными это не будет хорошо работать, если выполняется с помощью функции автокорреляции Гаусса).
источник
Во-первых, я считаю, что устранение корреляции и отбеливание - это две отдельные процедуры.
Для того чтобы декоррелировать данные, нам необходимо преобразовать их так, чтобы преобразованные данные имели диагональную ковариационную матрицу. Это преобразование может быть найдено путем решения проблемы собственных значений. Найдем собственные векторы и связанные с ними собственные значения ковариационной матрицы , решивΣ = X X'
где - диагональная матрица, имеющая собственные значения в качестве своих диагональных элементов.Λ
Матрица Таким образом , диагонализует ковариационная матрица X . Столбцы Φ являются собственными векторами ковариационной матрицы.Φ Икс Φ
Мы также можем написать диагонализованную ковариацию как:
И, наконец, есть общая «ошибка», о которой люди должны быть осторожны. Нужно быть осторожным, чтобы вы вычислили коэффициенты масштабирования для данных обучения , а затем использовали уравнения (2) и (3), чтобы применить те же коэффициенты масштабирования к тестовым данным, в противном случае вы рискуете переобучиться (вы будете использовать информация из теста, установленного в тренировочном процессе).
Источник: http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf
источник
С http://cs231n.github.io/neural-networks-2/
К сожалению, я недостаточно образован, чтобы прокомментировать это.
источник