Всегда ли хорошо отбеливать?

27

Обычным этапом предварительной обработки алгоритмов машинного обучения является отбеливание данных.

Кажется, что всегда полезно делать отбеливание, так как оно не коррелирует данные, что упрощает их моделирование.

Когда отбеливание не рекомендуется?

Примечание: я имею в виду декорреляцию данных.

Ран
источник
1
Можете ли вы дать ссылку на отбеливание?
Атилла Озгур
2
Я думаю, что эта тема заглушка. Это действительно должно быть расширено. - - В настоящее время принятый ответ содержит так мало информации. - Я бы отказался от этого и открыл бы здесь щедрость.
Лео Леопольд Герц 준영
Ваш вопрос также предвзят, потому что "всегда" там. Конечно, отбеливание не всегда хорошо. Также определите виды отбеливания. Я думаю, что это приводит к не очень конструктивным ответам здесь. - - Определите типы данных, которые будут использоваться. - Я думаю, что лучший вопрос может быть: Как вы можете улучшить применение этого отбеливания на этих достаточно хороших данных? , - - @AtillaOzgur Один источник en.wikipedia.org/wiki/Whitening_transformation, если рассматривается базовая трансформация отбеливания.
Лео Леопольд Герц

Ответы:

13

Предварительное отбеливание - это обобщение нормализации признаков, которая делает вход независимым путем преобразования его в преобразованную матрицу ковариации входных данных. Я не понимаю, почему это может быть плохо.

Тем не менее, быстрый поиск выявил «Возможность отбеливания данных для улучшения производительности метеорологического радара» ( pdf ), которая гласит:

В частности, отбеливание работало хорошо в случае экспоненциальной АКФ (что согласуется с результатами Монакова), но менее эффективно в случае гауссовой. После численных экспериментов мы обнаружили, что случай Гаусса численно плохо обусловлен в том смысле, что число условий (отношение максимального к минимальному собственному значению) чрезвычайно велико для гауссовой ковариационной матрицы.

Я недостаточно образован, чтобы комментировать это. Возможно, ответ на ваш вопрос заключается в том, что отбеливание всегда хорошо, но есть определенные ошибки (например, со случайными данными это не будет хорошо работать, если выполняется с помощью функции автокорреляции Гаусса).

andreister
источник
2
насколько я понимаю, это хорошо работает, если ковариационная матрица хорошо оценена. Кто-то может прокомментировать это? Спасибо.
Ран
3
Приведенная выше цитата не относится к плохо оцененной ковариационной матрице (хотя это также было бы проблематично). Это говорит о том, что для идеально определенной ковариационной матрицы все еще может быть трудно точно выполнить требуемую факторизацию (и связанные преобразования данных). Это связанно с численным плохим кондиционированием, что означает конечные точности ошибка округления загрязняет вычисления.
GeoMatt22
2
Это недостаточный ответ. Он в основном копировал не очень связанный материал. - Этот ответ действительно должен быть расширен. Это заглушка.
Лео Леопольд Герц 준영
20

Во-первых, я считаю, что устранение корреляции и отбеливание - это две отдельные процедуры.

Для того чтобы декоррелировать данные, нам необходимо преобразовать их так, чтобы преобразованные данные имели диагональную ковариационную матрицу. Это преобразование может быть найдено путем решения проблемы собственных значений. Найдем собственные векторы и связанные с ними собственные значения ковариационной матрицы , решивΣзнак равноИксИкс'

ΣΦзнак равноΦΛ

где - диагональная матрица, имеющая собственные значения в качестве своих диагональных элементов.Λ

Матрица Таким образом , диагонализует ковариационная матрица X . Столбцы Φ являются собственными векторами ковариационной матрицы.ΦИксΦ

Мы также можем написать диагонализованную ковариацию как:

(1)Φ'ΣΦзнак равноΛ

Икся

(2)Икся*знак равноΦ'Икся

Λ

Λ-1/2ΛΛ-1/2знак равноя

(1)

Λ-1/2Φ'ΣΦΛ-1/2знак равноя

Икся*Икся

(3)Иксязнак равноΛ-1/2Икся*знак равноΛ-1/2Φ'Икся

ИксяИксяЕ(ИксяИкся')знак равноя

Σ

И, наконец, есть общая «ошибка», о которой люди должны быть осторожны. Нужно быть осторожным, чтобы вы вычислили коэффициенты масштабирования для данных обучения , а затем использовали уравнения (2) и (3), чтобы применить те же коэффициенты масштабирования к тестовым данным, в противном случае вы рискуете переобучиться (вы будете использовать информация из теста, установленного в тренировочном процессе).

Источник: http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf

TDC
источник
2
Спасибо за разъяснения, вы правы. Я имел в виду декорреляцию. Кстати: в конце вы пишете, что отбеливание выполняется только для тренировочных данных. Насколько я знаю, вы вычисляете матрицу из данных обучения, но вы выполняете ее как с данными обучения, так и с данными испытаний.
Пробежал
@Ran да, это то, что я имел в виду ... Я обновлю ответ
тдк
Было бы неплохо, если бы вы также могли предложить разделы в своем ответе. Имейте вступление, резюме и математические вещи. - Я думаю, что вы не достаточно глубоко в своем ответе. - - Ваш ответ охватывает в основном тривиальные предложения, но недостаточно углублен в тему. У вас есть только базовый скопированный материал из лекционных заметок, но очень мало собственной работы по этой теме.
Лео Леопольд Герц 준영
Таким образом, в простых терминах выполните pca для получения декоррелированных функций, а затем для каждой новой функции делите на дисперсию, чтобы получить отбеленные функции.
авокадо
1

С http://cs231n.github.io/neural-networks-2/

Одним из недостатков этого преобразования является то, что оно может сильно преувеличивать шум в данных, поскольку оно растягивает все измерения (включая нерелевантные измерения крошечной дисперсии, которые в основном являются шумом), чтобы они были равны по размеру на входе. На практике это может быть смягчено более сильным сглаживанием ...

К сожалению, я недостаточно образован, чтобы прокомментировать это.

DharmaTurtle
источник
Пожалуйста, укажите, какие формы шумов преувеличены. Ваша ссылка строгая. Это просто базовая компьютерная наука по теме, то есть белый шум с древним подходом нейронной сети. - - Работа преувеличение также должны быть определены.
Лео Леопольд Герц 준영
Сдается мне, что это просто связано с масштабированием всех функций, чтобы иметь одинаковую дисперсию, верно? Поэтому, если бы существовала особенность, в дисперсии которой в обучающем наборе присутствовал шум, мы могли бы ожидать, что общая дисперсия этой функции будет намного меньше, чем у другой функции; это преобразование сделает так, что и функция «шум», и другая функция имеют одинаковую дисперсию и могут рассматриваться как «усиливающий шум».
Иосиф