Каковы надлежащие этапы предварительной обработки для выполнения независимого анализа компонентов?

Независимый компонентный анализ (ICA) используется для разделения линейной смеси статистически независимых и, что наиболее важно, негауссовых ^† компонентов на составляющие. Стандартная модель для бесшумного ICA

Икс знак равно A s

$\mathbf{x}=\mathbf{As}$

где - вектор наблюдения или данных, - исходный сигнал / исходные компоненты (негауссовы), а - вектор преобразования, который определяет линейное микширование составляющих сигналов. Как правило, и неизвестны. $\mathbf{x}$ $\mathbf{s}$ $\mathbf{A}$ $\mathbf{A}$ $\mathbf{s}$

Предварительная обработка

В ICA есть две основные стратегии предварительной обработки, а именно центрирование и отбеливание / сферирование. Основными причинами предварительной обработки являются:

Упрощение алгоритмов
Уменьшение размерности проблемы
Сокращение количества оцениваемых параметров.
Выделение особенностей набора данных не легко объясняется средним значением и ковариацией.

Из введения Дж. Ли и Дж. Чжана "Сферинг и его свойства", The Indian Journal of Statistics, Vol. 60, Серия A, Часть I, стр. 119-133, 1998:

Выбросы, кластеры или другие виды групп, а также концентрации вблизи кривых или неплоских поверхностей, вероятно, являются важными особенностями, которые интересуют аналитиков данных. Они, как правило, не могут быть получены простым знанием среднего значения выборки и ковариационной матрицы. В этих обстоятельствах желательно отделить информацию, содержащуюся в среднем и ковариационных матрицах, и вынуждает нас исследовать аспекты наших наборов данных, отличные от хорошо понятых. Центрирование и сферизация - это простой и интуитивно понятный подход, который исключает информацию о средней ковариации и помогает выделить структуры за пределами линейной корреляции и эллиптических форм, и поэтому часто выполняется перед исследованием отображений или анализа наборов данных.

1. Центрирование:

Центрирование - это очень простая операция, которая просто относится к вычитанию среднего . На практике используется выборочное среднее и создать новый вектор , где представляет собой среднее из данных. Геометрически вычитание среднего значения эквивалентно переводу центра координат в начало координат. Среднее всегда можно повторно добавить к результату конец (это возможно, потому что матричное умножение является дистрибутивным). $\mathbb{E}\{\mathbf{x}\}$ $\mathbf{x}_c=\mathbf{x}-\overline{\mathbf{x}}$ $\overline{\mathbf{x}}$

2. Отбеливание:

Отбеливание является преобразованием , которое преобразует данные таким образом, что она имеет ковариационную матрицу идентичности, т.е. . Обычно вы работаете с образцом ковариационной матрицы, $\mathbb{E}\{\mathbf{x}_c\mathbf{x}_c^T\}=\mathbf{I}$

\hat{Σ} знак равно С, {Икс}_{с} {Икс}_{с}^{T}

$\widehat{\mathbf{\Sigma}}=C.\mathbf{x}_c\mathbf{x}_c^T$

где - просто ленивый заполнитель для соответствующего коэффициента нормализации (в зависимости от размеров ). Новый побеленный вектор создается как $C$ $\mathbf{x}$

{Икс}_{вес} знак равно {\hat{Σ}}^{- 1 / 2} {Икс}_{с}

$\mathbf{x}_w=\widehat{\mathbf{\Sigma}}^{-1/2}\mathbf{x}_c$

$\mathbf{I}$

s = RandomReal[{-1, 1}, {2000, 2}];
A = {{2, 3}, {4, 2}};
x = s.A;
whiteningMatrix = Inverse@CholeskyDecomposition[Transpose@x.x/Length@x];
y = x.whiteningMatrix;
FullGraphics@GraphicsRow[
  ListPlot[#, AspectRatio -> 1, Frame -> True] & /@ {s, x, y}]

введите описание изображения здесь

$\mathbf{s}$ $\mathbf{A}$

$\mathbf{x}_w=\mathbf{A}_w\mathbf{s}_w$ $\mathbf{A}_w$

\begin{aligned} Е {{Икс}_{вес} {Икс}_{вес}^{T}} & знак равно Е {A_{вес} s_{вес} (A_{вес} s_{вес})^{T}} \\ знак равно A_{вес} Е {s_{вес} s_{вес}^{T}} A_{вес}^{T} \\ знак равно A_{вес} A_{вес}^{T} знак равно я \end{aligned}

$\begin{align} \mathbb{E}\{\mathbf{x}_w\mathbf{x}_w^T\}&=\mathbb{E}\{\mathbf{A}_w\mathbf{s}_w(\mathbf{A}_w\mathbf{s}_w)^T\}\\ &=\mathbf{A}_w\mathbb{E}\{\mathbf{s}_w\mathbf{s}_w^T\}\mathbf{A}_w^T\\ &=\mathbf{A}_w\mathbf{A}_w^T=\mathbf{I} \end{align}$

$\mathbf{s}_i$ $\mathbf{A}$

Если после преобразования есть собственные значения, близкие к нулю, то их можно безопасно отбросить, поскольку они являются просто шумом и будут только мешать оценке из-за "переопределения".

3. Другая предварительная обработка

В некоторых конкретных приложениях могут быть другие этапы предварительной обработки, которые невозможно охватить в ответе. Например, я видел несколько статей, в которых используется журнал временных рядов, и несколько других, которые фильтруют временные ряды. Хотя это может подходить для их конкретного применения / условий, результаты не переносятся на все поля.

^†_{Я считаю, что можно использовать ICA, если не более одного из компонентов является гауссовским, хотя сейчас я не могу найти ссылку на это.}

Почему это называется "сферирование"?

$n$ $n$ {-1,1}NormalDistribution[]

введите описание изображения здесь

Первый - это плотность суставов для двух некоррелированных гауссианов, второй - в процессе трансформации, а третий - после отбеливания. На практике видны только шаги 2 и 3.

Лорем Ипсум
источник

Вау, это займет у меня немного времени, чтобы понять все это, но спасибо - преуменьшение!

Джонса

Извините, я думал, что уже принял это.

Джонска

Каковы надлежащие этапы предварительной обработки для выполнения независимого анализа компонентов?

Ответы:

Предварительная обработка

Почему это называется "сферирование"?