Эффективность регрессии ядра Риджа

Ридж регрессия может быть выражена как , где являюсь прогнозируемым метка, в определить матрицу, объект мы пытаемся найти лейбл для, и в матрица объектов

\hat{y} = (X^{'} X + a I_{d})^{- 1} X x

$\hat{y} = (\mathbf{X'X} + a\mathbf{I}_d)^{-1}\mathbf{X}x$

\hat{y}

$\hat{y}$

I_{d}

$\mathbf{I}_d$

d \times d

$d \times d$

x

$\mathbf{x}$

X

$\mathbf{X}$

n \times d

$n \times d$

n

$n$

такой, что:

x_{i} = (x_{i, 1}, . . ., x_{i, d}) \in R^{d}

$\mathbf{x}_i = (x_{i,1}, ..., x_{i,d})\in \mathbb{R}^d$

X = (\begin{matrix} x_{1, 1} & x_{1, 2} & \dots & x_{1, d} \\ x_{2, 1} & x_{2, 2} & \dots & x_{2, d} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ x_{n, 1} & x_{1, 2} & \dots & x_{n, d} \end{matrix})

$\mathbf{X} = \begin{pmatrix} x_{1,1} & x_{1,2} & \ldots & x_{1,d}\\ x_{2,1} & x_{2,2} & \ldots & x_{2,d}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n,1} & x_{1,2} &\ldots & x_{n,d} \end{pmatrix}$

Мы можем kernelise это следующим образом

\hat{y} = (K + a I_{d})^{- 1} k

$\hat{y} = (\mathbf{\mathcal{K}} + a\mathbf{I}_d)^{-1} \mathbf{k}$

где является матрица функций ядра $\mathbf{\mathcal{K}}$ $n \times n$ $K$

K = (\begin{matrix} K (x_{1}, x_{1}) & K (x_{1}, x_{2}) & \dots & K (x_{1}, x_{n}) \\ K (x_{2}, x_{1}) & K (x_{2}, x_{2}) & \dots & K (x_{2}, x_{n}) \\ ⋮ & ⋮ & ⋱ & ⋮ \\ K (x_{n}, x_{1}) & K (x_{n}, x_{2}) & \dots & K (x_{n}, x_{n}) \end{matrix})

$\mathcal{K} = \begin{pmatrix} K(\mathbf{x}_1,\mathbf{x}_1) & K(\mathbf{x}_1,\mathbf{x}_2) & \ldots & K(\mathbf{x}_1,\mathbf{x}_n)\\ K(\mathbf{x}_2,\mathbf{x}_1) & K(\mathbf{x}_2,\mathbf{x}_2) & \ldots & K(\mathbf{x}_2,\mathbf{x}_n)\\ \vdots & \vdots & \ddots & \vdots\\ K(\mathbf{x}_n,\mathbf{x}_1) & K(\mathbf{x}_n,\mathbf{x}_2) &\ldots & K(\mathbf{x}_n,\mathbf{x}_n) \end{pmatrix}$

$\mathbf{k}$ $n \times 1$ $K$

k = (\begin{matrix} K (x_{1}, x) \\ K (x_{2}, x) \\ ⋮ \\ K (x_{n}, x) \end{matrix})

$\mathbf{k} = \begin{pmatrix} K(\mathbf{x}_1,\mathbf{x})\\ K(\mathbf{x}_2,\mathbf{x}) \\ \vdots \\ K(\mathbf{x}_n,\mathbf{x}) \end{pmatrix}$

Вопросов:

$\mathbf{x}_i$ $\mathbf{X}$ $50 \times 3$ $\mathbf{X}'\mathbf{X}$ $3 \times 3$ $3 \times 3$ $50 \times 50$ $d \leq n$

(б) следует ли использовать самое простое ядро? Кажется, что ядра в регрессии гребня используются, чтобы свести на нет влияние размерности, а не использовать определенные свойства пространства признаков (в отличие от машин опорных векторов). Хотя ядра могут изменять расстояния между объектами, так есть ли какие-либо популярные ядра, используемые в регрессии гребня?

$O$

regression ridge-regression kernel-trick спираль
источник

«эффективность» имеет другое значение в статистике. Вы имели в виду «вычислительная сложность»? (в заголовке)

Memming

Я имел в виду «алгоритмическую эффективность». Хотя это правда, что мои вопросы существенно сводят это к «вычислительной сложности».

Helix

$K(\mathbf{x,y}) = \mathbf{x}^\top \mathbf{y}$

$K(x,y) = \exp(-\frac{\tau}{2} ||\mathbf{x}-\mathbf{y}||^2)$

$n$ $O(n^3)$

Ссылки:

Бхарат Сриперумбудур, Кэндзи Фукумизу и Герт Ланкриет. О связи универсальности, характеристических ядер и вложения мер РХС. Журнал исследований машинного обучения, 9: 773–780, 2010.
Бернхард Шлкопф, Александр Я. Смола. Обучение с ядрами: машины опорных векторов, регуляризация, оптимизация и не только 2002

Memming
источник

Эффективность регрессии ядра Риджа

Ответы: