В машинном обучении, почему надстрочные знаки используются вместо индексов?

Я прохожу курс Эндрю Нг по машинному обучению через Coursera . Для уравнений вместо индексов используются верхние индексы. Например, в следующем уравнении используется вместо : $x^{(i)}$ $x_i$

$J(\theta_0, \theta_1) = \frac{1}{2m} \sum\limits_{i=1}^{m}{(h_\theta(x^{(i)}) - y^{(i)})^2}$

Видимо, это обычная практика. Мой вопрос: зачем использовать верхние индексы вместо подписных? Верхние индексы уже используются для возведения в степень. Конечно, мне кажется, что я могу различать случаи использования верхнего индекса и возведения в степень, обращая внимание на наличие круглых скобок, но это по-прежнему сбивает с толку.

machine-learning notation entpnerd
источник

Я подозреваю, что это, возможно, потому, что некоторые информатики не разбираются в стандартных математических обозначениях и поэтому составляют свои собственные обозначения. Иногда актуарии тоже делают это, и это разочаровывает, когда вы переходите к более сложным концепциям.

rocinante

iИндексируется ли размер набора данных или элементы вектора x? Если первое, это совершенно стандартно. Если последнее, то это совершенно нестандартно. И причина, по которой используется верхний индекс, заключается в том, что иногда вы хотите сослаться на элемент вектора, используя нижний индекс.

Рекс Керр

@rocinante lol нет, это потому, что подписчики уже взяты для индексирования векторов.

Нил Г

@rocinante Это довольно самонадеянно. Как насчет контравариантных векторов / обозначений Эйнштейна ?

Уилл Воуден

@rocinante Я должен поддержать других, подчеркнув, что ваша формулировка неудачна. У всех нас есть тенденция рассматривать то, что является местным и знакомым, как стандарт.

Ник Кокс

Ответы:

Если обозначает вектор то является стандартным обозначением координаты , то есть $x$ $x \in \mathbb R^m$ $x_i$ $i$ $x$

x = (x_{1}, x_{2}, \dots, x_{m}) \in R^{m} .

$x = (x_1, x_2, \ldots, x_m)\in\mathbb R^m.$

Если у вас есть набор из таких векторов, как бы вы обозначили вектор? Вы не можете написать , это имеет другое стандартное значение. Поэтому иногда люди пишут и именно поэтому я верю, почему Эндрю Нг делает это. $n$ $i$ $x_i$ $x^{(i)}$

Т.е.

x^{(1)} = (x_{1}^{(1)}, x_{2}^{(1)}, \dots, x_{m}^{(1)}) \in R^{m} x^{(2)} = (x_{1}^{(2)}, x_{2}^{(2)}, \dots, x_{m}^{(2)}) \in R^{m} \dots x^{(n)} = (x_{1}^{(n)}, x_{2}^{(n)}, \dots, x_{m}^{(n)}) \in R^{m} .

$\begin{equation} x^{(1)} = (x_1^{(1)}, x_2^{(1)}, \ldots, x_m^{(1)}) \in \mathbb R^m\\ x^{(2)} = (x_1^{(2)}, x_2^{(2)}, \ldots, x_m^{(2)}) \in \mathbb R^m\\ \ldots \\ x^{(n)} = (x_1^{(n)}, x_2^{(n)}, \ldots, x_m^{(n)}) \in \mathbb R^m.\\ \end{equation}$

амеба говорит восстановить монику
источник

Я не согласен, но часто используется

, то есть для повторных измерений.

x_{i j}

$x_{ij}$

Клифф AB

Да, но

эквивалентно моему

; что будет эквивалентно

x_{i j}

$x_{ij}$

x_{j}^{(i)}

$x^{(i)}_j$

x^{(i)}

$x^{(i)}$

говорит амеба, восстанови Монику

да, это преимущество Я думаю, что

иногда используется, но это можно спутать с

x_{i .}

$x_{i.}$

\sum_{j = 1}^{n} x_{i j} / m

$\sum_{j= 1}^n x_{ij}/m$

Клифф AB

Если вы хотите перебрать матрицы, тогда

кажется наиболее интуитивным способом сделать это. Поэтому обозначения остаются последовательными при переходе от векторов к матрицам.

x_{m n}^{(i)}

$x_{mn}^{(i)}$

Джош

@JAB Да, это должно сделать запись более явной («подсказка типа», как вы говорите). Конечно, можно согласиться использовать

для

вектора и

для

элемента

вектора. Возможны различные соглашения, это только один из них. Я даже не говорю, что это лучший, просто объясняю обоснование этого.

x_{i}

$x_i$

i

$i$

x_{i j}

$x_{ij}$

j

$j$

i

$i$

говорит амеба, восстанови Монику

Я считаю, что использование супер-сценариев не очень распространено в литературе по машинному обучению. Я должен был бы просмотреть примечания к курсу Нга, чтобы подтвердить, но если бы он использовал это там, я бы сказал, что он будет источником распространения этой записи. Это возможность. В любом случае, чтобы не быть слишком недобрым, но я не думаю, что многие студенты онлайн курса публикуют литературу по машинному обучению, поэтому эта запись не очень распространена в реальной литературе. В конце концов, это вводные курсы по машинному обучению, а не курсы PhD.

Что характерно для суперскриптов, так это для обозначения итерации алгоритма с использованием суперскриптов. Например, вы можете написать итерацию метода Ньютона как

$\theta^{(t+1)} = \theta^{(t)} - H(\theta^{(t)}) ^{-1} \nabla \theta^{(t)}$

где - гессиан, а - градиент. $H(\theta^{(t)})$ $\nabla \theta^{(t)}$

(... да, это не совсем лучший способ реализации метода Ньютона из-за обращения матрицы Гессе ...)

Здесь представляет значение в итерации . Это наиболее распространенное (но, конечно, не только) использование суперскриптов, о которых я знаю. $\theta^{(t)}$ $\theta$ $t^{th}$

РЕДАКТИРОВАТЬ: Чтобы уточнить, в первоначальном вопросе, казалось, предположить, что в нотации ML, было эквивалентно нотации статистики . В своем ответе я утверждаю, что это не очень распространено в литературе по ОД. Это верно. Однако, как указывает @amoeba, есть много верхним индексом записи в литературе ML для данных, но в этих случаях обычно не означает наблюдение одного вектора . $x^{(i)}$ $x_i$ $x^{(i)}$ $i^{th}$ $x$

Клифф AB
источник

Столкновение с использованием заключенных в скобки / заключенных в скобки верхних индексов для счетчиков итераций (обозначение, которое широко используется в широком диапазоне областей) - это действительно важная вещь, которую нужно затронуть.

Glen_b

Он также обычно используется для указания индекса выборки в обучающем наборе, который похож на итерацию, но не точно такой же, потому что вы обычно заканчиваете итерацию по своему обучающему набору много раз.

Рекс Керр

a_{n + 1} = a_{n} + 1

$a_{n+1} = a_n + 1$

a (n + 1) = a (n) + 1

$a(n+1) = a(n) + 1$

(x > 0)

$(x > 0)$

I (x > 0)

$I(x > 0)$

I (x > 0)

$I(x > 0)$

x > 0

$x > 0$

=

$=$ ===

Верхние индексы уже используются для возведения в степень.

В математике верхние индексы используются слева и справа в зависимости от области. Выбор всегда историческое наследие, не более того. Тот, кто первым попал в поле, установил соглашение об использовании под- или надстрочных знаков.

$f(x)^{(n)}$

$R^i_i$ $i$ $j$ $T_i^k=R_i^jC_j^k$

$^i_jB_k^l$

Следовательно, выбор верхних индексов по Ng тоже чисто исторический. Нет никакой реальной причины использовать или не использовать их, или предпочесть их подписчикам. На самом деле, я считаю, что здесь люди ML используют тензорную запись. Они определенно хорошо разбираются в теме, например, см. Эту статью.

Аксакал
источник

Еще один пример для вашей точки зрения: запись Эйнштейна

Нил Г