Какие классические обозначения в статистике, линейной алгебре и машинном обучении? И какие связи между этими обозначениями?

26

Когда мы читаем книгу, понимание обозначений играет очень важную роль в понимании содержания. К сожалению, разные сообщества имеют разные условные обозначения для формулировки модели и задачи оптимизации. Может ли кто-нибудь суммировать некоторые обозначения формулировки здесь и указать возможные причины?

Я приведу здесь пример: в литературе по линейной алгебре классическая книга представляет собой введение Стренга в линейную алгебру . Наиболее часто используемые обозначения в книге

Ax=b

Где A - матрица коэффициентов , x - переменные, которые нужно решить, а b - вектор в правой части уравнения . Причина книга выбрать это обозначение является основной задачей линейной алгебры является решение линейной системы и выяснить , что вектор x . При такой формулировке задача OLS-оптимизации

minimizex  Axb2

В области статистики или машинного обучения грамотные (из книги « Элементы статистического обучения» ) люди используют разные обозначения для обозначения одного и того же:

Xβ=y

Где X - это матрица данных , β - это коэффициенты или веса, которые нужно изучить , y - это ответ. В Причина люди используют это потому , что люди в статистике или машинного обучения сообщества управляемых данными , поэтому данные и реакция наиболее интересная вещь для них, где они используют X и y представляют.

Теперь мы можем видеть все возможные путаницы: в первом уравнении такой же, как X во втором уравнении. И во втором уравнении X не то, что нужно решать. Также для терминов: A - матрица коэффициентов в линейной алгебре, но это данные в статистике. β также называется «коэффициентами».AXXAβ

Кроме того, я упоминал, что - это не совсем то, что люди широко используют в машинном обучении, люди используют половинную векторизованную версию, которая суммирует все точки данных. Такие какXβ=y

miniL(yi,f(xi))

Я думаю, что причина этого в том, что хорошо говорить о стохастическом градиентном спуске и других различных функциях потерь. Кроме того, краткие обозначения матрицы исчезают для других задач, кроме линейной регрессии.

Матричная запись для логистической регрессии

Может ли кто-нибудь дать больше резюме по обозначениям в разных литературных источниках? Я надеюсь, что умные ответы на этот вопрос могут быть использованы в качестве хорошего справочного пособия для людей, читающих книги разных литератур.

пожалуйста, не ограничивайтесь моим примером и X β = y . Есть много других. Такие какAx=bXβ=y

Почему существуют две разные формулировки / обозначения логистических потерь?

hxd1011
источник
5
Нотация на самом деле не существует как некая внешне проверяемая истина. Это язык, поэтому он по своей сути контекстуален и подлежит переопределению. Если я напишу x * b и скажу, что это означает матричный x-точечный вектор произведений b, то это просто, выделено жирным шрифтом или нет.
Sycorax говорит восстановить Monica
3
Я бы сказал, что Ax=b и имеют эквивалентные обозначения. Просто имена переменных изменились. В общем, вы не найдете последовательного именования переменных от бумаги к бумаге, даже внутри поля. Xβ=Y
user20160
6
В настоящее время это имеет 10 голосов, 150 просмотров; это кажется ценной и полезной темой. Более того, у него есть голос с ответом «против»; так что я не думаю, что это слишком широко, чтобы ответить.
gung - Восстановить Монику
3
Я согласен с @gung, сообщество явно заинтересовано в этом вопросе. Я номинирован на повторное открытие.
Мэтью Друри,
1
Я думаю, что это слишком широко для обычного q. - но так как он уже CW и в некоторой степени популярен, я добавил свой голос, чтобы вновь открыть четыре, которые были там.
Scortchi - Восстановить Монику

Ответы:

18

Возможно, связанный с этим вопрос звучит так: «Какие слова используются в разных языках и каковы связи между этими словами?»

Нотация в некотором смысле похожа на язык:

  • Некоторые слова имеют специфические для региона значения; некоторые слова широко поняты.
  • Как могущественные народы распространяют свой язык, успешные области и влиятельные исследователи распространяют свои нотации.
  • Язык развивается с течением времени: язык имеет сочетание исторического происхождения и современного влияния.

Ваш конкретный вопрос ...

  • Я бы не согласился с вашим утверждением, что оба следуют «совершенно разным обозначениям». И и A x =Иксβзнак равноY используют заглавные буквы для обозначения матриц. Они нечторазные.AИксзнак равноб
  • Машинное обучение тесно связано со статистикой, большой и зрелой областью. Использование для представления матрицы данных почти наверняка является наиболее читаемым и наиболее стандартным соглашением, которому необходимо следовать. В то время как A x =Икс является стандартным для решения линейных систем, этонекак люди делают статистику писать нормальные уравнения. Вы найдете свою аудиторию более запутанной, если попытаетесь это сделать. Когда в Риме...AИксзнак равноб
  • В некотором смысле, сердце вашего пересмотренного вопроса звучит так: «Каково историческое происхождение статистики, использующей букву для представления данных и буквуИкс для представления неизвестной переменной, для решения которой?» β
    • Это вопрос к историкам статистики! Вкратце, я вижу, что влиятельный британский статистик и академик из Кембриджа Удни Йоль использовал для представления данных в своем « Введении в теорию статистики» (1911). Он написал уравнение регрессии как x 1 = a + b x 2 , с целью наименьших квадратов, сводящей к минимуму ( x 1 - a - b x 2 ) 2 , и с решением b 12 = x 1ИксИкс1знак равноa+бИкс2Σ(Икс1-a-бИкс2)2 . Это по крайней мере восходит к тому времени ...б12знак равноΣИкс1Икс2ΣИкс22
    • Еще более влиятельный Р.А. Фишер использовал для зависимой переменной и x для независимой переменной в своей книге « Статистические методы для научных работников» 1925 года . (Подсказка к @Nick Cox для предоставления ссылки с информацией.)YИкс

Хорошая запись - это как хороший язык. Избегайте специфичных для поля жаргонов, когда это возможно Напишите в математическом эквиваленте высокий английский BBC, язык, который понятен большинству тех, кто говорит по-английски. Надо писать, когда это возможно, используя обозначения, которые ясны и широко понятны.

Matthew Gunn
источник
1
Этот историк-любитель статистики может предложить педантичное исправление, согласно которому Йоль никогда не был профессором ... Что еще интереснее, на jeff560.tripod.com/stat.html есть соответствующий веб-сайт, за исключением того, что в настоящее время он не работает.
Ник Кокс
2
χ2
@NickCox Фантастическая ссылка jeff560.tripod.com/stat.html (для меня ...), которая ссылается на Юла и Р.А. Фишера! Самые ранние математические истоки регрессии, очевидно, восходят к Гауссу и Лапласу, но в моем полном любительском поиске они, похоже, использовали разные обозначения.
Мэтью Ганн
jeff560.tripod.com/stat.html, как я пишу, является обновлением 2014 года; www.math.hawaii.edu/~tom/history/stat.html является копией версии 2007 года.
Ник Кокс,