«Фундаментальная» идея статистики для оценки параметров - это максимальная вероятность . Мне интересно, какова соответствующая идея в машинном обучении.
Qn 1. Было бы справедливо сказать, что «фундаментальная» идея в машинном обучении для оценки параметров: «Функции потери»
[Примечание: у меня сложилось впечатление, что алгоритмы машинного обучения часто оптимизируют функцию потерь, и, следовательно, вышеупомянутый вопрос.]
Qn 2: Есть ли литература, которая пытается преодолеть разрыв между статистикой и машинным обучением?
[Примечание: возможно, путем соотнесения функций потерь с максимальной вероятностью. (например, OLS эквивалентна максимальной вероятности для нормально распределенных ошибок и т. д.)]
machine-learning
maximum-likelihood
loss-functions
pac-learning
Къетил б Халворсен
источник
источник
Ответы:
Если статистика связана с максимизацией вероятности, то машинное обучение - это минимизация потерь. Поскольку вы не знаете потерь, которые вы понесете при получении будущих данных, вы сводите к минимуму приблизительное значение, то есть эмпирические потери.
Например, если у вас есть задача прогнозирования и вы оцениваете количество ошибочных классификаций, вы можете обучить параметры таким образом, чтобы полученная модель вызвала наименьшее количество ошибочных классификаций данных обучения. «Количество ошибочных классификаций» (т. Е. Потеря 0-1) - это сложная функция потерь, с которой невозможно работать, поскольку она не дифференцируется, поэтому вы приближаете ее с помощью плавного «суррогата». Например, потеря журнала - это верхняя граница потери 0-1, так что вы можете минимизировать ее, и это окажется таким же, как максимизация условной вероятности данных. С параметрической моделью этот подход становится эквивалентным логистической регрессии.
В задаче структурированного моделирования с приближением потерь по логарифму к потере 0-1 вы получаете что-то отличное от максимальной условной вероятности, вместо этого вы максимизируете произведение (условной) предельной вероятности.
Чтобы лучше приблизиться к потерям, люди заметили, что модель обучения для минимизации потерь и использования этой потери в качестве оценки будущих потерь является чрезмерно оптимистичной оценкой. Таким образом, для более точной минимизации (истинных будущих потерь) они добавляют термин коррекции смещения к эмпирическим потерям и минимизируют его, это называется минимизацией структурного риска.
На практике вычисление правильного члена коррекции смещения может быть слишком сложным, поэтому вы добавляете выражение «в духе» термина коррекции смещения, например, сумму квадратов параметров. В конце концов, почти все подходы к классификации с параметрическим машинным обучением заканчиваются обучением модели, чтобы минимизировать следующее
где - ваша модель, параметризованная вектором w , i берется по всем точкам данных { x i , y i } , L - некоторая вычислительная аппроксимация вашей истинной потери, а P ( w ) - некоторый член для коррекции / регуляризации смещенияm w i {xi,yi} L P(w)
Например , если ваш , у ∈ { - 1 , 1 } , типичный подход должен был бы позволить м ( х ) = знак ( ш ⋅ х ) , L ( м ( х ) , у ) = - log ( y × ( x ⋅ w ) ) , P (x∈{−1,1}d y∈{−1,1} m(x)=sign(w⋅x) L(m(x),y)=−log(y×(x⋅w)) и выберите q путем перекрестной проверкиP(w)=q×(w⋅w) q
источник
Я дам подробный ответ. Может обеспечить больше ссылок по требованию, хотя это не очень спорным.
Я не думаю, что есть разрыв между полями, просто много разных подходов, все в некоторой степени пересекающихся. Я не чувствую необходимости превращать их в систематические дисциплины с четко определенными различиями и сходствами, и учитывая скорость, с которой они развиваются, я думаю, что это все равно обреченное предприятие.
источник
Я не могу опубликовать комментарий (подходящее место для этого комментария), поскольку у меня недостаточно репутации, но ответ, принятый лучшим ответом владельца вопроса, не соответствует сути.
«Если статистика сводится к максимизации вероятности, то машинное обучение - это минимизация потерь».
Вероятность - это функция потерь. Максимизация вероятности - это то же самое, что минимизация функции потерь: отклонение, которое в -2 раза больше логарифмической функции вероятности. Аналогичным образом, решение для наименьших квадратов сводится к минимизации функции потерь, описывающей остаточную сумму квадратов.
И ML, и статистика используют алгоритмы для оптимизации подгонки какой-либо функции (в широком смысле) к данным. Оптимизация обязательно предполагает минимизацию некоторой функции потерь.
источник
Есть тривиальный ответ - в машинном обучении нет оценки параметров! Мы не предполагаем, что наши модели эквивалентны некоторым скрытым фоновым моделям; мы рассматриваем и реальность, и модель как черные ящики, и мы пытаемся потрясти коробку модели (обучаемую в официальной терминологии), чтобы ее вывод был аналогичен выводу реальности.
Концепция не только вероятности, но и целого выбора модели на основе данных обучения заменяется оптимизацией точности (независимо от того, что определено; в принципе, добродетель в желаемом использовании) для невидимых данных; это позволяет оптимизировать как точность, так и повторный вызов. Это приводит к концепции способности обобщать, которая достигается различными способами в зависимости от типа учащегося.
Ответ на вопрос два сильно зависит от определений; все же я думаю, что непараметрическая статистика - это то, что связывает их.
источник
Я не думаю, что есть фундаментальная идея об оценке параметров в машинном обучении. Толпа ML будет счастливо максимизировать вероятность или апостериор, пока алгоритмы эффективны и предсказывают «точно». Основное внимание уделяется вычислениям, а результаты статистики широко используются.
Если вы ищете фундаментальные идеи в целом, то в теории вычислительного обучения PAC занимает центральное место; в статистической теории обучения минимизация структурных рисков ; и есть другие области (например, см. статью « Прогнозирование науки » Джона Лэнгфорда).
При соединении статистики / ML разрыв кажется чрезмерным. Мне понравился ответ Гэппи на вопрос "Две культуры".
источник
Вы можете переписать проблему максимизации правдоподобия как проблему минимизации потерь, определив потерю как отрицательную логарифмическую вероятность. Если вероятность является произведением независимых вероятностей или плотностей вероятностей, потеря будет суммой независимых членов, которые могут быть эффективно рассчитаны. Кроме того, если стохастические переменные нормально распределены, соответствующая проблема минимизации потерь будет проблемой наименьших квадратов.
Если возможно создать проблему минимизации потерь, переписав максимизацию вероятности, следует предпочесть создание проблемы минимизации потерь с нуля, поскольку это приведет к проблеме минимизации потерь, которая (надеюсь) более теоретически обоснованный и менее специальный. Например, веса, такие как взвешенные наименьшие квадраты, для которых вы обычно должны угадывать значения, будут просто возникать в процессе переписывания исходной задачи максимизации правдоподобия и уже будут иметь (надеюсь) оптимальные значения.
источник