В чем разница между оценкой максимального правдоподобия и градиентным спуском?

Каковы преимущества и недостатки обоих методов?

maximum-likelihood predictive-models optimization gradient-descent GeorgeOfTheRF
источник

Я не ищу только определения этих двух методов, которые у меня уже есть из поиска Google. Я пытаюсь понять, какой метод предпочтительнее в каком случае. Например: для Bigdata один будет работать лучше, чем другие и т. Д. Я не смог найти хорошего материала, который бы рассказывал о практических аспектах и т. Д.

GeorgeOfTheRF

Как ворон похож на письменный стол?

whuber

@ML_Pro GD не имеет никакого отношения к статистическому моделированию, это алгоритм. Возможно, вы могли бы начать с некоторого вводного справочника по статистике, чтобы лучше понять статистический вывод, прежде чем углубляться в изучение инструментов (таких как GD) для решения статистических задач.

Тим

Вы хотели спросить разницу между градиентным спуском и максимизацией ожиданий (что обычно используется для решения проблемы оптимизации в MLE)?

Соби

Ответы:

Оценка максимального правдоподобия - это общий подход к оценке параметров в статистических моделях путем максимизациифункции правдоподобия, определенной как

L (θ | Икс) знак равно е (Икс | θ)

$L(\theta|X) = f(X|\theta)$

то есть вероятность получения данных задана некоторым значением параметра . Зная функцию правдоподобия для данной задачи вы можете искать такое & , что максимизирует вероятность получения данных у вас есть. Иногда нам известны оценки, например, среднее арифметическое является оценкой MLE для параметра для нормального распределения , но в других случаях вы можете использовать другие методы, которые включают использование алгоритмов оптимизации. Подход ML не говорит вам, как найти оптимальное значение - вы можете просто принять догадки и использовать вероятность, чтобы сравнить, какое предположение было лучше, - он просто говорит вам, как вы можете сравнить, если одно значение $X$ $\theta$ $\theta$ $\mu$ $\theta$ является «более вероятным», чем другой. $\theta$

Градиентный спуск - это алгоритм оптимизации . Вы можете использовать этот алгоритм, чтобы найти минимум (или максимум, тогда он называется градиентным всплытием ) множества различных функций. Алгоритм на самом деле не заботится о том, какую функцию он минимизирует, он просто делает то, о чем его просили. Таким образом, используя алгоритм оптимизации, вы должны каким-то образом узнать, как определить, является ли одно значение интересующего параметра «лучше», чем другое. Вы должны предоставить вашему алгоритму некоторую функцию, чтобы минимизировать, и алгоритм будет заниматься поиском его минимума.

Вы можете получить оценки максимального правдоподобия, используя различные методы, и одним из них является алгоритм оптимизации. С другой стороны, градиентный спуск также может использоваться для максимизации функций, отличных от функции правдоподобия.

Тим
источник

@ML_Pro Я предоставил две ссылки, где вы можете найти подробную информацию, я не думаю, что есть необходимость дублировать эти ответы.

Тим

@ML_Pro как я уже писал в своем ответе, они разные вещи , и вы не можете их сравнивать ...

Тим

Да, но MLE - это общий подход, а GD - это просто алгоритм, который вы можете использовать, чтобы минимизировать количество различных функций. Это как вы сравнили алгебру с карманным калькулятором ...

Тим

MLE определяет целевую функцию (функцию правдоподобия); GD находит оптимальное решение проблемы после определения целевой функции. Вы можете использовать GD (или другие алгоритмы оптимизации) для решения проблемы максимального правдоподобия, и результатом будет оценка максимального правдоподобия.

Jbowman

@ML_Pro это описано в ссылках, которые я указал в своем ответе. Короче говоря: да, это продукт PDF. Продукт, потому что мы предполагаем, что данные являются iid. Они определены в терминах pdf, потому что мы говорим о вероятностной модели.

Тим

-3

Обычно, когда мы получаем функцию правдоподобия , тогда мы решаем уравнение

е знак равно L (θ)

$f = l(\theta)$

\frac{d е}{d θ} знак равно 0

$\frac{ df }{ d\theta } = 0$

мы можем получить значение которое может дать максимальное или минимальное значение , готово!

θ

$\theta$ f

Но функция правдоподобия логистической регрессии не является решением в такой замкнутой форме . Поэтому мы должны использовать другой метод, например gradient descent.

Belter
источник

@ Тим, вы можете кое-что увидеть здесь, courses.cs.washington.edu/courses/cse446/13sp/slides/…

Belter

«Коэффициенты регрессии обычно оцениваются с использованием оценки максимального правдоподобия» ( en.wikipedia.org/wiki/Logistic_regression )

Тим

Оценка максимального правдоподобия - это своего рода метод оценки коэффициентов регрессии, но у нас есть несколько способов найти решение MLE. Таким образом, использование likelihood function+ gradient descent(чтобы получить решение функции правдоподобия) все еще является способом сделать MLE.

Belter

Вы также можете увидеть это предложение

Unlike linear regression, we can no longer write down the MLE in closed form. Instead, we need to use an optimization algorithm to compute it. For this, we need to derive the gradient and Hessian.

из машинного обучения: вероятностная перспектива, Кевин Мерфи.

Belter

... тогда формулировка вашего ответа сбивает с толку, поскольку кажется, что вы говорите, что для логистической регрессии мы не используем ML, а вместо этого мы используем GD.

Тим