Всегда ли MLE означает, что мы знаем основной PDF наших данных, а EM означает, что мы не знаем?

У меня есть несколько простых концептуальных вопросов, которые я хотел бы прояснить в отношении MLE (Максимальная оценка правдоподобия) и какую связь он имеет, если таковые имеются, с EM (Максимальное ожидание).

Насколько я понимаю, если кто-то говорит «Мы использовали MLE», означает ли это автоматически, что у него есть явная модель PDF их данных? Мне кажется, что ответ на это да. Другими словами, если кто-то скажет «MLE», будет справедливо спросить его, какой PDF-файл он использует. Было бы это правильно?

И наконец, в EM я понимаю, что в EM мы на самом деле не знаем - или не должны знать - базовый PDF наших данных. Это моё понимание.

Спасибо.

estimation maximum-likelihood expectation-maximization Creatron
источник

«М» в EM означает максимизацию ... вероятности. Чтобы записать вероятность, нам нужен PDF. EM - это способ найти MLE в присутствии «ненаблюдаемых» в некотором смысле (которые заполняются в E-шаге). То есть для использования EM вам нужна явная модель.

Glen_b

@Glen_b Спасибо, Глеб_b. Итак, 1) было бы правильно сказать, что в EM, как и в MLE, мы всегда предполагаем некоторую модель PDF данных "? Это означает, что если кто-то говорит" Мы использовали MLE / EM ", мы можем честно спросить:" Что Вы предполагали, что «PDF-файлы». Будет ли это правильной оценкой? 2) Наконец, что касается EM, я полагаю, что ненаблюдаемые, на которые вы ссылаетесь, вероятности того, что конкретные PDF-файлы составляют смесь, правильно? Спасибо заранее.

Creatron

Обратите внимание, что существуют непараметрические методы максимального правдоподобия. Посмотрите на Каплана-Мейера.

Soakley

Creatron - on (1) Обратите внимание, что EM - это алгоритм для вычисления MLE , с которым иначе было бы трудно иметь дело. В любом случае я бы задал чуть более общий вопрос «какой была ваша модель?», Поскольку вполне возможно, что модель будет более сложной, чем какой-то отдельный PDF-файл. Вкл. (2) Алгоритм ЭМ применяется не только к смесям; это более общее, чем это.

Glen_b

Ответы:

Метод MLE может применяться в тех случаях, когда кто-то знает базовую функциональную форму pdf (например, гауссовскую, логарифмическую, экспоненциальную или любую другую), но не базовые параметры; например, они не знают значений и в pdf: или любой другой тип PDF, который они принимают. Задача метода MLE состоит в том, чтобы выбрать лучшие (то есть наиболее вероятные) значения для неизвестных параметров, учитывая конкретные измерения данных которые фактически наблюдались , Поэтому, чтобы ответить на ваш первый вопрос, да, вы всегда можете спросить кого-нибудь, что $\mu$ $\sigma$

f (x | μ, σ) = \frac{1}{\sqrt{2 π σ^{2}}} \exp [\frac{- (x - μ)^{2}}{2 σ^{2}}]

$f(x|\mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^{2}}} \exp\left[\frac{-(x-\mu)^{2}}{2 \sigma^{2}}\right]$

x_{1}, x_{2}, x_{3}, . . .

$x_{1}, x_{2}, x_{3}, ...$ форма pdf, которую они принимают для оценки максимального правдоподобия; на самом деле, оценочные значения параметров, которые они вам сообщают, даже не имеют смысла, если только они не передают этот контекст.

Алгоритм EM, как я видел его в прошлом, больше похож на мета-алгоритм, где некоторые метаданные отсутствуют, и вы должны оценить это также. Так, например, возможно, у меня есть PDF, который представляет собой смесь нескольких гауссиан, например: Внешне, за исключением добавление параметра амплитуды , это очень похоже на предыдущую задачу, но что если я скажу вам, что мы также даже не знаем значение (т. е. количество мод в гауссовой смеси) и мы хотим оценить это по данным измерений

f (x | A_{1}, . . ., A_{N}, μ_{1}, . . ., μ_{N}, σ_{1}, . . . σ_{N}) = \sum_{k = 1}^{N} \frac{A_{k}}{\sqrt{2 π σ_{k}^{2}}} \exp [\frac{- (x - μ_{k})^{2}}{2 σ_{k}^{2}}]

$f(x|A_{1},...,A_{N},\mu_{1},...,\mu_{N}, \sigma_{1},...\sigma_{N}) = \sum_{k=1}^{N} \frac{A_{k}}{\sqrt{2\pi\sigma_{k}^{2}}} \exp\left[\frac{-(x-\mu_{k})^{2}}{2 \sigma_{k}^{2}}\right]$

A_{k}

$A_{k}$

N

$N$

x_{1}, x_{2}, x_{3}, . . .

$x_{1}, x_{2}, x_{3}, ...$ тоже?

В этом случае у вас есть проблема, потому что каждое возможное значение (это «мета» часть, на которую я ссылался выше) действительно в некотором смысле генерирует другую модель. Если , то у вас есть модель с тремя параметрами ( , , ), тогда как если , то у вас есть модель с шестью параметрами ( , , , , , ). Наилучшие значения, которые вы получите для ( , , ) в $N$ $N=1$ $A_{1}$ $\mu_{1}$ $\sigma_{1}$ $N=2$ $A_{1}$ $A_{2}$ $\mu_{1}$ $\mu_{2}$ $\sigma_{1}$ $\sigma_{2}$ $A_{1}$ $\mu_{1}$ $\sigma_{1}$ $N=1$ Модель нельзя напрямую сравнивать со значениями наилучшего соответствия, которые вы получаете для тех же параметров в модели , потому что это разные модели с разным числом степеней свободы . $N=2$

Роль алгоритма EM является создание механизма для создания этих типов сравнений ( как правило , путем наложения «сложности штрафа» , который предпочитает меньшие значения ) , так что мы можем выбрать лучшее общее значение для . $N$ $N$

Итак, чтобы ответить на ваш оригинальный вопрос, алгоритм EM требует менее точной спецификации формы PDF; Можно сказать, что он рассматривает ряд альтернативных опций (например, опцию, где , , и т. д.), но все же требует, чтобы вы указали что-то об основной математической форме этих опций: вам все еще нужно указать «семейство» возможных PDF-файлов, в некотором смысле, даже если вы позволяете алгоритму решать за вас, какой «член» семейства обеспечивает наилучшее соответствие данным. $N=1$ $N=2$ $N=3$

stachyra
источник

Некоторые продолжения вашего превосходного ответа @stachyra: (1): Второе уравнение (с суммированием) - это PDF вашей смеси? (Имеется в виду, что ?) (2): Что касается упомянутого здесь EM-алгоритма - немного запутано - это значение заданное как вход для EM в начале, или это то, что EM будет выплевывать как выход в итоге?

\sum A_{k} = 1

$\sum A_k = 1$

N

$N$

Creatron

(3) Опять же для EM, когда вы говорите «указать семейство возможных PDF-файлов» для EM, означает ли это, что мы даем ему «возможности» работать, например, с «Этими данными являются два гауссиана и один пуассон» ", или" Эти данные состоят из 3 хи-квадрат PDF и 1 гауссов ", и т. д.? Это сбивает с толку, потому что это означает, что мы указываем , что я беру из вашего поста, это то, что EM дает нам ...

N

$N$

Creatron

1) Да, это pdf моей смеси, и да, . 2) На практике вы обычно задаете минимальное / максимальное значение для рассматриваемого алгоритма, и он просматривает все допустимые значения, чтобы найти лучшее. 3) В большинстве случаев разные возможности, которые вы пытаетесь выбрать, это просто разные возможные значения ; например, « дает хорошее соответствие, но еще лучше». Если вы хотите рассмотреть альтернативы, которые включают более разнородный набор функциональных форм, в принципе это тоже возможно, но сложнее реализовать на практике.

\sum A_{k} = 1

$\sum A_{k} = 1$

N

$N$

N

$N$

N = 4

$N=4$

N = 5

$N=5$

Стачира

Спасибо, стачира. Последний вопрос, PDF из нашей смеси данных (приведенный во втором уравнении, составленном из взвешенной суммы PDF), НЕ совпадает с объединенным PDF всех образцов наших данных, который является продуктом их PDF, верно ? (Предположим, что образцы данных являются IID).

Creatron

Нет, совсем нет - это две совершенно разные вещи. Объединенный pdf, который вы описываете, звучит гораздо более похожим на форму функции правдоподобия, используемой в MLE. Учебник может быть полезным для вас здесь. Что касается MLE, мне нравится глава 10 «Сокращение данных и анализ ошибок для физических наук» Филиппа Р. Бевингтона и Д. Кита Робинсона или раздел 6.1 «Статистический анализ данных» Глена Коуэна. Для конкретного примера того, как сделать один конкретный тип реализации EM, мне нравится это объяснение, разделы со 2 по 5.

stachyra

MLE требует знания как минимум маргинальных распределений. При использовании MLE мы обычно оцениваем параметры совместного распределения, делая предположение о iid, а затем определяем совместное распределение как произведение предельных значений, которое мы знаем. Есть варианты, но это идея в большинстве случаев. Так что MLE - это параметрический метод.

EM-алгоритм - это метод максимизации функций правдоподобия, которые входят в состав алгоритма MLE. Это часто (обычно?) Используется для численных решений.

Всякий раз, когда мы используем MLE, нам нужны как минимум маргинальные распределения и некоторые предположения о том, как соединение связано с маргиналами (независимость и т. Д.). Поэтому оба метода основаны на знании распределений.

Чарльз Пехливанян
источник

Спасибо @Charles, что имеет смысл. Что это значит тогда, когда люди говорят о «непараметрическом MLE». Эта фраза не имеет смысла на первый взгляд. MLE всегда оценивает параметр распределения, верно?

Creatron

Они могут говорить об ELE (эмпирической оценке правдоподобия). Я никогда не использовал это; Я постараюсь объяснить, если это необходимо. В противном случае я не уверен.

Чарльз Пехливанян