Всегда ли MLE означает, что мы знаем основной PDF наших данных, а EM означает, что мы не знаем?

12

У меня есть несколько простых концептуальных вопросов, которые я хотел бы прояснить в отношении MLE (Максимальная оценка правдоподобия) и какую связь он имеет, если таковые имеются, с EM (Максимальное ожидание).

Насколько я понимаю, если кто-то говорит «Мы использовали MLE», означает ли это автоматически, что у него есть явная модель PDF их данных? Мне кажется, что ответ на это да. Другими словами, если кто-то скажет «MLE», будет справедливо спросить его, какой PDF-файл он использует. Было бы это правильно?

И наконец, в EM я понимаю, что в EM мы на самом деле не знаем - или не должны знать - базовый PDF наших данных. Это моё понимание.

Спасибо.

Creatron
источник
1
«М» в EM означает максимизацию ... вероятности. Чтобы записать вероятность, нам нужен PDF. EM - это способ найти MLE в присутствии «ненаблюдаемых» в некотором смысле (которые заполняются в E-шаге). То есть для использования EM вам нужна явная модель.
Glen_b
@Glen_b Спасибо, Глеб_b. Итак, 1) было бы правильно сказать, что в EM, как и в MLE, мы всегда предполагаем некоторую модель PDF данных "? Это означает, что если кто-то говорит" Мы использовали MLE / EM ", мы можем честно спросить:" Что Вы предполагали, что «PDF-файлы». Будет ли это правильной оценкой? 2) Наконец, что касается EM, я полагаю, что ненаблюдаемые, на которые вы ссылаетесь, вероятности того, что конкретные PDF-файлы составляют смесь, правильно? Спасибо заранее.
Creatron
Обратите внимание, что существуют непараметрические методы максимального правдоподобия. Посмотрите на Каплана-Мейера.
Soakley
Creatron - on (1) Обратите внимание, что EM - это алгоритм для вычисления MLE , с которым иначе было бы трудно иметь дело. В любом случае я бы задал чуть более общий вопрос «какой была ваша модель?», Поскольку вполне возможно, что модель будет более сложной, чем какой-то отдельный PDF-файл. Вкл. (2) Алгоритм ЭМ применяется не только к смесям; это более общее, чем это.
Glen_b

Ответы:

13

Метод MLE может применяться в тех случаях, когда кто-то знает базовую функциональную форму pdf (например, гауссовскую, логарифмическую, экспоненциальную или любую другую), но не базовые параметры; например, они не знают значений и в pdf: или любой другой тип PDF, который они принимают. Задача метода MLE состоит в том, чтобы выбрать лучшие (то есть наиболее вероятные) значения для неизвестных параметров, учитывая конкретные измерения данных которые фактически наблюдались , Поэтому, чтобы ответить на ваш первый вопрос, да, вы всегда можете спросить кого-нибудь, чтоμσ

f(x|μ,σ)=12πσ2exp[(xμ)22σ2]
x1,x2,x3,...форма pdf, которую они принимают для оценки максимального правдоподобия; на самом деле, оценочные значения параметров, которые они вам сообщают, даже не имеют смысла, если только они не передают этот контекст.

Алгоритм EM, как я видел его в прошлом, больше похож на мета-алгоритм, где некоторые метаданные отсутствуют, и вы должны оценить это также. Так, например, возможно, у меня есть PDF, который представляет собой смесь нескольких гауссиан, например: Внешне, за исключением добавление параметра амплитуды , это очень похоже на предыдущую задачу, но что если я скажу вам, что мы также даже не знаем значение (т. е. количество мод в гауссовой смеси) и мы хотим оценить это по данным измерений

f(x|A1,...,AN,μ1,...,μN,σ1,...σN)=k=1NAk2πσk2exp[(xμk)22σk2]
AkNx1,x2,x3,... тоже?

В этом случае у вас есть проблема, потому что каждое возможное значение (это «мета» часть, на которую я ссылался выше) действительно в некотором смысле генерирует другую модель. Если , то у вас есть модель с тремя параметрами ( , , ), тогда как если , то у вас есть модель с шестью параметрами ( , , , , , ). Наилучшие значения, которые вы получите для ( , , ) вNN=1A1μ1σ1N=2A1A2μ1μ2σ1σ2A1μ1σ1N=1Модель нельзя напрямую сравнивать со значениями наилучшего соответствия, которые вы получаете для тех же параметров в модели , потому что это разные модели с разным числом степеней свободы .N=2

Роль алгоритма EM является создание механизма для создания этих типов сравнений ( как правило , путем наложения «сложности штрафа» , который предпочитает меньшие значения ) , так что мы можем выбрать лучшее общее значение для .NN

Итак, чтобы ответить на ваш оригинальный вопрос, алгоритм EM требует менее точной спецификации формы PDF; Можно сказать, что он рассматривает ряд альтернативных опций (например, опцию, где , , и т. д.), но все же требует, чтобы вы указали что-то об основной математической форме этих опций: вам все еще нужно указать «семейство» возможных PDF-файлов, в некотором смысле, даже если вы позволяете алгоритму решать за вас, какой «член» семейства обеспечивает наилучшее соответствие данным.N=1N=2N=3

stachyra
источник
Некоторые продолжения вашего превосходного ответа @stachyra: (1): Второе уравнение (с суммированием) - это PDF вашей смеси? (Имеется в виду, что ?) (2): Что касается упомянутого здесь EM-алгоритма - немного запутано - это значение заданное как вход для EM в начале, или это то, что EM будет выплевывать как выход в итоге? НAk=1N
Creatron
(3) Опять же для EM, когда вы говорите «указать семейство возможных PDF-файлов» для EM, означает ли это, что мы даем ему «возможности» работать, например, с «Этими данными являются два гауссиана и один пуассон» ", или" Эти данные состоят из 3 хи-квадрат PDF и 1 гауссов ", и т. д.? Это сбивает с толку, потому что это означает, что мы указываем , что я беру из вашего поста, это то, что EM дает нам ...N
Creatron
1) Да, это pdf моей смеси, и да, . 2) На практике вы обычно задаете минимальное / максимальное значение для рассматриваемого алгоритма, и он просматривает все допустимые значения, чтобы найти лучшее. 3) В большинстве случаев разные возможности, которые вы пытаетесь выбрать, это просто разные возможные значения ; например, « дает хорошее соответствие, но еще лучше». Если вы хотите рассмотреть альтернативы, которые включают более разнородный набор функциональных форм, в принципе это тоже возможно, но сложнее реализовать на практике. Н Н Н = 4 Н = 5Ak=1NNN=4N=5
Стачира
Спасибо, стачира. Последний вопрос, PDF из нашей смеси данных (приведенный во втором уравнении, составленном из взвешенной суммы PDF), НЕ совпадает с объединенным PDF всех образцов наших данных, который является продуктом их PDF, верно ? (Предположим, что образцы данных являются IID).
Creatron
Нет, совсем нет - это две совершенно разные вещи. Объединенный pdf, который вы описываете, звучит гораздо более похожим на форму функции правдоподобия, используемой в MLE. Учебник может быть полезным для вас здесь. Что касается MLE, мне нравится глава 10 «Сокращение данных и анализ ошибок для физических наук» Филиппа Р. Бевингтона и Д. Кита Робинсона или раздел 6.1 «Статистический анализ данных» Глена Коуэна. Для конкретного примера того, как сделать один конкретный тип реализации EM, мне нравится это объяснение, разделы со 2 по 5.
stachyra
2

MLE требует знания как минимум маргинальных распределений. При использовании MLE мы обычно оцениваем параметры совместного распределения, делая предположение о iid, а затем определяем совместное распределение как произведение предельных значений, которое мы знаем. Есть варианты, но это идея в большинстве случаев. Так что MLE - это параметрический метод.

EM-алгоритм - это метод максимизации функций правдоподобия, которые входят в состав алгоритма MLE. Это часто (обычно?) Используется для численных решений.

Всякий раз, когда мы используем MLE, нам нужны как минимум маргинальные распределения и некоторые предположения о том, как соединение связано с маргиналами (независимость и т. Д.). Поэтому оба метода основаны на знании распределений.

Чарльз Пехливанян
источник
Спасибо @Charles, что имеет смысл. Что это значит тогда, когда люди говорят о «непараметрическом MLE». Эта фраза не имеет смысла на первый взгляд. MLE всегда оценивает параметр распределения, верно?
Creatron
Они могут говорить об ELE (эмпирической оценке правдоподобия). Я никогда не использовал это; Я постараюсь объяснить, если это необходимо. В противном случае я не уверен.
Чарльз Пехливанян