Я пытаюсь спланировать учебный план для изучения MLE. Чтобы сделать это, я пытаюсь выяснить, какой минимальный уровень исчисления необходим для понимания MLE.
Достаточно ли понять основы исчисления (то есть найти минимум и максимум функций), чтобы понять MLE?
Ответы:
Чтобы расширить мой комментарий - это зависит. Если вы только пытаетесь понять основы, то возможность найти экстремумы функций дает вам правильный путь (хотя во многих практических случаях MLE вероятность максимизируется численно, и в этом случае вам потребуются некоторые другие навыки, а также некоторые Основное исчисление).
Я оставлю в стороне хорошие простые случаи, когда вы получаете явные алгебраические решения. Тем не менее, исчисление часто очень полезно.
Я буду принимать независимость во всем. Давайте рассмотрим простейший случай оптимизации с 1 параметром. Сначала мы рассмотрим случай, когда мы можем взять производные и отделить функцию параметра и статистику.
Рассмотрим плотностьG a m m a (α,1)
Тогда для выборки размераN вероятность равна
и, следовательно, логарифмическая правдоподобность равнаl (α; x )= ∑я = 1NпереИкс( хя; а )= ∑я = 1Nпер( 1Γ ( α )Иксα - 1яехр( - хя) )
= ∑я = 1N- ИнΓ(α)+(α−1)lnxi−xi
= - n lnΓ ( α ) +(α-1) SИкс- н х¯
гдеSИкс= ∑Nя = 1перИкся . Принимая производные,
Так что, если мы устанавливаем , что к нулю и попытаться решить для альфа , мы можем получить это: ψ ( α ) = LN G ( х )α^ ψ ( α^) = lnG ( х )
Это не имеет решения с точки зрения элементарных функций, оно должно быть рассчитано численно; по крайней мере, мы смогли получить функцию параметра с одной стороны и функцию данных с другой. Существуют различные алгоритмы нахождения нуля, которые можно использовать, если у вас нет явного способа решения уравнения (даже если вы без производных, например, есть двоичный раздел).
В целом вероятность здесь не имеет уникального локального максимума, а несколько локальных максимумов. Если вы обнаружили на локальный максимум, может быть другой, больше одного в другом месте. (Иногда люди сосредотачиваются на определении локального максимума, ближайшего к медиане, или чего-то подобного.)
В других случаях пространство параметров может быть дискретным.
Иногда поиск максимума может быть довольно сложным.
И это только выборка проблем с одним параметром. Когда у вас есть несколько параметров, все становится более сложным.
источник
Определенное средство с логарифмами определенно будет полезно, поскольку максимизация логарифма вероятности обычно намного проще, чем максимизация самой вероятности.
источник