MLE для распределения треугольников?

Можно ли применить обычную процедуру MLE к распределению треугольника? - Я пытаюсь, но я, кажется, заблокирован на том или ином этапе в математике, как определяется распределение. Я пытаюсь использовать тот факт, что я знаю количество выборок выше и ниже c (не зная c): эти 2 числа - cn и (1-c) n, если n - общее количество выборок. Однако, это, кажется, не помогает в выводе. Момент моментов дает оценку для c без особых проблем. Какова точная природа препятствия MLE здесь (если оно действительно есть)?

Больше деталей:

Рассмотрим в и распределение, определенное на : $c$ $[0,1]$ $[0,1]$

$f(x;c) = \frac{2x}{c}$ если x <c если c <= x
$f(x;c) = \frac{2(1-x)}{(1-c)}$

Давайте возьмем IID образцов из этого распределения образует логарифмическую вероятность с данным этим образцом: $n$ $\{x_{i}\}$

$\hat{l}(c | \{x_{i}\}) = \sum_{i=1}^{n}ln(f(x_{i}|c))$

Затем я пытаюсь использовать тот факт, что, учитывая форму $f$ , мы знаем, что образцы $cn$ упадут ниже (неизвестно) $c$ , а $(1-c)n$ упадет выше $c$ . ИМХО, это позволяет разложить суммирование в выражении логарифмического правдоподобия таким образом:

$\hat{l}(c | \{x_{i}\}) = \sum_{i=1}^{cn}ln\frac{2 x_{i}}{c} + \sum_{i=1}^{(1-c)n}ln\frac{2(1-x_{i})}{1-c}$

Здесь я не уверен, как поступить. MLE будет включать в себя взятие производной WRT лог правдоподобия, но я , как верхняя граница суммирования, которая , кажется , что блок. Я мог бы попробовать с другой формой логарифмического правдоподобия, используя функции индикатора: $c$ $c$

$\hat{l}(c | \{x_{i}\}) = \sum_{i=1}^{n}\{x_{i}<c\}ln\frac{2 x_{i}}{c} + \sum_{i=1}^{n}\{c<=x_{i}\}ln\frac{2(1-x_{i})}{1-c}$

Но вывести индикаторы тоже не так просто, хотя дельтаки Дирака могут позволить продолжить (пока еще есть индикаторы, поскольку нам нужно получать продукты).

Итак, здесь я заблокирован в MLE. Есть идеи?

distributions mathematical-statistics maximum-likelihood triangular-distribution Фрэнк
источник

Если это для какой-то темы, пожалуйста, добавьте тег самообучения. Если это не так, пожалуйста, объясните, как возникает проблема.

Glen_b

Спасибо за обновления; это позволяет намного легче говорить разумные вещи в ответ, так как это значительно сокращает объем дел, с которыми приходится иметь дело. Не могли бы вы рассмотреть мой предыдущий комментарий. Либо это подпадает под тег самообучения, либо нет, в любом случае я спрашивал, не сделаете ли вы что-нибудь.

Glen_b

Это не для домашней работы или класса. Это возникает у меня на работе. У нас есть другая оценка из метода моментов, но я пытаюсь получить более глубокое понимание того, что здесь происходит с MLE.

Фрэнк

Ладно; это дает мне больше свободы. Смотрите мой обновленный ответ. Я, вероятно, сделаю дополнительные дополнения в ближайшее время

Glen_b

Добавлены ссылки / ссылки

Glen_b

Можно ли применить обычную процедуру MLE к распределению треугольника?

Безусловно! Хотя есть некоторые странности, но в этом случае можно вычислить MLE.

Однако, если под «обычной процедурой» вы подразумеваете «взять производные логарифмического правдоподобия и установить его равным нулю», то, возможно, нет.

Какова точная природа препятствия MLE здесь (если оно действительно есть)?

Вы пытались нарисовать вероятность?

Продолжение после уточнения вопроса:

Вопрос об определении вероятности был не праздным комментарием, а центральным вопросом.

MLE будет включать в себя принятие производного

Нет. MLE включает нахождение argmax функции. Это включает в себя только поиск нулей производной при определенных условиях ... которые здесь не выполняются. В лучшем случае, если вам удастся сделать это, вы определите несколько локальных минимумов .

Как и предполагал мой предыдущий вопрос, посмотрите на вероятность.

Вот пример, 10 наблюдений с треугольным распределением на (0,1): $y$

0.5067705 0.2345473 0.4121822 0.3780912 0.3085981 0.3867052 0.4177924
0.5009028 0.8420312 0.2588613

Вот функции правдоподобия и логарифмического правдоподобия для для этих данных: $c$ вероятность пика треугольной

логарифмическая вероятность пика треугольной

Серые линии отмечают значения данных (вероятно, мне следовало создать новый образец, чтобы получить лучшее разделение значений). Черные точки отмечают вероятность / логарифмическую вероятность этих значений.

Вот приблизительный максимум, чтобы увидеть больше деталей:

Деталь вероятности

Как вы можете видеть из вероятности, во многих статистических данных о порядке функция правдоподобия имеет острые «углы» - точки, где производная не существует (что неудивительно - исходный PDF-файл имеет угол, и мы берем продукт PDF). Это (что в статистике ордеров есть острие) имеет место с треугольным распределением, и максимум всегда имеет место в одной из статистик ордеров. (То, что острие происходит при статистике порядка, не уникально для треугольных распределений; например, плотность Лапласа имеет угол, и в результате вероятность его центра равна единице при каждой статистике порядка.)

Как это происходит в моей выборке, максимум получается как статистика четвертого порядка, 0.3780912

Итак, чтобы найти MLE на (0,1), просто найдите вероятность при каждом наблюдении. Тот, с наибольшей вероятностью, является MLE . $c$ $c$

Полезная ссылка - глава 1 « Beyond Beta » Йохана ван Дорпа и Сэмюэля Коца. Как оказалось, глава 1 является бесплатной «учебной» главой книги - вы можете скачать ее здесь .

По этой проблеме есть прекрасная небольшая статья Эдди Оливера с треугольным распределением, я думаю, в американском статистике (который делает в основном те же точки; я думаю, что это было в углу учителя). Если мне удастся найти его, я дам его в качестве ссылки.

Редактировать: вот оно:

EH Оливер (1972), Странность максимального правдоподобия,
американский статистик , том 26, выпуск 3, июнь, p43-44

( ссылка издателя )

Если вы можете легко достать его, стоит посмотреть, но эта глава Dorp и Kotz охватывает большинство важных вопросов, так что это не критично.

В качестве продолжения вопроса в комментариях - даже если бы вы могли найти какой-то способ «сглаживания» углов, вам все равно придется иметь дело с тем фактом, что вы можете получить несколько локальных максимумов:

два локальных макс

Однако может оказаться возможным найти оценщики, которые имеют очень хорошие свойства (лучше, чем метод моментов), которые вы можете легко записать. Но ML на треугольнике на (0,1) - это несколько строк кода.

Если речь идет об огромных объемах данных, с этим тоже можно разобраться, но я думаю, это был бы другой вопрос. Например, не каждая точка данных может быть максимальной, что сокращает объем работы, и есть некоторые другие возможности экономии.

Glen_b
источник

Спасибо - я постараюсь опубликовать мою неудачную попытку, показывая, о каком именно дистрибутиве я говорю, и где я думаю, что я заблокирован.

Фрэнк

Спасибо за подробное объяснение! У меня была другая идея: предположим, что я мог бы найти семейство функций, которое сходится к распределению треугольника, но не будет кусочно - мог бы я использовать это для аналитического получения MLE, затем взять предел и предположить, что у меня будет MLE из само распределение треугольника?

Фрэнк

Возможно - я думаю, что это может зависеть от конкретного процесса лимитирования, который вы используете ... и вы, вероятно, по-прежнему будете иметь несколько локальных максимумов, так что, вероятно, в любом случае это только спасет вас от оценки вероятности, близкой к статистике экстремального порядка - но даже если это сработало, а зачем тебе вообще пытаться делать что-то такое сложное? Что не так с ML на треугольном распределении? Это действительно довольно просто сделать на практике.

Glen_b

Я должен сказать, что этот MLE для c, основанный на статистике порядка, довольно хорош, хотя вывод в главе выше требует некоторой работы (хотя и не слишком трудной) - хорошая иллюстрация того, что суть MLE заключается в argmax (конечно!), а не производная (как вы указали, и я полностью согласен, мне пришло в голову работать перед «обычным» шагом производной (т.е. просто беспокоиться о максимизации любыми средствами), но я не преследовал).

Фрэнк

@Frank: дополнительная ссылка Huang и Шен (2007) Более максимальные странности правдоподобия , журнал статистического планирования и умозаключений, Том 137, выпуск 7, июль, стр 2151-2155. Глен: Под статистикой заказов вы подразумеваете только упорядоченные значения ?

x_{i}

$x_{i}$

COOLSerdash

MLE для распределения треугольников?

Ответы: