Оценка параметров с помощью обобщенных линейных моделей

9

По умолчанию, когда мы используем glmфункцию в R, она использует метод итеративно перевешиваемых наименьших квадратов (IWLS), чтобы найти оценку максимального правдоподобия параметров. Теперь у меня есть два вопроса.

  1. Гарантируют ли оценки IWLS глобальный максимум функции правдоподобия? Основываясь на последнем слайде в этой презентации, я думаю, что нет! Я просто хотел убедиться в этом.
  2. Можно ли сказать, что причина вопроса 1 выше в том, что почти все методы численной оптимизации могут застрять на локальном максимуме, а не на глобальном максимуме?
Stat
источник

Ответы:

6

Когда вы пытаетесь оценить параметры, вы всегда хотите, чтобы было решение в закрытой форме. Однако, он не всегда существует (я полагаю, что в некоторых случаях он может существовать, но в настоящее время он неизвестен). Когда решение в закрытой форме не существует, необходимо использовать некоторую эвристическую стратегию для поиска в пространстве параметров наилучших возможных оценок параметров для использования. Есть много таких стратегий поиска (например , в R, ? Optim списки 6 методов общего назначения). IRWLS - это упрощенная версия алгоритма Ньютона-Рафсона .

К сожалению, ответ на ваш [ 1 ] заключается в том, что ни одна эвристическая стратегия поиска не гарантирует нахождение глобального минимума (максимума). Есть три причины, почему это так:

  1. Как отмечено на слайде 9 вашей связанной презентации, уникального решения не может быть. Примерами этого могут быть совершенная мультиколлинеарность или когда нужно оценить больше параметров, чем данных .
  2. Как отмечалось на слайде 10 (эта презентация довольно хорошая, я думаю), решение может быть бесконечным. Это может произойти в логистической регрессии, например, когда у вас есть идеальное разделение .
  3. Также может быть случай, когда существует конечный глобальный минимум (максимум), но алгоритм его не находит. Эти алгоритмы (особенно IRWLS и NR), как правило, начинаются с определенного места и «оглядываются вокруг», чтобы увидеть, не является ли движение в каком-либо направлении «спуском» (то есть улучшением подгонки). Если это так, то он будет повторно соответствовать на некотором расстоянии в этом направлении и повторяться до тех пор, пока предполагаемое / прогнозируемое улучшение не станет меньше некоторого порогового значения. Таким образом, может быть два способа не достичь глобального минимума:

    1. Скорость спуска от текущего местоположения к глобальному минимуму (максимуму) слишком мала, чтобы пересечь порог, и алгоритм останавливается на пути решения.
    2. Существует локальный минимум (максимум) между текущим местоположением и глобальным минимумом (максимумом), поэтому алгоритму кажется, что дальнейшее движение приведет к худшему совпадению.

Что касается вашего [ 2 ], помните, что разные стратегии поиска имеют разные тенденции, чтобы быть пойманными в локальных минимумах. Даже одну и ту же стратегию иногда можно адаптировать или начать с другой отправной точки для решения последних двух проблем.

Gung - Восстановить Монику
источник
Спасибо, блин. Еще один вопрос, как мы можем выбрать хорошую отправную точку при оптимизации?
Стат
Я не знаю, что обязательно есть лучший способ. Иногда вам нужно попробовать несколько разных отправных точек, если они не сходятся или если вы не уверены, что находитесь в глобальном минимуме. Я думаю, что общий способ, которым программы выбирают отправную точку, состоит в том, чтобы использовать оценки OLS, даже если они не являются подходящими, и вы знаете, что вам придется оттуда идти.
gung - Восстановить Монику
6

Вы правы, что в целом IWLS, как и другие методы численной оптимизации, может гарантировать сходимость только к локальному максимуму, даже если они сходятся. Вот хороший пример, когда начальное значение было вне области сходимости для алгоритма, используемого glm () в R. Однако стоит отметить, что для GLM с канонической связью вероятность вогнута, см. Здесь . Таким образом, если алгоритм сходится, он будет сходиться к глобальному режиму!

Последняя проблема, указанная на слайде, - это проблема, когда MLE для параметра находится на бесконечности. Это может произойти в логистической регрессии, где существует полное разделение. В таком случае вы получите предупреждающее сообщение о том, что подогнанные вероятности численно равны 0 или 1. Важно отметить, что когда это происходит, алгоритм не сходится к режиму, таким образом, это не связано с тем, что алгоритм застрял в локальном максимуме.

JSK
источник