Может ли эмпирический гессиан М-оценки быть неопределенным?

15

Джеффри Вулдридж в своем эконометрическом анализе данных поперечного сечения и панелей (стр. 357) говорит, что эмпирический гессиан «не гарантированно будет положительно определенным или даже положительно полуопределенным для конкретного образца, с которым мы работаем».

Это кажется мне неправильным, поскольку (помимо численных проблем) гессиан должен быть положительно полуопределенным в результате определения М-оценки как значения параметра, который минимизирует целевую функцию для данного образца, и общеизвестный факт, что в (локальном) минимуме гессиан положительно полуопределен.

Прав ли мой аргумент?

[РЕДАКТИРОВАТЬ: заявление было удалено во 2-е изд. книги. Смотрите комментарий.]

Предпосылки Предположим , что θ N является оценка получается путем минимизации 1θ^N

1Ni=1Nq(wi,θ),
гдеwiобозначаетiнаблюдение.

Обозначим гессиан q как H ,

H(q,θ)ij=2qθiθj

Асимптотическая ковариация & thetas п включает Е [ Н ( д , & thetas ; 0 ) ] , где θ 0 является истинным значением параметра. Один из способов оценить это - использовать эмпирический гессенскийθ^nE[H(q,θ0)]θ0

H^знак равно1NΣязнак равно1NЧАС(веся,θ^N)

Это определенность Н , которая находится под вопросом.ЧАС^

Джйотирмой Бхаттачарья
источник
1
@Jyotirmoy, что если минимум случится на границе вашего пространства параметров?
кардинал
@cardinal. Вы правы, мой аргумент не сработает в этом случае. Но Вулдридж рассматривает случай, когда минимум находится в интерьере. Разве он не неправ в этом случае?
Джотирмой Бхаттачарья
@Jyotirmoy, это может быть только положительный полуопределенный. Подумайте о линейных функциях или функциях, где множество точек минимума образует выпуклый многогранник. Для более простого примера рассмотрим любой многочлен при x = 0 . е(Икс)знак равноИкс2NИксзнак равно0
кардинал
1
@cardinal. Правда. Меня беспокоит фраза "даже положительный полуопределенный" в цитируемом заявлении.
Джйотирмой Бхаттачарья
@Jyotirmoy, есть ли конкретная форма М-оценки, приведенная в книге, которую вы могли бы предоставить? Также укажите рассматриваемое пространство параметров. Может быть, тогда мы сможем выяснить, что имел в виду автор. В общем, я думаю, что мы уже установили, что утверждение автора верно. Установка дополнительных ограничений на форму или рассматриваемое пространство параметров может изменить это. Q
кардинал

Ответы:

16

Я думаю ты прав. Давайте разберем ваш аргумент в его сущности:

  1. минимизирует функциюQопределяется какQ(thetas)=1θ^NQQ(θ)=1Ni=1Nq(wi,θ).

  2. Пусть - гессиан Q , откуда H ( θ ) = 2 QHQ , по определениюи этов свою очередь, по линейности дифференциации, равна1H(θ)=2Qθiθj.1Ni=1NH(wi,θn)

  3. Предполагая , что & thetas ; N лежит во внутренней части области Q , то Н ( θ N ) должен быть положительным полуопределенным.θ^NQH(θ^N)

Это просто утверждение о функции : как она определяется всего лишь отвлечение, за исключением тех случаев, когда предполагается второго порядка дифференцируемость ц относительно второго аргумента ( & thetas ) обеспечивает второй порядок дифференцируемости Q .QqθQ


Найти М-оценки может быть сложно. Рассмотрим эти данные, предоставленные @mpiktas:

{1.168042, 0.3998378}, {1.807516, 0.5939584}, {1.384942, 3.6700205}, {1.327734, -3.3390724}, {1.602101, 4.1317608}, {1.604394, -1.9045958}, {1.124633, -3.0865249}, {1.294601, -1.8331763},{1.577610, 1.0865977}, { 1.630979, 0.7869717}

Процедура R для нахождения M-оценки с дает решение ( c 1 , c 2 ) = ( - 114,91316 , - 32,54386 ) . Значение целевой функции (среднее значение q ) в этой точке равно 62,3542. Вот сюжет подгонки:q((x,y),θ)=(yc1xc2)4(c1,c2)(114.91316,32.54386)q

Fit 1

Вот график (log) целевой функции в окрестности этого соответствия:

Цель 1

Здесь что-то подозрительно: параметры подгонки чрезвычайно далеки от параметров, используемых для моделирования данных (около ), и мы, кажется, не находимся на минимуме: мы находимся в чрезвычайно мелкой долине с наклоном в сторону больших значений обоих параметров:(0.3,0.2)

Цель 1, 3D вид

Отрицательный определитель гессиана в этой точке подтверждает, что это не локальный минимум! Тем не менее, когда вы посмотрите на метки оси z, вы увидите, что эта функция имеет точность от пяти до пяти цифр во всем регионе, поскольку она равна константе 4,1329 (логарифм 62,354). Это, вероятно, привело к тому, что минимизатор функции R (с допусками по умолчанию) пришел к выводу, что он близок к минимуму.

На самом деле, решение далеко от этой точки. Чтобы быть уверенным в его нахождении, я использовал в Mathematica дорогой в вычислительном отношении, но очень эффективный метод « Основной оси » , используя точность в 50 цифр (основание 10), чтобы избежать возможных численных проблем. Он находит минимум вблизи ( c 1 , c 2 ) = ( 0,02506 , 7,55973 ), где целевая функция имеет значение 58.292655: примерно на 6% меньше, чем «минимум», найденный R. Этот минимум имеет место в чрезвычайно плоском участке , но я могу заставить его выглядеть (едва ли) как истинный минимум с эллиптическими контурами, преувеличивая c 2(c1,c2)=(0.02506,7.55973)c2 Направление на участке:

Цель 2

Контуры варьируются от 58.29266 в середине до 58.29284 в углах (!). Вот трехмерный вид (опять же цель журнала):

Цель 2, 3D вид

Здесь гессиан положительно определен: его собственные значения 55062.02 и 0.430978. Таким образом, эта точка является локальным минимумом (и, вероятно, глобальным минимумом). Вот подгонка, которой он соответствует:

Fit 2

Я думаю, что это лучше, чем другой. Значения параметров, безусловно, более реалистичны, и ясно, что мы не сможем добиться большего успеха с этим семейством кривых.

Из этого примера мы можем извлечь полезные уроки:

  1. Численная оптимизация может быть трудной, особенно с нелинейной подгонкой и неквадратичными функциями потерь. Следовательно:
  2. Дважды проверьте результаты как можно больше способов, в том числе:
  3. График целевой функции, когда вы можете.
  4. Если числовые результаты нарушают математические теоремы, будьте крайне подозрительны.
  5. Когда статистические результаты являются неожиданными - например, неожиданные значения параметров, возвращаемые кодом R - быть особенно подозрительными.
Whuber
источник
+1, хороший анализ. Я думаю, именно поэтому Вулдридж включил это замечание. Я все еще думаю, что можно подумать о каком-то примере, когда гессиан будет неопределенным. Искусственное ограничение пространства параметров, например. В этом примере пространство параметров является целой плоскостью, поэтому локальный минимум даст полуположительный гессиан. Я думаю, что пришло время написать приятное электронное письмо Вулдриджу, чтобы он мог ответить на этот вопрос :)
mpiktas
@mpiktas Да, я уверен, что существуют проблемы, когда внутренний глобальный минимум имеет неопределенный гессиан, но все параметры можно идентифицировать. Но для гессиана при достаточно гладком внутреннем глобальном минимуме просто невозможно быть неопределенным. Подобные вещи были доказаны снова и снова, например, в топологии Милнора с дифференцированной точки зрения . Я подозреваю, что Вулдридж, возможно, был введен в заблуждение ошибочными численными «решениями». (Кстати, опечатки на цитируемой странице предполагают, что она была написана наспех, кстати.)
whuber
даже на границе гессиан будет положительным? Я проверю книгу, я вижу, что мне действительно не хватает обширных знаний в этой области. Классические теоремы очень просты, поэтому я предположил, что не должно быть чего-то очень сложного. Возможно, это одна из причин, почему мне было так трудно ответить на вопрос.
mpiktas
@mpiktas На границе гессиан не обязательно будет даже определен . Идея заключается в следующем: если матрица Якобиана / Гессиана / второй производной определена в критической точке, то в окрестности функция действует как квадратичная форма, определяемая этой матрицей. Если матрица имеет положительные и отрицательные собственные значения, функция должна увеличиваться в одних направлениях и уменьшаться в других: она не может быть локальным экстремумом. Это то, что беспокоило @Jyotirmoy в цитате, которая, кажется, противоречит этому основному свойству.
whuber
Спасибо вам и вам и @mpiktas за очень хороший анализ. Я склонен согласиться с вами, что Вулдридж путает численные трудности с теоретическими свойствами оценки. Посмотрим, есть ли другие ответы.
Джотирмой Бхаттачарья
7

θ^N

minθΘN1i=1Nq(wi,θ)

θ^NΘH^

N1i=1Nq(wi,θ)θ0

minθΘEq(w,θ).

N1i=1Nq(wi,θ)Θ

Далее в своей книге Вулдридж приводит примеры оценок Гессиана, которые гарантированно являются численно положительно определенными. На практике неположительная определенность гессиана должна указывать на то, что решение либо находится на граничной точке, либо алгоритм не может найти решение. Что обычно является дополнительным указанием на то, что установленная модель может быть неподходящей для данных.

Вот числовой пример. Я генерирую нелинейную задачу наименьших квадратов:

yi=c1xic2+εi

X[1,2]εσ2set.seed(3)xiyi

Я выбрал квадрат целевой функции обычной нелинейной целевой функции наименьших квадратов:

q(w,θ)=(yc1xic2)4

Вот код в R для оптимизации функции, ее градиент и гессиан.

##First set-up the epxressions for optimising function, its gradient and hessian.
##I use symbolic derivation of R to guard against human error    
mt <- expression((y-c1*x^c2)^4)

gradmt <- c(D(mt,"c1"),D(mt,"c2"))

hessmt <- lapply(gradmt,function(l)c(D(l,"c1"),D(l,"c2")))

##Evaluate the expressions on data to get the empirical values. 
##Note there was a bug in previous version of the answer res should not be squared.
optf <- function(p) {
    res <- eval(mt,list(y=y,x=x,c1=p[1],c2=p[2]))
    mean(res)
}

gf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res <- sapply(gradmt,function(l)eval(l,evl))
    apply(res,2,mean)
}

hesf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res1 <- lapply(hessmt,function(l)sapply(l,function(ll)eval(ll,evl)))
    res <- sapply(res1,function(l)apply(l,2,mean))
    res
}

Сначала проверьте, что градиент и гессиан работают так, как рекламируется.

set.seed(3)
x <- runif(10,1,2)
y <- 0.3*x^0.2

> optf(c(0.3,0.2))
[1] 0
> gf(c(0.3,0.2))
[1] 0 0
> hesf(c(0.3,0.2))
     [,1] [,2]
[1,]    0    0
[2,]    0    0
> eigen(hesf(c(0.3,0.2)))$values
[1] 0 0

xy

> df <- read.csv("badhessian.csv")
> df
          x          y
1  1.168042  0.3998378
2  1.807516  0.5939584
3  1.384942  3.6700205
4  1.327734 -3.3390724
5  1.602101  4.1317608
6  1.604394 -1.9045958
7  1.124633 -3.0865249
8  1.294601 -1.8331763
9  1.577610  1.0865977
10 1.630979  0.7869717
> x <- df$x
> y <- df$y
> opt <- optim(c(1,1),optf,gr=gf,method="BFGS")  
> opt$par
[1] -114.91316  -32.54386
> gf(opt$par)
[1] -0.0005795979 -0.0002399711
> hesf(opt$par)
              [,1]         [,2]
[1,]  0.0002514806 -0.003670634
[2,] -0.0036706345  0.050998404
> eigen(hesf(opt$par))$values
[1]  5.126253e-02 -1.264959e-05

Градиент равен нулю, но гессиан не является положительным.

Примечание: это моя третья попытка дать ответ. Надеюсь, мне наконец удалось дать точные математические утверждения, которые ускользали от меня в предыдущих версиях.

mpiktas
источник
wyxw=(x,y)ym(x,θ)m(x,θ)
@mpiktas, я не совсем уверен, как интерпретировать ваше первое предложение из-за формулировки. Я вижу два пути, один из которых я бы назвал правильным, а другой - нет. Кроме того, строго говоря, я не согласен со вторым предложением в первом абзаце. Как я показал выше, возможно находиться на локальном минимуме внутри пространства параметров, если Гессиан не является положительно определенным.
кардинал
wyxw=(x,y)
@ Cardinal, я исправил свою формулировку. Теперь все должно быть в порядке. Спасибо за указание на проблему.
mpiktas
@mptikas. Ни Вулдридж, ни я не утверждаем, что гессиан должен быть везде положительным. Я утверждаю, что для внутреннего максимума эмпирический гессиан должен быть положительно полуопределенным как необходимое условие гладкой функции, достигающей своего максимума. Кажется, Вулдридж говорит что-то другое.
Джйотирмой Бхаттачарья
3

Гессен неопределен в седловой точке. Вполне возможно, что это может быть единственной стационарной точкой внутри пространства параметров.

Обновление: позвольте мне уточнить. Во-первых, давайте предположим, что эмпирический гессиан существует везде.

θ^niq(wi,)(1/N)ΣяЧАС(веся,θ^N)θ^NΣяQ(веся,)θ^N

ArgминθΣяQ(веся,θ)

0знак равноΣяQ˙(веся,θ),
Q˙Q(вес,θ)θΨ

Практически говоря, даже положительно определенный гессиан, который является почти единственным или плохо обусловленным, предполагает, что оценщик является плохим, и вам нужно больше беспокоиться, чем оценивать его дисперсию.

vqv
источник
Не могли бы вы адаптировать свой ответ так, чтобы он соответствовал обозначениям вопроса? К чемуИкс2-Y2ссылаясь? Где это вставляется в уравнения, приведенные в вопросе?
вероятностная
+1 Хорошие моменты в обновлении, особенно последний абзац. Когда гессиан доступен - как это неявно предполагается во время этого обсуждения - можно автоматически использовать его положительную определенность в качестве одного из критериев для проверки любой критической точки, и поэтому эта проблема просто не может возникнуть. Это наводит меня на мысль, что цитата Вулдриджа должна касаться гессиана в предполагаемом глобальном минимуме, а не в простой критической точке.
whuber
1

В этой теме было много ударов вокруг куста о том, должен ли гессиан быть положительным (полу) определенным при локальном минимуме. Поэтому я сделаю четкое заявление по этому поводу.

Если предположить, что целевая функция и все функции ограничения дважды непрерывно дифференцируемы, то при любом локальном минимуме гессиан лагранжиана, проецируемый в нулевое пространство якобиана активных ограничений, должен быть положительно полуопределенным. То есть еслиZ является базисом для нулевого пространства якобиана активных ограничений, то ZT*(Гессиан из лагранжиана)*Zдолжен быть положительным полуопределенным. Это должно быть положительно определенным для строгого локального минимума.

Таким образом, гессиан целевой функции в ограниченной задаче, имеющей активные ограничения, не обязательно должен быть положительным полуопределенным, если существуют активные ограничения.

Примечания:

1) Активные ограничения состоят из всех ограничений равенства, плюс ограничения неравенства, которые удовлетворяются равенством.

2) См. Определение лагранжиана на странице https://www.encyclopediaofmath.org/index.php/Karush-Kuhn-Tucker_conditions .

3) Если все ограничения линейны, то гессиан лагранжиана = гессиан целевой функции, поскольку 2-ые производные линейных функций равны нулю. Но вам все равно нужно выполнить джаз проекции, если какое-либо из этих ограничений активно. Обратите внимание, что ограничения нижней или верхней границ являются частными случаями ограничений линейного неравенства. Если единственными активными ограничениями являются связанные ограничения, то проекция гессиана в пустое пространство якобиана активных ограничений сводится к удалению строк и столбцов гессиана, соответствующих этим компонентам на их границах.

4) Поскольку множители Лагранжа неактивных ограничений равны нулю, если нет активных ограничений, гессиан лагранжиана = гессиан целевой функции, а матрица тождества является основой для нулевого пространства якобиана активных ограничений, которое приводит к упрощению критерия, являющегося знакомым условием, чтобы гессиан целевой функции был положительно полуопределенным на локальном минимуме (положительно определенным, если строгий локальный минимум).

Марк Л. Стоун
источник
0

Вышеуказанные положительные ответы верны, но они не учитывают основополагающего предположения об идентификации - если ваша модель не идентифицирована (или если она только идентифицирована как набор), вы, действительно, как правильно указал Вулдридж, окажетесь с эмпирическим гессианом без PSD. Просто запустите какую-нибудь не игрушечную психометрическую / эконометрическую модель и убедитесь сами.

влад
источник
Поскольку это не представляется математически возможным, не могли бы вы предложить простой, ясный пример, демонстрирующий, как гессиан непрерывно дважды дифференцируемой целевой функции может не быть PSD на глобальном минимуме?
whuber