Форма доверительных интервалов и интервалов прогнозирования для нелинейной регрессии

13

Предполагается, что полосы достоверности и прогнозирования вокруг нелинейной регрессии симметричны относительно линии регрессии? Это означает, что они не принимают форму песочных часов, как в случае полос для линейной регрессии. Это почему?

Вот эта модель:
Вот рисунок:

F(Икс)знак равно(A-D1+(ИксС)В)+D

http://i57.tinypic.com/2q099ok.jpg

и вот уравнение:

введите описание изображения здесь

саржа
источник
Ваш вопрос неясен, поскольку вы переходите от вопроса о том, «должны ли они быть« симметричными »в 1-м предложении», к тому, что вы подразумеваете, что их нет в предложении 2, и спрашиваете (предположительно), почему их нет в предложении 3. Можете ли вы сделать это более последовательно / ясно?
gung - Восстановить Монику
Хорошо, позвольте мне спросить это следующим образом - почему полосы доверия и предсказания симметричны вокруг линии регрессии, когда регрессия нелинейна, но принимает форму песочных часов, когда она линейна?
Серж
00
Вы правы. Группа действительно пересекает в отрицательную территорию. Однако меня не интересуют значения самих полос, а скорее значения EC50, соответствующие ограничениям полос. Есть ли альтернатива такому построению полос?
Серж
Да, но, как я уже говорил, они могут усложниться. Обобщенные методы наименьших квадратов и временных рядов могут справиться с последовательной корреляцией. Нелинейные преобразования зависимой переменной являются одним из инструментов для обработки неаддитивной ошибки. Более сложным инструментом является обобщенная линейная модель. Выбор зависит частично от природы зависимой переменной. Кстати, хотя я не уверен, что вы подразумеваете под «значениями EC50» (звучит так, будто вы моделируете зависимости доза-ответ), все, что рассчитывается по показанным полосам, будет подозрительным.
whuber

Ответы:

8

Ожидается, что полосы доверия и прогнозирования, как правило, станут шире у концов - и по той же причине, по которой они всегда делают это в обычной регрессии; как правило, неопределенность параметра приводит к более широким интервалам вблизи концов, чем в середине

Вы можете увидеть это достаточно просто путем моделирования, либо путем моделирования данных из данной модели, либо путем моделирования распределения выборки вектора параметров.

Обычные (приблизительно правильные) вычисления, выполненные для нелинейной регрессии, включают в себя локальное линейное приближение (это дано в ответе Харви), но даже без них мы можем получить некоторое представление о том, что происходит.

Однако выполнение реальных вычислений нетривиально, и может случиться так, что программы могут использовать ярлык для вычисления, который игнорирует этот эффект. Также возможно, что для некоторых данных и некоторых моделей эффект относительно невелик и его трудно увидеть. Действительно, с интервалами прогнозирования, особенно с большой дисперсией, но большим количеством данных, иногда бывает трудно увидеть кривую в обычной линейной регрессии - они могут выглядеть почти прямыми, и отклонение от прямолинейности относительно легко различить.

Вот пример того, как трудно видеть только с доверительным интервалом для среднего значения (интервалы прогнозирования могут быть гораздо труднее увидеть, потому что их относительные вариации намного меньше). Вот некоторые данные и подгонка нелинейных наименьших квадратов с доверительным интервалом для среднего значения популяции (в данном случае, сгенерированного из распределения выборки, поскольку я знаю истинную модель, но что-то очень похожее может быть сделано асимптотическим приближением или начальной загрузкой):

введите описание изображения здесь

Фиолетовые границы выглядят почти параллельно с синими предсказаниями ... но это не так. Вот стандартная ошибка распределения выборки этих средних прогнозов:

введите описание изображения здесь

который явно не постоянен.


Редактировать:

Те "sp" выражения, которые вы только что опубликовали, приходят прямо из интервала предсказания для линейной регрессии!

Glen_b - Восстановить Монику
источник
Вы также говорите, что увеличение неопределенности параметра при удалении от центра должно привести к расширению полосы на концах даже в случае нелинейной регрессии, но это не так очевидно? Или есть теоретическая причина, почему это расширение не происходит в случае нелинейной регрессии? Мои группы, безусловно, выглядят очень симметрично.
Серж
1
Такое расширение должно быть типичным, но оно не будет происходить одинаково с каждой нелинейной моделью и не будет столь же очевидным с каждой моделью, и потому что это не так просто сделать, может быть не рассчитано таким способом данной программой . Я не знаю, как рассчитывались группы, на которые вы смотрите - я не читатель разума и не вижу кода программы, название которой вы даже не упомянули.
Glen_b
@ user1505202, на этот вопрос сложно ответить полностью. Можете ли вы указать, какая у вас модель (ее функциональная форма)? Можете ли вы прикрепить изображение фигуры, которая озадачивает вас?
gung - Восстановить Монику
1
Благодарю. У меня действительно есть числа, и они по существу постоянны - разница между линией регрессии и каждым пределом предсказания колеблется от 18.21074 в середине до 18.24877 в конце. Итак, небольшое расширение, но очень слабое. Кстати, @gung, я получил уравнение, которое вычисляет интервал прогнозирования. Это:Y-hat +/- sp(Y-hat)
Серж
1
Это примерно то же самое, что вы можете увидеть с интервалом прогнозирования с большими выборками. Что сп?
Glen_b
5

Математика вычисления доверительных и предсказательных полос кривых, соответствующих нелинейной регрессии, объяснена на этой перекрестной проверке. Это показывает, что полосы не всегда / обычно симметричны.

А вот объяснение с большим количеством слов и меньшим количеством математики:

Сначала давайте определим G | x, который является градиентом параметров при конкретном значении X и использующим все наиболее подходящие значения параметров. Результатом является вектор с одним элементом на параметр. Для каждого параметра он определяется как dY / dP, где Y - это значение Y кривой, учитывая конкретное значение X и все наиболее подходящие значения параметров, а P - один из параметров.)

G '| x - это транспонированный вектор градиента, поэтому он представляет собой столбец, а не строку значений. Cov - ковариационная матрица (обратный гессиан из последней итерации). Это квадратная матрица с количеством строк и столбцов, равным количеству параметров. Каждый элемент в матрице представляет собой ковариацию между двумя параметрами. Мы используем Cov для ссылки на нормализованную ковариационную матрицу , где каждое значение находится между -1 и 1.

Теперь вычислите

c = G '| x * Cov * G | x.

Результатом является одно число для любого значения X.

Полосы достоверности и прогнозирования центрированы на кривой наилучшего соответствия и простираются над и под кривой в равной степени.

Полосы доверия простираются выше и ниже кривой на:

= sqrt (c) * sqrt (SS / DF) * CriticalT (достоверность%, DF)

Полосы прогнозирования простираются еще дальше над и под кривой, равной:

= sqrt (c + 1) * sqrt (SS / DF) * CriticalT (Доверие%, DF)

В обоих этих уравнениях значение c (определенное выше) зависит от значения X, поэтому полосы достоверности и прогнозирования не находятся на постоянном расстоянии от кривой. Значение SS - это сумма квадратов для подгонки, а DF - количество степеней свободы (количество точек данных минус количество параметров). CriticalT - это константа из распределения t, основанная на желаемом уровне достоверности (традиционно 95%) и количестве степеней свободы. Для пределов 95% и довольно большого значения df это значение близко к 1,96. Если DF мало, это значение выше.

Харви Мотульский
источник
Спасибо, Харви. Я работаю над получением градиента параметров для моей функции. Вы случайно не знаете проработанный пример, потому что мне не ясно, как получается ковариационная матрица.
Серж
Если вы используете демонстрационную версию GraphPad Prism, вы можете подогнать данные к любой модели и просмотреть ковариационную матрицу (необязательный результат, выбранный на вкладке «Диагностика»), а также диапазоны достоверности или прогнозирования (как числа, так и график); также выберите в Вкладка "Диагностика"). Это не совсем хороший пример, но, по крайней мере, вы можете сравнить ковариационную матрицу и посмотреть, есть ли проблема до или после ...
Харви Мотульский
Две вещи, хотя. 1. Призма дала мне матрицу Cov. Однако это всего одно число для всего набора данных. Разве я не должен получать одно значение за значение X? 2. Я получаю полосу предсказания на графике, но мне бы хотелось, чтобы выходные данные содержали значения. Призма, похоже, не делает этого. Я очень плохо знаком с Призмой, и поэтому, возможно, я не везде смотрел, но я пытался!
Серж
1. Ковариационная матрица показывает степень, в которой параметры взаимосвязаны. Таким образом, для каждой пары параметров есть одно значение, которое вы запрашиваете для нелинейной регрессии. 2. Посмотрите на вкладку «Диапазон», чтобы попросить Prism составить таблицу координат XY кривой со значениями плюс / минус для доверительных или прогнозных полос. 3. Для получения технической поддержки Prism пишите по электронной почте support@graphpad.com. Используйте этот форум для вопросов статистики, а не для технической поддержки.
Харви Мотульский