Каково статистическое обоснование интерполяции?

16

Предположим, что у нас есть две точки (на следующем рисунке: черные кружки), и мы хотим найти значение для третьей точки между ними (крестик). Действительно, мы собираемся оценить это на основе наших экспериментальных результатов, черные точки. Простейший случай - нарисовать линию, а затем найти значение (т. Е. Линейную интерполяцию). Если у нас были опорные точки, например, коричневые точки с обеих сторон, мы бы предпочли получить от них выгоду и построить нелинейную кривую (зеленая кривая).

Вопрос в том, что является статистическим обоснованием для обозначения красного креста в качестве решения? Почему другие кресты (например, желтые) не являются ответами, где они могут быть? Какой вывод или (?) Подталкивает нас к принятию красного?

Я разработаю свой оригинальный вопрос на основе ответов, полученных на этот очень простой вопрос.

введите описание изображения здесь

разработчик
источник
7
Это очень хорошо поставленный и интересный вопрос. Возможно, вы захотите провести различие между интерполяцией временных рядов и другими формами интерполяции (такими как расщепление или пространственная интерполяция) из-за внутренней направленности временных рядов.
whuber
1
Я высоко ценю этот очень мотивационный комментарий.
Разработчик
Смотрите также Как работает Kriging Interpolation? ,
Scortchi - Восстановить Монику

Ответы:

14

Любая форма подбора функций, даже непараметрических (которые обычно делают предположения о гладкости соответствующей кривой), включает в себя предположения и, следовательно, скачок веры.

Древнее решение линейной интерполяции - это то, что «просто работает», когда ваши данные достаточно мелко «достаточно» (если вы посмотрите на круг достаточно близко, он тоже выглядит плоским - просто спросите Колумба), и даже выполнимо до компьютерного века (что не так для многих современных сплайн-решений). Имеет смысл предположить, что функция будет «продолжаться в одной и той же (т.е. линейной) материи» между двумя точками, но есть нет априорных оснований для этого ( за исключением знания о понятиях , под руку).

Быстро становится ясно, когда у вас есть три (или более) неколинейных точки (например, когда вы добавляете коричневые точки выше), что линейная интерполяция между каждой из них вскоре будет включать острые углы в каждой из них, что обычно нежелательно. Вот где другие варианты вступают в силу.

Однако без дальнейшего знания предметной области невозможно с уверенностью утверждать, что одно решение лучше другого (для этого вам нужно будет знать, каково значение других точек, что не соответствует цели подгонки функции в первое место).

С другой стороны, и, возможно, более уместно для вашего вопроса, в «условиях регулярности» (читай: предположения : если мы знаем, что функция, например, гладкая), как линейная интерполяция, так и другие популярные решения могут быть доказаны как «разумные» приближения. Тем не менее: это требует допущений, и для этого у нас, как правило, нет статистики.

Ник Саббе
источник
Это хороший ответ, и мой кандидат будет отмечен как ответ. Я понял, что для такого общего выбора нет статистического обоснования, верно?
Разработчик
На самом деле я верю, что нет ни одного, нет.
Ник Сэбб
2
Некоторая литература (включая конкурсы по интерполяции образцов известных наборов данных) частично подтверждает этот ответ, но не полностью. Можно многое узнать о пространственной корреляции данных с помощью статистического анализа данных без каких-либо «условий регулярности». Необходима модель данных как образец одной реализации случайного процесса вместе с (1) эргодической гипотезой и (в большинстве случаев) (2) некоторым предположением стационарности. В этих рамках интерполяция становится предсказанием ожидания, но допускаются даже недифференцируемые кривые.
whuber
1
@whuber: Я вышел из своей зоны комфорта здесь, но все, что после «условий регулярности» в вашем комментарии звучит как довольно солидное количество предположений (стационарность, скорее всего, равносильна условию регулярности, не так ли?). На самом деле, я думаю, что это будет зависеть от того, будет ли размер вашей выборки большим по сравнению с нарушениями в функциональной форме ... Можете ли вы дать ссылку на статью или тому подобное, где это не так?
Ник Сэбб
2
Ты ничего не можешь сделать без предположений, Ник! Но регулярность (например, плавность функции) не обязательна: ее можно вывести из данных, по крайней мере, по шкале, на которой выполняется выборка функции. (Стационарность - гораздо более мягкое предположение, чем гладкость.) Вы правы в том, что необходимы большие выборки, но в 2D можно многому научиться даже при 30-50 хорошо выбранных местах выборок. Литература большая; например, большинство вопросов математической геологии посвящены этому. Строгое представление см. В Пространственной статистике
whuber
0

Вы можете составить линейное уравнение для линии наилучшего соответствия (например, y = 0,4554x + 0,7525), однако это будет работать только при наличии помеченной оси. Однако это не даст вам точного ответа только наилучшим образом по отношению к другим пунктам.

Клэр Уинтерборн
источник
Но регрессия не является интерполяцией .
Scortchi - Восстановить Монику
1
@ Scortchi Я считаю, что регрессия может быть понята как интерполяция. Однако предложение регрессии в качестве решения не дает ответа на вопрос, который просит нас объяснить, почему любой вид интерполяции оправдан (и косвенно предлагает нам описать предположения, необходимые для его обоснования).
whuber
@whuber: Спасибо. Я думал об интерполяции, по крайней мере в прототипе, как о соединении точек - stats.stackexchange.com/a/33662/17230 .
Scortchi - Восстановить Монику
@Scortchi Этот поток в первую очередь касается математической концепции интерполяции в таблице. В комментарии к его вопросу я указал на традиционное статистическое понимание интерполяции, которое немного отличается. Регрессия работает в обоих мирах: функция регрессии может служить в качестве математического интерполятора (для четко определенной функции, выбранной в таблице), а также статистического интерполятора (посредством статистических предсказаний значений случайного процесса, обусловленного конечное число значений, полученных из этого процесса).
whuber
1
@Cagdas Единственный способ идеально реконструировать функцию из конечных данных - это предоставить достаточно ограничений для функции, чтобы для нее был только один кандидат в зависимости от данных! В частности, учитывая количество точек данныхN и учитывая опоры функции (но не зависящие от ее значений на этих опорах), множество возможных функций должно быть не более чем конечномерным многообразием размерности N,
whuber