В чем разница между экстраполяцией и интерполяцией, и как наиболее точно использовать эти термины?
Например, я видел утверждение в документе, использующее интерполяцию как:
«Процедура интерполирует форму оценочной функции между точками бина»
Предложение, которое использует как экстраполяцию, так и интерполяцию, например:
Предыдущий шаг, где мы экстраполировали интерполированную функцию, используя метод Kernel, на левый и правый температурные хвосты.
Может ли кто-нибудь предоставить ясный и простой способ их различения и руководство, как правильно использовать эти термины на примере?
terminology
interpolation
extrapolation
Фрэнк Свантон
источник
источник
Ответы:
Чтобы добавить наглядное объяснение этому: давайте рассмотрим несколько моментов, которые вы планируете смоделировать.
Они выглядят так, как будто их можно было бы описать прямой линией, поэтому вы подгоняете к ним линейную регрессию:
Эта линия регрессии позволяет вам как интерполировать (генерировать ожидаемые значения между вашими точками данных), так и экстраполировать (генерировать ожидаемые значения вне диапазона ваших точек данных). Я выделил экстраполяцию красным цветом и самый большой регион интерполяции синим цветом. Чтобы было ясно, даже крошечные области между точками интерполируются, но я выделяю только большую.
Почему экстраполяция обычно вызывает больше беспокойства? Потому что вы, как правило, гораздо менее уверены в форме отношений за пределами диапазона ваших данных. Подумайте, что может произойти, если вы соберете еще несколько точек данных (пустые кружки):
Оказывается, что отношения не были хорошо отражены с вашими гипотетическими отношениями в конце концов. Прогнозы в экстраполированной области далеко. Даже если вы угадали точную функцию, которая правильно описывает эти нелинейные отношения, ваши данные не охватили достаточный диапазон, чтобы вы могли хорошо уловить нелинейность, так что вы, возможно, все еще были довольно далеко. Обратите внимание, что это проблема не только для линейной регрессии, но и для любых отношений вообще - поэтому экстраполяция считается опасной.
Прогнозы в интерполированной области также неверны из-за отсутствия нелинейности в подгонке, но их ошибка прогнозирования намного ниже. Нет никакой гарантии, что между вашими точками (т. Е. Областью интерполяции) не будет неожиданной связи, но, как правило, она менее вероятна.
Я добавлю, что экстраполяция - это не всегда ужасная идея - если вы экстраполируете чуть-чуть за пределы диапазона ваших данных, вы, вероятно, не ошибетесь (хотя это возможно!). Древние, у которых не было хорошей научной модели мира, не ошиблись бы, если бы прогнозировали, что солнце снова взойдет на следующий день и на следующий день после этого (хотя когда-нибудь в будущем даже это не удастся).
Редактируйте на основе комментариев: будь то интерполяция или экстраполяция, всегда лучше иметь некоторую теорию, чтобы оправдать ожидания. Если необходимо выполнить моделирование без теории , риск от интерполяции обычно меньше, чем от экстраполяции. Тем не менее, по мере увеличения разрыва между точками данных интерполяция также становится все более и более чреватой риском.
источник
По сути, интерполяция - это операция в рамках поддержки данных или между существующими известными точками данных; экстраполяция выходит за рамки поддержки данных . Иначе говоря, критерий: где пропущенные значения?
Одна из причин такого различия состоит в том, что экстраполяцию обычно труднее делать хорошо, и даже опасно, статистически, если не практически. Это не всегда так: например, речные паводки могут сокрушить средства измерения расхода или даже ступени (вертикальный уровень), разрывая пробел в измеренной записи. В этих обстоятельствах интерполяция разряда или стадии также затруднена, и пребывание в поддержке данных не сильно помогает.
В долгосрочной перспективе качественные изменения обычно заменяют количественные изменения. Около 1900 года существовала большая обеспокоенность тем, что рост конного движения затопит города с преимущественно нежелательными экскрементами. Экспонента в экскрементах была заменена двигателем внутреннего сгорания и его различными экспонентами.
источник
TL; DR версия:
Мнемоника: при интерполяции => в сторону.
FWIW: префикс промежуточный между , и заменитель за его пределами . Подумайте также о межгосударственных магистралях, которые проходят между штатами, или о внеземных землях из-за пределов нашей планеты.
источник
Пример:
Исследование: хотите подобрать простую линейную регрессию по росту к возрасту для девочек в возрасте 6-15 лет. Размер выборки составляет 100, возраст рассчитывается по (дата измерения - дата рождения) /365,25.
После сбора данных модель подгоняется и получает оценку пересечения b0 и наклона b1. это означает, что мы имеем E (рост | возраст) = b0 + b1 * возраст.
Если вам нужен средний рост для 13 лет, вы обнаружите, что в вашей выборке из 100 девочек нет 13-летней девочки, одной из них 12,83 года, а одной 13,24.
Теперь вы включаете возраст = 13 в формулу E (рост | возраст) = b0 + b1 * возраст. Это называется интерполяцией, потому что 13-летний возраст охватывает диапазон ваших данных, используемых для соответствия модели.
Если вы хотите получить средний рост для 30-летнего возраста и использовать эту формулу, это называется экстраполяцией, поскольку 30-летний возраст выходит за пределы возраста, указанного в ваших данных.
Если модель имеет несколько ковариат, вам нужно быть осторожным, потому что трудно нарисовать границу, охватываемую данными.
В статистике мы не выступаем за экстраполяцию.
источник