Что не так с экстраполяцией?

68

Я помню, как сидел на курсах статистики как студент, слушавший, почему экстраполяция была плохой идеей. Кроме того, есть множество источников онлайн, которые комментируют это. Там также упоминание о нем здесь .

Может кто-нибудь помочь мне понять, почему экстраполяция это плохая идея? Если это так, как методы прогнозирования не являются статистически недействительными?

ПАРЕНЬ
источник
3
@Firebug Марку Твену было что сказать по этому поводу. Соответствующий отрывок цитируется ближе к концу моего ответа на stats.stackexchange.com/a/24649/919 .
whuber
1
@whuber Думаю, сейчас это не совсем экстраполяция. Скажем, мы правильно обучаем и проверяем алгоритм для прогнозирования данных за одну неделю до функции. Делая правильную повторную выборку (и настройку, если есть гиперпараметры для настройки), я не вижу, что не так, если у вас есть ответ, и вы также должны знать достоверность этого ответа. Теперь, если вы тренируете свой алгоритм еженедельно, вы не сможете точно предсказать один год в будущем. Извините за возможную путаницу.
Firebug
7
@ Firebug Не нужно извиняться - ваши замечания содержат полезную уточняющую информацию. Когда я их читаю, они предполагают, что «экстраполировать» может иметь несколько интерпретаций в прогнозировании. Во-первых, это «экстраполяция» времени. Но когда вы смотрите на стандартные модели временных рядов, особенно те, где время не является явным ковариатом, они предсказывают будущие значения в терминах предыдущих значений . Когда эти предыдущие значения остаются в пределах диапазонов прошлых предыдущих значений, модель вообще не выполняет экстраполяцию! В этом может заключаться разрешение очевидного парадокса.
whuber
7
xkcd.com/605
user253751
2
Я разочарован тем, сколько времени понадобилось для появления обязательного xkcd
Duncan X Simpson

Ответы:

89

Регрессионная модель часто используется для экстраполяции, то есть для прогнозирования отклика на вход, который находится за пределами диапазона значений переменной-предиктора, используемой для подгонки модели. Опасность, связанная с экстраполяцией, показана на следующем рисунке. график, показывающий экстраполированную линию, продолжающуюся вверх, где «истинное» значение уменьшается

Модель регрессии «по построению» является интерполяционной моделью и не должна использоваться для экстраполяции, если это не будет должным образом обосновано.

Kostia
источник
1
Это ужасный пример против экстраполяции. Прямая линия регрессии соответствует точкам данных гораздо лучше, чем ваша соблазнительная истинная функция.
horaceT
9
«Прямая линия регрессии соответствует точкам данных гораздо лучше, чем ваша соблазнительная истинная функция». Это утверждение неверно. RSS для функции истинной регрессии меньше RSS для простой линии регрессии,
Костя
Точка занята, и вы можете (должны) быть правы. Но, судя по множеству точек, никто не сможет определить истинную функцию.
horaceT
27
Именно так. И поэтому экстраполяция может быть плохой идеей.
Костя
«Модель регрессии« по построению »является интерполяционной моделью» -> Я думаю, что у нас может быть точно такая же проблема с интерполяцией (даже если это случится реже)
Метариат
88

Этот комикс xkcd объясняет все это.

комикс xkcd

Используя данные, которые есть у Кьюбола (мужчина с палкой), он экстраполировал, что к концу следующего месяца у женщины будет «четыре десятка» мужей, и использовал эту экстраполяцию, чтобы прийти к заключению о покупке свадебного торта оптом.

Редактировать 3: Для тех из вас, кто говорит «ему не хватает точек данных», вот еще один комикс xkcd :

комикс xkcd

Здесь использование слова «устойчивый» во времени показано на полулогарифмическом графике, и экстраполируя точки данных, мы получаем необоснованные оценки того, как часто слово «устойчивый» будет встречаться в будущем.

Редактировать 2: Для тех из вас, кто говорит: «Вам также нужны все предыдущие данные», еще один комикс xkcd: комикс xkcd

Здесь у нас есть все прошлые данные, но мы не можем точно предсказать разрешение Google Планета Земля. Обратите внимание, что это также полулогарифмический граф.

Изменить: Иногда, даже самые сильные из (r = .9979 в этом случае) корреляции просто неправильно.


Если вы экстраполируете без других подтверждающих доказательств, вы также нарушаете корреляцию, не подразумевая причинности ; еще один великий грех в мире статистики.

Однако если вы экстраполируете X на Y, вы должны убедиться, что вы можете точно (достаточно для удовлетворения ваших требований) предсказать X только с помощью Y. Почти всегда существует множество факторов, которые влияют на X.

Я хотел бы поделиться ссылкой на другой ответ, который объясняет это словами Nassim Nicholas Taleb.

noɥʇʎԀʎzɐɹƆ
источник
14
У xkcd есть шутка о каждой возможной проблеме математики / статистики, не так ли?
Андер Бигури
24
Эту идею можно также использовать в качестве аргумента против интерполяции: «прошлой ночью у вас было 0,5 мужа».
JiK
3
@JiK Если все, что вы знаете, это то, что она есть у нее сейчас, а два дня назад у нее ее не было, это неплохая оценка ;-)
Деннис Джаэруддин
9
Устойчивое устойчивое Устойчивое устойчивое устойчивое устойчивое Устойчивое устойчивое. en.wikipedia.org/wiki/…
Мени Розенфельд
1
больше xkcd, люди!
noɥʇʎԀʎzɐɹƆ
24

«Прогнозировать очень сложно, особенно если речь идет о будущем». Цитата приписывается многим людям в той или иной форме . В следующей «экстраполяции» я ограничиваюсь «предсказанием за пределами известного диапазона», а в одномерной установке - экстраполяцией из известного прошлого в неизвестное будущее.

Так что не так с экстраполяцией. Во-первых, моделировать прошлое нелегко . Во-вторых, трудно понять, можно ли использовать модель из прошлого в будущем . За обоими утверждениями стоят глубокие вопросы о причинности или эргодичности, достаточности объясняющих переменных и т. Д., Которые в значительной степени зависят от конкретного случая. Что неправильно, так это то, что трудно выбрать одну схему экстраполяции, которая прекрасно работает в разных контекстах, без большого количества дополнительной информации.

Икс

Анскомб квартет

Тем не менее, прогнозирование может быть исправлено в некоторой степени. В дополнение к другим ответам, пара ингредиентов может помочь практической экстраполяции:

  1. Nпеп(N)пN
  2. Вы можете использовать несколько моделей экстраполяции и комбинировать их или выбирать лучшие ( Объединение прогнозов , Дж. Скотт Армстронг, 2001). В последнее время был проведен ряд работ по их оптимальному сочетанию (я могу предоставить ссылки, если это необходимо).

Недавно я участвовал в проекте по экстраполяции значений для связи подсистем моделирования в режиме реального времени. Догма в этой области заключалась в том, что экстраполяция может вызвать нестабильность. На самом деле мы поняли, что объединение двух вышеупомянутых ингредиентов было очень эффективным, без заметной нестабильности (без формальных доказательств еще и в настоящее время на рассмотрении ). И экстраполяция работала с простыми полиномами, с очень низкой вычислительной нагрузкой, большинство операций вычислялось заранее и сохранялось в справочных таблицах.

Наконец, поскольку экстраполяция предполагает забавное рисование, ниже приведен обратный эффект линейной регрессии:

Веселье с любовью и линейной регрессией

Лоран Дюваль
источник
+1 Хороший ответ. По словам этого сайта , вряд ли Бор сказал это. Скорее всего, это необычная, но общая датская пословица.
usεr11852 говорит восстановить Monic
@ usεr11852 Вряд ли он "когда-либо говорил это"? Вот почему я сказал «приписать», я должен быть более осторожным?
Лоран Дюваль
2
Я никогда не говорил никогда . Я сделал этот комментарий, потому что, учитывая, что высказывание кажется гораздо более вероятным, чтобы быть датской пословицей, приписывание его определенному (чрезвычайно символическому) датчанину кажется немного чрезмерным - особенно учитывая, что нет никаких записей о том, что Бор говорит это. Первоначальный автор может быть неназванным рыбаком, комментирующим завтрашний улов! Я болею за маленького парня здесь! : D
usεr11852 говорит восстановить Monic
2
Очень сложно смоделировать легенды из прошлых цитат.
Лоран Дюваль
3
Конечно, вопрос использует оба слова: весь вопрос в том, следует ли считать «прогнозирование» формой «экстраполяции». Согласно вашим вступительным комментариям, вы, похоже, определяете экстраполяцию как использование прошлого для «моделирования будущего». Пока вы не предложите четкие и четкие определения каждого из них, ваш ответ может быть неправильно понят.
whuber
17

Хотя подгонка модели может быть « хорошей », экстраполяция за пределы диапазона данных должна рассматриваться скептически. Причина в том, что во многих случаях экстраполяция (к сожалению и неизбежно) основывается на непроверенных предположениях о поведении данных за пределами их наблюдаемой поддержки.

ИксоUT

Дополнительным предостережением является то, что многие непараметрические методы оценки не допускают экстраполяции изначально. Эта проблема особенно заметна в случае сглаживания сплайна, когда больше нет узлов для закрепления подогнанного сплайна.

Позвольте мне подчеркнуть, что экстраполяция далека от зла. Например, численные методы, широко используемые в статистике (например , дельта-квадрат Айткена и экстраполяция Ричардсона ), по сути, представляют собой схемы экстраполяции, основанные на идее о том, что основное поведение функции, анализируемой для наблюдаемых данных, остается стабильным по всей поддержке функции.

usεr11852 говорит восстановить Monic
источник
εΔ2
15

Вопреки другим ответам, я бы сказал, что в экстраполяции нет ничего плохого, поскольку он не используется бессмысленным образом. Во-первых, обратите внимание, что экстраполяция это :

процесс оценки, за пределами исходного диапазона наблюдения, значения переменной на основе ее связи с другой переменной.

... так что это очень широкий термин и множество различных методов, начиная от простой линейной экстраполяции , заканчивая линейной регрессией, полиномиальной регрессией или даже некоторыми продвинутыми методами прогнозирования временных рядов, которые соответствуют такому определению. На самом деле экстраполяция, прогноз и прогноз тесно связаны. В статистике мы часто делаем прогнозы и прогнозы . Это также то, что говорит ссылка, на которую вы ссылаетесь:

Нас с первого дня статистики учили, что экстраполяция - это большая нет-нет, но это именно то, что прогнозирование.

Многие методы экстраполяции используются для прогнозирования, кроме того, часто некоторые простые методы работают довольно хорошо с небольшими выборками, поэтому могут быть предпочтительнее, чем сложные. Проблема, как отмечалось в других ответах, заключается в неправильном использовании метода экстраполяции.

Например, многие исследования показывают, что возраст начала половой жизни в западных странах со временем уменьшается. Посмотрите на сюжет ниже о возрасте первого полового акта в США. Если бы мы слепо использовали линейную регрессию для прогнозирования возраста первого полового акта, мы бы предсказали, что он станет ниже нуля через некоторое количество лет (соответственно, с первым браком и первым рождением, произошедшим через некоторое время после смерти) ... Однако, если вам нужно было сделать прогноз на год вперед, тогда я бы предположил, что линейная регрессия приведет к довольно точным краткосрочным прогнозам тренда.

введите описание изображения здесь

(источник guttmacher.org )

Все модели неверны , экстраполяция также неверна, поскольку она не позволит вам делать точные прогнозы. Как и другие математические / статистические инструменты, это позволит вам делать приблизительные прогнозы. Степень их точности зависит от качества данных, которые вы используете, используя методы, адекватные вашей проблеме, допущений, которые вы сделали при определении модели, и многих других факторов. Но это не значит, что мы не можем использовать такие методы. Мы можем, но нам нужно помнить об их ограничениях и оценивать их качество для данной проблемы.

Тим
источник
4
Когда данные, которые вы используете для регрессии, заканчиваются в начале 1980-х, вы, вероятно, можете легко проверить, как долго будет работать экстраполяция после этой даты.
геррит
@gerrit Я согласен, но, к сожалению, я не смог найти подходящих данных. Но если бы кто-то мог указать мне это, я был бы рад обновить мой ответ для такого сравнения.
Тим
В этом случае экстраполяция не удалась, учитывая, что возраст первого пола подскочил за последние несколько лет. (Но данные для этого всегда отстают от года рождения на пару десятилетий, по причинам, которые должны быть очевидны.)
Дэвид Манхейм
13

Мне очень нравится пример Нассима Талеба (который был адаптацией более раннего примера Бертраном Расселом):

Рассмотрим индейку, которую кормят каждый день. Каждое отдельное кормление укрепит веру птицы в то, что это общее правило жизни, которое каждый день кормят дружественные представители человечества, «заботящиеся о своих лучших интересах», как сказал бы политик. Во второй половине дня в среду перед Днем благодарения с Турцией произойдет нечто неожиданное. Это повлечет за собой пересмотр веры.

Вот некоторые математические аналоги:

  • Знание первых нескольких коэффициентов Тейлора функции не всегда гарантирует, что последующие коэффициенты будут следовать вашему предполагаемому образцу.

  • знание начальных условий дифференциального уравнения не всегда гарантирует знание его асимптотического поведения (например, уравнения Лоренца, иногда искаженные так называемым «эффектом бабочки»)

Вот хорошая тема МО по этому вопросу.

Дж. М. не является статистиком
источник
3
... и, конечно, Талеб должен указать на моральный урок: "Не будь индейкой"! В этом контексте: не будьте неосторожным экстраполатором и не поддавайтесь греху гордыни.
JM не является статистиком
@ uoɥʇʎPʎzɐɹC, я не просил об этом, но спасибо!
JM не является статистиком
на самом деле нет никакой пользы для перекрестной проверки репутации - и никто не видел ваш ответ, и он был действительно хорош. Наслаждайтесь!
noɥʇʎԀʎzɐɹƆ
12

Обдумайте следующую историю, если хотите.

Я также помню, как сидел на курсе по статистике, и профессор сказал нам, что экстраполяция - плохая идея. Затем во время следующего урока он сказал нам, что это снова плохая идея; на самом деле, он сказал это дважды.

Я был болен до конца семестра, но я был уверен, что не мог пропустить много материала, потому что к прошлой неделе парень наверняка ничего не делал, только снова и снова рассказывая людям, как экстраполяция была плохой идеей ,

Как ни странно, на экзамене я не набрал очень высокие баллы.

einpoklum - восстановить Монику
источник
6
Спрашивается, что не так с экстраполяцией? Мы ищем ответы, которые объясняют, почему экстраполяция может быть плохой идеей.
Роберт Лонг
8
@RobertLong: На самом деле это своего рода ответ на мета-шутку, и он очень похож на xkcd.com/605 - но все же, возможно, лучше как комментарий, чем как ответ.
Нил Слэйтер
@NeilSlater: Вы должны были оставить свой комментарий в качестве ответа ... :)
usεr11852 говорит восстановить Monic
@RobertLong: Это такой ответ. Он просто имеет форму притчи.
einpoklum - восстановить Монику
2
Не понятно, что ваша модель экспоненциальная.
геррит
6

Вопрос не только статистический, но и эпистемологический. Экстраполяция - это один из способов узнать о природе, это форма индукции . Допустим, у нас есть данные для электропроводности материала в диапазоне температур от 0 до 20 градусов Цельсия, что мы можем сказать о проводимости при 40 градусах Цельсия?

Это тесно связано с выводом небольшой выборки: что мы можем сказать обо всей популяции по измерениям, проведенным на небольшой выборке? Это было начато Госсетом как Гиннес , который придумал студенческие t-распределения. До него статистики не задумывались о маленьких выборках, полагая, что размер выборки всегда может быть большим. Он был в Гиннесе и должен был разобраться с образцами пива, чтобы решить, что делать со всей партией пива, которую нужно отправить.

Таким образом, на практике (в бизнесе), технике и науке мы всегда должны экстраполировать некоторые аспекты. Это может быть экстраполяция маленьких выборок на большую, или от ограниченного диапазона входных условий до более широкого набора условий, от того, что происходит в ускорителе, до того, что случилось с черной дырой в миллиардах миль отсюда и т. Д. Это особенно важно в науке, хотя , как мы действительно учимся, изучая расхождения между нашими оценками экстраполяции и фактическими измерениями. Часто мы находим новые явления, когда расхождения велики или последовательны.

следовательно, я говорю, что нет проблем с экстраполяцией. Это то, что мы должны делать каждый день. Это просто сложно.

Аксакал
источник
4

Сама экстраполяция не обязательно является злом, но это процесс, который поддается выводам, которые являются более необоснованными, чем вы пришли к интерполяции.

  • Экстраполяция часто проводится для изучения значений довольно далеко от выбранной области. Если я выберу 100 значений от 0 до 10, а затем немного экстраполирую, просто до 11, моя новая точка, вероятно, будет в 10 раз дальше от любой точки данных, чем любая интерполяция. Это означает, что есть намного больше места для переменной, чтобы выйти из-под контроля (качественно). Обратите внимание, что я намеренно выбрал только незначительную экстраполяцию. Это может стать намного хуже
  • Экстраполяция должна выполняться с подгонками кривой, которые были предназначены для экстраполяции. Например, многие полиномиальные аппроксимации очень плохи для экстраполяции, потому что слагаемые, которые ведут себя хорошо в выбранном диапазоне, могут взорваться, как только вы покидаете его. Хорошая экстраполяция зависит от «правильного предположения» относительно того, что происходит за пределами области выборки. Что приводит меня к ...
  • Часто чрезвычайно сложно использовать экстраполяцию из-за наличия фазовых переходов. Многие процессы, на которые может потребоваться экстраполировать, имеют явно нелинейные свойства, которые недостаточно раскрыты в области выборки. Аэронавтика вокруг скорости звука - отличный пример. Многие экстраполяции с более низких скоростей распадаются при достижении и превышении скорости передачи информации в воздухе. Это также часто происходит с мягкими науками, где сама политика может влиять на успех политики. Кейнсианская экономика экстраполировала, как экономика будет вести себя при разных уровнях инфляции, и предсказывала наилучший возможный результат. К сожалению, были эффекты второго порядка, и результатом было не экономическое процветание, а скорее одни из самых высоких уровней инфляции, которые наблюдались в США.
  • Людям нравятся экстраполяции. Вообще говоря, люди действительно хотят, чтобы кто-то заглянул в хрустальный шар и рассказал им о будущем. Они примут удивительно плохие экстраполяции просто потому, что это вся информация, которую они имеют. Это само по себе не может сделать плохой экстраполяцию, но это определенно то, что нужно учитывать при ее использовании.

Для максимальной экстраполяции рассмотрим Манхэттенский проект. Физики там, где вынуждены работать с чрезвычайно мелкими тестами, прежде чем строить реальные вещи. У них просто не хватало урана, чтобы тратить его на испытания. Они сделали все возможное, и они были умными. Однако, когда произошло последнее испытание, было решено, что каждый ученый сам решит, как далеко от взрыва они хотели быть, когда он разразился. Существовали существенные различия во мнениях относительно того, насколько далеко "безопасно", потому что все ученые знали, что они экстраполируют довольно далеко от своих испытаний. Было даже нетривиальное мнение о том, что они могут поджечь атмосферу с помощью ядерной бомбы, проблема также была решена путем существенной экстраполяции!

Корт Аммон
источник
3

Здесь много хороших ответов, я просто хочу попытаться обобщить то, что я вижу в основе проблемы: опасно экстраполировать за пределы того процесса генерирования данных, который привел к выборке оценки. Это иногда называют «структурным изменением».

Прогнозирование основывается на допущениях, главное из которых состоит в том, что процесс генерирования данных (так как он почти не имеет существенных различий) такой же, как и тот, который сгенерировал выборку (за исключением переменных rhs, изменения которых вы явно учитываете в модели) , Если происходит структурное изменение (например, День благодарения в примере Талеба), все ставки отменяются.

Джейсон
источник