Я помню, как сидел на курсах статистики как студент, слушавший, почему экстраполяция была плохой идеей. Кроме того, есть множество источников онлайн, которые комментируют это. Там также упоминание о нем здесь .
Может кто-нибудь помочь мне понять, почему экстраполяция это плохая идея? Если это так, как методы прогнозирования не являются статистически недействительными?
regression
time-series
forecasting
ПАРЕНЬ
источник
источник
Ответы:
Регрессионная модель часто используется для экстраполяции, то есть для прогнозирования отклика на вход, который находится за пределами диапазона значений переменной-предиктора, используемой для подгонки модели. Опасность, связанная с экстраполяцией, показана на следующем рисунке.
Модель регрессии «по построению» является интерполяционной моделью и не должна использоваться для экстраполяции, если это не будет должным образом обосновано.
источник
Этот комикс xkcd объясняет все это.
Используя данные, которые есть у Кьюбола (мужчина с палкой), он экстраполировал, что к концу следующего месяца у женщины будет «четыре десятка» мужей, и использовал эту экстраполяцию, чтобы прийти к заключению о покупке свадебного торта оптом.
Редактировать 3: Для тех из вас, кто говорит «ему не хватает точек данных», вот еще один комикс xkcd :
Здесь использование слова «устойчивый» во времени показано на полулогарифмическом графике, и экстраполируя точки данных, мы получаем необоснованные оценки того, как часто слово «устойчивый» будет встречаться в будущем.
Редактировать 2: Для тех из вас, кто говорит: «Вам также нужны все предыдущие данные», еще один комикс xkcd:
Здесь у нас есть все прошлые данные, но мы не можем точно предсказать разрешение Google Планета Земля. Обратите внимание, что это также полулогарифмический граф.
Изменить: Иногда, даже самые сильные из (r = .9979 в этом случае) корреляции просто неправильно.
Если вы экстраполируете без других подтверждающих доказательств, вы также нарушаете корреляцию, не подразумевая причинности ; еще один великий грех в мире статистики.
Однако если вы экстраполируете X на Y, вы должны убедиться, что вы можете точно (достаточно для удовлетворения ваших требований) предсказать X только с помощью Y. Почти всегда существует множество факторов, которые влияют на X.
Я хотел бы поделиться ссылкой на другой ответ, который объясняет это словами Nassim Nicholas Taleb.
источник
«Прогнозировать очень сложно, особенно если речь идет о будущем». Цитата приписывается многим людям в той или иной форме . В следующей «экстраполяции» я ограничиваюсь «предсказанием за пределами известного диапазона», а в одномерной установке - экстраполяцией из известного прошлого в неизвестное будущее.
Так что не так с экстраполяцией. Во-первых, моделировать прошлое нелегко . Во-вторых, трудно понять, можно ли использовать модель из прошлого в будущем . За обоими утверждениями стоят глубокие вопросы о причинности или эргодичности, достаточности объясняющих переменных и т. Д., Которые в значительной степени зависят от конкретного случая. Что неправильно, так это то, что трудно выбрать одну схему экстраполяции, которая прекрасно работает в разных контекстах, без большого количества дополнительной информации.
Тем не менее, прогнозирование может быть исправлено в некоторой степени. В дополнение к другим ответам, пара ингредиентов может помочь практической экстраполяции:
Недавно я участвовал в проекте по экстраполяции значений для связи подсистем моделирования в режиме реального времени. Догма в этой области заключалась в том, что экстраполяция может вызвать нестабильность. На самом деле мы поняли, что объединение двух вышеупомянутых ингредиентов было очень эффективным, без заметной нестабильности (без формальных доказательств еще и в настоящее время на рассмотрении ). И экстраполяция работала с простыми полиномами, с очень низкой вычислительной нагрузкой, большинство операций вычислялось заранее и сохранялось в справочных таблицах.
Наконец, поскольку экстраполяция предполагает забавное рисование, ниже приведен обратный эффект линейной регрессии:
источник
Хотя подгонка модели может быть « хорошей », экстраполяция за пределы диапазона данных должна рассматриваться скептически. Причина в том, что во многих случаях экстраполяция (к сожалению и неизбежно) основывается на непроверенных предположениях о поведении данных за пределами их наблюдаемой поддержки.
Дополнительным предостережением является то, что многие непараметрические методы оценки не допускают экстраполяции изначально. Эта проблема особенно заметна в случае сглаживания сплайна, когда больше нет узлов для закрепления подогнанного сплайна.
Позвольте мне подчеркнуть, что экстраполяция далека от зла. Например, численные методы, широко используемые в статистике (например , дельта-квадрат Айткена и экстраполяция Ричардсона ), по сути, представляют собой схемы экстраполяции, основанные на идее о том, что основное поведение функции, анализируемой для наблюдаемых данных, остается стабильным по всей поддержке функции.
источник
Вопреки другим ответам, я бы сказал, что в экстраполяции нет ничего плохого, поскольку он не используется бессмысленным образом. Во-первых, обратите внимание, что экстраполяция это :
... так что это очень широкий термин и множество различных методов, начиная от простой линейной экстраполяции , заканчивая линейной регрессией, полиномиальной регрессией или даже некоторыми продвинутыми методами прогнозирования временных рядов, которые соответствуют такому определению. На самом деле экстраполяция, прогноз и прогноз тесно связаны. В статистике мы часто делаем прогнозы и прогнозы . Это также то, что говорит ссылка, на которую вы ссылаетесь:
Многие методы экстраполяции используются для прогнозирования, кроме того, часто некоторые простые методы работают довольно хорошо с небольшими выборками, поэтому могут быть предпочтительнее, чем сложные. Проблема, как отмечалось в других ответах, заключается в неправильном использовании метода экстраполяции.
Например, многие исследования показывают, что возраст начала половой жизни в западных странах со временем уменьшается. Посмотрите на сюжет ниже о возрасте первого полового акта в США. Если бы мы слепо использовали линейную регрессию для прогнозирования возраста первого полового акта, мы бы предсказали, что он станет ниже нуля через некоторое количество лет (соответственно, с первым браком и первым рождением, произошедшим через некоторое время после смерти) ... Однако, если вам нужно было сделать прогноз на год вперед, тогда я бы предположил, что линейная регрессия приведет к довольно точным краткосрочным прогнозам тренда.
(источник guttmacher.org )
Все модели неверны , экстраполяция также неверна, поскольку она не позволит вам делать точные прогнозы. Как и другие математические / статистические инструменты, это позволит вам делать приблизительные прогнозы. Степень их точности зависит от качества данных, которые вы используете, используя методы, адекватные вашей проблеме, допущений, которые вы сделали при определении модели, и многих других факторов. Но это не значит, что мы не можем использовать такие методы. Мы можем, но нам нужно помнить об их ограничениях и оценивать их качество для данной проблемы.
источник
Мне очень нравится пример Нассима Талеба (который был адаптацией более раннего примера Бертраном Расселом):
Вот некоторые математические аналоги:
Знание первых нескольких коэффициентов Тейлора функции не всегда гарантирует, что последующие коэффициенты будут следовать вашему предполагаемому образцу.
знание начальных условий дифференциального уравнения не всегда гарантирует знание его асимптотического поведения (например, уравнения Лоренца, иногда искаженные так называемым «эффектом бабочки»)
Вот хорошая тема МО по этому вопросу.
источник
Обдумайте следующую историю, если хотите.
Я также помню, как сидел на курсе по статистике, и профессор сказал нам, что экстраполяция - плохая идея. Затем во время следующего урока он сказал нам, что это снова плохая идея; на самом деле, он сказал это дважды.
Я был болен до конца семестра, но я был уверен, что не мог пропустить много материала, потому что к прошлой неделе парень наверняка ничего не делал, только снова и снова рассказывая людям, как экстраполяция была плохой идеей ,
Как ни странно, на экзамене я не набрал очень высокие баллы.
источник
Вопрос не только статистический, но и эпистемологический. Экстраполяция - это один из способов узнать о природе, это форма индукции . Допустим, у нас есть данные для электропроводности материала в диапазоне температур от 0 до 20 градусов Цельсия, что мы можем сказать о проводимости при 40 градусах Цельсия?
Это тесно связано с выводом небольшой выборки: что мы можем сказать обо всей популяции по измерениям, проведенным на небольшой выборке? Это было начато Госсетом как Гиннес , который придумал студенческие t-распределения. До него статистики не задумывались о маленьких выборках, полагая, что размер выборки всегда может быть большим. Он был в Гиннесе и должен был разобраться с образцами пива, чтобы решить, что делать со всей партией пива, которую нужно отправить.
Таким образом, на практике (в бизнесе), технике и науке мы всегда должны экстраполировать некоторые аспекты. Это может быть экстраполяция маленьких выборок на большую, или от ограниченного диапазона входных условий до более широкого набора условий, от того, что происходит в ускорителе, до того, что случилось с черной дырой в миллиардах миль отсюда и т. Д. Это особенно важно в науке, хотя , как мы действительно учимся, изучая расхождения между нашими оценками экстраполяции и фактическими измерениями. Часто мы находим новые явления, когда расхождения велики или последовательны.
следовательно, я говорю, что нет проблем с экстраполяцией. Это то, что мы должны делать каждый день. Это просто сложно.
источник
Сама экстраполяция не обязательно является злом, но это процесс, который поддается выводам, которые являются более необоснованными, чем вы пришли к интерполяции.
Для максимальной экстраполяции рассмотрим Манхэттенский проект. Физики там, где вынуждены работать с чрезвычайно мелкими тестами, прежде чем строить реальные вещи. У них просто не хватало урана, чтобы тратить его на испытания. Они сделали все возможное, и они были умными. Однако, когда произошло последнее испытание, было решено, что каждый ученый сам решит, как далеко от взрыва они хотели быть, когда он разразился. Существовали существенные различия во мнениях относительно того, насколько далеко "безопасно", потому что все ученые знали, что они экстраполируют довольно далеко от своих испытаний. Было даже нетривиальное мнение о том, что они могут поджечь атмосферу с помощью ядерной бомбы, проблема также была решена путем существенной экстраполяции!
источник
Здесь много хороших ответов, я просто хочу попытаться обобщить то, что я вижу в основе проблемы: опасно экстраполировать за пределы того процесса генерирования данных, который привел к выборке оценки. Это иногда называют «структурным изменением».
Прогнозирование основывается на допущениях, главное из которых состоит в том, что процесс генерирования данных (так как он почти не имеет существенных различий) такой же, как и тот, который сгенерировал выборку (за исключением переменных rhs, изменения которых вы явно учитываете в модели) , Если происходит структурное изменение (например, День благодарения в примере Талеба), все ставки отменяются.
источник