Что означает «Все модели неправильны, но некоторые полезны»

76

«По сути, все модели ошибочны, но некоторые полезны».

--- Коробка, Джордж EP; Норман Р. Дрейпер (1987). Эмпирическое моделирование и ответные поверхности, с. 424, Wiley. ISBN 0471810339.

В чем именно смысл этой фразы?

gpuguy
источник
13
О той же книге уже упоминалось ранее: Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.возможно, это более полезно.
usεr11852 говорит восстановить Monic

Ответы:

101

Я думаю, что его значение лучше всего проанализировать, рассмотрев его в двух частях:

«Все модели ошибочны», то есть каждая модель ошибочна, потому что это упрощение реальности. Некоторые модели, особенно в «жестких» науках, ошибаются лишь немного. Они игнорируют такие вещи, как трение или гравитационное воздействие крошечных тел. Другие модели сильно ошибаются - они игнорируют большие вещи. В социальных науках мы многое игнорируем.

«Но некоторые полезны» - упрощения реальности могут быть весьма полезны. Они могут помочь нам объяснить, предсказать и понять вселенную и все ее различные компоненты.

Это не просто так в статистике! Карты являются типом модели; они не правы. Но хорошие карты очень полезны. Примеров других полезных, но неправильных моделей предостаточно.

Питер Флом - Восстановить Монику
источник
20
+1 Потому что мне нравится аналогия карт. Я буду использовать это в будущем!
usεr11852 говорит восстановить Monic
4
Многие модели в «жестких» науках тоже довольно далеки (вчера я присутствовал на семинаре, где измерения, где модель находилась в пределах панели ошибок, но она составляла два порядка).
gerrit
7
+1. Я думаю, что ваше ключевое предложение: «каждая модель неправильна, потому что это упрощение реальности». Люди часто об этом забывают - например, в наивной критике экономики (у меня есть своя критика, но они должны быть более изощренными, чем просто то, что «реальность более сложна, чем ваша модель»). Если мы не упростили это, у вас есть грубая реальность, которая слишком сложна для понимания. Таким образом, мы должны упростить это, чтобы получить какое-либо понимание.
Питер Эллис
13
Фантазия об идеальной карте в масштабе 1: 1 использовалась многими авторами, включая Льюиса Кэрролла, Хорхе Луиса Борхеса и Умберто Эко. На самом деле это было бы бесполезно, потому что это обязательно было бы просто сложно, поскольку область, которую он отображает, и не было бы легче понять (не говоря уже о неловкости его разворачивания и выкладывания для чтения).
Ник Кокс
2
Может быть, вы также можете добавить, что модель должна быть немного неправильной, потому что в противном случае она не будет обобщать и, следовательно, не будет применяться в других местах. Есть несколько ответов, говорящих об этом ниже. Но сейчас слишком много ответов, чтобы прочитать их все.
Ziggystar
9

Это означает, что полезные идеи могут быть получены из моделей, которые не являются идеальным представлением явлений, которые они моделируют.

Статистическая модель - это описание системы с использованием математических понятий. Таким образом, во многих случаях вы добавляете определенный уровень абстракции для облегчения логической процедуры (например, нормальность ошибок измерения, составная симметрия в корреляционных структурах и т. Д.). Это почти невозможно для одной модели , чтобы описать совершенно реальный мир феномен дал себе иметь субъективный взгляд на мир (наша сенсорная система не идеальна); тем не менее, успешный статистический вывод действительно имеет место, поскольку наш мир обладает определенной степенью последовательности, которую мы используем. Таким образом, наши почти всегда неправильные модели оказываются полезными .

(Я уверен, что вы скоро получите большой смелый ответ, но я постарался быть кратким в этом!)

usεr11852 говорит восстановить Monic
источник
Можно ли сказать, что эти полезные модели дают приблизительные решения?
gpuguy
2
@gpuguy: Конечно можешь. Цитируют Тьюк: An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.(. Я на самом деле цитата вещи JT является удивительно проницательным)
usεr11852 говорит восстановили Monic
6
«Гораздо лучше приблизительный ответ на правильный вопрос, который часто является расплывчатым, чем точный ответ на неправильный вопрос, который всегда можно уточнить». Джон В. Тьюки 1962 Будущее анализа данных. Анналы математической статистики 33: 1-67 (см. С. 13-14). Без сомнения, он говорил подобные вещи в другое время, но это обычный источник.
Ник Кокс,
Я c-p'ed цитата непосредственно из ветки цитаты соответствующего резюме.
usεr11852 говорит восстановить Monic
6
Я скопировал мой из оригинальной публикации.
Ник Кокс,
6

Я нашел этот доклад JSA 2009 года Тэда Тарпи, чтобы дать полезное объяснение и комментарий к отрывку из коробки. Он утверждает, что если мы рассматриваем модели как приближения к истине, мы могли бы так же легко назвать все модели правильными.

Вот тезисы:

Исследователи статистики часто знакомятся с известной цитатой Джорджа Бокса: «Все модели неправильны, некоторые полезны». В этом выступлении я утверждаю, что эта цитата, хотя и полезна, ошибочна. Другая и более позитивная точка зрения - признать, что модель - это просто средство извлечения интересующей информации из данных. Истина бесконечно сложна, а модель является лишь приближением к истине. Если приближение плохое или вводит в заблуждение, то модель бесполезна. В этом выступлении я привожу примеры правильных моделей, которые не являются настоящими моделями. Я иллюстрирую, как понятие «неправильной» модели может привести к неправильным выводам.

Димитрий Васильевич Мастеров
источник
3

Для меня фактическое понимание заключается в следующем аспекте:

Модель не должна быть правильной, чтобы быть полезной.

К сожалению, во многих науках часто забывают, что модели не обязательно должны быть точным представлением реальности, чтобы допускать новые открытия и предсказания!

Так что не тратьте свое время на создание сложной модели, которая требует точных измерений множества переменных. Настоящий гений изобретает простую модель, которая делает эту работу.

user12719
источник
3

Модель не может обеспечить 100% точные прогнозы, если есть какие-либо случайности в результатах. Если бы не было никакой неопределенности, никакой случайности и никакой ошибки, то это считалось бы фактом, а не моделью. Первое очень важно, потому что модели часто используются для моделирования ожиданий событий, которые не произошли. Это почти гарантирует, что существует некоторая неопределенность в отношении реальных событий.

Учитывая точную информацию, теоретически может быть возможно создать модель, которая дает идеальные прогнозы для таких точно известных событий. Однако даже с учетом этих маловероятных обстоятельств такая модель может быть настолько сложной, что ее невозможно использовать в вычислительном отношении, и она может быть точной только в конкретный момент времени, поскольку другие факторы изменяют то, как значения меняются в зависимости от событий.

Поскольку неопределенность и случайность присутствуют в большинстве реальных данных, попытки получить идеальную модель бесполезны. Вместо этого более ценно взглянуть на получение достаточно точной модели, достаточно простой для того, чтобы ее можно было использовать с точки зрения как данных, так и вычислений, необходимых для ее использования. Хотя эти модели, как известно, несовершенны, некоторые из этих недостатков хорошо известны и могут быть рассмотрены для принятия решений на основе моделей.

Более простые модели могут быть несовершенными, но их также легче рассуждать, сравнивать друг с другом, и с ними легче работать, поскольку они, вероятно, будут менее требовательными в вычислительном отношении.

Дэвид Бертон
источник
3

Если позволите, может быть полезен только один комментарий. Версия празы, которую я предпочитаю,

(...) все модели являются приближенными. По сути, все модели ошибочны, но некоторые полезны (...)

взято из « Поверхностей отклика, смесей и анализов хребтов » Бокса и Дрейпера (2007, с. 414, Wiley). Глядя на расширенную цитату, становится более ясным, что имел в виду Бокс - статистическое моделирование касается аппроксимации реальности, а аппроксимация никогда не бывает точной, поэтому речь идет о поиске наиболее подходящего приближения. То, что подходит для ваших целей, является субъективной вещью, поэтому это не одна из полезных моделей, но, возможно, некоторые из них, в зависимости от цели моделирования.

Тим
источник
3

Поскольку никто не добавил его, Джордж Бокс использовал указанную фазу, чтобы ввести следующий раздел в книгу. Я считаю, что он лучше всех объясняет, что имел в виду:

PV=RTPVTR

Для такой модели нет необходимости задавать вопрос «Является ли модель верной?». Если «истина» должна быть «всей правдой», ответ должен быть «Нет». Единственный интересный вопрос - «Модель полезна и полезна?».

Box, GEP (1979), «Робастность в стратегии построения научной модели», в Launer, RL; Уилкинсон, Г. Н., Робастность в статистике , Academic Press, стр. 201–236.

Tavrock
источник
2

Вы можете думать об этом таким образом. максимальная сложность (т.е. энтропия) объекта подчиняется некоторой форме границы Бекенштейна :

I2πREcln2

ER

Это большое число, в большинстве случаев:

2.58991·1042Ω=2I107.79640·1041

Итак, вы хотите использовать «лучшую карту», ​​т.е. саму территорию, со всеми волновыми уравнениями для всех частиц в каждой ячейке? Точно нет. Это будет не только вычислительная катастрофа, но вы будете моделировать вещи, которые по сути не имеют ничего общего с тем, что вас волнует. Если все, что вы хотите сделать, это, скажем, определить, проснулся ли я или нет, вам не нужно знать, что делает электрон # 32458 в нейроне # 844030, рибосома # 2305, молекула # 2. Если вы не моделируете это, ваша модель действительно «неправильна», но если вы можете определить, бодрствую ли я или нет, ваша модель определенно пригодится.

яркая звезда
источник
2

Я думаю, что Питер и пользователь11852 дали отличные ответы. Я бы также добавил (отрицанием), что если модель действительно хороша, она, вероятно, будет бесполезна из-за переоснащения (следовательно, не обобщается).

Томас Шпайдель
источник
2
+1 за переоснащение. Такие алгоритмы, как наивный байесовский и линейный дискриминантный анализ, часто работают очень хорошо, даже если вы знаете, что базовая модель неверна (например, фильтрация спама), просто потому, что для оценки параметров требуется меньше данных.
Дикран Сумчатый
1

Моя кислотная интерпретация такова: полагать, что математическая модель описывает точно все факторы и их взаимодействия, управляющие интересующим явлением, было бы слишком упрощенно и высокомерно. Мы даже не знаем, достаточно ли используемой нами логики для понимания нашей вселенной. Тем не менее, некоторые математические модели представляют достаточно хорошее приближение (с точки зрения научного метода), которые полезны для того, чтобы делать выводы о таком явлении.

H2SO4
источник
1

Как астростатик (возможно, редкая порода), я нахожу известность изречения Бокса неудачной. В физических науках у нас часто есть твердое согласие для понимания процессов, лежащих в основе наблюдаемого явления, и эти процессы часто могут выражаться математическими моделями, вытекающими из законов гравитации, квантовой механики, термодинамики и т. Д. Статистические цели заключаются в оценке наиболее подходящие физические параметры параметров модели, а также выбор и проверка модели. Недавний драматический случай произошел после выхода в марте 2013 года документов со спутника Планка Европейского космического агентства.Измерения космического микроволнового фона, которые убедительно устанавливают простую 6-параметрическую модель LambdaCDM для Большого взрыва. Я сомневаюсь, что изречение Бокса будет применяться где угодно в широком спектре передовых статистических методов, используемых в этих 29 статьях.

Эрик Фейгельсон
источник
1

Я только что перефразировал приведенный выше ответ, рассматривая модели процессов в качестве точки фокусировки. Утверждение можно интерпретировать следующим образом:

«Все модели ошибочны», то есть каждая модель ошибочна, потому что это упрощение реальности. Некоторые модели только немного не правы. Они игнорируют некоторые вещи, например: -> изменяющиеся требования, -> игнорирование завершения проекта в установленные сроки, -> не принимая во внимание желаемый уровень качества клиента и т. Д ... Другие модели сильно ошибаются - они игнорируют большие вещи. Классические модели процессов программного обеспечения игнорируют многое по сравнению с моделями гибких процессов, которые игнорируют меньше.

«Но некоторые полезны» - упрощения реальности могут быть весьма полезны. Они могут помочь нам объяснить, предсказать и понять весь проект и все его различные компоненты. Модели используются потому, что их функции соответствуют большинству программ разработки программного обеспечения.

Srinath
источник
0

Я хотел бы дать другое толкование термина «полезный». Наверное, не тот, о котором думал Бокс.

Когда вам нужно принимать решения, и именно для этого в конечном итоге будет использоваться вся информация, тогда вы должны измерять свой успех в той или иной форме. Когда речь идет о решениях с неопределенной информацией, эту меру часто называют полезностью.

Таким образом, мы можем также думать о полезных моделях как о тех, которые позволяют нам принимать более обоснованные решения; для достижения наших целей более эффективно.

Это добавляет еще одно измерение поверх обычных критериев, таких как способность модели правильно что-то прогнозировать: это позволяет нам сопоставлять различные аспекты, которые имеет отношение модель друг к другу.

ziggystar
источник
-2

«Все модели ошибочны, но некоторые полезны». Возможно, это означает: мы должны делать все возможное, что мы знаем, + искать новое обучение?

январь
источник
4
(-1) Можете ли вы предоставить какую-либо ссылку, предполагающую, что GEP Box имел в виду это? Как вы можете найти из других ответов, он имел в виду нечто совершенно иное.
Тим
ФП, возможно, берет цитату и дает ей новую интерпретацию. Я согласен с Тимом в том, что Бокс более или менее говорил, что не следует воспринимать модель как точную интерпретацию реальности, но признаю, что некоторая модель может хорошо описывать данные.
Михаил Черник,