С инженерной точки зрения, каковы недостатки слишком точной модели?

24

Мне было интересно, с инженерной точки зрения, по каким причинам слишком большая точность моделирования может быть вредной?

С научной точки зрения кажется, что это почти всегда полезно, за исключением тех случаев, когда вам нужно меньше времени для вычислений.

Так что с инженерной точки зрения, кроме времени (или вычислительной мощности), почему вы должны избегать этого?

Гость
источник
2
Пожалуйста, определите «точность» и «слишком много» здесь. У вас может быть модель, которая предсказывает диапазон неопределенности с чрезвычайно высокой точностью, или модель, которая уменьшает саму неопределенность до очень малого значения. И так далее.
Карл Виттофт
1
«Все должно быть сделано как можно проще, но не проще». Эйнштейн.
Эрик
1
«помимо времени (или вычислительной мощности)» Кажется, что все ответы упустили этот пункт ..
agentp
1
@agentp Напротив, вопрос отвечает сам на себя, пытаясь исключить это. Это глупая вещь, чтобы быть в вопросе в первую очередь.
jpmc26
2
это серьезно худший вопрос с «высоким рейтингом», который я когда-либо видел. Это совершенно запутанно.
agentp

Ответы:

38

Остерегайтесь переоснащения . Более точная модель сбора данных из системы не может быть лучшим предиктором будущего поведения системы.

Пример переоснащения

На изображении выше показаны две модели некоторых данных.

Линейная линия несколько точна на тренировочных данных (точки на графике), и (можно было бы ожидать) она будет несколько точнее на данных тестирования (где точки, вероятно, будут для x <5 и x> -5 ).

Напротив, полином на 100% точен для обучающих данных, но (если у вас нет никаких оснований полагать, что полином 9-й степени является разумным по какой-то физической причине), вы могли бы предположить, что он будет крайне плохим предиктором для x> 5 и х <-5.

Линейная модель является «менее точной» и основана на любом сравнении ошибок с данными, которые мы собрали. Но это более обобщенно.

Кроме того, инженеры должны меньше беспокоиться о своей модели и больше о том, что люди будут делать с моделью.

Если я скажу вам, что мы идем на прогулку в жаркий день, и это продлится 426 минут. Вы, вероятно, принесете меньше воды, чем если я скажу, что прогулка продлится 7 часов, и даже меньше, чем если я скажу, что прогулка продлится 4-8 часов. Это потому, что вы реагируете на мой подразумеваемый уровень уверенности в моем прогнозе, а не на середину моего заявленного времени.

Если вы дадите людям точную модель, люди уменьшат вероятность ошибки. Это приводит к большим рискам.

Если взять пример с прогулки в жаркий день, если я знаю, что прогулка займет 4-8 часов в 95% случаев с некоторой неопределенностью в отношении навигации и скорости ходьбы. Прекрасное знание нашей скорости ходьбы уменьшит неопределенность цифры 4-8, но это не окажет значительного влияния на «шанс того, что мы будем так долго, что вода станет проблемой», потому что это почти полностью обусловлено неопределенной навигацией, а не неуверенная скорость ходьбы.

Скотт
источник
1
N
Ключевая цитата из связанной статьи в Википедии: «переоснащение происходит, когда модель начинает« запоминать »тренировочные данные, а не« учиться »обобщать из тренда».
Эмилио М Бумачар
4
Действительно ли мы считаем, что переоснащение - это «слишком большая точность в модели»? Это не оборотная сторона наличия «слишком точной модели». Это недостаток в том, чтобы иметь слишком много точных точек и плохо моделировать . Создание плохой модели из точных данных не является точной моделью.
JMac
@JMac: Переоснащение может происходить естественным образом в контексте машинного обучения, без намеренного создания плохой модели, просто бросая слишком много данных в тренировочный набор. Я не уверен, что «слишком точный» является правильным способом описания такого рода результатов, но не является и «простой ошибкой моделирования».
Кевин
26

Наиболее очевидным недостатком является стоимость, все инженерные проекты имеют ограниченный бюджет, и тратить больше денег, чем нужно, явно плохо, не говоря уже о потере времени.

Также могут быть более тонкие проблемы. Такие вещи, как анализ FE, всегда являются приближениями, и иногда добавление ненужных деталей может привести к появлению артефактов и усложнить поиск и устранение неисправностей модели. Например, вы можете получить разрывы, которые приводят к повышению уровня стресса

Существует также мнение, что даже если у вас есть вычислительные возможности для удобной обработки большого количества поставщиков данных, а клиенты могут этого не делать, и во многих случаях передача больших файлов все еще является узким местом.

Точно так же, если у вас больше параметров, чем нужно, вы потенциально можете создать дополнительную работу по управлению файлами и их отладке.

Опять же, даже если у вас сейчас достаточно времени и ресурсов, вполне может оказаться, что кому-то в дальнейшем понадобится использовать эту модель без той же роскоши, особенно если она окажется частью продукта, который вы продаете покупателям.

Крис Джонс
источник
7
Запрос: второй абзац следует читать «... добавив необходимую деталь ...» или „ добавив , ип необходимой детали“
Фред
да, это должно быть ненужным
Крис Джонс
Я не уверен, что пример FE работает здесь хорошо. В этом случае FE является моделью. Использование более точных данных может представлять проблемы; но если ваша модель FE точна, то, очевидно, вам не нужно беспокоиться об артефактах; потому что ваша модель не имеет их. Мы уже определили это как точное. Возможно, в случае использования другой модели для подключения к анализу FE; но с другой стороны, это в основном то, что «кто-то еще дальше» использует модель.
JMac
13

Есть несколько причин.

С чисто прагматической точки зрения, это связано с нехваткой времени. Необходимое время для решения модели увеличивается намного, намного быстрее, чем уровень точности, и какой бы уровень он ни принимал, он в любом случае субъективен.

±515%

Из-за этого нет смысла быть слишком точным. Но на самом деле может быть полезно даже не пытаться быть слишком точным. Однако причины этого в основном психологические. В основном, вы не хотите, чтобы ваша модель была слишком точной, и вы не хотите выводить результаты с семью десятичными знаками, потому что вы не хотите вызывать ложное чувство уверенности.

Человеческий мозг запутан, чтобы думать, что 1.2393532697 является более точным значением, чем 1.2. Но на самом деле это не так. Из-за всех реальных неопределенностей, которые ваша модель не может принять во внимание (особенно учитывая текущие аппаратные ограничения), 1.2 почти наверняка так же верен, как и 1.2393532697. Так что не обманывайте себя или того, кто видит вашу модель. Просто выведите 1.2, который ясно показывает, что вы не знаете, что происходит после этой второй цифры.

Васаби
источник
6

Чрезвычайно точная модель может потребовать чрезмерного количества входных данных. Можно было бы создать превосходную модель метеорологических систем, например, принимая в качестве входных данных положение и скорость каждой молекулы газа в атмосфере. На практике такая модель не будет полезна, так как не существует реалистичного способа генерирования правильного ввода. В этом случае предпочтительней менее точная модель, которая требует только ограниченных входных данных.

Ядерный Ван
источник
1
Вы ответили на другой вопрос, а именно: «сколько входных данных слишком много»
Карл Виттофт
Я бы, вероятно, добавил сюда примечание о том, как в вопросе упоминается «кроме случаев, когда вам нужно меньше времени на вычисления», потому что это также хорошая причина иметь менее точную модель; если ваша модель слишком точна, то для расчета реальных случаев может потребоваться больше времени, чем тепловая смерть вселенной.
Делиот
5

«Слишком точное» не монотонно. На самом деле это может создать иллюзию верности, которая заставляет вас думать, что стоит потратить больше денег на симуляцию. Это становится очень важным, когда вы представляете данные из моделей смешанной точности, где некоторые детали очень подробные, а другие очень грубые.

Пример из реальной жизни, который я использовал, - это выбор высоты над местностью. Команда решила попробовать 1024 фрагмента, чтобы максимизировать точность воспроизведения. Наш клиент хотел получить ответ от ReallyGood (tm).

Теперь меня беспокоили хиты времени выполнения, вызванные этим конкретным алгоритмом, и я хотел понять, за какую точность я фактически платил. Я не видел никаких данных о местности, поэтому я спросил их, как они их загрузили. Ответ был: «О, у нас нет рельефа. Он просто плоский».

Так что это звучало так, как будто у меня была потрясающая модель с высокой точностью воспроизведения, которая отобрала 1024 балла. На самом деле у меня была модель с низкой точностью воспроизведения, которая не лучше, чем выборка 1 балл 1024 раза, но работала на целую тонну медленнее и маскировалась под модель с более высокой точностью воспроизведения!

В реальном инженерном мире лидеры не всегда имеют возможность изучить всю архитектуру модели. На самом деле, я бы сказал, что у них никогда не было времени. Наше руководство принимало решения, исходя из того, что у нас была потрясающая модель из 1024 баллов. Никто не был виноват, это именно то, что происходит, когда вы слишком сильно настраиваете точность на одной части модели, а на другой - низкую точность. Это природа зверя со смешанной верностью.

Корт Аммон - Восстановить Монику
источник
Притча о том, как сведение к значащим цифрам не всегда сводится к обрезанию конечных нулей.
Эйкре
1

В действительности есть данные, которые у нас есть, и есть данные, которых у нас нет . Почти всегда объем данных, которых у нас нет, намного больше, чем мы могли бы надеяться собрать по практическим или экономическим причинам.

Поэтому, пытаясь сопоставить данные несправедливо хорошо с несколькими имеющимися у нас выборками, мы рискуем заставить нашу модель делать действительно плохие оценки в тех областях, где мы, честно говоря, понятия не имеем (из-за недостатка данных). Тогда наша модель даст нам ложное чувство безопасности.

mathreadler
источник
1

Так что с инженерной точки зрения, кроме времени (или вычислительной мощности), почему вы должны избегать этого

Если исходить из точки зрения машиностроения, самая большая причина в том, что вы берете на себя дополнительные усилия, только если они дают значительно отличающиеся результаты.

Если уровень точности в вашей модели на порядки выше, чем уровень точности, который вы могли бы обеспечить при выполнении проекта, вы напрасно тратите свои усилия. Если уровень точности, описанный в вашей модели, выше, чем тот, который требуется для клиента. Ты тратишь деньги. Например, если вы указываете более высокую точность, чем на самом деле требует конструкция (например, +/- .00001 мм в длину вентиляционной трубы), вы тратите деньги своих клиентов, потому что вентиляция в атмосферу диаметром 350 мм выполняет ту же работу, что и вентиляция диаметром 350 0005 мм. в атмосферу, но последний значительно дороже в производстве.

В университете мы все учились моделировать физический мир, используя ньютоновскую физику, хотя хорошо известно, что постньютоновская физика представляет более точную модель физического поведения. Несмотря на это, я не знаю ни одной программы машиностроения, которая по умолчанию исключает ньютоновские модели как слишком неточные. Если мы используем более точную модель и придумаем ответ, который на 0,1% ближе к теоретической истине, которая не повлияет на наш окончательный дизайн в подавляющем большинстве случаев. Если наш предел текучести отличается на 0,1%, это дает нам незначительную разницу в требуемом сечении, что приводит к выбору точно такого же размера двутавровой балки на основе любого из этих методов. В этом случае затраты на дополнительные усилия не приносят никакой дополнительной выгоды.

В настоящее время существуют ситуации, когда требуется точность для создания работоспособного проекта, например, для моделирования некоторых спутников требуется релятивистская физика. В этих обстоятельствах нам нужно найти модель, которая обеспечивает требуемый уровень точности, и нам нужно разработать модель. Если нам нужно рассчитать размеры до +/- 0,0001%, это будет напрасной тратой усилий, если размеры наших деталей составляют +/- 0,1%. В реальных приложениях размеры деталей последней степени точности встречаются гораздо чаще, чем первая.

Myles
источник
0

Стоимость: стоимость времени или стоимость вычислительной мощности и стоимость точности - если другие переменные имеют допуск 5%, например, зачем вычислять результаты до 1% ...

Солнечный Майк
источник
0

В предыдущих ответах вход и стоимость были упомянуты. Если вы хотите точности, например. При оптимизации производственных параметров вам, вероятно, потребуется больше измерений, и сначала вам нужно проанализировать, насколько вы можете сократить затраты по сравнению с тем, сколько рабочих часов, таким образом, увеличенные затраты увеличивают частоту измерений или стоимость автоматизированной системы, которая заменит ручной сбор данных. Второй пример, если вы получаете очень точные результаты, в которые вы вложили время и другие ресурсы для получения, у вас есть достаточное оборудование для контроля качества, промышленных измерений и т. Д. Или даже технологии. Если ваши результаты напрасны, то время, потраченное на их получение, тратится впустую.

Katarina
источник
0

Нужно ли вам спутниковое изображение с сантиметровым разрешением, чтобы можно было идентифицировать леса по цвету? Точно нет. Я был бы вреден, так как вы должны были бы принять решение о любом не зеленом квадрате размером 10 квадратных сантиметров. То же самое для моделирования: разрешение деталей должно соответствовать разрешению ваших целевых объектов. Если нет, вы потеряете время сокращения.

guuusst
источник
0

Большинство реальных ответов исключены вашим искусственным ограничением, что вычислительная мощность и время вычислений не должны учитываться. Модель, для оценки которой требуются часы или дни, не допускает быстрых итераций проектирования и замедляет работу в человеческом масштабе, увеличивая стоимость и, возможно, приводя к худшим результатам. Умный упрощение моделей без потери излишней точности может быть очень полезным подходом, тогда модель грубой силы может использоваться для проверки окончательной итерации.

Возможно, слишком сложные модели могут маскировать фундаментальные ошибки в модели или что работа, необходимая для сбора информации для практического использования модели по максимуму, перевесит любую потенциальную выгоду. Например, если вам нужно знать характеристики материала с большей степенью точности, чем поставщик может их контролировать, вы можете либо принять диапазоны ошибок, либо пойти и протестировать каждую партию материала, чтобы настроить модель.

Спехро Пефхани
источник