Вопрос очень прост: почему, когда мы пытаемся приспособить модель к нашим данным, линейным или нелинейным, мы обычно пытаемся минимизировать сумму квадратов ошибок, чтобы получить нашу оценку для параметра модели? Почему бы не выбрать другую целевую функцию, чтобы минимизировать? Я понимаю, что по техническим причинам квадратичная функция лучше, чем некоторые другие функции, например, сумма абсолютных отклонений. Но это все еще не очень убедительный ответ. Кроме этой технической причины, почему люди особенно поддерживают этот «евклидов тип» функции расстояния? Есть ли конкретное значение или интерпретация для этого?
Логика моего мышления заключается в следующем:
Когда у вас есть набор данных, вы сначала настраиваете свою модель, делая набор функциональных или распределительных допущений (скажем, некоторое условие момента, но не все распределение). В вашей модели есть несколько параметров (предположим, что это параметрическая модель), тогда вам нужно найти способ для последовательной оценки этих параметров, и, надеюсь, ваша оценка будет иметь низкую дисперсию и некоторые другие хорошие свойства. Независимо от того, минимизируете ли вы SSE или LAD или какую-либо другую целевую функцию, я думаю, что это просто разные методы для получения последовательной оценки. Следуя этой логике, я думал, что люди используют метод наименьших квадратов: 1) он дает непротиворечивую оценку модели 2) что-то еще, чего я не знаю.
В эконометрике мы знаем, что в модели линейной регрессии, если вы предполагаете, что слагаемые ошибки имеют нулевое среднее условие для предикторов, а гомоскедастичность и ошибки не связаны друг с другом, то минимизация суммы квадратических ошибок даст вам ПОСТОЯННУЮ оценку вашей модели параметры и по теореме Гаусса-Маркова, эта оценка является синим. Таким образом, можно предположить, что если вы решите минимизировать какую-то другую целевую функцию, которая не является SSE, то нет гарантии, что вы получите последовательную оценку параметра вашей модели. Правильно ли мое понимание? Если это правильно, то минимизация SSE, а не какой-либо другой целевой функции, может быть оправдана последовательностью, что на самом деле лучше, чем говорить, что квадратичная функция приятнее.
На самом деле я видел много случаев, когда люди напрямую минимизировали сумму квадратичных ошибок без предварительного четкого указания полной модели, например, предположений о распределении (предположений о моментах) в отношении ошибки. Тогда мне кажется, что пользователь этого метода просто хочет увидеть, насколько близко данные соответствуют «модели» (я использую кавычки, поскольку предположения модели, вероятно, неполны) в терминах функции квадратного расстояния.
Смежный вопрос (также связанный с этим веб-сайтом): почему, когда мы пытаемся сравнить разные модели, используя перекрестную проверку, мы снова используем SSE в качестве критерия суждения? т.е. выбрать модель, которая имеет наименьшее количество SSE? Почему не другой критерий?
источник
Ответы:
Хотя ваш вопрос похож на ряд других вопросов на сайте, некоторые аспекты этого вопроса (например, ваш акцент на последовательность) заставляют меня думать, что они недостаточно близки к тому, чтобы быть дубликатами.
Почему бы и нет? Если ваша цель отличается от наименьших квадратов, вам следует обратиться к ней!
Тем не менее, метод наименьших квадратов обладает рядом приятных свойств (не в последнюю очередь, тесная связь с оценочными средствами , которые нужны многим людям, и простота, которая делает его очевидным первым выбором при обучении или попытке реализовать новые идеи).
Кроме того, во многих случаях люди не имеют четкой целевой функции, поэтому есть преимущество в выборе того, что легко доступно и широко понято.
Тем не менее, наименьшие квадраты также имеют некоторые менее приятные свойства (например, чувствительность к выбросам), поэтому иногда люди предпочитают более надежный критерий.
Наименьшие квадраты не являются обязательными для согласованности. Согласованность не является очень серьезным препятствием - множество оценок будет последовательным. Практически все оценки, которые люди используют на практике, являются последовательными.
Но в ситуациях, когда все линейные оценки плохие (как, например, в случае экстремальных «тяжелых хвостов»), в лучшем случае не так много преимуществ.
нетрудно найти последовательные оценки, так что нет, это не особенно хорошее обоснование наименьших квадратов
Если ваша цель лучше отражена чем-то другим, почему бы и нет?
Нет недостатка в людях, использующих другие целевые функции, кроме наименьших квадратов. Это происходит в M-оценке, в наименьших оценках, в квантильной регрессии, и когда люди используют функции потерь LINEX, это лишь некоторые из них.
Предположительно, параметры функциональных предположений - это то, что вы пытаетесь оценить, - в этом случае функциональные предположения - это то, что вы делаете наименьшими квадратами (или чем-то еще) вокруг ; они не определяют критерий, они - то, что оценивает критерий.
С другой стороны, если у вас есть предположение о распределении, то у вас есть много информации о более подходящей целевой функции - предположительно, например, вы захотите получить эффективные оценки ваших параметров - что в больших выборках будет склонны вести вас к MLE (хотя, возможно, в некоторых случаях встроены в робастизированную структуру).
LAD - это квантильная оценка. Это непротиворечивая оценка параметра, которую он должен оценивать в тех условиях, в которых он должен быть, таким же образом, как и наименьшие квадраты. (Если вы посмотрите на то, что вы показываете согласованность с наименьшими квадратами, то есть соответствующие результаты для многих других распространенных оценок. Люди редко используют противоречивые оценки, поэтому, если вы видите, что оценка широко обсуждается, если они не говорят о ее несоответствии, это почти безусловно, соответствует. *)
Тем не менее, последовательность не обязательно является существенным свойством. В конце концов, для моей выборки у меня есть определенный размер выборки, а не последовательность размеров выборки, стремящаяся к бесконечности. Важны свойства меня есть, а не бесконечно большие n , которых у меня нет и которые я никогда не увижу . Но при наличии несоответствия требуется гораздо больше осторожности - у нас может быть хорошая оценка при n = 20, но это может быть ужасно при n = 2000; в некотором смысле требуется больше усилий, если мы хотим использовать непротиворечивые оценки.n n n n
Если вы используете LAD для оценки среднего экспоненты, оно не будет согласованным для этого (хотя тривиальное масштабирование его оценки будет), но тем же путем, если вы используете наименьшие квадраты для оценки медианы экспоненты , это не будет согласовано для этого (и опять же, тривиальное изменение масштаба исправляет это).
источник
Вы задали вопрос о статистике, и я надеюсь, что мой ответ инженера системы управления является ударом по нему с достаточно другого направления, чтобы быть просветляющим.
Вот «каноническая» форма информационных потоков для проектирования систем управления:
«R» для справочного значения. Он суммируется с преобразованием «F» выходных данных «у» для получения ошибки «е». Эта ошибка является входом для контроллера, преобразованного функцией передачи управления «C» в управляющий вход для установки «P». Он должен быть достаточно общим, чтобы применять его к произвольным растениям. «Завод» может быть автомобильным двигателем для круиз-контроля или углом ввода обратного маятника.
Допустим, у вас есть установка с известной передаточной функцией с феноменологией, подходящей для следующего обсуждения, текущего состояния и желаемого конечного состояния. ( таблица 2.1, стр. 68 ) Существует бесконечное число уникальных путей, которые система, с различными входами, могла бы пройти, чтобы перейти из начального в конечное состояние. Учебное пособие управляет инженером «оптимальных подходов», включая оптимальное время ( кратчайшее время / удар-взрыв ), оптимальное расстояние (кратчайший путь), оптимальное усилие (наименьшая максимальная величина входного сигнала) и оптимальное энергопотребление (минимальный суммарный ввод энергии).
Точно так же, как существует бесконечное число путей, существует бесконечное количество «оптимумов» - каждый из которых выбирает один из этих путей. Если вы выбираете один путь и говорите, что он лучший, то вы неявно выбираете «меру благости» или «меру оптимальности».
По моему личному мнению, я думаю, что такие люди, как норма L-2 (то есть оптимальная по энергии, то есть ошибка с наименьшим квадратом), потому что это просто, легко объяснить, легко выполнить, обладает способностью выполнять большую работу против больших ошибок, чем мелкие, и уходит с нулевым уклоном. Рассмотрим нормы h-бесконечности, где дисперсия минимизирована и смещение ограничено, но не равно нулю. Они могут быть весьма полезными, но их сложнее описать и сложнее кодировать.
Я думаю, что L2-норма, то есть минимизирующая энергию оптимальная траектория, то есть подгонка наименьших квадратов ошибок, проста и в ленивом смысле соответствует эвристике, что «большие ошибки более плохие, а меньшие ошибки менее плохие». Существует буквально бесконечное количество алгоритмических способов сформулировать это, но квадрат ошибки является одним из наиболее удобных. Это требует только алгебры, поэтому больше людей могут понять это. Он работает в (популярном) полиномиальном пространстве. Оптимальный по энергии согласуется с большей частью физики, составляющей наш воспринимаемый мир, поэтому он «кажется знакомым». Он прилично быстр для вычислений и не слишком ужасен для памяти.
Если у меня будет больше времени, я бы хотел добавить картинки, коды или библиографические ссылки.
источник
источник
Вы также можете взглянуть на минимизацию максимальной ошибки вместо подгонки по методу наименьших квадратов. Существует достаточно литературы по этому вопросу. Для поиска слова попробуйте "Чебечев", также пишется "Чебышев" полиномов.
источник
Похоже, что люди используют квадраты, потому что они позволяют находиться в пределах области линейной алгебры и не затрагивать другие более сложные вещи, такие как выпуклая оптимизация, которая является более мощной, но это приводит к использованию решателей без хороших решений в замкнутой форме.
Также идея из этой математической области, которая имеет название выпуклая оптимизация, не очень распространена.
«... Почему мы заботимся о квадрате предметов. Если честно, мы можем его проанализировать ... Если вы скажете, что оно соответствует Энергии, и они его покупают, то двигайтесь быстрее ....» - https: / /youtu.be/l1X4tOoIHYo?t=1416 , EE263, L8, 23:36.
Также здесь Стивен П. Бойд описывает в 2008 году, что люди используют молоток и adhoc: L20, 01:05:15 - https://youtu.be/qoCa7kMLXNg?t=3916
источник
На примечании стороны:
источник