Этот вопрос интересен тем, что раскрывает некоторые связи между теорией оптимизации, методами оптимизации и статистическими методами, которые должен понять любой способный пользователь статистики. Хотя эти связи просты и легко изучаемы, они тонки и часто упускаются из виду.
Подводя итог некоторым идеям из комментариев к другим ответам, я хотел бы отметить, что есть как минимум два способа, которыми «линейная регрессия» может привести к неуникальным решениям - не только теоретически, но и на практике.
Недостаток идентификации
Первый - это когда модель не идентифицируется. Это создает выпуклую, но не строго выпуклую целевую функцию, которая имеет несколько решений.
Рассмотрим, например, регрессирует против х и у (с перехватом) для ( х , у , г ) данные ( 1 , - 1 , 0 ) , ( 2 , - 2 , - 1 ) , ( 3 , - 3 , - 2 ) . Одним из решений является г = 1 + у . Другой гZИксY( х , у, z)( 1 , - 1 , 0 ) , ( 2 , - 2 , - 1 ) , ( 3 , - 3 , - 2 )Z^= 1 + у . Чтобы увидеть, что должно быть несколько решений, параметризовать модель с тремя действительными параметрами ( λ , µ , ν ) и ошибочным членом ε в видеZ^= 1 - х( λ , μ , ν)ε
Z=1+μ+(λ+ν−1)x+(λ−ν)y+ ε .
Сумма квадратов остатков упрощается до
SSR = 3 мкр2+ 24 ц N ,+ 56 ν2,
(Это ограничивающий случай целевых функций, возникающих на практике, например, обсуждаемый в разделе «Может ли эмпирический гессиан М-оценки быть неопределенным?» , Где вы можете прочитать подробный анализ и просмотреть графики функции.)
Поскольку коэффициенты квадратов ( и 56 ) являются положительными и определитель 3 × 56 - ( 24 / 2 ) 2 = 24 является положительным, то это положительно полуопределена квадратичной формой ( ц , v , , Л ) . Оно минимизируется, когда μ = ν = 0 , но λ может иметь любое значение. Поскольку целевая функция ССР не зависит от λ3563 × 56 - ( 24 / 2 )2= 24( μ , ν, λ )μ = ν= 0λSSRλни его градиент (ни какие-либо другие производные). Следовательно, любой алгоритм градиентного спуска - если он не вносит каких-либо произвольных изменений направления - установит для решения значение равным любому начальному значению.λ
Даже когда градиентный спуск не используется, решение может варьироваться. В R
, например, есть два простых, эквивалентные способы указать эту модель: как z ~ x + y
или z ~ y + x
. Первый дает г = 1 - х , но второе дает г = 1 + у . Z^= 1 - хZ^= 1 + у
> x <- 1:3
> y <- -x
> z <- y+1
> lm(z ~ x + y)
Coefficients:
(Intercept) x y
1 -1 NA
> lm(z ~ y + x)
Coefficients:
(Intercept) y x
1 1 NA
( NA
Значения следует интерпретировать как нули, но с предупреждением о том, что существует несколько решений. Предупреждение стало возможным благодаря предварительному анализу, выполняемому R
независимо от метода его решения. Метод градиентного спуска, скорее всего, не обнаружит возможность нескольких решений, хотя хороший предупредит вас о некоторой неуверенности, что она достигла оптимального значения.)
Ограничения параметров
Строгая выпуклость гарантирует уникальный глобальный оптимум при условии выпуклости области параметров. Ограничения параметров могут создавать невыпуклые домены, что приводит к множеству глобальных решений.
Очень простой пример дает задача оценки «среднего» для данных - 1 , 1 с учетом ограничения | μ | ≥ 1 / 2 . Это моделирует ситуацию, которая является своего рода противоположностью методов регуляризации, таких как Регрессия Риджа, Лассо или Эластичная Сеть: она настаивает на том, чтобы параметр модели не становился слишком маленьким. (На этом сайте появились различные вопросы о том, как решить проблемы регрессии с такими ограничениями параметров, показывая, что они возникают на практике.)μ- 1 , 1| μ | ≥1 / 2
В этом примере есть два решения наименьших квадратов, оба одинаково хороши. Их находят путем минимизации учетом ограничения | μ | ≥ 1 / 2 . Два раствора μ = ± 1 / 2 . Более чем одно решение может возникнуть из - за ограничение делает параметр домена М ∈ ( - ∞ , - 1 / 2 ] ∪( 1 - μ )2+ ( - 1 - μ )2| μ | ≥1 / 2μ = ± 1 / 2 невыпуклый:ц ∈ ( - ∞ , - 1 / 2 ] ∪ [ 1 / 2 , ∞ )
Парабола является графиком (строго) выпуклой функции. Толстая красная часть является частью ограничивается областью : она имеет две низкие точки , в ц = ± 1 / 2 , где сумма квадратов составляет 5 / 2 . Остальная часть параболы (показана пунктирной) удаляется ограничением, тем самым исключая ее уникальный минимум из рассмотрения.μμ = ± 1 / 25 / 2
μ = 1 / 2μ = - 1 / 2
Та же самая ситуация может произойти с большими наборами данных и в более высоких измерениях (то есть с большим количеством параметров регрессии, чтобы соответствовать).
Боюсь, на ваш вопрос нет бинарного ответа. Если линейная регрессия является строго выпуклой (без ограничений на коэффициенты, без регуляризатора и т. Д.), То градиентный спуск будет иметь уникальное решение и будет глобальным оптимумом. Градиентный спуск может и даст несколько решений, если у вас есть невыпуклая проблема.
Хотя OP запрашивает линейную регрессию, приведенный ниже пример демонстрирует минимизацию наименьших квадратов, хотя нелинейная (в отличие от линейной регрессии, которую хочет OP) может иметь несколько решений, а градиентный спуск может возвращать другое решение.
Я могу показать эмпирически на простом примере, что
Рассмотрим пример, в котором вы пытаетесь минимизировать наименьшие квадраты для следующей задачи:
Вышеуказанная проблема имеет 3 различных решения, и они заключаются в следующем:
Как показано выше, задача наименьших квадратов может быть невыпуклой и иметь многократное решение. Тогда вышеупомянутая проблема может быть решена с использованием метода градиентного спуска, такого как Microsoft Excel Excel Solver, и каждый раз, когда мы запускаем, мы получаем другое решение. поскольку градиентный спуск является локальным оптимизатором и может застрять в локальном решении, нам нужно использовать разные начальные значения, чтобы получить истинные глобальные оптимумы. Такая проблема зависит от начальных значений.
источник
Это потому, что целевая функция, которую вы минимизируете, является выпуклой, есть только один минимум / максимум. Следовательно, локальный оптимум также является глобальным оптимумом. Градиентный спуск найдет решение в конце концов.
Почему эта целевая функция выпуклая? В этом прелесть использования квадратичной ошибки для минимизации. Вывод и равенство нулю хорошо покажут, почему это так. Это довольно проблематично из учебника и рассматривается почти везде.
источник