Если у меня есть модель регрессии:
где и ,
когда использование , обычного метода наименьших квадратов , будет плохим выбором для оценки?
Я пытаюсь понять пример, где метод наименьших квадратов работает плохо. Поэтому я ищу распределение ошибок, которое удовлетворяет предыдущей гипотезе, но дает плохие результаты. Если бы семейство распределения определялось бы по среднему значению и дисперсии, это было бы здорово. Если нет, то тоже нормально.
Я знаю, что «плохие результаты» немного расплывчаты, но я думаю, что идея понятна.
Просто, чтобы избежать путаницы, я знаю, что метод наименьших квадратов не оптимален, и что существуют лучшие оценки, такие как регрессия гребня. Но это не то, к чему я стремлюсь. Я хочу пример, где наименьшие квадраты были бы неестественными.
Я могу представить себе такие вещи, как вектор ошибок живет в невыпуклой области , но я не уверен в этом.
Редактировать 1: В качестве идеи, чтобы помочь ответ (который я не могу понять, как двигаться дальше). - СИНИЙ. Так что может быть полезно подумать о том, когда линейная объективная оценка не будет хорошей идеей.
Редактировать 2: Как указал Брайан, если плохо обусловлен, то - плохая идея, потому что дисперсия слишком велика, и вместо нее следует использовать регрессию хребта. Меня больше интересует знание того, какой дистрибутив должен , чтобы наименьшие квадраты работали плохо.
Существует ли распределение с нулевым средним и единичной дисперсионной матрицей для которое делает эту оценку неэффективной?
Ответы:
Ответ Брайана Борхерса довольно хороший - данные, которые содержат странные выбросы, часто плохо анализируются OLS. Я просто собираюсь расширить это, добавив картинку, Монте-Карло и некоторый
R
код.Рассмотрим очень простую модель регрессии:
Эта модель соответствует вашим настройкам с коэффициентом наклона 1.
Прикрепленный график показывает набор данных, состоящий из 100 наблюдений по этой модели, с переменной x, бегущей от 0 до 1. В набранном наборе данных есть одно использование ошибки, которое дает значение выброса (в данном случае +31) , Также изображены линия регрессии МНК синим цветом и линия регрессии наименьших абсолютных отклонений красным цветом. Обратите внимание, как OLS, но не LAD искажается выбросом:
Мы можем проверить это, выполнив Монте-Карло. В Монте-Карло я генерирую набор данных из 100 наблюдений, используя те же и с приведенным выше распределением 10000 раз. В этих 10000 повторений мы не получим выброс в подавляющем большинстве. Но через несколько мы получим выброс, и он испортит OLS, но не LAD каждый раз. Ниже код работает в Монте - Карло. Вот результаты для коэффициентов наклона:ϵИкс ε
R
И OLS, и LAD дают несмещенные оценки (уклоны в среднем составляют 1,00 на 10000 повторений). OLS дает оценку с гораздо более высоким стандартным отклонением, хотя 0,34 против 0,09. Таким образом, OLS не является лучшим / наиболее эффективным среди объективных оценок здесь. Конечно, он все еще СИНИЙ, но LAD не линейный, поэтому здесь нет противоречий. Обратите внимание на дикие ошибки, которые OLS может совершать в столбцах Min и Max. Не так уж и плохо.
Вот код R для графика и Монте-Карло:
источник
Одним из примеров будет то, где вы не хотите оценивать среднее значение. Это возникло в работе, которую я выполнял, когда мы оценивали количество сексуальных партнеров, которых имели люди, в рамках моделирования распространения ВИЧ / СПИДа. Был интерес к хвостам дистрибуции: у каких людей много партнеров?
В этом случае вы можете захотеть квантильную регрессию; недостаточно используемый метод, на мой взгляд.
источник
источник