Во-первых, я должен заявить, что я искал на этом сайте ответ. Либо я не нашел вопрос, который ответил на мой вопрос, либо мой уровень знаний настолько низок, что я не понял, что уже прочитал ответ.
Я готовлюсь к экзамену по статистике AP. Я должен изучить линейную регрессию, и одна из тем - остатки. У меня есть копия « Введение в статистику и анализ данных» на странице 253.
Необычные точки в наборе данных двумерный являются те , которые падают от большинства других точек в диаграмме рассеяния либо в направлении или направленияу
Наблюдение является потенциально влиятельным наблюдением, если оно имеет значение которое находится далеко от остальных данных (отделенных от остальных данных в направлении ). Чтобы определить, действительно ли наблюдение является влиятельным, мы оцениваем, оказывает ли удаление этого наблюдения большое влияние на значение наклона или пересечение линии наименьших квадратов.х
Наблюдение является выбросом, если оно имеет большой остаток. Наблюдения за выбросами находятся далеко от линии наименьших квадратов в направлении .
Stattreck.com предлагает четыре метода определения отклонения от остатков:
Точки данных, которые сильно расходятся с общей схемой, называются выбросами. Существует четыре способа, которыми точка данных может считаться выбросом.
- Он может иметь экстремальное значение X по сравнению с другими точками данных.
- Он может иметь экстремальное значение Y по сравнению с другими точками данных.
- Может иметь экстремальные значения X и Y.
- Это может быть далеко от остальных данных, даже без экстремальных значений X или Y.
Эти два источника, кажется, противоречат друг другу. Может ли кто-нибудь помочь прояснить мою путаницу. Кроме того, как можно определить экстрим. Статистика AP использует правило, если точка данных находится за пределами (Q1-1.5IQR, Q3 + 1.5IQR), то это отклонение. Я не знаю, как применить это из графика на основе остатков.
источник
Я согласен с Джоном. Вот еще несколько моментов. Влиятельное наблюдение (строго) влияет на оценки параметров. Небольшое отклонение в значении Y дает большое изменение в оценочном параметре (ах) бета. В простой регрессии одной переменной против другой, влиятельные переменные - это в точности те, чье значение X далеко от среднего значения X. При множественной регрессии (несколько независимых переменных) ситуация более сложная. Вы должны взглянуть на диагональ так называемой шляпной матрицы , и программное обеспечение регрессии даст вам это. Google "кредитное плечо".X(X′X)−1X′
Влияние - это функция проектных точек (значений X), как говорится в вашем учебнике.
Обратите внимание, что влияние это сила. В запланированном эксперименте вам нужны влиятельные значения X, при условии, что вы можете точно измерить соответствующее значение Y. Таким образом, вы получаете больше денег за доллар.
Для меня выброс в основном является ошибкой, то есть наблюдением, которое не следует той же модели, что и остальные данные. Это может произойти из-за ошибки сбора данных или из-за того, что этот конкретный предмет был необычным в некотором роде.
Мне не очень нравится определение выброса статтреком по нескольким причинам. Регрессия не является симметричной в Y и X. Y моделируется как случайная величина, и предполагается, что X фиксированы и известны. Странность в Y - это не то же самое, что странность в X. Влияние и влияние означают разные вещи. Влияние при множественной регрессии не выявляется при просмотре остаточных графиков. Хорошее описание выбросов и влияния для случая с одной переменной должно помочь вам разобраться в нескольких случаях.
Мне больше не нравится ваш учебник по причинам, указанным Джоном.
Итог, влиятельные выбросы опасны. Их нужно внимательно изучить и разобраться.
источник