Я пытаюсь понять, как работают функции влияния. Может ли кто-то объяснить в контексте простой регрессии OLS
где я хочу функцию влияния для .
regression
least-squares
stevejb
источник
источник
Ответы:
Функции влияния - это в основном аналитический инструмент, который можно использовать для оценки эффекта (или «влияния») удаления наблюдения на значение статистики без необходимости пересчета этой статистики . Они также могут быть использованы для создания асимптотических оценок дисперсии. Если влияние равно то асимптотическая дисперсия равна .я 2I I2n
То, как я понимаю функции влияния, заключается в следующем. У вас есть какой-то теоретический CDF, обозначаемый . Для простого OLS у вас естьFi(y)=Pr(Yi<yi)
Φ(z)σ2S(F)FFF(i)(z)=(1+ζ)F(z)-ζδ(i)(z)δi(z)=I(yi<z)ζ=1
Обратите внимание, что поэтому мы получаем:F(i)(z,0)=F(z)
Частная производная здесь называется функцией влияния. Таким образом, это представляет приблизительную поправку «первого порядка», которая должна быть сделана к статистике из-за удаления «i-го» наблюдения. Обратите внимание, что в регрессии остаток не стремится к нулю асимметрично, так что это является приближением к изменениям, которые вы можете получить. Теперь напишите как:β
Таким образом, бета является функцией двух статистик: дисперсии X и ковариации между X и Y. Эти две статистики имеют представления в терминах CDF как:
Для удаления i-го наблюдения мы заменим в обоих интегралах, чтобы получить:F→F(i)=(1+ζ)F−ζδ(i)
игнорируя термины и упрощая, мы получаем: Аналогично для ковариацииζ2
Теперь мы можем выразить как функцию от . Это:β(i) ζ
Теперь мы можем использовать серию Тейлор:
Упрощение этого дает:
значения статистики , , и мы получим:μy μx var(X) ζ=1n−1
И вы можете увидеть, как эффект удаления одного наблюдения может быть аппроксимирован без необходимости повторной подгонки модели. Вы также можете увидеть, как значение x, равное среднему, не влияет на наклон линии . Подумайте об этом, и вы увидите, как это имеет смысл. Вы также можете написать это более кратко в терминах стандартизированных значений (аналогично для y):x~=x−x¯¯¯sx
источник
Вот супер общий способ говорить о функциях влияния регрессии. Сначала я собираюсь рассмотреть один из способов представления функций влияния:
Предположим, что - это распределение на . Загрязненная функция распределения , может быть определена как: где является вероятностной мерой на , которая присваивает вероятность 1 и 0 для всех других элементов .F Σ Fϵ(x)
Отсюда мы можем довольно легко определить функцию влияния:
Влияние функции из на , определяется следующим образом:θ^ F ψi:X→Γ
Отсюда можно увидеть, что функция влияния - это производная Гато от в в направлении . Это делает интерпретацию функций влияния (для меня) немного более ясной: функция влияния сообщает вам эффект, который конкретное наблюдение оказывает на оценку.θ^ F δx
Оценка OLS является решением проблемы:
Представьте себе загрязненное распределение, которое придает наблюдательности немного больше веса :(x,y)
Условия первого заказа:
Поскольку функция влияния является производной Гато, мы можем теперь сказать:
При , , поэтому:ϵ=0 θ^ϵ=θ^=E[XTX]−1E[XTY]
Конечный выборочный аналог этой функции влияния:
В общем, я считаю, что с этой структурой (работающей с функциями влияния как производными Гато) легче разобраться.
источник