Влияние функций и МНК

15

Я пытаюсь понять, как работают функции влияния. Может ли кто-то объяснить в контексте простой регрессии OLS

yi=α+βxi+εi

где я хочу функцию влияния для .β

stevejb
источник
2
Здесь пока нет конкретного вопроса: хотите посмотреть, как вычисляется функция влияния? Хотите конкретный эмпирический пример? Эвристическое объяснение того, что это значит?
whuber
1
Если вы посмотрите статью Фрэнка Кричли 1986 года «Функции влияния в главных компонентах» (не могу вспомнить точное название статьи). Здесь он определяет функцию влияния для обычной регрессии (которая может или не может доказать, что мой ответ неверен).
вероятностная

Ответы:

15

Функции влияния - это в основном аналитический инструмент, который можно использовать для оценки эффекта (или «влияния») удаления наблюдения на значение статистики без необходимости пересчета этой статистики . Они также могут быть использованы для создания асимптотических оценок дисперсии. Если влияние равно то асимптотическая дисперсия равна .я 2II2n

То, как я понимаю функции влияния, заключается в следующем. У вас есть какой-то теоретический CDF, обозначаемый . Для простого OLS у вас естьFi(y)=Pr(Yi<yi)

Φ(z)σ2S(F)FFF(i)(z)=(1+ζ)F(z)-ζδ(i)(z)δi(z)=I(yi<z)ζ=1

Pr(Yi<yi)=Pr(α+βxi+ϵi<yi)=Φ(yi(α+βxi)σ)
Где - стандартный нормальный CDF, а - дисперсия ошибки. Теперь вы можете показать, что любая статистика будет функцией этого CDF, отсюда обозначение (т.е. некоторая функция ). Теперь предположим, что мы изменим функцию на «немного», чтобы где и . Таким образом, представляет CDF данных с удаленной «i-й» точкой данных. Мы можем сделать серию ТейлораΦ(z)σ2S(F)FFF(i)(z)=(1+ζ)F(z)ζδ(i)(z)δi(z)=I(yi<z) F(i)F(i)(z)ζ=0ζ=1n1F(i)F(i)(z) около . Это дает:ζ=0

S[F(i)(z,ζ)]S[F(i)(z,0)]+ζ[S[F(i)(z,ζ)]ζ|ζ=0]

Обратите внимание, что поэтому мы получаем: F(i)(z,0)=F(z)

S[F(i)(z,ζ)]S[F(z)]+ζ[S[F(i)(z,ζ)]ζ|ζ=0]

Частная производная здесь называется функцией влияния. Таким образом, это представляет приблизительную поправку «первого порядка», которая должна быть сделана к статистике из-за удаления «i-го» наблюдения. Обратите внимание, что в регрессии остаток не стремится к нулю асимметрично, так что это является приближением к изменениям, которые вы можете получить. Теперь напишите как:β

β=1nj=1n(yjy¯)(xjx¯)1nj=1n(xjx¯)2

Таким образом, бета является функцией двух статистик: дисперсии X и ковариации между X и Y. Эти две статистики имеют представления в терминах CDF как:

cov(X,Y)=(Xμx(F))(Yμy(F))dF
и где
var(X)=(Xμx(F))2dF
μx=xdF

Для удаления i-го наблюдения мы заменим в обоих интегралах, чтобы получить:FF(i)=(1+ζ)Fζδ(i)

μx(i)=xd[(1+ζ)Fζδ(i)]=μxζ(xiμx)
Var(X)(i)=(Xμx(i))2dF(i)=(Xμx+ζ(xiμx))2d[(1+ζ)Fζδ(i)]

игнорируя термины и упрощая, мы получаем: Аналогично для ковариации ζ2

Var(X)(i)Var(X)ζ[(xiμx)2Var(X)]
Cov(X,Y)(i)Cov(X,Y)ζ[(xiμx)(yiμy)Cov(X,Y)]

Теперь мы можем выразить как функцию от . Это:β(i)ζ

β(i)(ζ)Cov(X,Y)ζ[(xiμx)(yiμy)Cov(X,Y)]Var(X)ζ[(xiμx)2Var(X)]

Теперь мы можем использовать серию Тейлор:

β(i)(ζ)β(i)(0)+ζ[β(i)(ζ)ζ]ζ=0

Упрощение этого дает:

β(i)(ζ)βζ[(xiμx)(yiμy)Var(X)β(xiμx)2Var(X)]

значения статистики , , и мы получим:μyμxvar(X)ζ=1n1

β(i)βxix¯n1[yiy¯1nj=1n(xjx¯)2βxix¯1nj=1n(xjx¯)2]

И вы можете увидеть, как эффект удаления одного наблюдения может быть аппроксимирован без необходимости повторной подгонки модели. Вы также можете увидеть, как значение x, равное среднему, не влияет на наклон линии . Подумайте об этом, и вы увидите, как это имеет смысл. Вы также можете написать это более кратко в терминах стандартизированных значений (аналогично для y):x~=xx¯sx

β(i)βxi~n1[yi~sysxxi~β]
probabilityislogic
источник
Таким образом, история о влиянии дополнительной точки данных? Я больше привык к импульсной реакции для данных временных рядов, в статистическом контексте все влияние будет описываться предельным эффектом или (лучшим выбором) бета-коэффициентом из стандартизированной регрессии. Ну, мне действительно нужно больше контекста, чтобы судить о вопросе и ответе, но этот, я думаю, хорош (+1 пока нет, но жду).
Дмитрий Челов
@dmitrij - это то, что подразумевалось (или то, что я сделал вывод) из ссылки - это о свойствах надежности статистики. Функции влияния являются несколько более общими, чем 1 точка данных - вы можете переопределить дельта-функцию, чтобы получить их сумму (так много наблюдений). Я бы подумал, что это «дешевый Джекниф» в некоторой степени - потому что вам не требуется переоснащение модели.
вероятностная
10

Вот супер общий способ говорить о функциях влияния регрессии. Сначала я собираюсь рассмотреть один из способов представления функций влияния:

Предположим, что - это распределение на . Загрязненная функция распределения , может быть определена как: где является вероятностной мерой на , которая присваивает вероятность 1 и 0 для всех других элементов .FΣFϵ(x)

Fϵ(x)=(1ϵ)F+ϵδx
δxΣ{x}Σ

Отсюда мы можем довольно легко определить функцию влияния:

Влияние функции из на , определяется следующим образом: θ^Fψi:XΓ

ψθ^,F(x)=limϵ0θ^(Fϵ(x))θ^(F)ϵ

Отсюда можно увидеть, что функция влияния - это производная Гато от в в направлении . Это делает интерпретацию функций влияния (для меня) немного более ясной: функция влияния сообщает вам эффект, который конкретное наблюдение оказывает на оценку.θ^Fδx

Оценка OLS является решением проблемы:

θ^=argminθE[(YXθ)T(YXθ)]

Представьте себе загрязненное распределение, которое придает наблюдательности немного больше веса :(x,y)

θ^ϵ=argminθ(1ϵ)E[(YXθ)T(YXθ)]+ϵ(yxθ)T(yxθ)

Условия первого заказа:

{(1ϵ)E[XTX]+ϵxTx}θ^ϵ=(1ϵ)E[XTY]+ϵxTy

Поскольку функция влияния является производной Гато, мы можем теперь сказать:

(E[XTX]+xTx)θ^ϵ+E[XTX]ψθ(x,y)=E[XTY]+xTy

При , , поэтому:ϵ=0θ^ϵ=θ^=E[XTX]1E[XTY]

ψθ(x,y)=E[XTX]1xT(yxθ)

Конечный выборочный аналог этой функции влияния:

ψθ(x,y)=(1NiXiTXi)1xT(yxθ)

В общем, я считаю, что с этой структурой (работающей с функциями влияния как производными Гато) легче разобраться.

jayk
источник