Funções de influência e OLS

15

Estou tentando entender como as funções de influência funcionam. Alguém poderia explicar no contexto de uma regressão OLS simples

yi=α+βxi+εi

onde eu quero a função de influência para .β

stevejb
fonte
2
Ainda não há uma pergunta específica aqui: você deseja ver como a função de influência é calculada? Você quer um exemplo empírico específico? Uma explicação heurística do que isso significa?
whuber
1
Se você procurar o artigo de Frank Critchley, de 1986, "influencia funções em componentes principais" (não se lembra do nome exato do artigo). Ele define a função de influência para a regressão comum aqui (o que pode ou não provar que minha resposta está errada).
probabilityislogic

Respostas:

15

As funções de influência são basicamente uma ferramenta analítica que pode ser usada para avaliar o efeito (ou "influência") da remoção de uma observação sobre o valor de uma estatística sem ter que recalculá-la . Eles também podem ser usados ​​para criar estimativas de variação assintótica. Se a influência for igual a , a variação assintótica será .I 2II2n

A maneira como entendo as funções de influência é a seguinte. Você tem algum tipo de CDF teórico, indicado por . Para OLS simples, você temFi(y)=Pr(Yi<yi)

Φ(z)σ2S(F)FFF(i)(z)=(1+ζ)F(z)-ζδ(i)(z)δi(z)=I(yi<z)ζ=1

Pr(Yi<yi)=Pr(α+βxi+ϵi<yi)=Φ(yi(α+βxi)σ)
Onde é o CDF normal padrão e é a variação do erro. Agora você pode mostrar que qualquer estatística será uma função deste CDF, daí a notação (ou seja, alguma função de ). Agora, suponha que alteremos a função um pouco, para Onde e . Assim, representa o CDF dos dados com o "i-ésimo" ponto de dados removido. Podemos fazer uma série de taylor deΦ(z)σ2S(F)FFF(i)(z)=(1+ζ)F(z)ζδ(i)(z)δi(z)=I(yi<z) F(i)F(i)(z)ζ=0ζ=1n1F(i)F(i)(z) sobre . Isto dá:ζ=0

S[F(i)(z,ζ)]S[F(i)(z,0)]+ζ[S[F(i)(z,ζ)]ζ|ζ=0]

Observe que então obtemos: S [ F ( i ) ( z , ζ ) ] S [ F ( z ) ] + ζ [ S [ F ( i ) ( z , ζ ) ]F(i)(z,0)=F(z)

S[F(i)(z,ζ)]S[F(z)]+ζ[S[F(i)(z,ζ)]ζ|ζ=0]

A derivada parcial aqui é chamada de função de influência. Portanto, isso representa uma correção aproximada de "primeira ordem" a ser feita em uma estatística devido à exclusão da observação "i". Observe que, na regressão, o restante não chega a zero assintoticamente, de modo que essa é uma aproximação das alterações que você pode realmente obter. Agora escreva como:β

β=1nj=1n(yjy¯)(xjx¯)1nj=1n(xjx¯)2

Portanto, beta é uma função de duas estatísticas: a variação de X e covariância entre X e Y. Essas duas estatísticas têm representações em termos de CDF como:

v a r ( X ) = ( X - μ x ( F ) ) 2 d F μ x = x d F

cov(X,Y)=(Xμx(F))(Yμy(F))dF
e onde
var(X)=(Xμx(F))2dF
μx=xdF

Para remover a i-ésima observação, substituímos nas duas integrais para fornecer:FF(i)=(1+ζ)Fζδ(i)

μx(i)=xd[(1+ζ)Fζδ(i)]=μxζ(xiμx)
Var(X)(i)=(Xμx(i))2dF(i)=(Xμx+ζ(xiμx))2d[(1+ζ)Fζδ(i)]

ignorando os termos de e simplificando, obtemos: Da mesma forma para a covariância ζ2

Var(X)(i)Var(X)ζ[(xiμx)2Var(X)]
Cov(X,Y)(i)Cov(X,Y)ζ[(xiμx)(yiμy)Cov(X,Y)]

Portanto, agora podemos expressar como uma função de . Isto é:β(i)ζ

β(i)(ζ)Cov(X,Y)ζ[(xiμx)(yiμy)Cov(X,Y)]Var(X)ζ[(xiμx)2Var(X)]

Agora podemos usar a série Taylor:

β(i)(ζ)β(i)(0)+ζ[β(i)(ζ)ζ]ζ=0

Simplificar isso fornece:

β(i)(ζ)βζ[(xiμx)(yiμy)Var(X)β(xiμx)2Var(X)]

E adicionando os valores das estatísticas , , e , obtemos:μyμxvar(X)ζ=1n1

β(i)βxix¯n1[yiy¯1nj=1n(xjx¯)2βxix¯1nj=1n(xjx¯)2]

E você pode ver como o efeito da remoção de uma única observação pode ser aproximado sem precisar reajustar o modelo. Você também pode ver como um x igual à média não influencia a inclinação da linha . Pense sobre isso e você verá como isso faz sentido. Você também pode escrever isso de maneira mais sucinta em termos dos valores padronizados (da mesma forma para y):x~=xx¯sx

β(i)βxi~n1[yi~sysxxi~β]
probabilityislogic
fonte
Então a história é sobre a influência de pontos de dados adicionais? Eu me acostumei mais à resposta de impulso para os dados de séries temporais, no contexto estatístico toda influência seria descrita por efeito marginal ou (melhor escolha) coeficiente beta da regressão padronizada. Bem, eu realmente preciso de mais contexto para julgar a pergunta e a resposta, mas essa é legal, eu acho (+1 ainda não, mas aguardando).
Dmitrij Celov
@dmitrij - Isso é o que estava implícito (ou o que eu deduzi) no link - trata-se das propriedades de robustez de uma estatística. As funções de influência são um pouco mais gerais que 1 ponto de dados - é possível redefinir a função delta para ser uma soma delas (muitas observações). Eu pensaria nisso como um "Jacknife barato", até certo ponto - porque você não precisa de uma nova adaptação do modelo.
probabilityislogic
10

Aqui está uma maneira super geral de falar sobre as funções de influência de uma regressão. Primeiro, abordarei uma maneira de apresentar funções de influência:

Suponha que seja uma distribuição em . A função de distribuição contaminada , pode ser definida como: que é a medida de probabilidade em que atribui a probabilidade 1 a e 0 para todos os outros elementos de .FΣFϵ(x)

Fϵ(x)=(1ϵ)F+ϵδx
δxΣ{x}Σ

A partir disso, podemos definir a função de influência com bastante facilidade:

A função de influência de em , é definida como: θ^Fψi:XΓ

ψθ^,F(x)=limϵ0θ^(Fϵ(x))θ^(F)ϵ

A partir daqui, é possível ver que uma função de influência é a derivada de Gateaux de em na direção de . Isso torna a interpretação das funções de influência (para mim) um pouco mais clara: uma função de influência informa o efeito que uma observação específica tem no estimador.θ^Fδx

A estimativa do OLS é uma solução para o problema:

θ^=argminθE[(YXθ)T(YXθ)]

Imagine uma distribuição contaminada que ponha um pouco mais de peso na observação :(x,y)

θ^ϵ=argminθ(1ϵ)E[(YXθ)T(YXθ)]+ϵ(yxθ)T(yxθ)

Tomando condições de primeira ordem:

{(1ϵ)E[XTX]+ϵxTx}θ^ϵ=(1ϵ)E[XTY]+ϵxTy

Como a função de influência é apenas um derivado de Gateaux, podemos agora dizer:

(E[XTX]+xTx)θ^ϵ+E[XTX]ψθ(x,y)=E[XTY]+xTy

Em , , então:ϵ=0θ^ϵ=θ^=E[XTX]1E[XTY]

ψθ(x,y)=E[XTX]1xT(yxθ)

A contraparte de amostra finita dessa função de influência é:

ψθ(x,y)=(1NiXiTXi)1xT(yxθ)

Em geral, acho essa estrutura (trabalhando com funções de influência como derivadas de Gateaux) mais fácil de lidar.

jayk
fonte