Estou tentando entender como as funções de influência funcionam. Alguém poderia explicar no contexto de uma regressão OLS simples
onde eu quero a função de influência para .
regression
least-squares
stevejb
fonte
fonte
Respostas:
As funções de influência são basicamente uma ferramenta analítica que pode ser usada para avaliar o efeito (ou "influência") da remoção de uma observação sobre o valor de uma estatística sem ter que recalculá-la . Eles também podem ser usados para criar estimativas de variação assintótica. Se a influência for igual a , a variação assintótica será .I 2I I2n
A maneira como entendo as funções de influência é a seguinte. Você tem algum tipo de CDF teórico, indicado por . Para OLS simples, você temFi(y)=Pr(Yi<yi)
Φ(z)σ2S(F)FFF(i)(z)=(1+ζ)F(z)-ζδ(i)(z)δi(z)=I(yi<z)ζ=1
Observe que então obtemos: S [ F ( i ) ( z , ζ ) ] ≈ S [ F ( z ) ] + ζ [ ∂ S [ F ( i ) ( z , ζ ) ]F(i)(z,0)=F(z)
A derivada parcial aqui é chamada de função de influência. Portanto, isso representa uma correção aproximada de "primeira ordem" a ser feita em uma estatística devido à exclusão da observação "i". Observe que, na regressão, o restante não chega a zero assintoticamente, de modo que essa é uma aproximação das alterações que você pode realmente obter. Agora escreva como:β
Portanto, beta é uma função de duas estatísticas: a variação de X e covariância entre X e Y. Essas duas estatísticas têm representações em termos de CDF como:
v a r ( X ) = ∫ ( X - μ x ( F ) ) 2 d F μ x = ∫ x d F
Para remover a i-ésima observação, substituímos nas duas integrais para fornecer:F→F(i)=(1+ζ)F−ζδ(i)
ignorando os termos de e simplificando, obtemos: Da mesma forma para a covariânciaζ2
Portanto, agora podemos expressar como uma função de . Isto é:β(i) ζ
Agora podemos usar a série Taylor:
Simplificar isso fornece:
E adicionando os valores das estatísticas , , e , obtemos:μy μx var(X) ζ=1n−1
E você pode ver como o efeito da remoção de uma única observação pode ser aproximado sem precisar reajustar o modelo. Você também pode ver como um x igual à média não influencia a inclinação da linha . Pense sobre isso e você verá como isso faz sentido. Você também pode escrever isso de maneira mais sucinta em termos dos valores padronizados (da mesma forma para y):x~=x−x¯¯¯sx
fonte
Aqui está uma maneira super geral de falar sobre as funções de influência de uma regressão. Primeiro, abordarei uma maneira de apresentar funções de influência:
Suponha que seja uma distribuição em . A função de distribuição contaminada , pode ser definida como: que é a medida de probabilidade em que atribui a probabilidade 1 a e 0 para todos os outros elementos de .F Σ Fϵ(x)
A partir disso, podemos definir a função de influência com bastante facilidade:
A função de influência de em , é definida como:θ^ F ψi:X→Γ
A partir daqui, é possível ver que uma função de influência é a derivada de Gateaux de em na direção de . Isso torna a interpretação das funções de influência (para mim) um pouco mais clara: uma função de influência informa o efeito que uma observação específica tem no estimador.θ^ F δx
A estimativa do OLS é uma solução para o problema:
Imagine uma distribuição contaminada que ponha um pouco mais de peso na observação :(x,y)
Tomando condições de primeira ordem:
Como a função de influência é apenas um derivado de Gateaux, podemos agora dizer:
Em , , então:ϵ=0 θ^ϵ=θ^=E[XTX]−1E[XTY]
A contraparte de amostra finita dessa função de influência é:
Em geral, acho essa estrutura (trabalhando com funções de influência como derivadas de Gateaux) mais fácil de lidar.
fonte