Minha descrição da distância de Mahalanobis na parte inferior à parte superior da explicação da distância de Mahalanobis? inclui dois resultados principais:
Por definição, não muda quando os regressores são deslocados uniformemente.
O quadrado de Mahalanobis distância entre vectores de x e y é dada por
D2(x,y)=(x−y)′Σ−1(x−y)
onde Σ é a covariância dos dados.
(1) nos permite assumir que as médias dos regressores são todas nulas. Resta calcular hi . No entanto, para que a afirmação seja verdadeira, precisamos adicionar mais uma suposição:
O modelo deve incluir uma interceptação.
Permitindo a este, que haja k≥0 regressores e n de dados, escrevendo o valor do regressor j para observação i como xij . Seja escrito o vetor da coluna desses n valores para o regressor jx,j e o vetor de linha desses k valores para a observação i seja xi . Então a matriz do modelo é
X=⎛⎝⎜⎜⎜⎜11⋮1x11x21⋮xn1⋯⋯⋮⋯x1kx2k⋮xnk⎞⎠⎟⎟⎟⎟
e, por definição, a matriz hat é
H=X(X′X)−1X′,
de onde a entrada i na diagonal é
hi=hii=(1;xi)(X′X)−1(1;xi)′.(1)
Não há nada a não ser descobrir a matriz central inversa - mas em virtude do primeiro resultado-chave, é fácil, especialmente quando a escrevemos na forma de matriz de bloco:
X′X=n(100′C)
onde 0=(0,0,…,0)′ e
Cjk=1n∑i=1nxijxik=n−1nCov(xj,xk)=n−1nΣjk.
(Eu escrevi Σ para a matriz de covariância de amostra dos regressores.) Como essa é a diagonal do bloco, seu inverso pode ser encontrado simplesmente invertendo os blocos:
(X′X)−1=1n(100′C−1)=(1n00′1n−1Σ−1).
Da definição (1) we obtain
hi=(1;xi)(1n00′1n−1Σ−1)(1;xi)′=1n+1n−1xiΣ−1x′i=1n+1n−1D2(xi,0).
Solving for the squared Mahalanobis length D2i=D2(xi,0) yields
D2i=(n−1)(hi−1n),
QED.
Looking back, we may trace the additive term 1/n to the presence of an intercept, which introduced the column of ones into the model matrix X. The multiplicative term n−1 appeared after assuming the Mahalanobis distance would be computed using the sample covariance estimate (which divides the sums of squares and products by n−1) rather than the covariance matrix of the data (which divides the sum of squares and products by n).
The chief value of this analysis is to impart a geometric interpretation to the leverage, which measures how much a unit change in the response at observation i will change the fitted value at that observation: high-leverage observations are at large Mahalanobis distances from the centroid of the regressors, exactly as a mechanically efficient lever operates at a large distance from its fulcrum.
R code to show that the relation indeed holds:
x <- mtcars
# Compute Mahalanobis distances
h <- hat(x, intercept = TRUE); names(h) <- rownames(mtcars)
M <- mahalanobis(x, colMeans(x), cov(x))
# Compute D^2 of the question
n <- nrow(x); D2 <- (n-1)*(h - 1/n)
# Compare.
all.equal(M, D2) # TRUE
print(signif(cbind(M, D2), 3))