Suponha que todas as variáveis sejam padronizadas pela transformação de correlação, como você mencionou, na versão escalonada do tamanho da unidade . O modelo padronizado não altera a correlação entre variáveis pode ser calculado quando é feita a transformação padronizada do modelo linear original. Vamos denotar a matriz de design após a transformação padronizada como
Então
XXXVIFX∗=⎡⎣⎢⎢⎢⎢⎢11⋮1X11X21⋮Xn1……⋮…X1,p−1X2,p−1⋮Xn,p−1⎤⎦⎥⎥⎥⎥⎥.
X∗′X∗=[n00′rXX],
que é a matriz de correlação das variáveisTambém sabemos que
para é o ésimo termo diagonal de .rXXXσ2{β^}=σ2(X∗′X∗)−1=σ2[1n00′r−1XX.]
VIFkk=1,2,…,p−1kr−1XXk=1rXXk . Vamos definir:
Observe que ambas as matrizes são diferentes das matrizes de design. Como nos preocupamos apenas com os coeficientes das variáveis , o vetor de uma matriz de design pode ser ignorado em nosso cálculo. Portanto, usando o complemento de Schur ,
X(−1)=⎡⎣⎢⎢⎢⎢⎢X12X22⋮Xn2……⋮…X1,p−1X2,p−1⋮Xn,p−1⎤⎦⎥⎥⎥⎥⎥,X1=⎡⎣⎢⎢⎢⎢X11X21⋮Xn1⎤⎦⎥⎥⎥⎥.
X1r−1XX(1,1)=(r11−r1X(−1)r−1X(−1)X(−1)rX(−1)1)−1=(r11−[r1X(−1)r−1X(−1)X(−1)]rX(−1)X(−1)[r−1X(−1)X(−1)rX(−1)1])−1=(1−β′1X(−1)X′(−1)X(−1)β1X(−1))−1,
que são os coeficientes de regressão de em exceto a interceptação. De fato, a interceptação deve ser a origem, já que todos osβ1X(−1)X1X2,…,Xp−1Xvariáveis são padronizadas com média zero. Por outro lado, (seria mais fácil escrever tudo em forma de matriz explícita)
Portanto,
R21=SSRSSTO=β′1X(−1)X′(−1)X(−1)β1X(−1)1=β′1X(−1)X′(−1)X(−1)β1X(−1).
VIF1=r−1XX(1,1)=11−R21.