Os coeficientes padronizados na regressão linear podem ser usados ​​para estimar o ?

9

Estou tentando interpretar os resultados de um artigo, onde eles aplicaram regressão múltipla para prever vários resultados. No entanto, os 's (coeficientes B padronizados definidos como que é dependente variável e é um preditor) relatado não parece corresponder ao relatado :p X 1 = B x 1S D x 1β yx1R2βx1=Bx1SDx1SDyyx1R2

insira a descrição da imagem aqui

Apesar de de -0,83, -0,29, -0,16, -0,43, 0,25 e -0,29, o relatado é de apenas 0,20.R 2βR2

Além disso, os três preditores: peso, IMC e% de gordura são multicolineares, correlacionados em torno de r = 0,8-0,9 entre si dentro dos sexos.

O valor de é plausível com esses 's, ou não existe uma relação direta entre ' s e ? β β R 2R2ββR2

Além disso, os problemas com os preditores multicolineares afetam o de um quarto preditor (VO2máx), o qual está correlacionado em torno de r = 0,4 com as três variáveis ​​acima mencionadas?β

Sakari Jukarainen
fonte
O que é neste contexto? Um coeficiente beta (regressão padronizada)? Ou alguma outra coisa? Se sim, então você não pode realmente dizer nada, tudo o que recebe é uma interpretação em termos de desvios padrão. O fato de que o coeficiente implica grandes efeitos, não implica um alto valorR 2βR2
Repmat
11
ß significa coeficientes b padronizados. Para um caso preditivo de 1, ß é igual ao r de pearson, que está diretamente relacionado ao R ao quadrado, no entanto, nesse caso multivariado, por que os ß altos não implicam um R ao quadrado alto?
Sakari Jukarainen
2
Não, em um caso de regressor, não é igual à correlação de Pearson: . A relação entre s e não é tão simples. β = Cov ( y , x )ββR2β=Cov(y,x)Var(x)Cov(y,x)Var(y)×Var(x)=ρ(y,x)βR2
Richard Hardy
5
@RichardHardy Suspeito que a confusão seja que Sakari definiu como o coeficiente de regressão padronizado . Em uma regressão linear bivariada, o coeficiente de regressão ( na notação de Sakari) é , onde é a correlação o desvio padrão. Para padronizar um coeficiente de regressão, dividimos o coeficiente com o desvio padrão de e multiplicamos pelo desvio padrão de , de modo que apenas a correlação é deixada. Então Sakari está certo. b r x y s yβb rsyxrxysysxrsyx
Maarten Buis
Ainda não vejo por que você considera isso errado? Se houver algumas estatísticas resumidas no artigo, você pode simplesmente verificar se os números são iguais. Você até forneceu a fórmula para fazê-lo. Você não pode concluir, simplesmente porque os efeitos são grandes em termos absurdos, que os modelos fazem um bom trabalho ao explicar a variação em y.
Repmat

Respostas:

17

A interpretação geométrica da regressão de mínimos quadrados ordinários fornece o insight necessário.

A maior parte do que precisamos saber pode ser vista no caso de dois regressores e com a resposta . Os coeficientes padronizados, ou "betas", surgem quando todos os três vetores são padronizados para um comprimento comum (que podemos considerar como unidade). Assim, e são vetores unitários em um plano - eles estão localizados no círculo unitário - e é um vetor unitário em um espaço euclidiano tridimensional que contém esse plano. O valor ajustado é a projeção ortogonal (perpendicular) de em . Porquex1x2yx1x2E2yE3y^yE2R2simplesmente é o comprimento ao quadrado de , nem precisamos visualizar todas as três dimensões: todas as informações de que precisamos podem ser desenhadas nesse plano.y^

Regressores ortogonais

A situação mais agradável é quando os regressores são ortogonais, como na primeira figura.

Figura 1, mostrando os regressores e $ \ hat y $ como vetores em um plano.

Nesta e no restante das figuras, desenharei consistentemente o disco unitário em branco e os regressores como setas pretas. sempre apontará diretamente para a direita. As grossas setas vermelhas representam os componentes de nas direções e : ou seja, e . O comprimento de é o raio do círculo cinza em que se encontra - mas lembre-se de que é ox1y^x1x2β1x1β2x2y^R2 quadrado desse comprimento.

O Teorema de Pitágoras afirma

R2=|y^|2=|β1x1|2+|β2x2|2=β12(1)+β22(1)=β12+β22.

Como o Teorema de Pitágoras é válido em qualquer número de dimensões, esse raciocínio generaliza para qualquer número de regressores, resultando em nosso primeiro resultado:

Quando os regressores são ortogonais, é igual à soma dos quadrados dos betas.R2

Um corolário imediato é que, quando existe apenas um regressor - regressão univariada - é o quadrado da inclinação padronizada.R2

Correlacionado

Os regressores correlacionados negativamente se encontram em ângulos superiores a um ângulo reto.

Figura 2, mostrando regressores correlacionados negativamente

É visualmente aparente nessa imagem que a soma dos quadrados dos betas é estritamente maior que . Isso pode ser provado algebricamente usando a Lei dos Cossenos ou trabalhando com a solução matricial das Equações Normais.R2

Ao fazer os dois regressores quase paralelos, podemos posicionar perto da origem (para um próximo de ) enquanto ele continua a ter componentes grandes na direção e . Portanto, não há limite para quão pequeno possa ser.y^R20x1x2R2

Figura

Vamos memorizar esse resultado óbvio, nossa segunda generalidade:

Quando os regressores são correlacionados, pode ser arbitrariamente menor que a soma dos quadrados dos betas.R2

No entanto, essa não é uma relação universal, como mostra a próxima figura.

A Figura 3 mostra regressores correlacionados negativamente, mas os betas têm sinais opostos.

Agora excede estritamente a soma dos quadrados dos betas. Ao desenhar os dois regressores juntos e mantendo entre eles, podemos fazer os betas tanto abordagem , mesmo quando é perto de . Uma análise mais aprofundada pode exigir alguma álgebra: eu tomo isso abaixo.R2y^1/2R21

Deixo à sua imaginação a construção de exemplos semelhantes com regressores positivamente correlacionados, que, portanto, se encontram em ângulos agudos.

Observe que essas conclusões são incompletas: há limites para quanto menos pode ser comparado à soma dos quadrados dos betas. Em particular, examinando cuidadosamente as possibilidades, você pode concluir (para uma regressão com dois regressores) queR2

Quando os regressores estão correlacionados positivamente e os betas têm um sinal comum, ou quando os regressores estão correlacionados negativamente e os betas têm sinais diferentes, deve ser pelo menos tão grande quanto a soma dos quadrados dos betas. R2


Resultados algébricos

Geralmente, sejam os regressores (vetores de coluna) e a resposta seja . Padronização significa (a) cada um é ortogonal ao vetor e (b) eles têm comprimentos unitários:x1,x2,,xpy(1,1,,1)

|xi|2=|y|2=1.

Montar a vectores de coluna em um matriz . As regras de multiplicação de matrizes implicam quexin×pX

Σ=XX

é a matriz de correlação do . Os betas são dados pelas Equações Normais,xi

β=(XX)1Xy=Σ1(Xy).

Além disso, por definição, o ajuste é

y^=Xβ=X(Σ1Xy).

Seu comprimento ao quadrado dá por definição:R2

R2=|y^|2=y^y^=(Xβ)(Xβ)=β(XX)β=βΣβ.

A análise geométrica sugeriu que procurássemos desigualdades relacionadas a e a soma dos quadrados dos betas,R2

i=1pβi2=ββ.

A norma de qualquer matriz é dada pela soma dos quadrados de seus coeficientes (basicamente tratando a matriz como um vetor de componentes em um espaço euclidiano),L2Ap2

|A|22=i,jaij2=tr(AA)=tr(AA).

A desigualdade de Cauchy-Schwarz implica

R2=tr(R2)=tr(βΣβ)=tr(Σββ)|Σ|2|ββ|2=|Σ|2ββ.

Como os coeficientes de correlação ao quadrado não podem exceder e existem apenas na matriz , não pode exceder . Portanto1p2p×pΣ|Σ|21×p2=p

R2pββ.

A desigualdade é alcançada, por exemplo, quando todos os estão perfeitamente correlacionados positivamente.xi

Há um limite superior de quão grande pode ser. Seu valor médio por regressor, , não pode exceder a soma dos quadrados dos coeficientes padronizados.R 2 / pR2R2/p


Conclusões

O que podemos concluir em geral? Evidentemente, informações sobre a estrutura de correlação dos regressores, bem como os sinais dos betas, poderiam ser usadas para limitar os possíveis valores de ou mesmo para calculá-lo exatamente. Na ausência de informações completas, pouco pode ser dito além do fato óbvio de que, quando os regressores são linearmente independentes, um único beta diferente de zero implica é diferente de zero, demonstrando que é diferente de zero.y R 2R2y^R2

Uma coisa que podemos concluir definitivamente a partir da saída da pergunta é que os dados estão correlacionados: porque a soma dos quadrados dos betas, igual a , excede o valor máximo possível de (ou seja, ), deve haver alguns correlação.R 2 11.1301R21

Outra coisa é que, como o maior beta (em tamanho) é , cujo quadrado é muito superior ao de relatado -, podemos concluir que alguns dos regressores devem estar correlacionados negativamente. (De fato, provavelmente está fortemente correlacionado negativamente com idade, peso e gordura em qualquer amostra que cubra uma grande variedade de valores deste último.)0,69 R 2 0,20 VO 20.830.69R20.20VO2max

Se houvesse apenas dois regressores, poderíamos deduzir muito mais sobre partir do conhecimento de altas correlações de regressores e da inspeção dos betas, porque isso nos permitiria traçar um esboço preciso de como , e deve estar situado. Infelizmente, os regressores adicionais neste problema de seis variáveis ​​complicam consideravelmente as coisas. Ao analisar qualquer uma das duas variáveis, temos que "retirar" ou "controlar" os outros quatro regressores (as "covariáveis"). Ao fazer isso, reduzimos todos os , ex 1 x 2 y x 1 x 2 yR2x1x2y^x1x2ypor quantidades desconhecidas (dependendo de como os três estão relacionados às covariáveis), deixando-nos saber quase nada sobre os tamanhos reais dos vetores com os quais estamos trabalhando.

whuber
fonte
+1, mas não entendo por que, no caso não ortogonal, você projeta vector ortogonal aos eixos preditores, em vez de fazer com que as linhas pontilhadas projetadas fiquem paralelas ao outro preditivo. Parece complicado, mas acho que você entenderá o que quero dizer. Suas "projeções" (dois vetores vermelhos menores) não contribuem para obter o grande vetor red . yy^y^
Ameba
@amoeba Você está certo. Fui muito apressado ao criar essas imagens! Eu espero (temporariamente) excluir esta postagem até que eu tenha a oportunidade de corrigir o problema. Obrigado por apontar isto.
whuber
@Amoeba Corrigi as imagens e modifiquei a análise para combiná-las. Embora os detalhes tenham mudado substancialmente, as conclusões permanecem as mesmas.
whuber
11
@amoeba Novamente, você está correto. Correndo o risco de perder leitores interessados, mas agora me sentindo compelido a quantificar a intuição geométrica, reforcei essa conclusão e a justifiquei com um pouco de álgebra. (Confio que a álgebra está correta!)
whuber
11
Muito obrigado! Como nota de rodapé, o VO2máx está negativamente correlacionado com o peso e o IMC, uma vez que estão associados a maior massa corporal magra. Na referida tabela, o VO2máx corresponde realmente ao VO2máx dividido por peso (que é uma maneira ruim de dimensionar o VO2máx para o tamanho do corpo). O VO2máx / peso na tabela está negativamente correlacionado com todos os outros preditores, exceto o sexo, o que pode explicar o ß alto, mas o baixo R ao quadrado, como você mencionou.
Sakari Jukarainen