É

233

Eu estava folheando algumas anotações de aula de Cosma Shalizi (em particular, seção 2.1.1 da segunda aula ), e me lembrei de que você pode obter muito baixo, mesmo quando você tem um modelo completamente linear.R2

Parafraseando o exemplo de Shalizi: suponha que você tenha um modelo , em que é conhecido. Então e a quantidade de variação explicada é ^ 2 \ Var [X] , então R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ Var [\ epsilon]} . Isso vai para 0 como \ Var [X] \ rightarrow 0 e para 1 como \ Var [X] \ rightarrow \ infty .Y=aX+ϵaVar[Y]=a2Var[x]+Var[ϵ]a2Var[X] Var[X]0Var[X]R2=a2Var[x]a2Var[X]+Var[ϵ]Var[X]0Var[X]

Por outro lado, você pode obter R ^ 2 alto R2mesmo quando seu modelo é visivelmente não linear. (Alguém tem um bom exemplo de antemão?)

Então, quando R2 uma estatística útil e quando deve ser ignorada?

raegtin
fonte
5
Observe o tópico de comentário relacionado em outra pergunta recente
whuber
36
Não tenho nada estatístico para acrescentar às excelentes respostas dadas (especialmente a de @whuber), mas acho que a resposta certa é "R-quadrado: útil e perigoso". Como praticamente qualquer estatística.
Peter Flom
32
A resposta para esta pergunta é: "Sim"
Fomite 23/04/12
Consulte stats.stackexchange.com/a/265924/99274 para mais uma resposta.
Carl
O exemplo do script não é muito útil, a menos que você possa nos dizer o que é ? Se é uma constante, seu argumento está errado, pois então No entanto, se for não constante , plote contra para o pequeno e diga-me que isso é linear ........ϵ ϵ Var ( a X + b ) = a 2 Var ( X ) ϵ Y X Var ( X )Var(aX+ϵ)ϵϵVar(aX+b)=a2Var(X)ϵYXVar(X)
Dan

Respostas:

264

Para abordar a primeira pergunta , considere o modelo

Y=X+sin(X)+ε

com iid de média zero e variância finita. À medida que o intervalo de (considerado fixo ou aleatório) aumenta, passa para 1. No entanto, se a variação de for pequena (cerca de 1 ou menos), os dados serão "notavelmente não lineares". Nas plotagens, .X R 2 ε v a r (εXR2εvar(ε)=1

Curto alcance de X

Maior variedade de X

Aliás, uma maneira fácil de obter um pequeno é dividir as variáveis ​​independentes em intervalos estreitos. A regressão (usando exatamente o mesmo modelo ) em cada intervalo terá um baixo, mesmo quando a regressão completa baseada em todos os dados tiver um alto . Contemplar esta situação é um exercício informativo e uma boa preparação para a segunda pergunta.R2R 2R2R2

Os dois gráficos a seguir usam os mesmos dados. O para a regressão completa é 0,86. Os para as fatias (de largura 1/2 de -5/2 a 5/2) são 0,16, 0,18, 0,07, 0,14, 0,08, 0,17, 0,20, 0,12, 0,01 , .00, lendo da esquerda para a direita. De qualquer forma, os ajustes melhoram na situação fatiada, porque as 10 linhas separadas podem estar mais em conformidade com os dados em seus intervalos estreitos. Embora o para todas as fatias esteja muito abaixo do completo , nem a força do relacionamento, a linearidade nem qualquer aspecto dos dados (exceto o intervalo de usado para a regressão) mudou.R 2 R 2 R 2R2R2R2R2X

Nuvem de pontos com regressão completa

Nuvem de pontos fatiados com 10 regressões

(Pode-se objetar que esse procedimento de fatiar altera a distribuição de Isso é verdade, mas, no entanto, corresponde ao uso mais comum de na modelagem de efeitos fixos e revela o grau em que está nos falando sobre o variação de na situação de efeitos aleatórios. Em particular, quando é obrigado a variar dentro de um intervalo menor de sua faixa natural, geralmente cai.)R 2 R 2 XXR2R2XR 2XR2

O problema básico com é que depende de muitas coisas (mesmo quando ajustado em regressão múltipla), mas principalmente da variação das variáveis ​​independentes e da variação dos resíduos. Normalmente, nada nos diz sobre "linearidade" ou "força do relacionamento" ou mesmo "bondade de ajuste" para comparar uma sequência de modelos.R2

Na maioria das vezes, você pode encontrar uma estatística melhor que . Para seleção de modelo, você pode procurar em AIC e BIC; para expressar a adequação de um modelo, observe a variação dos resíduos. R2

Isso nos leva finalmente à segunda pergunta . Uma situação em que pode ter alguma utilidade é quando as variáveis ​​independentes são definidas para valores padrão, essencialmente controlando o efeito de sua variação. Então é realmente um proxy para a variação dos resíduos, adequadamente padronizados. 1 - R 2R21R2

whuber
fonte
26
Que resposta surpreendentemente completa e responsiva por @whuber #
Peter Flom
A AIC e BIC não se ajustam explicitamente ao número de parâmetros estimados? Nesse caso, fazer uma comparação com R ^ 2 não ajustado parece injusto. Então, pergunto: sua crítica mantém R ^ 2 ajustado? Parece que se você fosse penalizado por 'fatiar', o R ^ 2 ajustado seria capaz de voltar a falar sobre a qualidade do ajuste do modelo.
22711 russellpierce
7
@dr Minha crítica se aplica perfeitamente a ajustado . Os únicos casos em que há muita diferença entre e ajustado é quando você está usando cargas de parâmetros em comparação com os dados. No exemplo da fatia, havia quase 1.000 pontos de dados e a fatia adicionou apenas 18 parâmetros; os ajustes em nem sequer afetariam a segunda casa decimal, exceto possivelmente nos segmentos finais, onde havia apenas algumas dezenas de pontos de dados: e os diminuiria , reforçando o argumento. R 2 R 2 R 2R2R2R2R2
whuber
5
A resposta para a pergunta em seu primeiro comentário deve depender do seu objetivo e existem várias maneiras de interpretar "testar um relacionamento linear". Uma é que você deseja testar se o coeficiente é diferente de zero. Outra é que você deseja saber se há evidências de não linearidade. (por si só) também não é muito útil, embora saibamos que um alto com muitos dados significa que seu gráfico de dispersão parece aproximadamente linear - como meu segundo ou como o exemplo de @ macro. Para cada objetivo, existe um teste apropriado e seu valor p associado. R 2R2R2
whuber
4
Para sua segunda pergunta, devemos nos perguntar o que pode ser entendido como "melhor" ajuste linear. Um candidato seria qualquer ajuste que minimize a soma residual dos quadrados. Você poderia usar com segurança como proxy para isso, mas por que não examinar o próprio erro quadrático médio da raiz (ajustado)? É uma estatística mais útil. R2
whuber
47

Seu exemplo se aplica apenas quando a variável deve estar no modelo . Certamente não se aplica quando se usa as estimativas usuais de mínimos quadrados. Para ver isso, observe que, se estimarmos mínimo de quadrados no seu exemplo, obtemos:X a

a^=1Ni=1NXiYi1Ni=1NXi2=1Ni=1NXiYisX2+X¯2
Onde é a variação (amostra) de e é a média (amostra) desX2=1Ni=1N(XiX¯)2XX¯=1Ni=1NXiX

a^2Var[X]=a^2sX2=(1Ni=1NXiYi)2sX2(sX2sX2+X¯2)2

Agora, o segundo termo é sempre menor que (igual a no limite), então obtemos um limite superior para a contribuição para da variável :11R2X

a^2Var[X](1Ni=1NXiYi)2sX2

E, a menos que também, veremos como (porque o numerador chega a zero, mas o denominador entra em ). Além disso, podemos obter convergindo para algo entre e dependendo da rapidez com que os dois termos divergem. Agora, o termo acima geralmente diverge mais rapidamente que se estiver no modelo e mais lento se não estiver no modelo. Nos dois casos, segue na direção certa.R20s 2 X(1Ni=1NXiYi)2R20V um r [ ε ] > 0 R 2 0 1 s 2 X X X R 2sX2Var[ϵ]>0R201sX2XXR2

E também observe que, para qualquer conjunto de dados finitos (por exemplo, um real), nunca podemos ter menos que todos os erros sejam exatamente zero. Isso basicamente indica que é uma medida relativa, e não absoluta. Pois, a menos que seja realmente igual a , sempre podemos encontrar um modelo de melhor ajuste. Este é provavelmente o aspecto "perigoso" de porque, como está dimensionado para ficar entre e , parece que podemos interceptá-lo em um sentido absoluto.R 2 R 2 1 R 2 0 1R2=1R2R21R201

Provavelmente é mais útil observar a rapidez com que cai quando você adiciona variáveis ​​ao modelo. E por último, mas não menos importante, nunca deve ser ignorado na seleção de variáveis, pois é efetivamente uma estatística suficiente para a seleção de variáveis ​​- contém todas as informações sobre a seleção de variáveis ​​que estão nos dados. A única coisa necessária é escolher a queda em que corresponde a "ajustar os erros" - que geralmente depende do tamanho da amostra e do número de variáveis.R 2 R 2R2R2R2

probabilityislogic
fonte
4
+1 Muitos pontos legais. Os cálculos adicionam informações quantitativas às respostas anteriores.
whuber
27

Se eu posso adicionar um exemplo de quando é perigoso. Muitos anos atrás, eu estava trabalhando em alguns dados biométricos e, sendo jovem e tolo, fiquei encantado ao encontrar alguns valores estatisticamente significativos de para minhas regressões sofisticadas que eu havia construído usando funções stepwise. Foi só depois de olhar para trás depois da minha apresentação a uma grande audiência internacional que eu percebi que, dada a enorme variação dos dados - combinada com a possível má representação da amostra em relação à população, um de 0,02 era totalmente sem sentido. mesmo que fosse "estatisticamente significativo" ...R 2 R 2R2R2R2

Aqueles que trabalham com estatísticas precisam entender os dados!

Sean
fonte
15
Nenhuma estatística é perigosa se você entender o que isso significa. O exemplo de Sean não tem nada a ver com o quadrado R, é o problema geral de se apaixonar com significância estatística. Quando fazemos testes estatísticos na prática, estamos interessados ​​apenas em diferenças significativas. Duas populações nunca têm distribuições idênticas. Se eles são quase iguais, não nos importamos. Com tamanhos de amostra muito grandes, podemos detectar pequenas diferenças sem importância. É por isso que, na minha consultoria de pesquisa médica, enfatizo a diferença entre significância clínica e estatística.
Michael Chernick
11
Inicialmente, meus clientes costumam considerar que a significância estatística é o objetivo da pesquisa. Eles precisam mostrar que não é o caso.
Michael Chernick
Um estatisticamente significativo a 0,02 significa simplesmente que você tinha dados suficientes para afirmar que não é 0. Mas é próximo de 0. Portanto, há muito pouco relacionamento entre as variáveis ​​independentes e a variável dependente. R 2R2R2
Michael Chernick
1
Concordo absolutamente com Michael. Um pouco de conhecimento de estatística pode ser perigoso! :) Com base nesse insight, há muitos anos, trabalhei duro para não repetir esse erro estúpido, fazendo muito estudo para entender melhor o que as estatísticas realmente significam. Um mestrado e um doutorado em estatística e ainda acho que tenho um longo caminho a percorrer com meus estudos!
Sean
Obrigado Sean. Agradeço seus comentários e humildade.
Michael Chernick
16

Quando se tem uma única preditor é exactamente interpretado como a percentagem de variação em que pode ser explicado pelo linear relação com . Essa interpretação deve ser mantida em mente quando se olha o valor de . Y X R 2R2YXR2

Você pode obter um grande a partir de um relacionamento não linear apenas quando o relacionamento estiver próximo de linear. Por exemplo, suponha que e . Se você fizer o cálculo de Y = e X + ε X ~ L n i f o r m ( 2 , 3 ) ε ~ N ( 0 , 1 )R2Y=eX+εXUniform(2,3)εN(0,1)

R2=cor(X,eX+ε)2

você encontrará cerca de (eu apenas o aproximei por simulação), apesar de o relacionamento claramente não ser linear. A razão é que parece muito com uma função linear ao longo do intervalo ..914eX(2,3)

Macro
fonte
1
Para as observações abaixo de Erik e Macro, não acho que alguém tenha uma ideia para mim e provavelmente é melhor ter uma resposta combinada em vez de três respostas separadas, mas por que isso importa a ponto de tanta discussão estar centrada em como você escreva as coisas e onde você as escreve em vez de questionar o que é dito?
Michael Chernick
8
@ MichaelChernick, acho que não há muita discussão sobre como alguém escreve as coisas. As diretrizes com as quais tentamos ajudá-lo são mais parecidas com "se todos fizessem isso, este site seria muito desorganizado e difícil de seguir". Pode parecer que há muita discussão sobre essas coisas, mas provavelmente é apenas porque você é um participante muito ativo desde que você se juntou, o que é ótimo, pois você claramente traz muita coisa para a mesa. Se você quiser falar mais sobre isso, considerar iniciar uma discussão sobre meta em vez de um comentário discussão sob a minha resposta não relacionada :)
Macro
o que aconteceu se alguém oferecer suporte à distribuição uniforme em seu exemplo?
Qbik
Como adquiri experiência neste site, tenho que concordar com a Macro que é importante ser conciso e consolidar.
Michael Chernick
15

Uma situação que você deseja evitar é a regressão múltipla, onde a adição de variáveis ​​preditivas irrelevantes ao modelo pode, em alguns casos, aumentar . Isso pode ser resolvido usando o valor ajustado , calculado comoR2R2R2

R¯2=1(1R2)n1np1 que é o número de amostras de dados é o número de regressores que não contam o termo constante .np

jedfrancis
fonte
21
Observe que é garantido que adicionar variáveis ​​irrelevantes aumenta (não apenas em "alguns casos"), a menos que essas variáveis ​​sejam completamente colineares com as variáveis ​​existentes. R2
whuber
6
  1. Um bom exemplo para alto com uma função não linear é a função quadrática restrita ao intervalo . Com 0 ruído, ele não terá um quadrado de de 1 se você tiver 3 ou mais pontos, pois eles não se encaixam perfeitamente em uma linha reta. Mas se os pontos de desenho estiverem espalhados uniformemente no o você obtiver, será alto, talvez surpreendentemente. Pode não ser esse o caso se você tiver muitos pontos próximos de 0 e muito próximo de 1 com pouco ou nada no meio.R2y=x2[0,1]R2[0,1]R2

  2. R2 será ruim no caso linear perfeito se o termo ruído tiver uma grande variação. Portanto, você pode pegar o modelo que é tecnicamente um modelo linear perfeito, mas deixa a variação em e tender ao infinito e você terá indo para 0. Apesar de suas deficiências, o quadrado R mede a porcentagem de variação explicada pelos dados e, portanto, mede a qualidade do ajuste. Um alto significa um bom ajuste, mas ainda precisamos ter cuidado para que o bom ajuste seja causado por muitos parâmetros para o tamanho do conjunto de dados que temos.Y=x+ϵR2R2

  3. Na situação de regressão múltipla, há o problema de super adaptação. Adicione variáveis ​​e sempre aumentará. O ajustado corrige isso um pouco, pois leva em conta o número de parâmetros.R2R2

Michael Chernick
fonte