Eu estava folheando algumas anotações de aula de Cosma Shalizi (em particular, seção 2.1.1 da segunda aula ), e me lembrei de que você pode obter muito baixo, mesmo quando você tem um modelo completamente linear.
Parafraseando o exemplo de Shalizi: suponha que você tenha um modelo , em que é conhecido. Então e a quantidade de variação explicada é ^ 2 \ Var [X] , então R ^ 2 = \ frac {a ^ 2 \ Var [x]} {a ^ 2 \ Var [X] + \ Var [\ epsilon]} . Isso vai para 0 como \ Var [X] \ rightarrow 0 e para 1 como \ Var [X] \ rightarrow \ infty . Var[X]→0Var[X]→∞
Por outro lado, você pode obter R ^ 2 alto mesmo quando seu modelo é visivelmente não linear. (Alguém tem um bom exemplo de antemão?)
Então, quando uma estatística útil e quando deve ser ignorada?
regression
r-squared
raegtin
fonte
fonte
Respostas:
Para abordar a primeira pergunta , considere o modelo
com iid de média zero e variância finita. À medida que o intervalo de (considerado fixo ou aleatório) aumenta, passa para 1. No entanto, se a variação de for pequena (cerca de 1 ou menos), os dados serão "notavelmente não lineares". Nas plotagens, .X R 2 ε v a r (ε X R2 ε var(ε)=1
Aliás, uma maneira fácil de obter um pequeno é dividir as variáveis independentes em intervalos estreitos. A regressão (usando exatamente o mesmo modelo ) em cada intervalo terá um baixo, mesmo quando a regressão completa baseada em todos os dados tiver um alto . Contemplar esta situação é um exercício informativo e uma boa preparação para a segunda pergunta.R2 R 2R2 R2
Os dois gráficos a seguir usam os mesmos dados. O para a regressão completa é 0,86. Os para as fatias (de largura 1/2 de -5/2 a 5/2) são 0,16, 0,18, 0,07, 0,14, 0,08, 0,17, 0,20, 0,12, 0,01 , .00, lendo da esquerda para a direita. De qualquer forma, os ajustes melhoram na situação fatiada, porque as 10 linhas separadas podem estar mais em conformidade com os dados em seus intervalos estreitos. Embora o para todas as fatias esteja muito abaixo do completo , nem a força do relacionamento, a linearidade nem qualquer aspecto dos dados (exceto o intervalo de usado para a regressão) mudou.R 2 R 2 R 2R2 R2 R2 R2 X
(Pode-se objetar que esse procedimento de fatiar altera a distribuição de Isso é verdade, mas, no entanto, corresponde ao uso mais comum de na modelagem de efeitos fixos e revela o grau em que está nos falando sobre o variação de na situação de efeitos aleatórios. Em particular, quando é obrigado a variar dentro de um intervalo menor de sua faixa natural, geralmente cai.)R 2 R 2 XX R2 R2 X R 2X R2
O problema básico com é que depende de muitas coisas (mesmo quando ajustado em regressão múltipla), mas principalmente da variação das variáveis independentes e da variação dos resíduos. Normalmente, nada nos diz sobre "linearidade" ou "força do relacionamento" ou mesmo "bondade de ajuste" para comparar uma sequência de modelos.R2
Na maioria das vezes, você pode encontrar uma estatística melhor que . Para seleção de modelo, você pode procurar em AIC e BIC; para expressar a adequação de um modelo, observe a variação dos resíduos.R2
Isso nos leva finalmente à segunda pergunta . Uma situação em que pode ter alguma utilidade é quando as variáveis independentes são definidas para valores padrão, essencialmente controlando o efeito de sua variação. Então é realmente um proxy para a variação dos resíduos, adequadamente padronizados. 1 - R 2R2 1−R2
fonte
Seu exemplo se aplica apenas quando a variável deve estar no modelo . Certamente não se aplica quando se usa as estimativas usuais de mínimos quadrados. Para ver isso, observe que, se estimarmos mínimo de quadrados no seu exemplo, obtemos:X a
Agora, o segundo termo é sempre menor que (igual a no limite), então obtemos um limite superior para a contribuição para da variável :1 1 R2 X
E, a menos que também, veremos como (porque o numerador chega a zero, mas o denominador entra em ). Além disso, podemos obter convergindo para algo entre e dependendo da rapidez com que os dois termos divergem. Agora, o termo acima geralmente diverge mais rapidamente que se estiver no modelo e mais lento se não estiver no modelo. Nos dois casos, segue na direção certa.R2→0s 2 X(1N∑Ni=1XiYi)2→∞ R2→0 V um r [ ε ] > 0 R 2 0 1 s 2 X X X R 2s2X→∞ Var[ϵ]>0 R2 0 1 s2X X X R2
E também observe que, para qualquer conjunto de dados finitos (por exemplo, um real), nunca podemos ter menos que todos os erros sejam exatamente zero. Isso basicamente indica que é uma medida relativa, e não absoluta. Pois, a menos que seja realmente igual a , sempre podemos encontrar um modelo de melhor ajuste. Este é provavelmente o aspecto "perigoso" de porque, como está dimensionado para ficar entre e , parece que podemos interceptá-lo em um sentido absoluto.R 2 R 2 1 R 2 0 1R2=1 R2 R2 1 R2 0 1
Provavelmente é mais útil observar a rapidez com que cai quando você adiciona variáveis ao modelo. E por último, mas não menos importante, nunca deve ser ignorado na seleção de variáveis, pois é efetivamente uma estatística suficiente para a seleção de variáveis - contém todas as informações sobre a seleção de variáveis que estão nos dados. A única coisa necessária é escolher a queda em que corresponde a "ajustar os erros" - que geralmente depende do tamanho da amostra e do número de variáveis.R 2 R 2R2 R2 R2
fonte
Se eu posso adicionar um exemplo de quando é perigoso. Muitos anos atrás, eu estava trabalhando em alguns dados biométricos e, sendo jovem e tolo, fiquei encantado ao encontrar alguns valores estatisticamente significativos de para minhas regressões sofisticadas que eu havia construído usando funções stepwise. Foi só depois de olhar para trás depois da minha apresentação a uma grande audiência internacional que eu percebi que, dada a enorme variação dos dados - combinada com a possível má representação da amostra em relação à população, um de 0,02 era totalmente sem sentido. mesmo que fosse "estatisticamente significativo" ...R 2 R 2R2 R2 R2
Aqueles que trabalham com estatísticas precisam entender os dados!
fonte
Quando se tem uma única preditor é exactamente interpretado como a percentagem de variação em que pode ser explicado pelo linear relação com . Essa interpretação deve ser mantida em mente quando se olha o valor de . Y X R 2R2 Y X R2
Você pode obter um grande a partir de um relacionamento não linear apenas quando o relacionamento estiver próximo de linear. Por exemplo, suponha que e . Se você fizer o cálculo de Y = e X + ε X ~ L n i f o r m ( 2 , 3 ) ε ~ N ( 0 , 1 )R2 Y=eX+ε X∼Uniform(2,3) ε∼N(0,1)
você encontrará cerca de (eu apenas o aproximei por simulação), apesar de o relacionamento claramente não ser linear. A razão é que parece muito com uma função linear ao longo do intervalo ..914 eX (2,3)
fonte
Uma situação que você deseja evitar é a regressão múltipla, onde a adição de variáveis preditivas irrelevantes ao modelo pode, em alguns casos, aumentar . Isso pode ser resolvido usando o valor ajustado , calculado comoR2 R2 R2
fonte
Um bom exemplo para alto com uma função não linear é a função quadrática restrita ao intervalo . Com 0 ruído, ele não terá um quadrado de de 1 se você tiver 3 ou mais pontos, pois eles não se encaixam perfeitamente em uma linha reta. Mas se os pontos de desenho estiverem espalhados uniformemente no o você obtiver, será alto, talvez surpreendentemente. Pode não ser esse o caso se você tiver muitos pontos próximos de 0 e muito próximo de 1 com pouco ou nada no meio.R2 y=x2 [0,1] R2 [0,1] R2
Na situação de regressão múltipla, há o problema de super adaptação. Adicione variáveis e sempre aumentará. O ajustado corrige isso um pouco, pois leva em conta o número de parâmetros.R2 R2
fonte