Eu executei uma regressão linear simples do log natural de 2 variáveis para determinar se elas se correlacionam. Minha saída é esta:
R^2 = 0.0893
slope = 0.851
p < 0.001
Estou confuso. Olhando para o valor de , eu diria que as duas variáveis não estão correlacionadas, uma vez que é tão próximo de . No entanto, a inclinação da linha de regressão é quase (apesar de parecer quase horizontal na plotagem), e o valor p indica que a regressão é altamente significativa. 0
Isso significa que as duas variáveis estão altamente correlacionadas? Nesse caso, o que o valor indica?
Devo acrescentar que a estatística Durbin-Watson foi testada no meu software e não rejeitou a hipótese nula (era igual a ). Eu pensei que isso testou a independência entre as variáveis. Nesse caso, eu esperaria que as variáveis fossem dependentes, uma vez que são medidas de um pássaro individual. Estou fazendo essa regressão como parte de um método publicado para determinar a condição corporal de um indivíduo, por isso presumi que usar uma regressão dessa maneira fazia sentido. No entanto, dadas essas saídas, acho que talvez para esses pássaros esse método não seja adequado. Parece uma conclusão razoável?
fonte
Respostas:
O valor estimado da inclinação não indica, por si só, a força do relacionamento. A força do relacionamento depende do tamanho da variação do erro e do intervalo do preditor. Além disso, um valor significativo não indica necessariamente que existe um relacionamento forte; o valor p está simplesmente testando se a inclinação é exatamente 0. Para um tamanho de amostra suficientemente grande, mesmo pequenas desvios dessa hipótese (por exemplo, aqueles que não são de importância prática) produzirão um valor p significativo .p p p
Das três quantidades que apresentados, , o coeficiente de determinação , dá a maior indicação da força da relação. No seu caso, R 2 = 0,089 , meios que 8,9 % de variação na sua variável de resposta pode ser explicada uma relação linear com o preditor. O que constitui um "grande" R 2 é dependente disciplina. Por exemplo, nas ciências sociais , R 2 = 0,2 pode ser "grande", mas em ambientes controlados, como a configuração de fábrica, R 2 > 0,9R2 R2=.089 8.9% R2 R2=.2 R2>.9 pode ser necessário dizer que existe um relacionamento "forte". Na maioria das situações é um pequeno R 2 , assim que sua conclusão de que existe uma relação linear fraca é provavelmente razoável..089 R2
fonte
O diz-lhe quanto a variação da variável dependente é explicada por um modelo. No entanto, pode-se interpretar o R 2 , bem como a correlação entre os valores originais da variável dependente e os valores ajustados. A interpretação exacta e derivação do coeficiente de determinação de R 2 pode ser encontrada aqui .R2 R2 R2
A prova de que o coeficiente de determinação é o equivalente do coeficiente de correlação quadrado de Pearson entre os valores observados e os valores ajustados y i pode ser encontrado aqui .yi y^i
O ou coeficiente de determinação indica que a força de seu modelo em explicar a variável dependente. No seu caso, R 2 = 0,089 . Isso que seu modelo é capaz de explicar 8,9% da variação da sua variável dependente. Ou, o coeficiente de correlação entre o y i e os seus valores ajustados y i é 0,089. O que constitui uma boa R 2 é dependente disciplina.R2 R2=0.089 yi y^i R2
Finalmente, até a última parte da sua pergunta. Você não pode fazer com que o teste de Durbin-Watson diga algo sobre a correlação entre suas variáveis dependentes e independentes. O teste de Durbin-Watson testa a correlação serial. É conduzido para examinar se os termos do seu erro estão mutuamente correlacionados.
fonte
O valor informa a quantidade de variação nos dados é explicada pelo modelo ajustado.R2
O baixo valor em seu estudo sugere que os seus dados são provavelmente espalhou amplamente em torno da linha de regressão, o que significa que o modelo de regressão só pode explicar (muito pouco) 8,9% da variação nos dados.R2
Você verificou se um modelo linear é apropriado? Veja a distribuição de seus resíduos, pois você pode usá-lo para avaliar a adequação do modelo aos seus dados. Idealmente, seus resíduos não devem mostrar uma relação com seus valores e, se isso acontecer, você pode pensar em redimensionar suas variáveis de forma adequada ou ajustar um modelo mais apropriado.x
fonte
Para uma regressão linear, o declive equipada vai ser a correlação (que, quando quadrado, dá o coeficiente de determinação, o ) vezes o desvio padrão empírico da regressando (a y ) dividido pelo desvio padrão empírico da regressor (o x ). Dependendo da escala do x e y , você pode ter um ajuste inclinação igual a um, mas um arbitrariamente pequena R 2 valor.R2 y x x y R2
Em suma, a inclinação não é um bom indicador do 'ajuste' do modelo, a menos que você tenha certeza de que as escalas das variáveis dependentes e independentes devem ser iguais umas às outras.
fonte
Gosto das respostas já dadas, mas permita-me complementá-las com uma abordagem diferente (e mais explícita).
Suponha que coligamos um monte de observações de 1000 pessoas aleatórias tentando descobrir se socos no rosto estão associados a dores de cabeça:
Graficamente, isso provavelmente se parece com uma encosta íngreme, mas com uma variação muito grande em torno dessa encosta.
fonte
@Macro had a great answer.
I just want to add a numerical example to show what is looks like to have a case OP described.
Slope close to1.0
fonte