Eu tenho uma pergunta sobre como um estatístico normalmente interpretaria uma saída anova. Digamos que tenho saída anova de R.
> summary(fitted_data)
Call:
lm(formula = V1 ~ V2)
Residuals:
Min 1Q Median 3Q Max
-2.74004 -0.33827 0.04062 0.44064 1.22737
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.11405 0.32089 6.588 1.3e-09 ***
V2 0.03883 0.01277 3.040 0.00292 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6231 on 118 degrees of freedom
Multiple R-squared: 0.07262, Adjusted R-squared: 0.06476
F-statistic: 9.24 on 1 and 118 DF, p-value: 0.002917
> anova(fit)
Analysis of Variance Table
Response: V1
Df Sum Sq Mean Sq F value Pr(>F)
V2 1 3.588 3.5878 9.2402 0.002917 **
Residuals 118 45.818 0.3883
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Pelo exposto, acho que o valor mais importante é Pr (> F), certo? Portanto, este Pr é menor que 0,05 (nível de 95%). Como meu "explica" isso? Eu explico isso em "associação", ou seja, V2 e V1 estão associados (ou não)? ou em termos de "significado"? Sempre achei que não conseguia entender quando as pessoas dizem "Esse valor é significativo ...". Então, o que é "significativo"? Existe uma forma mais intuitiva de explicação? como "Estou 95% confiante de que ....".
Além disso, o valor Pr é a única informação importante? ou também posso olhar para os resíduos e o restante da saída para "explicar" o resultado? obrigado
r
self-study
anova
interpretation
dorothy
fonte
fonte
fitted_data
Respostas:
Não para mim. A ideia de que o tamanho do valor-p é a coisa mais importante em uma ANOVA é generalizada, mas acho que quase totalmente equivocada. Para começar, o valor p é uma quantidade aleatória (mais quando o nulo é verdadeiro, quando é distribuído uniformemente entre 0 e 1). Como tal, um valor p mais baixo pode não ser particularmente informativo em nenhum caso, mas mesmo além da questão do tamanho do valor p coisas como tamanhos de efeito geralmente são muito mais importantes.
Você pode ler um pouco
Cohen, J. (1990). Coisas que aprendi (até agora), American Psychologist 45, 1304-1312.
Cohen, J. (1994). A terra é redonda (p <0,05). American Psychologist, 49, 997-1003.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1119478/
http://www.biostat.jhsph.edu/~cfrangak/cominte/goodmanvalues.pdf
http://en.wikipedia.org/wiki/Statistical_hypothesis_testing#Ongoing_Controversy
-
No caso de você apresentar, é difícil de interpretar sem contexto (Eu não sei mesmo se V2 é categórica ou contínua), mas se V2 foi contínua I pode dizer algo sobre concluindo que há uma associação entre V1 e V2. Se V2 fosse categórico (0-1), eu poderia dizer algo sobre diferenças na média V1 para as duas categorias, e assim por diante.
Agora, algumas coisas para não dizer:
Nunca chame p <0,05 "significativo no nível de 95%". Isto é errado. Tampouco deveria chamar 95% de qualquer outra coisa.
Também nunca diga isso. Está errado.
fonte
O pedaço de saída que eu poderia olhar primeiro é o seguinte:
Ele diz que o modelo geral foi significativo (F (1.118) = 9,24, p = 0,003) e V1 é responsável por cerca de 7% da variação na V2.
O tamanho do efeito (0,039) indica que, se V2 aumentar em 1, seu modelo prevê que V1 aumentará (relação positiva) em ~ 0,04). O erro padrão nessa estimativa (0,013) indica que (aproximadamente), o intervalo de confiança de 95% do efeito é CI95 = [0,0135, 0,064] (ou seja,
.039- 1.96*.013
para.039+ 1.96*.013
)O intervalo de confiança não inclui zero, que corresponde (como deve) ao valor de p.
Se você deseja saída anova (como você declara), é necessário solicitar isso (não um resumo de regressão, que é o que
summary()
fornece).anova
() ou, docar
pacote,Anova
fornecerá isso a você. Dependendo dos seus objetivos, você pode preferir a saída padrão Anova do carro, que fornece o efeito de cada variável em sua ANOVA como se tivesse sido inserida pela última vez, as chamadas " somas de quadrados do tipo III ".Se mudarmos para um exemplo interno usando o
mtcars
conjunto de dados Rs de milhas por carro e outros dados como peso e tamanho do motor, você poderá gerar um exemplo Anova:Isso sugere que o peso e o número de cilindros do veículo são fatores significativos no veículo atingido milhas por galão. É claro que todas essas variáveis são confundidas no conjunto de dados dos carros, mostrando que realmente precisamos de uma teoria do consumo de combustível para avançar aqui.
fonte