Anova da interpretação de saída R

8

Eu tenho uma pergunta sobre como um estatístico normalmente interpretaria uma saída anova. Digamos que tenho saída anova de R.

> summary(fitted_data)

Call:
lm(formula = V1 ~ V2)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.74004 -0.33827  0.04062  0.44064  1.22737 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.11405    0.32089   6.588  1.3e-09 ***
V2           0.03883    0.01277   3.040  0.00292 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.6231 on 118 degrees of freedom
Multiple R-squared: 0.07262,    Adjusted R-squared: 0.06476 
F-statistic:  9.24 on 1 and 118 DF,  p-value: 0.002917 

> anova(fit)
Analysis of Variance Table

Response: V1
           Df Sum Sq Mean Sq F value   Pr(>F)   
V2          1  3.588  3.5878  9.2402 0.002917 **
Residuals 118 45.818  0.3883                    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Pelo exposto, acho que o valor mais importante é Pr (> F), certo? Portanto, este Pr é menor que 0,05 (nível de 95%). Como meu "explica" isso? Eu explico isso em "associação", ou seja, V2 e V1 estão associados (ou não)? ou em termos de "significado"? Sempre achei que não conseguia entender quando as pessoas dizem "Esse valor é significativo ...". Então, o que é "significativo"? Existe uma forma mais intuitiva de explicação? como "Estou 95% confiante de que ....".

Além disso, o valor Pr é a única informação importante? ou também posso olhar para os resíduos e o restante da saída para "explicar" o resultado? obrigado

dorothy
fonte
Por favor, mostre mais sobre o seu modelofitted_data
Stéphane Laurent
As respostas a esta pergunta são (generosamente) incompletas. Veja, em vez disso, stats.stackexchange.com/questions/12398/… ... ou qualquer outra pergunta / resposta relacionada.
22416 Michael

Respostas:

2

Pelo exposto, acho que o valor mais importante é Pr (> F), certo?

Não para mim. A ideia de que o tamanho do valor-p é a coisa mais importante em uma ANOVA é generalizada, mas acho que quase totalmente equivocada. Para começar, o valor p é uma quantidade aleatória (mais quando o nulo é verdadeiro, quando é distribuído uniformemente entre 0 e 1). Como tal, um valor p mais baixo pode não ser particularmente informativo em nenhum caso, mas mesmo além da questão do tamanho do valor p coisas como tamanhos de efeito geralmente são muito mais importantes.

Você pode ler um pouco

Cohen, J. (1990). Coisas que aprendi (até agora), American Psychologist 45, 1304-1312.

Cohen, J. (1994). A terra é redonda (p <0,05). American Psychologist, 49, 997-1003.

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1119478/

http://www.biostat.jhsph.edu/~cfrangak/cominte/goodmanvalues.pdf

http://en.wikipedia.org/wiki/Statistical_hypothesis_testing#Ongoing_Controversy

-

α

No caso de você apresentar, é difícil de interpretar sem contexto (Eu não sei mesmo se V2 é categórica ou contínua), mas se V2 foi contínua I pode dizer algo sobre concluindo que há uma associação entre V1 e V2. Se V2 fosse categórico (0-1), eu poderia dizer algo sobre diferenças na média V1 para as duas categorias, e assim por diante.

Agora, algumas coisas para não dizer:

é menor que 0,05 (nível de 95%)

Nunca chame p <0,05 "significativo no nível de 95%". Isto é errado. Tampouco deveria chamar 95% de qualquer outra coisa.

como "Estou 95% confiante de que ....".

Também nunca diga isso. Está errado.

Glen_b -Reinstate Monica
fonte
oi obrigado Eu examinaria esses artigos para entender melhor os valores-p. Se os valores de p não devem ser "confiáveis", na sua opinião, quais dos parâmetros devem nos dizer mais ou menos algo sobre a relação entre V1 e V2? R-quadrado?
dorothy
R2
Em resumo - os valores-p dizem uma coisa - eles não são, na minha opinião, geralmente os 'mais importantes'.
Glen_b -Reinstate Monica
Ah ok. Analisarei mais o intervalo de confiança da linha e os tamanhos dos efeitos para explicar os resultados. Muito obrigado.
dorothy
1
O que é importante depende principalmente do que você está interessado em descobrir. Para mim, geralmente são os coeficientes e seus erros padrão e, às vezes, s. Às vezes, os valores-p também me interessam. Mas outras vezes tenho interesse em alguma parte específica da produção.
Glen_b -Reinstate Monica
1

O pedaço de saída que eu poderia olhar primeiro é o seguinte:

Multiple R-squared: 0.073,    Adjusted R-squared: 0.065
F-statistic:  9.24 on 1 and 118 DF,  p-value: 0.003

Ele diz que o modelo geral foi significativo (F (1.118) = 9,24, p = 0,003) e V1 é responsável por cerca de 7% da variação na V2.

O tamanho do efeito (0,039) indica que, se V2 aumentar em 1, seu modelo prevê que V1 aumentará (relação positiva) em ~ 0,04). O erro padrão nessa estimativa (0,013) indica que (aproximadamente), o intervalo de confiança de 95% do efeito é CI95 = [0,0135, 0,064] (ou seja, .039- 1.96*.013para .039+ 1.96*.013)

O intervalo de confiança não inclui zero, que corresponde (como deve) ao valor de p.

Se você deseja saída anova (como você declara), é necessário solicitar isso (não um resumo de regressão, que é o que summary()fornece).

anova() ou, do carpacote, Anovafornecerá isso a você. Dependendo dos seus objetivos, você pode preferir a saída padrão Anova do carro, que fornece o efeito de cada variável em sua ANOVA como se tivesse sido inserida pela última vez, as chamadas " somas de quadrados do tipo III ".

Se mudarmos para um exemplo interno usando o mtcarsconjunto de dados Rs de milhas por carro e outros dados como peso e tamanho do motor, você poderá gerar um exemplo Anova:

m1 = lm(mpg ~ wt + disp + cyl+gear+am, data = mtcars);
Anova(m1)
| | Soma quadrado | Df Valor F Pr (> F)
|: --------- | ------: | -: | -------: | -------: |
| 58,02 | 1 | 8,27 | 0,01 * |
| disp | 1,53 | 1 | 0,22 | 0,64 |
| cyl | 57,59 | 1 | 8,21 | 0,01 * |
arte | 6.02 1 | 0,86 | 0,36 |
| sou | 3,44 | 1 | 0,49 | 0,49 |
Resíduos | 182,41 | 26 | |

Isso sugere que o peso e o número de cilindros do veículo são fatores significativos no veículo atingido milhas por galão. É claro que todas essas variáveis ​​são confundidas no conjunto de dados dos carros, mostrando que realmente precisamos de uma teoria do consumo de combustível para avançar aqui.

tim
fonte