Até agora, vi o ANOVA usado de duas maneiras:
Primeiro , no meu texto de estatística introdutória, a ANOVA foi introduzida como uma maneira de comparar médias de três ou mais grupos, como uma melhoria em comparação aos pares, a fim de determinar se um dos meios tem uma diferença estatisticamente significativa.
Segundo , no meu texto de aprendizado estatístico, vi a ANOVA usada para comparar dois (ou mais) modelos aninhados para determinar se o Modelo 1, que usa um subconjunto dos preditores do Modelo 2, se ajusta igualmente aos dados ou se o O modelo 2 é superior.
Agora, suponho que, de uma maneira ou de outra, essas duas coisas sejam realmente muito semelhantes, porque ambas estão usando o teste ANOVA, mas, na superfície, elas parecem bem diferentes para mim. Por um lado, o primeiro uso compara três ou mais grupos, enquanto o segundo método pode ser usado para comparar apenas dois modelos. Alguém poderia se importar em elucidar a conexão entre esses dois usos?
anova()
função, porque a primeira ANOVA real também está usando um teste-F. Isso leva à confusão da terminologia.anova()
função pode fazer mais do que apenas ANOVA. Este post apoia a sua conclusão: stackoverflow.com/questions/20128781/f-test-for-two-models-in-rRespostas:
No meu entendimento, a intuição abstrata da ANOVA é a seguinte: decompõe-se as fontes de variação da variável observada em várias direções e investiga as respectivas contribuições. Para ser mais preciso, decompõe-se o mapa de identidade em uma soma de projeções e investiga quais projeções / direções fazem uma importante contribuição para explicar a variação e quais não. A base teórica é o teorema de Cochran .
Para ser menos abstrato, lancei a segunda forma mencionada pelo OP na estrutura descrita. Posteriormente, interpreto a primeira forma como um caso especial da segunda.
Vamos considerar um modelo de regressão com variáveis explicativas (o modelo completo) e compará-lo ao modelo restrito com variáveis K - J. WLOG, as últimas variáveis J do modelo completo não são incluídas no modelo restrito. A pergunta respondida pela ANOVA éK K- J J
"Podemos explicar uma variação significativamente maior na variável observada se incluirmos variáveis adicionais"J ?
Esta pergunta é respondida comparando-se as contribuições de variação das primeiras variáveis , das próximas variáveis J e da parte restante / inexplicável (a soma residual dos quadrados). Esta decomposição (obtida, por exemplo, do teorema de Cochran) é usada para construir o teste F. Assim, analisa-se a redução (incluindo mais variáveis) na soma residual dos quadrados do modelo restrito (correspondente ao H 0 : todos os coeficientes pertencentes às últimas variáveis J são zero ) incluindo mais variáveis e obtém a estatística F R S S r e s t r - RK- J J H0 0: J
Se o valor for grande o suficiente, a variação explicada pelasvariáveisJadicionaisserá significativa.
Agora, a primeira forma mencionada pelo OP é interpretada como um caso especial da segunda forma . Considere três grupos diferentes A, B, e C com meios , μ B , e μ C . O H 0 : μ A = μ B = μ C é testado através da comparação da variância explicada pela regressão sobre uma intercepção (o modelo restrito) com a variância explicada pelo modelo completo contendo uma intercepção, um manequim para o grupo A, e um fictício para o grupo B. A estatística F resultante R S S i n tμUMA μB μC H0 0: μUMA= μB= μC é equivalente ao teste ANOVA naWikipedia. O denominador é igual à variação dentro dos grupos, o numerador é igual à variação entre os grupos. Se a variação entre os grupos é maior que a variação dentro dos grupos, rejeita-se a hipótese de que todas as médias são iguais.
fonte
Se você estiver executando a ANOVA unidirecional para testar se há uma diferença significativa entre os grupos, estará implicitamente comparando dois modelos aninhados (portanto, existe apenas um nível de aninhamento, mas ele ainda está aninhado).
Esses dois modelos são:
Modelo 1: Os valores são modelados pelas médias estimadas dos grupos.
Um exemplo de comparação de médias e equivalência a modelos aninhados: vamos pegar o comprimento da sépala (cm) do conjunto de dados da íris (se usarmos todas as quatro variáveis, poderíamos realmente fazer LDA ou MANOVA como Fisher fez em 1936)
As médias totais e de grupo observadas são:
Qual é o formato do modelo:
E a tabela ANOVA será como (e calcule implicitamente a diferença que é a soma dos quadrados entre os grupos, que é a 63.212 na tabela com 2 graus de liberdade):
conjunto de dados usado no exemplo:
comprimento da pétala (cm) para três espécies diferentes de flores de íris
fonte
O uso da ANOVA na comparação entre vários modelos significa testar se pelo menos um dos coeficientes usados no modelo de ordem superior (e ausente no modelo de ordem inferior) é significativamente diferente de zero.
Isso equivale a dizer que a soma dos resíduos para o modelo de ordem superior é significativamente menor que a do modelo de ordem inferior.
Trata-se de dois modelos, já que a equação básica usada é
Onde MSM é a média dos resíduos quadrados do modelo de ordem mais baixa (onde a ordem mais baixa é a média da variável de destino, ou seja, interceptação).
( http://www.stat.yale.edu/Courses/1997-98/101/anovareg.htm )
Você pode ler tópicos semelhantes no CV, como
Como usar o anova para comparação de dois modelos?
fonte
Pelo que eu aprendi,
Você pode usar as tabelas ANOVA para determinar se suas variáveis explicativas realmente afetam significativamente a variável de resposta e, assim, ajustam-se ao modelo apropriado.
Aqui está um exemplo de saída ANOVA para um projeto no qual estou trabalhando em R, onde teste dois modelos (um com os dias variáveis e outro sem os dias variáveis):
Como você pode ver, o valor p correspondente do teste F é 0,13, que é maior que 0,05. Portanto, não podemos rejeitar a hipótese nula de que Days não tem efeito em Y. Portanto, escolho o modelo 1 em vez do modelo 2.
fonte