Como visualizar o que a ANOVA faz?

60

Que maneira (maneiras?) Existe para explicar visualmente o que é ANOVA?

Qualquer referência, link (s) (pacotes R?) Será bem-vinda.

Tal Galili
fonte
Em seu blog 'Os esforços de um psicólogo em programação estatística', Kristoffer Magnusson dá um ótimo exemplo de visualização de anova unidirecional usando D3.js rpsychologist.com/d3-one-way-anova/#comment-1891
Epifunky
Eu encontrei essa boa visualização do que é a análise de variância. Não é tão preciso quanto as respostas anteriores, mas você pode brincar de forma interativa com a visualização. Achei bastante intersting: students.brown.edu/seeing-theory/regression/index.html#third
Mike

Respostas:

51

Pessoalmente, gosto de introduzir regressão linear e ANOVA, mostrando que é a mesma coisa e que os modelos lineares equivalem à partição da variação total: temos algum tipo de variação no resultado que pode ser explicada pelos fatores de interesse, mais a inexplicável parte (chamada de 'residual'). Geralmente, uso a ilustração a seguir (linha cinza para variabilidade total, linhas pretas para variabilidade específica de grupo ou individual):

texto alternativo

Eu também gosto do heplots pacote de R, de Michael Friendly and John Fox, mas ver também testes de hipóteses Visuais em modelos multivariados lineares: O Pacote heplots para R .

Maneiras padrão de explicar o que a ANOVA realmente faz, especialmente na estrutura do Modelo Linear, são muito bem explicadas nas respostas do Plane para perguntas complexas , por Christensen, mas há muito poucas ilustrações. Métodos estatísticos de Saville e Wood : A abordagem geométrica tem alguns exemplos, mas principalmente em regressão. No Design e na análise de experiências de Montgomery , que se concentra principalmente no DoE, há ilustrações que eu gosto, mas veja abaixo

texto alternativo

(estes são meus :-)

Mas acho que você deve procurar livros didáticos sobre modelos lineares se quiser ver como a soma dos quadrados, erros etc. se traduz em um espaço vetorial, como mostra a Wikipedia . Estimation and Inference in Econometrics , de Davidson e MacKinnon, parece ter boas ilustrações (o primeiro capítulo realmente cobre a geometria do OLS), mas só procuro a tradução em francês (disponível aqui ). A geometria da regressão linear também tem algumas boas ilustrações.

Editar :

Ah, e eu me lembro desse artigo de Robert Pruzek, Um novo gráfico para ANOVA de mão única .

Editar 2

E agora, o pacote granova (mencionado por @ gd047 e associado ao artigo acima) foi portado para o ggplot, consulte granovaGG com uma ilustração da ANOVA unidirecional abaixo.

insira a descrição da imagem aqui

chl
fonte
A primeira ilustração é produzida usando R?
George Dontas
@ gd047 Sim. Deve ter o código-fonte feio em algum lugar, se você quiser. O segundo é feito no Metapost.
dec
3
@ gd047 Tudo bem, como sempre é sempre quando procuramos um código antigo que não o encontramos (apesar do meu melhor esforço com grep / find), então reescrevi um script R rápido (ainda feio) para isso. Eu também coloquei um exemplo do código MP .
chl
A geometria do link de regressão linear parece ter apodrecido, infelizmente.
Silverfish
23

Que tal algo como isso? texto alternativo

Seguindo Crawley (2005). Estatisticas. Uma introdução usando R: Wiley.

EDi
fonte
11
(+1) Lembro-me de plot.design()(mas o seu em uma versão aprimorada :-)
chl
Isso é o melhor.
Curioso
13

Obrigado por sua ótima resposta até agora. Enquanto eles eram muito esclarecedores, senti que usá-los para o curso que estou ensinando atualmente (bem, ensinar) será demais para meus alunos. (Ajudo a ministrar o curso BioStatistics para estudantes de graduação avançada em ciências da medicina)

Portanto, acabei criando duas imagens (ambas são baseadas em simulação), que eu acho que são um exemplo útil para explicar a ANOVA.

Eu ficaria feliz em ler comentários ou sugestões para melhorá-los.

A primeira imagem mostra uma simulação de 30 pontos de dados, separados em 3 parcelas (mostrando como o MST = Var é separado dos dados que criam MSB e MSW:

  • O gráfico esquerdo mostra um gráfico de dispersão dos dados por grupo.
  • A do meio mostra como são os dados que vamos usar para MSB.
  • A imagem correta mostra como são os dados que vamos usar para o MSW.

texto alternativo

A segunda imagem mostra 4 parcelas, cada uma para uma combinação diferente de variância e expectativa para os grupos enquanto

  • A primeira linha de plotagens é para baixa variação, enquanto a segunda linha é para alta (er) variação.
  • A primeira coluna de parcelas é de igual expectativa entre os grupos, enquanto a segunda coluna mostra grupos com (muito) expectativas diferentes.

texto alternativo

Tal Galili
fonte
2
(+1) Eu sempre penso que as mensagens de referência ao ensinar ANOVA são: (1) temos uma razão F que reflete a importância relativa da variação explicada pelo nosso fator de interesse errado. variação total (ou MSB / MSW onde MSW = MST-MSB), (2) as diferenças entre as médias do grupo são uma variação e (3) testamos explicitamente vs . ( ). Se você é capaz de transmitir essas idéias em uma exibição gráfica - o que parece ser o caso aqui--, acho que está quase pronto. H0: μ1=μ2==μk H1:  i,j | μiμjH1¬ H0
chl
Oi chl, obrigado pelo feedback positivo (e pela sua resposta detalhada anterior)! Acho que algumas das maiores massagens caseiras que recebi ao preparar o material para esta aula são: 1) Como descrever a transformação dos dados originais para obter as medidas de variação de MSB e MSW. 2) Como a estatística de teste do MSB / MSW é realmente um teste unilateral (e não bilateral), onde o H0 é esse MSB <= MSW. Por fim, apenas pensei em observar que é verdade que SSW = SST-SSB (mas não vejo como isso é verdade para MSW = MST-MSB).
Tal Galili
11
Sim, desculpe, eu escrevi rapidamente. Eu quis dizer: Considere o modelo ou e destaque graficamente a seguinte decomposição: , isso é obs. são expressos como desvios da média geral + média do grupo + flutuações em torno da média do grupo. Então, temos ou variação total = entre variação de grupo + variação dentro do grupo (que é basicamente a sua primeira foto). yij=μ+αi+εijyij=μi+εijyij=yi¯+εij=y¯+(y¯iy¯)+(yijy¯i)(yijy¯)=(y¯iy¯)+(yijy¯i)
chl
12

Como reunimos certos tipos de gráficos interessantes neste post, aqui está outro que eu encontrei recentemente e pode ajudá-lo a entender como a ANOVA funciona e como a estatística F é gerada. O gráfico foi criado usando o pacote granova em R. texto alternativo

George Dontas
fonte
2
(+1) Eu dei um link para o artigo de Robert Pruzek, mas não sabia que ele estava disponível em R.
chl
10

Confira a apresentação de Hadley Wickham ( pdf , espelho ) no ggplot. Iniciando nas páginas 23-40 deste documento, ele descreve uma abordagem interessante para visualizar ANOVAs.

* Link retirado de: http://had.co.nz/ggplot2/

Dimitry L
fonte
6

Ótima pergunta. Você sabe, eu me esforcei em envolver minha cabeça em torno da ANOVA por muito tempo. Eu sempre me pego voltando à intuição "entre versus dentro" e sempre tentei imaginar como isso seria na minha cabeça. Fico feliz que essa pergunta tenha surgido e fiquei impressionado com as diversas abordagens para isso nas respostas acima.

De qualquer forma, há muito tempo (anos) até que eu quero coletar várias parcelas em um só lugar onde pude ver o que estava acontecendo simultaneamente de várias direções diferentes: 1) a que distância as populações estão, 2) como distantes os dados , 3) quão grande é a distância entre comparada com a interna e 4) como as distribuições F centrais versus não centrais se comparam?

Em um mundo verdadeiramente excelente , eu poderia até brincar com controles deslizantes para ver como o tamanho da amostra muda as coisas.

Então, eu tenho jogado com o manipulatecomando no RStudio , e vaca santa, funciona! Aqui está uma das parcelas, um instantâneo, na verdade:

visualizarANOVA

Se você possui o RStudio, pode obter o código para fazer o gráfico acima (barras e tudo)! no Github aqui .

Depois de brincar com isso por um tempo, estou surpreso com o quão bem a estatística F distingue os grupos, mesmo para amostras moderadamente pequenas. Quando olho para as populações, elas realmente não estão tão distantes (a meu ver), mas a barra "dentro" é constantemente diminuída pela barra "entre". Aprenda algo todos os dias, eu acho.

kjetil b halvorsen
fonte
3

Para ilustrar o que está acontecendo com a ANOVA unidirecional, às vezes usei um applet oferecido pelos autores da "Introdução à prática de estatística", que permite aos alunos brincar com as variações dentro e entre as variações e observar seus efeitos na estatística F . Aqui está o link (o applet é o último na página). Exemplo de captura de tela:

insira a descrição da imagem aqui

O usuário controla o controle deslizante superior, variando as propagações verticais dos três grupos de dados. O ponto vermelho na parte inferior se move ao longo do gráfico de valores-p enquanto a estatística F mostrada abaixo é atualizada.

David
fonte
2

Parece que o navio já partiu em termos de resposta, mas acho que, se este for um curso introdutório, a maioria das exibições oferecidas aqui será muito difícil de entender para os alunos introdutórios ... ou pelo menos também difícil de entender sem uma exibição introdutória que fornece uma explicação muito simplificada da variação de particionamento. Mostre a eles como o total de SST aumenta com o número de assuntos. Depois de mostrá-lo inflado para vários assuntos (talvez adicionando um em cada grupo várias vezes), explique que SST = SSB + SSW (embora eu prefira chamá-lo de SSE desde o início, pois evita confusão quando você vai ao IMO de teste de assuntos internos) ) Em seguida, mostre a eles uma representação visual do particionamento de variação, por exemplo, um grande quadrado colorido codificado para que você possa ver como o SST é feito de SSB e SSW. Então,

russellpierce
fonte
2

Aqui estão algumas representações de situações em que uma ANOVA vai concluir a diferentes níveis de ajuste entre e .XYX

insira a descrição da imagem aqui

insira a descrição da imagem aqui

insira a descrição da imagem aqui

Martin Van der Linden
fonte