Eu quero aprender ANOVA. Antes de começar a aprender como o algoritmo funciona (que cálculos precisam ser feitos) e por que ele funciona, primeiro gostaria de saber que problema realmente solucionamos com o ANOVA ou qual resposta tentamos responder. Em outras palavras: O que é entrada e o que é saída do algoritmo?
Eu entendo o que usamos como entrada. Temos um conjunto de números. Cada número vem com valores de uma ou mais variáveis categóricas (também conhecidas como "fatores"). Por exemplo:
+------------+------------+-------+
| factor 1 | factor 2 | value |
+------------+------------+-------+
| "A" | "a" | 1.0 |
| "A" | "a" | 2.4 |
| "A" | "b" | 0.3 |
| "A" | "b" | 7.4 |
| "B" | "a" | 1.2 |
| "B" | "a" | 8.4 |
| "B" | "b" | 0.4 |
| "B" | "b" | 7.2 |
+------------+------------+-------+
É correto dizer que a ANOVA calcula o valor p da hipótese nula que afirma que não há efeito dos fatores na média dos valores? Em outras palavras, fornecemos os dados acima para o algoritmo e, como resultado, obtemos o valor-p da hipótese nula?
Se for esse o caso, que medida usamos realmente para calcular o valor-p. Por exemplo, podemos dizer que, dada a hipótese nula M, pode ser tão alta quanto a observada (ou até maior) apenas por acaso em 1% dos casos. O que é M?
Também não investigamos fatores na ANOVA separadamente? A ANOVA pode dizer que o fator_1 tem um efeito, mas o fator_2 não? A ANOVA pode dizer que, para um dado fator, os valores correspondentes ao valor "A", "B" e "C" são estatisticamente indistinguíveis (têm a mesma média, por exemplo), mas o valor "D" tem efeito?