Como interpretar os valores F e p na ANOVA?

40

Eu sou novo em estatística e atualmente lida com ANOVA. Realizo um teste ANOVA em R usando

aov(dependendVar ~ IndependendVar)

Eu recebo - entre outros - um valor F e um valor p.

Minha hipótese nula ( H0 ) é que todas as médias de grupos são iguais.

Há muitas informações disponíveis sobre como F é calculado , mas não sei ler uma estatística F e como F e p estão conectados.

Então, minhas perguntas são:

  1. Como determino o valor F crítico para rejeitar ?H0
  2. Cada F tem um valor p correspondente, então ambos significam basicamente o mesmo? (por exemplo, se , H 0 é rejeitado)p<0.05H0
JanD
fonte
1
Você já tentou os comandos summary(aov(dependendVar ~ IndependendVar)))ou summary(lm(dependendVar ~ IndependendVar))? Você quer dizer que todas as médias do grupo são iguais entre si e iguais a 0 ou apenas uma à outra?
RyanB
sim, eu tentei o summary(aov...). Obrigado pelo lm.*, não sabia sobre isso :-) Não entendi o que você quer dizer com igual a 0. Se isso é curto para a minha hipótese 0, a hipótese precisaria de um valor e não testei em uma específica, então neste caso: apenas um para o outro!
Jand
1
Para uma explicação intuitiva, consulte o blog Yhat sobre o tema da regressão.
DataTx

Respostas:

14

Para responder suas perguntas:

  1. Você encontra o valor F crítico de uma distribuição F (aqui está uma tabela ). Veja um exemplo . Você deve ter cuidado com os graus de liberdade unidirecional ou bidirecional do numerador e denominador.

  2. Sim.

dfrankow
fonte
Não faz sentido falar de comparações unidirecionais ou bidirecionais em um teste geral, como o teste F.
Marcus Morrisey
3
Marcus Morrisey: Eu acho que você está confundindo um contra dois rabos com um contra dois. O teste F não tem várias "caudas" para escolher, mas a ANOVA unidirecional versus a ANOVA bidirecional precisa ser considerada ao construir a estatística do teste.
Emiller
29

A estatística F é uma razão de 2 medidas diferentes de variação para os dados. Se a hipótese nula for verdadeira, ambas são estimativas da mesma coisa e a proporção será em torno de 1.

O numerador é calculado medindo a variação das médias e se as médias verdadeiras dos grupos são idênticas, isso é uma função da variação geral dos dados. Mas se a hipótese nula for falsa e os meios não forem todos iguais, essa medida de variação será maior.

O denominador é uma média das variações da amostra para cada grupo, que é uma estimativa da variação geral da população (assumindo que todos os grupos tenham variações iguais).

Portanto, quando o nulo de todos os meios iguais for verdadeiro, as 2 medidas (com alguns termos extras para graus de liberdade) serão semelhantes e a proporção será próxima de 1. Se o nulo for falso, o numerador será grande em relação a o denominador e a razão serão maiores que 1. A pesquisa dessa relação na tabela F (ou calculando-a com uma função como pf em R) fornecerá o valor p.

Se você preferir usar uma região de rejeição a um valor-p, poderá usar a tabela F ou a função qf em R (ou outro software). A distribuição F possui 2 tipos de graus de liberdade. Os graus de liberdade do numerador são baseados no número de grupos que você está comparando (para uma via é o número de grupos menos 1) e os graus de liberdade do denominador são baseados no número de observações dentro dos grupos (para 1 a 1 como é o número de observações menos o número de grupos). Para modelos mais complicados, os graus de liberdade ficam mais complicados, mas seguem idéias semelhantes.

Greg Snow
fonte
Obrigada pelo esclarecimento! Suponho que, se eu puder procurar o valor F em uma tabela para ver o valor p, então op e F são apenas duas maneiras de expressar a probabilidade de que um resultado como o analisado possa ocorrer se o H0 estiver correto?
Jand
2
Em todas as estatísticas paramétricas, há um vínculo funcional direto entre a estatística de teste (F neste caso) e o valor de p. Estes foram colocados na tabela por conveniência, mas também podem ser calculados diretamente. Você pode usar alfa para encontrar o ponto de corte para uma região crítica para comparar a estatística de teste (que eu acho mais intuitiva) ou usar a estatística de teste computada para encontrar o valor p para comparar com alfa. Em qualquer um dos casos, começamos com um nível alfa e uma fórmula estatística de teste que segue uma determinada distribuição quando o nulo é verdadeiro.
Greg Snow
20

Fp e o valor crítico é com uma figura:

insira a descrição da imagem aqui

FFFpFFpFp

Você deve observar algumas outras coisas sobre a distribuição sob hipótese nula:

F

F

CCFCpp=0.175

FFdf1=3df1=2

insira a descrição da imagem aqui

Fχ2χ2Fχ2zFtt

Isso é muito mais do que eu pretendia digitar, mas espero que isso cubra suas perguntas!

(Se você está se perguntando de onde os diagramas vieram, eles foram gerados automaticamente pelo meu pacote de estatísticas da área de trabalho, o Assistente .)

Emiller
fonte