Introdução: Tendo notado a atenção recebida hoje por esta pergunta: "A ANOVA pode ser significativa quando nenhum dos testes t emparelhados é? ", Pensei que poderia reformulá-la de uma maneira interessante que merecesse seu próprio conjunto de respostas. .
Uma variedade de resultados incongruentes (pelo valor nominal) pode ocorrer quando a significância estatística é entendida como uma dicotomia simples e julgada com base na mera base da qual é maior, o ou o . A resposta da @ Glen_b à pergunta acima apresenta um exemplo útil de um caso em que:p α
- Um teste ANOVA produz um para uma variável independente (IV) com quatro níveis, masF p F < 0,05
F pF<.05 - p t > .08
pt>.08 para todos os testes duas amostras que comparam diferenças na mesma variável dependente (DV) entre as observações correspondentes a cada par dos quatro níveis do IV.tt
Um caso semelhante surgiu apesar das correções de Bonferroni para comparações post-hoc aos pares através desta pergunta: as medidas repetidas da Anova são significativas, mas todas as comparações múltiplas com a correção de Bonferroni não são? Também existem casos mencionados anteriormente com um teste ligeiramente diferente em regressão múltipla:
- Por que é possível obter estatística F significativa (p <0,001), mas testes t de regressão não significativos? :p F < 0,001 , p β t > 0,09
pF<.001,pβt>.09 - Como uma regressão pode ser significativa, mas todos os preditores não são significativos?
- Na resposta do @ whuber ,p F = 0,0003 , p β t > 0,09
pF=.0003,pβt>.09
- Na resposta do @ whuber ,p F = 0,0003 , p β t > 0,09
Aposto que, em casos como esses, alguns (mas não todos) os valores de comparações em pares (ou coeficientes de regressão 'testes de significância') devem estar razoavelmente próximos de se um teste omnibus correspondente puder atingir . Vejo que esse é o caso do primeiro exemplo de @ Glen_b, onde , , e a maior diferença pareada dá o menor . Este deve ser o caso em geral? Mais especificamente :p α p < α
Pergunta: Se um teste ANOVA produz um para o efeito de um IV politômico em um DV contínuo, qual o valor de mais baixo entre todos os testes duas amostras que comparam cada par dos níveis de IV? A significância pareada mínima poderia ser tão alta quanto ?F p F = 0,05 p t p t = 0,50
Congratulo-me com respostas que abordam apenas esta questão específica . No entanto, para motivar ainda mais essa questão, elaborarei e colocarei algumas questões potencialmente retóricas. Sinta-se à vontade para abordar essas preocupações também e até ignorar a pergunta específica, se desejar, especialmente se a pergunta específica receber uma resposta definitiva.
Significado: considere quão menos importante seria a diferença entre um e um se a significância estatística fosse julgada em termos contínuos da força da evidência contra a hipótese nula (a abordagem de Ron Fisher, eu acho?), em vez de em termos dicotômicos, acima ou abaixo de um limite para probabilidade aceitável de erro na escolha de rejeitar o atacado nulo. " hacking " é um problema conhecido que deve em parte sua notoriedade a uma vulnerabilidade desnecessária introduzida pela interpretação depF=.04
Por outro lado, se existem dados de tal forma que um omnibus , mas todos em pares , isso não deve motivar ainda mais o omnibus e o teste de contraste ao longo da prática e da pedagogia? Parece-me que esta questão também deve informar os méritos relativos de julgar a significância estatística de acordo com uma dicotomia versus um continuum, em que o sistema interpretativo dicotômico deve ser mais sensível a pequenos ajustes quando as diferenças são "marginalmente significativas", enquanto nenhum sistema está protegido contra falhas na execução de um teste abrangente ou no ajuste de múltiplas comparações, se essa diferença / ajuste puder ser muito grande (por exemplo, em teoria.p=.05
Outras complexidades opcionais a serem consideradas ou ignoradas - o que facilita a resposta e vale a pena :
- Qual seria o valor de s para s se, para , (por exemplo, )p
p tt FF p<.05p<.05 p=.01,.001,…p=.01,.001,… - Sensibilidade ao número de níveis em um IV politômico
- Sensibilidade à irregularidade na significância das diferenças aos pares (enquanto todos )p t > p F
pt>pF - a resposta da whuber indica que a inclusão de pequenas diferenças pode mascarar grandes diferenças.
- Diferenças entre as correções de vários testes omnibus para múltiplas comparações
- Consulte também: Corrigindo comparações múltiplas em uma ANOVA dentro de sujeitos / medidas repetidas; excessivamente conservador?
- Com vários IVs, parece que a multicolinearidade pode exacerbar esse problema .
- Casos restritos em que os dados atendem de maneira ideal a todos os pressupostos dos testes paramétricos clássicos
- Essa restrição pode ser importante para impedir que essa questão seja discutível.
Respostas:
Assumindo n s iguais [mas veja a nota 2 abaixo] para cada tratamento em um layout unidirecional, e que o DP agrupado de todos os grupos seja usado nos testes t (como é feito nas comparações post hoc usuais), o máximo possível O valor de p para um teste t é 2 Φ ( - √n t p t 2 )≈.1573(aqui,Φdenota oN(0,1)cdf). Assim, nenhumptpode ser tão alto quanto0,5. Curiosamente (e um tanto bizarra), a0,1573obrigado a não detém apenas parapF=0,05, mas para qualquer nível de significância exigimos paraF.2Φ(−2–√)≈.1573 Φ N(0,1) pt 0.5 .1573 pF=.05 F
A justificativa é a seguinte: Para um determinado intervalo de médias amostrais, max i , j | I y i - ˉ y j | = 2 um , o maior possível F estatística é atingida quando a metade do ˉ y i são em um extremo e a outra metade estão na outra. Isso representa o caso em que F parece o mais significativo, dado que duas médias diferem no máximo 2 a .maxi,j|y¯i−y¯j|=2a F y¯i F 2a
Assim, sem perda de generalidade, supor que ˉ y . = 0 de modo que ˉ y i = ± uma neste caso limite. E, novamente, sem perda de generalidade, suponha que M S E = 1 , pois sempre podemos redimensionar os dados para esse valor. Agora considere k significa (onde k é par pela simplicidade [mas veja a nota 1 abaixo]), temos F = ∑ n ˉ y 2 / ( k - 1 )y¯.=0 y¯i=±a MSE=1 k k M S E =kna2k - 1 . DefinindopF=α demodo queF=Fα=Fα,k-1,k(n-1), obtemosa=√F=∑ny¯2/(k−1)MSE=kna2k−1 pF=α F=Fα=Fα,k−1,k(n−1) ( k - 1 ) F αk n . Quando todo oˉyisão±um(e aindaHSE=1), cada um diferente de zerotestatística é, assim,t=2uma=(k−1)Fαkn−−−−−−√ y¯i ±a MSE=1 t 1 √2 / n =√2 ( k - 1 ) F αk . Este é o menorvalormáximo detpossível quandoF=Fα.t=2a12/n√=2(k−1)Fαk−−−−−−√ t F=Fα
Portanto, você pode apenas tentar casos diferentes de k e n , calcular t e seus p t associados . Mas observe que, para um dado k , F α está diminuindo em n [mas veja a nota 3 abaixo]; além disso, como n → ∞ , ( k - 1 ) F α , k - 1 , k ( n - 1 ) → χ 2 α , k - 1 ; então t ≥k n t pt k Fα n n→∞ (k−1)Fα,k−1,k(n−1)→χ2α,k−1 t m i n = √2 χ 2 α , k - 1 / k . Observe queχ2/k= k - 1t≥tmin=2χ2α,k−1/k−−−−−−−−√ k χ2/(k-1)tem médiak-1χ2/k=k−1kχ2/(k−1) k e SDk-1k−1k k ⋅√2k - 1 . Assimlimk→∞tmin=√k−1k⋅2k−1−−−√ 2 , independentemente deα, e o resultado que afirmei no primeiro parágrafo acima é obtido a partir da normalidade assintótica.limk→∞tmin=2–√ α
Porém, leva muito tempo para atingir esse limite. Aqui estão os resultados (calculados usandok α=.05
R
) para vários valores de k , usando α = 0,05 :Algumas pontas soltas ...
fonte