Quanto menores os valores de do teste da ANOVA podem ser comparados com os de vários testes nos mesmos dados?

13

Introdução: Tendo notado a atenção recebida hoje por esta pergunta: "A ANOVA pode ser significativa quando nenhum dos testes t emparelhados é? ", Pensei que poderia reformulá-la de uma maneira interessante que merecesse seu próprio conjunto de respostas. .

Uma variedade de resultados incongruentes (pelo valor nominal) pode ocorrer quando a significância estatística é entendida como uma dicotomia simples e julgada com base na mera base da qual é maior, o ou o . A resposta da @ Glen_b à pergunta acima apresenta um exemplo útil de um caso em que:p αpα

  • Um teste ANOVA produz um para uma variável independente (IV) com quatro níveis, masF p F < 0,05FpF<.05
  • p t > .08pt>.08 para todos os testes duas amostras que comparam diferenças na mesma variável dependente (DV) entre as observações correspondentes a cada par dos quatro níveis do IV.tt

Um caso semelhante surgiu apesar das correções de Bonferroni para comparações post-hoc aos pares através desta pergunta: as medidas repetidas da Anova são significativas, mas todas as comparações múltiplas com a correção de Bonferroni não são? Também existem casos mencionados anteriormente com um teste ligeiramente diferente em regressão múltipla:

Aposto que, em casos como esses, alguns (mas não todos) os valores de comparações em pares (ou coeficientes de regressão 'testes de significância') devem estar razoavelmente próximos de se um teste omnibus correspondente puder atingir . Vejo que esse é o caso do primeiro exemplo de @ Glen_b, onde , , e a maior diferença pareada dá o menor . Este deve ser o caso em geral? Mais especificamente :p α p < α pαp<αF ( 3 , 20 ) = 3,19 p F = 0,046 p t = 0,054F(3,20)=3.19pF=.046pt=.054


Pergunta: Se um teste ANOVA produz um para o efeito de um IV politômico em um DV contínuo, qual o valor de mais baixo entre todos os testes duas amostras que comparam cada par dos níveis de IV? A significância pareada mínima poderia ser tão alta quanto ?F p F = 0,05 p t p t = 0,50FpF=.05ptpt=.50


Congratulo-me com respostas que abordam apenas esta questão específica . No entanto, para motivar ainda mais essa questão, elaborarei e colocarei algumas questões potencialmente retóricas. Sinta-se à vontade para abordar essas preocupações também e até ignorar a pergunta específica, se desejar, especialmente se a pergunta específica receber uma resposta definitiva.

Significado: considere quão menos importante seria a diferença entre um e um se a significância estatística fosse julgada em termos contínuos da força da evidência contra a hipótese nula (a abordagem de Ron Fisher, eu acho?), em vez de em termos dicotômicos, acima ou abaixo de um limite para probabilidade aceitável de erro na escolha de rejeitar o atacado nulo. " hacking " é um problema conhecido que deve em parte sua notoriedade a uma vulnerabilidade desnecessária introduzida pela interpretação depF=.04pF=.04pt=.06pt=.06α=.05α=.05ppppvalores de acordo com a prática comum de dicotomizar a significância nos equivalentes de "bom o suficiente" e "não bom o suficiente". Se alguém dispuser essa prática e se concentrar na interpretação dos valores de como força da evidência contra o nulo em um intervalo contínuo, o teste abrangente pode ser um pouco menos importante quando se realmente se preocupa com comparações múltiplas em pares? Não é necessariamente inútil, pois qualquer melhoria razoavelmente eficiente na precisão estatística é desejável, mas ... se, por exemplo, o menor valor de da comparação pareada estiver necessariamente dentro de da ANOVA (ou outro teste omnibus)pppp.10.10ppvalor, isso não torna o teste abrangente um pouco mais trivial, menos obrigatório e ainda mais enganoso (em conjunto com mal-entendidos preexistentes), especialmente se alguém não deseja controlar em vários testes?αα

Por outro lado, se existem dados de tal forma que um omnibus , mas todos em pares , isso não deve motivar ainda mais o omnibus e o teste de contraste ao longo da prática e da pedagogia? Parece-me que esta questão também deve informar os méritos relativos de julgar a significância estatística de acordo com uma dicotomia versus um continuum, em que o sistema interpretativo dicotômico deve ser mais sensível a pequenos ajustes quando as diferenças são "marginalmente significativas", enquanto nenhum sistema está protegido contra falhas na execução de um teste abrangente ou no ajuste de múltiplas comparações, se essa diferença / ajuste puder ser muito grande (por exemplo, em teoria.p=.05p=.05p>.50p>.50ptpF>.40)ptpF>.40)

Outras complexidades opcionais a serem consideradas ou ignoradas - o que facilita a resposta e vale a pena :

Nick Stauner
fonte
1
Você pode esclarecer se os testes t em pares devem usar a mesma estimativa de variação de erro que o teste F omnibus (no exemplo de Glen eles não usam).
Scortchi - Restabelece Monica
1
I entende-se um t-teste vulgar para a diferença em meios utilizando t = ( ˉ y 1 - ˉ y 2 ) / ( σ1n 1 +1N 2 ), mas comσcalculado como a raiz quadrada do erro quadrado médio ANOVAR. É o teste t par-hoc usual par-hoc enão seajusta a múltiplas comparações, ao contrário do HSD de Tukey. Ele incorpora informações de todos os grupos, mas é independente das diferenças nas médias dos grupos. t=(y¯1y¯2)/(σ^1n1+1n2)σ^
Scortchi - Restabelece Monica
1
Entendo (mais ou menos)! Eu estaria interessado principalmente em seguir o exemplo de @ Glen_b e não usar MSE , mas usando a primeira fórmula mencionada para evitar a incorporação de informações de todos os grupos. Isso não quer dizer que tenho uma forte preferência aqui ... mas parte da minha intenção original era apresentar uma variante do tema comum nessas perguntas: "Qual é o verdadeiro dano em ignorar informações além dos dois grupos específicos em questão para qualquer dado teste de duas amostras entre muitos? " Eu acho que esse tema vale a pena levar em consideração também nesta decisão. MSE
Nick Stauner
1
@ Scortchi Eu incluí um exemplo na outra pergunta que aborda seu primeiro comentário (ou seja, onde os testes são feitos usando a variação de erro comum e df), embora todos os testes (comparações F e múltiplas) sejam feitos com um nível de significância bastante baixo (0,0025, não 0,05). Quando comparado aos testes t ordinários individuais de duas amostras, como está sendo solicitado por Nick S. aqui, mostra que é possível uma diferença bastante significativa na significância (neste caso, p t > 0,05 para todos os testes t ordinários , ainda p F < 0,002 ). Acredito que em muitos grupos é possível ir muito além. pt>.05pF<0.002
Glen_b -Replica Monica
1
Esbocei uma resposta para a primeira parte desta pergunta há alguns minutos em um comentário em stats.stackexchange.com/questions/83030/… .
whuber

Respostas:

8

Assumindo n s iguais [mas veja a nota 2 abaixo] para cada tratamento em um layout unidirecional, e que o DP agrupado de todos os grupos seja usado nos testes t (como é feito nas comparações post hoc usuais), o máximo possível O valor de p para um teste t é 2 Φ ( - ntpt2 ).1573(aqui,Φdenota oN(0,1)cdf). Assim, nenhumptpode ser tão alto quanto0,5. Curiosamente (e um tanto bizarra), a0,1573obrigado a não detém apenas parapF=0,05, mas para qualquer nível de significância exigimos paraF.2Φ(2).1573ΦN(0,1)pt0.5.1573pF=.05F

A justificativa é a seguinte: Para um determinado intervalo de médias amostrais, max i , j | I y i - ˉ y j | = 2 um , o maior possível F estatística é atingida quando a metade do ˉ y i são em um extremo e a outra metade estão na outra. Isso representa o caso em que F parece o mais significativo, dado que duas médias diferem no máximo 2 a .maxi,j|y¯iy¯j|=2aFy¯iF2a

Assim, sem perda de generalidade, supor que ˉ y . = 0 de modo que ˉ y i = ± uma neste caso limite. E, novamente, sem perda de generalidade, suponha que M S E = 1 , pois sempre podemos redimensionar os dados para esse valor. Agora considere k significa (onde k é par pela simplicidade [mas veja a nota 1 abaixo]), temos F = n ˉ y 2 / ( k - 1 )y¯.=0y¯i=±aMSE=1kkM S E =kna2k - 1 . DefinindopF=α demodo queF=Fα=Fα,k-1,k(n-1), obtemosa=F=ny¯2/(k1)MSE=kna2k1pF=αF=Fα=Fα,k1,k(n1)( k - 1 ) F αk n . Quando todo oˉyisão±um(e aindaHSE=1), cada um diferente de zerotestatística é, assim,t=2uma=(k1)Fαkny¯i±aMSE=1t1 2 / n =2 ( k - 1 ) F αk . Este é o menorvalormáximo detpossível quandoF=Fα.t=2a12/n=2(k1)FαktF=Fα

Portanto, você pode apenas tentar casos diferentes de k e n , calcular t e seus p t associados . Mas observe que, para um dado k , F α está diminuindo em n [mas veja a nota 3 abaixo]; além disso, como n , ( k - 1 ) F α , k - 1 , k ( n - 1 )χ 2 α , k - 1 ; então t kntptkFαnn(k1)Fα,k1,k(n1)χ2α,k1t m i n = 2 χ 2 α , k - 1 / k . Observe queχ2/k= k - 1ttmin=2χ2α,k1/kk χ2/(k-1)tem médiak-1χ2/k=k1kχ2/(k1)k e SDk-1k1kk2k - 1 . Assimlimktmin=k1k2k12 , independentemente deα, e o resultado que afirmei no primeiro parágrafo acima é obtido a partir da normalidade assintótica.limktmin=2α

Porém, leva muito tempo para atingir esse limite. Aqui estão os resultados (calculados usando R) para vários valores de k , usando α = 0,05 :kα=.05

k       t_min    max p_t   [ Really I mean min(max|t|) and max(min p_t)) ]
2       1.960     .0500
4       1.977     .0481   <--  note < .05 !
10      1.840     .0658
100     1.570     .1164
1000    1.465     .1428
10000   1.431     .1526

Algumas pontas soltas ...

  1. Quando k é impar: O máximo F estatística ainda ocorre quando o ˉ y i são todos ± um ; no entanto, teremos mais um em uma extremidade do intervalo que o outro, fazendo a média ± a / k , e você pode mostrar que o fator k na estatística F é substituído por k - 1Fy¯i±a±a/kkFk . Isso também substitui o denominador det, tornando-o ligeiramente maior e, portanto, diminuindopt.k1ktpt
  2. Desigual n s:n O máximo F é ainda conseguido com a ˉ y i = ± um , com os sinais dispostos de modo a equilibrar os tamanhos de amostra como quase igualmente quanto possível. Então, a estatística F para o mesmo tamanho total da amostra N = n i será igual ou menor do que para dados balanceados. Além disso, a estatística t máxima será maior porque será a com maior n i . Portanto, não podemos obter valores maiores de p t examinando casos desequilibrados.Fy¯i=±aFN=nitnipt
  3. Uma leve correção: eu estava tão concentrado em tentar encontrar o mínimo t que negligenciei o fato de que estamos tentando maximizar p t , e é menos óbvio que um t maior com menos df não será menos significativo que um menor um com mais df. No entanto, verifiquei que esse é o caso calculando os valores para n = 2 , 3 , 4 , ... até que o df seja alto o suficiente para fazer pouca diferença. Para o caso α = 0,05 , k 3 , não vi nenhum caso em que os valores de p t não aumentassem comtpttn=2,3,4,α=.05,k3ptn . Note que a d f = k ( n - 1 ) de modo a possível df são k , 2 k , 3 k , ... que obter grande rápido quando k é grande. Ainda estou em terreno seguro com a reivindicação acima. Também testei α = 0,25 , e o único caso em que olimite de 0,1573 foi excedido foi k = 3 , n = 2 .ndf=k(n1)k,2k,3k,kα=.25.1573
Russ Lenth
fonte