Pergunto-me por que se diz que várias correções de teste são "arbitrárias" e que são baseadas em uma filosofia incoerente que
a veracidade de uma afirmação depende de quais outras hipóteses são consideradas
veja, por exemplo, respostas e comentários para O que há de errado nos ajustes da Bonferroni? e, em particular, a discussão entre @FrankHarrell e @Bonferroni.
Vamos (por simplicidade e facilidade da exposição) assumir que temos duas populações normais (independentes), independentes e com desvios padrão conhecidos, mas com meios desconhecidos. Digamos (apenas como exemplo) que esses desvios padrão são resp. .
Teste conjunto
Suponha que desejamos testar a hipótese versus H_1: \ mu_1 \ ne 2 | \ mu_2 \ ne 2 no nível de significância \ alpha = 0,05 (o símbolo \ & significa 'e' while | significa 'ou').
Também temos um resultado aleatório da primeira população e da segunda população.
se for verdadeiro, a primeira variável aleatória e a segunda , pois assumimos a independência. a variável aleatória é com . Podemos usar esse como uma estatística de teste e aceitaremos se, para os resultados observados e for sustentado que . Em outras palavras, a região de aceitação para este teste é uma elipse centrada em e temos uma massa de densidade de '' no topo '' desta elipse.
Testes múltiplos
Com vários testes, faremos dois testes independentes e '' ajustaremos '' o nível de significância. Portanto, executaremos dois testes independentes versus e um segundo teste versus mas com um nível de significância ajustado Que seja tal que ou ou ou que produz .
Nesse caso, aceitaremos e (e os dois juntos são equivalentes ao nosso '' original '' ) sempre que e
Portanto, concluímos que, com vários testes, a região de aceitação para se tornou um retângulo com centro e com uma massa de probabilidade de em cima.
Conclusão
Portanto, descobrimos que, para um teste de junta ( ), a forma geométrica da região de aceitação é uma elipse, enquanto que com vários testes, é um retângulo. A massa de densidade '' em cima '' da região de aceitação é, em ambos os casos, 0,95.
Questões
Então, qual é o problema com vários testes? Se existe esse problema, (ver supra) o mesmo problema deve existir para testes em conjunto ou não? O motivo não pode ser o fato de preferirmos elipses sobre retângulos, não é?
fonte
@amoeba: no exemplo com as jujubas eu gostaria de argumentar da seguinte forma (note, eu só quero entender):
Digamos que existem 20 cores diferentes de jujubas, vamos chamá-las de e deixe ter a cor 'verde'.c1,c2,…,c20 c10
Assim, com o seu exemplo, os valores de p para a cor (notamos isso como ) será quando e .i p(i) p(i)>0.05 i≠10 p(10)=0.003
Teoria 1: jujubas verdes causam acne
Se você desenvolveu uma teoria de que as jujubas verdes causam acne, teste a hipótese
Teoria 2: apenas jujubas verdes causam acne
Nesse caso, você deve ter '' : jujubas verdes causam acne E jujubas da cor não causam acne '' e é então '' jujubas verdes não causam acne OU , modo que os grãos de cor causem acne ''.H1 ci,i≠10 H0 ∃i|i≠10 ci
Esse é um problema de teste múltiplo e requer valores de p ajustados.
Teoria 3: jujubas (de qualquer cor) causam acne
Nesse caso, : '' jujubas da cor causam acne E '' jujubas da cor causam acne E .... AND '' jujubas da cor causam acne '' e é o oposto.H1 c1 c2 c20 H0
Este é novamente um problema de teste múltiplo.
Teoria ...
Conclusão
De qualquer forma, pode-se ver que essas teorias são fundamentalmente diferentes e se o ajuste do valor p é ou não depende disso , não da "filosofia" , pelo menos é esse o meu entendimento.
PS para a reação ao exemplo de @FrankHarrell, veja '' EDIT '' na parte inferior da minha resposta a O que há de errado com os ajustes da Bonferroni?
fonte
Deixarei minha resposta antiga no final para fornecer contexto para o seu comentário.
Parece-me que seu experimento de pensamento retangular versus elipsóide fornece uma dica interessante de um problema com múltiplas comparações: seu exemplo de teste múltiplo está, em certo sentido, projetando informações em dimensionalidade e depois fazendo backup, perdendo informações no processo.
Ou seja, a probabilidade conjunta é elipsóide exatamente porque você tem duas distribuições gaussianas, que produzirão em conjunto um elipsóide, cuja circularidade é determinada pela variação relativa das duas distribuições e cuja inclinação do eixo principal é determinada pela correlação das duas conjuntos de dados. Como você especifica que os dois conjuntos de dados são independentes, o eixo principal é paralelo ao eixo x ou y.
Por outro lado, seu exemplo de dois testes projeta distribuições Gaussianas até um intervalo 1-D e, quando você combina os dois testes em um único gráfico 2-D (projetando o backup), você perde as informações e os resultados resultantes. % area é um elipsóide retangular e não o apropriado. E as coisas pioram se os dois conjuntos de dados estiverem correlacionados.
Portanto, parece-me que isso pode ser uma indicação de que vários testes estão perdendo informações devido ao que podemos descrever como projetar informações para baixo - perdendo informações no processo - e depois fazer backup. Portanto, a forma da densidade pseudo-articular resultante está incorreta e tentar escalar seus eixos através de algo como um Boneferroni não pode consertar isso.
Portanto, em resposta à sua pergunta , eu diria que sim, preferimos uma elipse em nossa distribuição conjunta do que o retângulo incorreto (devido à perda de informações) de nossa distribuição pseudo-conjunta. Ou talvez o problema seja que você criou uma densidade pseudo-articular em primeiro lugar.
Mas sua pergunta é mais filosófica do que isso, e eu tenho que apoiar a resposta de Amoeba de que não é simplesmente uma questão de matemática. Por exemplo, e se você pré-registrasse seu experimento com jujubas com "jujubas verdes" precisas como parte de sua hipótese, em vez de um "esverdeado" impreciso. Você realiza o experimento e não encontra efeito estatisticamente significativo. Em seguida, seu assistente de laboratório mostra uma foto que eles tiraram de si mesmos diante de todas as doses de jujuba - que tarefa hercúlea eles realizaram! E algo que você diz leva o assistente a perceber que você é parcialmente daltônico.
Acontece que o que você chamou de "verde" na verdade é verde e água-viva! Com a ajuda da foto, o assistente codifica corretamente os resultados e verifica-se que as jujubas verdes são significativas! Sua carreira está salva! Exceto que você acabou de fazer uma comparação múltipla: você efetuou dois golpes nos dados e, se tivesse encontrado significado em primeiro lugar, ninguém jamais saberia algo diferente.
Não é uma questão de você p-valor-hacking. Foi uma correção honesta, mas sua motivação não importa aqui.
E se estamos sendo totalmente honestos, "verde" não é mais específico que "esverdeado". Primeiro, em termos da cor real e, em seguida, em termos do fato de que o verde provavelmente é um proxy para outros ingredientes.
E se você nunca tivesse descoberto seu erro, mas por algum motivo seu assistente replicou o experimento e os segundos resultados foram significativos? Basicamente, o mesmo caso, embora você tenha coletado dois conjuntos de dados. Neste ponto, estou começando a perambular, então deixe-me resumir dizendo novamente que acredito que a Amoeba está certa e que a sua idéia "é ou não é por causa da matemática" é tecnicamente correta, mas não tratável no mundo real.
Resposta antiga : Esta pergunta é realmente sobre correlação? Estou pensando mais em um problema do tipo Distância de Mahalanobis, em que analisar independentemente os 95% x1 e os 95% x2 gera um retângulo, mas isso pressupõe que x1 e x2 não estão correlacionados. Ao usar a distância de Mahalanobis (uma elipse formada com base na correlação entre x1 e x2) é superior. A elipse se estende para fora do retângulo, portanto, aceita alguns pontos que estão fora do retângulo, mas também rejeita pontos dentro do retângulo. Supondo que x1 e x2 estão correlacionados em algum grau.
Caso contrário, se você assumir que x1 e x2 têm 0 correlação, que distribuição você está assumindo para cada um? Se uniforme, você obterá uma região retangular; se normal, terá uma região elíptica. Novamente, isso seria independente de várias correções de teste ou não.
fonte