Embora o título da pergunta pareça trivial, gostaria de explicar que não é tão trivial no sentido de que é diferente da questão de aplicar o mesmo teste estatístico em conjuntos de dados semelhantes para testar contra uma hipótese nula total (meta-análise, por exemplo, usando o método de Fisher para combinar valores-p). O que estou procurando é um método (se existir e se a pergunta for válida em termos estatísticos) que combinaria valores-p de dois testes estatísticos diferentes (por exemplo, um teste t e um teste u, mesmo que um seja paramétrica e a outra não), aplicada para comparar os centros de duas amostragens de duas populações. Até agora, pesquisei bastante na web sem uma resposta clara. A melhor resposta que encontrei foi baseada nos conceitos de teoria dos jogos de David Bickel ( http://arxiv.org/pdf/1111.6174.pdf ).
Uma solução muito simplista seria um esquema de votação. Suponhamos que tem dois vectores de observações e e quero aplicar várias estatísticas do tipo t (teste t, teste u, e até ANOVA unidirecional) para testar a hipótese de que os centros (médias, medianas etc.) das duas distribuições subjacentes são iguais à hipótese de que eles não estão, no nível de significância de 0,05. Suponha que eu execute 5 testes. Seria legítimo dizer que existem evidências suficientes para rejeitar a distribuição nula se eu tiver um valor de p <0,05 em 3 dos 5 testes?
Outra solução seria usar a lei da probabilidade total ou isso está completamente errado? Por exemplo, suponha que seja o evento em que a distribuição nula seja rejeitada. Em seguida, utilizando 3 testes, , , (o que significa que ), seria um possível valor de ser , onde é a probabilidade que a distribuição nula é rejeitada sob o teste .
Peço desculpas se a resposta é óbvia ou a pergunta é muito estúpida
Respostas:
O uso de correções de testes múltiplos, como preconizado por Corone, está bem, mas isso lhe custará montanhas de poder, pois seus valores de p geralmente estarão bem correlacionados, mesmo usando a correção de Hommel.
Você precisa calcular o valor- para o valor observado de (chame-o de ). Para isso, você pode simular, digamos, 100.000 conjuntos de dados sob as hipóteses nulas e, para cada conjunto de dados, calcular um . Isso fornece uma distribuição empírica de sob a hipótese nula. Seu valor- é a proporção de valores simulados que são .p ∗ p ∗ o b s p ∗ p ∗ p < p ∗ o b sp p∗ p∗obs p∗ p∗ p <p∗obs
Como você simula os conjuntos de dados sob a hipótese nula? No seu caso, você tem, se bem acho, casos e controles e dados RNS-seq para estimar os níveis de expressão. Para simular um conjunto de dados sob o valor nulo, é habitual simplesmente permutar aleatoriamente o status do caso / controle.
fonte
Esse tipo de coisa geralmente seria coberto por vários testes de hipóteses, embora não seja uma situação típica.
Você está correto ao observar que isso é diferente da metanálise, na medida em que você está usando os mesmos dados para vários testes, mas essa situação ainda é coberta pelo teste de múltiplas hipóteses. O que é um pouco estranho aqui é que é quase a mesma hipótese que você está testando várias vezes e, em seguida, deseja a hipótese nula global que é a interseção de todas elas - talvez valha a pena perguntar por que você sente a necessidade de fazer isso. , mas pode haver razões legítimas.
Você estava realizando um conjunto de testes analiticamente tratável? Pode-se seguir a rota de teste Union-Intersection, mas acho que isso não o levaria a lugar algum, por isso recomendo usar uma correção de multiplicidade pronta para uso.
Eu sugiro que você comece dando uma olhada no que a Wikipedia tem a dizer sobre o assunto, mas tente não ficar muito atolado: http://en.wikipedia.org/wiki/Multiple_comparisons
Portanto, você precisa usar uma correção de multiplicidade e excluir União-Intersecção, aproximadamente suas opções são as seguintes
Seu maior problema é que é muito provável que você obtenha valores-p muito semelhantes em seus diferentes testes. Hommel não deve te punir demais por isso.
Por exemplo, você pode ajustar os valores de p em R usando
p.adjust
Todos esses métodos controlam a taxa de erro familiar, o que significa que, se você testar cada valor de p por sua vez, com base no fato de passar seu limite, a probabilidade de 1 ou mais erros ainda será controlada em . Isso significa que você pode rejeitar a hipótese global se rejeitar uma ou mais sub-hipóteses, e o tamanho do seu teste ainda é controlado em .αα α
Como sugeri no início, este não será o ataque mais poderoso que você poderia fazer, mas qualquer coisa mais sofisticada exigirá muito mais trabalho.
Por que isso controlaα
A hipótese nula global é que todas as hipóteses nulas filho são verdadeiras.
Seja o resultado de um único teste assumindo o valor 1 se o nulo for rejeitado, 0 caso contrário.Xi
Como é indubitavelmente correlacionado positivamente, podemos usar o Hommel para controlar o FWER.Xi
Esse controle significa que a probabilidade de um ou mais testes rejeitarem falsamente é controlada emα
Portanto,P(∑(Xi)>0)≤α
Portanto, se você rejeitar a hipótese global, se uma ou mais hipóteses filho forem rejeitadas, o tamanho do teste global será≤α
fonte