Combinação de valores p de diferentes testes estatísticos aplicados nos mesmos dados

8

Embora o título da pergunta pareça trivial, gostaria de explicar que não é tão trivial no sentido de que é diferente da questão de aplicar o mesmo teste estatístico em conjuntos de dados semelhantes para testar contra uma hipótese nula total (meta-análise, por exemplo, usando o método de Fisher para combinar valores-p). O que estou procurando é um método (se existir e se a pergunta for válida em termos estatísticos) que combinaria valores-p de dois testes estatísticos diferentes (por exemplo, um teste t e um teste u, mesmo que um seja paramétrica e a outra não), aplicada para comparar os centros de duas amostragens de duas populações. Até agora, pesquisei bastante na web sem uma resposta clara. A melhor resposta que encontrei foi baseada nos conceitos de teoria dos jogos de David Bickel ( http://arxiv.org/pdf/1111.6174.pdf ).

Uma solução muito simplista seria um esquema de votação. Suponhamos que tem dois vectores de observações A=[a1,a2,...,an] e B=[b1,b2,...,bn]e quero aplicar várias estatísticas do tipo t (teste t, teste u, e até ANOVA unidirecional) para testar a hipótese de que os centros (médias, medianas etc.) das duas distribuições subjacentes são iguais à hipótese de que eles não estão, no nível de significância de 0,05. Suponha que eu execute 5 testes. Seria legítimo dizer que existem evidências suficientes para rejeitar a distribuição nula se eu tiver um valor de p <0,05 em 3 dos 5 testes?

Outra solução seria usar a lei da probabilidade total ou isso está completamente errado? Por exemplo, suponha que A seja o evento em que a distribuição nula seja rejeitada. Em seguida, utilizando 3 testes, T1 , T2 , T3 (o que significa que P(T1)=P(T2)=P(T3)=1/3 ), seria um possível valor de P(A) ser P(A)=P(A|T1)P(T1)+P(A|T2)P(T2)+P(A|T3)P(T3) , ondeP(A|Ti) é a probabilidade que a distribuição nula é rejeitada sob o testeTi .

Peço desculpas se a resposta é óbvia ou a pergunta é muito estúpida

Panos
fonte
O que representam, em que a lei de cálculo total de probabilidade? P(Ti)
Glen_b -Reinstate Monica
Lamento não poder fornecer uma explicação matemática do que você está procurando, mas sei que um software que desenvolvemos em nosso laboratório possui esse recurso implementado: confira aqui como fazê-lo: gitools.org/documentation/UserGuide_Combinations .html e aqui a implementação: github.com/gitools/gitools/blob/… . Voltarei a verificar quando encontrar a fórmula no documento original.
DMEU
@Glen_b P (Ti) representa a "probabilidade" de usar o teste estatístico Ti. Eu sei que isso não é exatamente uma probabilidade de uma maneira estrita. É um peso que diz que usei n testes para o mesmo conjunto de dados.
Panos
@dmeu Thanks! No entanto, acho que seu software responde à parte trivial (veja acima, combinação de vários conjuntos de dados usando um único teste) e não à minha pergunta. Desculpe se este não é o caso.
Panos
@ Panos, você pode estar certo. Eu li diferente como "dois testes independentes (diferentes) do mesmo tipo". Desculpe por aumentar suas esperanças.
DMEU

Respostas:

5

O uso de correções de testes múltiplos, como preconizado por Corone, está bem, mas isso lhe custará montanhas de poder, pois seus valores de p geralmente estarão bem correlacionados, mesmo usando a correção de Hommel.

p1,p2,,pnp p=min(p1,,pn)p

Você precisa calcular o valor- para o valor observado de (chame-o de ). Para isso, você pode simular, digamos, 100.000 conjuntos de dados sob as hipóteses nulas e, para cada conjunto de dados, calcular um . Isso fornece uma distribuição empírica de sob a hipótese nula. Seu valor- é a proporção de valores simulados que são .p p o b s p p p < p o b spppobsppp<pobs

Como você simula os conjuntos de dados sob a hipótese nula? No seu caso, você tem, se bem acho, casos e controles e dados RNS-seq para estimar os níveis de expressão. Para simular um conjunto de dados sob o valor nulo, é habitual simplesmente permutar aleatoriamente o status do caso / controle.

Elvis
fonte
2
+1 Sim, esta é uma das abordagens que eu quis dizer com "mais trabalho". No entanto, deve-se notar que não é um dado que assumir o menor valor p seja a melhor abordagem aqui. 99 valores de p próximos a 0,5 e um em 0,02 é muito diferente de 99 valores de p próximos a 0,02. Depois de abrir a porta para reamostrar o valor nulo, vale a pena examinar os métodos de "votação", pois a consistência entre os testes pode ser tão (mais) importante que gerar um baixo valor de p em um único teste.
Korone
Sim, você está certo. No entanto, para a maioria dos testes de associação, acho que fazer o min é uma boa ideia. Com mais trabalho um '' teste robusto eficiência maximin '' pode ser construído a partir do teste diferente, mas isso realmente exige ao trabalho sobre os testes ...
Elvis
1
sim, sem mencionar que a coisa ficará realmente peluda / empolgante / divertida se começarmos a nos preocupar com o fato de que alguns testes serão mais poderosos que outros - em um mundo ideal, você deseja ouvir mais os testes mais poderosos ...
Korone
@ Elvis Algo assim é a alternativa mais próxima de algo que envolva a lei da probabilidade total (que se provou errada) que eu tinha em mente. Eu estava tentando pensar em um procedimento de reamostragem, mas você o formalizou perfeitamente! O poder computacional não será um problema neste momento (felizmente!). Quanto à votação, poderia-se incorporar algo como o método de Whitlock para metanálise ( ncbi.nlm.nih.gov/pmc/articles/PMC3135688 ), mas dando peso ao teste estatístico. Essas informações podem ser derivadas de publicações relativas (por exemplo, biomedcentral.com/1471-2105/14/91 ).
Panos
Sim! você pode assumir qualquer função dos valores- , desde que não diminua em relação a cada . p p ip=f(p1,,pn)ppi
Elvis
4

Esse tipo de coisa geralmente seria coberto por vários testes de hipóteses, embora não seja uma situação típica.

Você está correto ao observar que isso é diferente da metanálise, na medida em que você está usando os mesmos dados para vários testes, mas essa situação ainda é coberta pelo teste de múltiplas hipóteses. O que é um pouco estranho aqui é que é quase a mesma hipótese que você está testando várias vezes e, em seguida, deseja a hipótese nula global que é a interseção de todas elas - talvez valha a pena perguntar por que você sente a necessidade de fazer isso. , mas pode haver razões legítimas.

Você estava realizando um conjunto de testes analiticamente tratável? Pode-se seguir a rota de teste Union-Intersection, mas acho que isso não o levaria a lugar algum, por isso recomendo usar uma correção de multiplicidade pronta para uso.

Eu sugiro que você comece dando uma olhada no que a Wikipedia tem a dizer sobre o assunto, mas tente não ficar muito atolado: http://en.wikipedia.org/wiki/Multiple_comparisons

Portanto, você precisa usar uma correção de multiplicidade e excluir União-Intersecção, aproximadamente suas opções são as seguintes

  • Bonferonni - Estritamente dominado por Holm-Bonferroni, apenas interesse histórico
  • Holm-Bonferroni - Trabalhará para você, mas lhe custará energia (possivelmente muito no seu caso)
  • Sidak - mais poderoso que BH, mas você não pode usar isso porque seus valores-p serão correlacionados
  • Hommel - mais poderoso que BH, e você deve ficar bem, já que seus valores de p estão indubitavelmente correlacionados positivamente

Seu maior problema é que é muito provável que você obtenha valores-p muito semelhantes em seus diferentes testes. Hommel não deve te punir demais por isso.

Por exemplo, você pode ajustar os valores de p em R usando p.adjust

p = c(0.03, 0.034, 0.041)
p.adjust(p, method = "bonferroni")
p.adjust(p, method = "holm")
p.adjust(p, method = "hommel")

> p.adjust(p, method = "bonferroni")
[1] 0.090 0.102 0.123
> p.adjust(p, method = "holm")
[1] 0.09 0.09 0.09
> p.adjust(p, method = "hommel")
[1] 0.041 0.041 0.041

Todos esses métodos controlam a taxa de erro familiar, o que significa que, se você testar cada valor de p por sua vez, com base no fato de passar seu limite, a probabilidade de 1 ou mais erros ainda será controlada em . Isso significa que você pode rejeitar a hipótese global se rejeitar uma ou mais sub-hipóteses, e o tamanho do seu teste ainda é controlado em .ααα

Como sugeri no início, este não será o ataque mais poderoso que você poderia fazer, mas qualquer coisa mais sofisticada exigirá muito mais trabalho.


Por que isso controlaα

A hipótese nula global é que todas as hipóteses nulas filho são verdadeiras.

Seja o resultado de um único teste assumindo o valor 1 se o nulo for rejeitado, 0 caso contrário.Xi

Como é indubitavelmente correlacionado positivamente, podemos usar o Hommel para controlar o FWER.Xi

Esse controle significa que a probabilidade de um ou mais testes rejeitarem falsamente é controlada emα

Portanto, P((Xi)>0)α

Portanto, se você rejeitar a hipótese global, se uma ou mais hipóteses filho forem rejeitadas, o tamanho do teste global seráα

Korone
fonte
Obrigado pela sua resposta rápida! A idéia principal é combinar vários algoritmos estatísticos que detectam expressão diferencial de genes usando dados de RNA-Seq, com uma maneira mais sofisticada do que multiplicar os valores de p que não estão corretos. O que você sugere é semelhante ao que encontrei em researchgate.net/publication/… No entanto, gostaria de saber se o esquema de votação ou a lei da probabilidade total tem algum significado nesse contexto.
Panos
@ Panos nesse caso, então sim, eu definitivamente sugeriria algo assim. A desvantagem é que o controle é conservador, porque estamos controlando P (1 ou mais selecionados são falsos) em vez de P (todos os selecionados são falsos), mas como é provável que seus algoritmos sejam correlacionados positivamente, a diferença provavelmente não será seja enorme.
Korone
Sem mencionar, também não se deve ficar muito comprometido com um determinado limite de tamanho - como costuma ser dito que não há nada de especial em 0,05 ou 0,01.
Korone
@ Panos, se você seguisse a direção de determinar as probabilidades corretas para o seu esquema de votação, você finalmente obteria o teste de multiplicidade que sugeri, exatamente o que depende das suposições feitas ao longo do caminho.
Korone
1
@ Benjamin, enquanto eu também defendia a leitura sobre isso (é importante!), Não acho que seria apropriado aqui. O FDR está controlando a proporção esperada de falsos positivos de várias seleções. Como todos os testes de Panos estão tentando informá-lo sobre a mesma hipótese global, faria pouco sentido controlar a proporção esperada de teste falso - especialmente quando você tem correlação. Ele não está escolhendo entre várias perguntas diferentes, mas tentando várias maneiras de responder à mesma pergunta.
Korone