Poder em proteômica?

9

As bolsas geralmente exigem análise de energia para suportar um tamanho de amostra proposto. Na proteômica (e na maioria das ômicas), existem centenas de milhares de características / variáveis ​​medidas em 10 das amostras (talvez 100, mas improvável). Além disso, sabe-se que algumas dessas unidades de medida (por exemplo, contagem espectral de proteínas) não são normalmente distribuídas e, portanto, usaremos teste não paramétrico para análise. Vi o poder de um tamanho de amostra determinado assumindo uma única medição e assumindo um teste t, mas não acho que isso esteja completamente correto. Outro problema específico das contagens espectrais é que cada uma das centenas de características está em escalas muito diferentes, com erros muito diferentes (valores maiores têm menos erros). [Esse problema é bem descrito no modelo de mudança de dobra limite, Mutch et al., 2002 ]

Qual seria a maneira apropriada de determinar o poder de um tamanho de amostra proposto, considerando algumas suposições de FDR e uma alteração aceitável nas dobras? Usando a ferramenta aqui, eu pude determinar com o seguinte:

  • 300 genes
  • 3 falsos positivos
  • 1,4 diferenças de dobra
  • 0,8 potência desejada
  • 0,7 stdev

requer um tamanho de amostra por grupo de 49.

Isso foi útil, já que estou propondo um projeto de 50v50, saiba que a alteração de 1,4 vezes é bem aceita, 1% de FDR é bom e provavelmente medirei 300 proteínas neste experimento. Esse problema de cálculo de potência ou tamanho da amostra continuará ocorrendo; portanto, seria bom ter uma abordagem referenciada.

EDIT: Li onde um colega propôs modelar contagens espectrais de distribuições binominais negativas usando a função de probabilidade seguida de um teste de Wald. Basicamente, usa dados preliminares para obter estimativas de variação de proteínas e, em seguida, calcular alterações nas dobras detectáveis ​​entre os grupos para cada quantil. Há também uma entrada FDR (alfa). Portanto, com uma potência> 80% e definir o tamanho da amostra, eles podem determinar alterações de dobras detectáveis ​​para 25% de variação mais baixa, 50% de variação menor e 25% de variação mais alta. O problema é que não sei como eles fizeram isso. Não tenho certeza se o compartilhamento dessa abordagem ajudará alguém com uma possível resposta.

Ben
fonte
Alguns outros recursos que encontrei sobre esse assunto: Levin 2011 Dicker et al., 2010
Ben
11
Essa calculadora do MD Anderson parece excessivamente otimista para mim. Quantas comparações são feitas? (Estou muito enferrujado em microarrays: 300 genes em um design de 50v50 significa que você faz quantas comparações ??) Quando você define a calculadora FDR para 3 falsos positivos, você está dizendo que está configurando um erro falso positivo para que apenas 3 são esperados como falsos positivos sob o valor nulo? Isso é muito rigoroso para mais de 60 comparações.
30918 AdamO em
11
Posso mostrar como isso seria feito em R, mas eu só preciso de alguns conhecimentos sobre a biologia.
31418 AdamO em 30/03

Respostas:

1

Em aplicações (especialmente aplicações éticas, nas quais é necessário fazer um estudo de potência), gosto de usar essa referência [Wang e Chen 2004], porque explica bem o conceito por trás de um cálculo de potência para dados de alto rendimento (quaisquer que sejam os dados) .

Em essência, além dos parâmetros usuais (α, β, N, tamanho do efeito), você usa dois parâmetros adicionais, λ e η. O último, η, é o número assumido de genes verdadeiramente alterados e λ é a fração dos genes verdadeiramente alterados que você deseja poder detectar. É bastante simples expandir todos os cálculos de energia conhecidos para dados de alto rendimento usando essa abordagem.

Wang, Sue-Jane e James J. Chen. "Tamanho da amostra para identificar genes expressos diferencialmente em experimentos de microarrays". Journal of Computational Biology 11.4 (2004): 714-726.

janeiro
fonte