As bolsas geralmente exigem análise de energia para suportar um tamanho de amostra proposto. Na proteômica (e na maioria das ômicas), existem centenas de milhares de características / variáveis medidas em 10 das amostras (talvez 100, mas improvável). Além disso, sabe-se que algumas dessas unidades de medida (por exemplo, contagem espectral de proteínas) não são normalmente distribuídas e, portanto, usaremos teste não paramétrico para análise. Vi o poder de um tamanho de amostra determinado assumindo uma única medição e assumindo um teste t, mas não acho que isso esteja completamente correto. Outro problema específico das contagens espectrais é que cada uma das centenas de características está em escalas muito diferentes, com erros muito diferentes (valores maiores têm menos erros). [Esse problema é bem descrito no modelo de mudança de dobra limite, Mutch et al., 2002 ]
Qual seria a maneira apropriada de determinar o poder de um tamanho de amostra proposto, considerando algumas suposições de FDR e uma alteração aceitável nas dobras? Usando a ferramenta aqui, eu pude determinar com o seguinte:
- 300 genes
- 3 falsos positivos
- 1,4 diferenças de dobra
- 0,8 potência desejada
- 0,7 stdev
requer um tamanho de amostra por grupo de 49.
Isso foi útil, já que estou propondo um projeto de 50v50, saiba que a alteração de 1,4 vezes é bem aceita, 1% de FDR é bom e provavelmente medirei 300 proteínas neste experimento. Esse problema de cálculo de potência ou tamanho da amostra continuará ocorrendo; portanto, seria bom ter uma abordagem referenciada.
EDIT: Li onde um colega propôs modelar contagens espectrais de distribuições binominais negativas usando a função de probabilidade seguida de um teste de Wald. Basicamente, usa dados preliminares para obter estimativas de variação de proteínas e, em seguida, calcular alterações nas dobras detectáveis entre os grupos para cada quantil. Há também uma entrada FDR (alfa). Portanto, com uma potência> 80% e definir o tamanho da amostra, eles podem determinar alterações de dobras detectáveis para 25% de variação mais baixa, 50% de variação menor e 25% de variação mais alta. O problema é que não sei como eles fizeram isso. Não tenho certeza se o compartilhamento dessa abordagem ajudará alguém com uma possível resposta.
Respostas:
Em aplicações (especialmente aplicações éticas, nas quais é necessário fazer um estudo de potência), gosto de usar essa referência [Wang e Chen 2004], porque explica bem o conceito por trás de um cálculo de potência para dados de alto rendimento (quaisquer que sejam os dados) .
Em essência, além dos parâmetros usuais (α, β, N, tamanho do efeito), você usa dois parâmetros adicionais, λ e η. O último, η, é o número assumido de genes verdadeiramente alterados e λ é a fração dos genes verdadeiramente alterados que você deseja poder detectar. É bastante simples expandir todos os cálculos de energia conhecidos para dados de alto rendimento usando essa abordagem.
Wang, Sue-Jane e James J. Chen. "Tamanho da amostra para identificar genes expressos diferencialmente em experimentos de microarrays". Journal of Computational Biology 11.4 (2004): 714-726.
fonte