A análise de poder a priori é essencialmente inútil?

23

Eu participei de uma reunião da Sociedade de Personalidade e Psicologia Social na semana passada, onde vi uma palestra de Uri Simonsohn com a premissa de que o uso de uma análise de poder a priori para determinar o tamanho da amostra era essencialmente inútil, porque seus resultados são muito sensíveis às suposições.

Certamente, essa afirmação vai contra o que me foi ensinado na minha aula de métodos e contra as recomendações de muitos metodólogos proeminentes (principalmente Cohen, 1992 ); portanto, Uri apresentou algumas evidências que sustentam sua afirmação. Eu tentei recriar algumas dessas evidências abaixo.

Por uma questão de simplicidade, vamos imaginar uma situação em que você tenha dois grupos de observações e suponha que o tamanho do efeito (medido pela diferença média padronizada) seja . Um cálculo de energia padrão (feito usando o pacote abaixo) indicará que você precisará de 128 observações para obter 80% de energia com este projeto..5Rpwr128

require(pwr)

size <- .5
# Note that the output from this function tells you the required observations per group
# rather than the total observations required
pwr.t.test(d = size, 
           sig.level = .05, 
           power = .80, 
           type = "two.sample", 
           alternative = "two.sided")

Normalmente, no entanto, nossas suposições sobre o tamanho previsto do efeito são (pelo menos nas ciências sociais, que é o meu campo de estudo) exatamente isso - suposições muito grosseiras. O que acontece então se nosso palpite sobre o tamanho do efeito estiver um pouco fora? Um cálculo rápido de energia informa que, se o tamanho do efeito for vez de 0,5 , você precisará de 200 observações - 1,56 vezes o número necessário para ter energia adequada para um tamanho de efeito de 0,5 . Da mesma forma, se o tamanho do efeito for 0,6 , você precisará apenas de 90 observações, 70% do que seria necessário para ter um poder adequado para detectar um tamanho de efeito de 0,50.4.52001,56.5.690.50. Na prática, o intervalo nas observações estimadas é bastante grande - a 200 .90200

Uma resposta para esse problema é que, em vez de adivinhar qual é o tamanho do efeito, você reúne evidências sobre o tamanho do efeito, seja na literatura anterior ou em testes-piloto. Obviamente, se você estiver realizando um teste piloto, você desejará que o teste seja suficientemente pequeno para que você não esteja simplesmente executando uma versão do seu estudo apenas para determinar o tamanho da amostra necessário para executar o estudo (por exemplo, deseja que o tamanho da amostra usado no teste piloto seja menor que o tamanho da amostra do seu estudo).

Uri Simonsohn argumentou que o teste piloto com o objetivo de determinar o tamanho do efeito usado em sua análise de energia é inútil. Considere a seguinte simulação em que eu corri R. Esta simulação assume que o tamanho do efeito da população é . Em seguida, ele realiza 1000 "testes-piloto" do tamanho 40 e tabula o N recomendado de cada um dos 10000 testes-piloto..51000N

set.seed(12415)

reps <- 1000
pop_size <- .5
pilot_n_per_group <- 20
ns <- numeric(length = reps)

for(i in 1:reps)
{
  x <- rep(c(-.5, .5), pilot_n_per_group)
  y <- pop_size * x + rnorm(pilot_n_per_group * 2, sd = 1)
  # Calculate the standardized mean difference
  size <- (mean(y[x == -.5]) - mean(y[x == .5])) / 
          sqrt((sd(y[x == -.5])^2 + sd(y[x ==.5])^2) / 2)

  n <- 2 * pwr.t.test(d = size,
                      sig.level = .05, 
                      power = .80,
                      type = "two.sample", 
                      alternative = "two.sided")$n

  ns[i] <- n
}

Abaixo está um gráfico de densidade com base nesta simulação. Omiti dos testes piloto que recomendavam várias observações acima de 500 para tornar a imagem mais interpretável. Mesmo focando os resultados extremos menos da simulação, há enorme variação no N s recomendado pelos 1000 testes-piloto.204500Ns1000

insira a descrição da imagem aqui

Certamente, tenho certeza de que o problema da sensibilidade às suposições só piora à medida que o design se torna mais complicado. Por exemplo, em um design que requer a especificação de uma estrutura de efeitos aleatórios, a natureza da estrutura de efeitos aleatórios terá implicações dramáticas para o poder do design.

Então, o que vocês acham desse argumento? A análise de poder a priori é essencialmente inútil? Se for, então como os pesquisadores devem planejar o tamanho de seus estudos?

Patrick S. Forscher
fonte
10
Isso soa como uma condenação da análise de poder irracional , não da própria análise de poder. A questão maior é se este é um ataque a um homem de palha ou se de fato existem muitas pessoas que conduzem suas análises de poder (ou qualquer outra análise) sem levar em consideração sua sensibilidade a suposições. Se o último é verdade, é bom esclarecê-los, mas espero que eles não fiquem tão desanimados a ponto de abandonar todos os esforços para planejar seus experimentos!
whuber
2
Lembra-me bastante stats.stackexchange.com/q/2492/32036 , e não apenas por causa da semelhança sintática em formular a pergunta do título. Parece uma pergunta de como entender as suposições. Um ponto importante em ambos é entender as sensibilidades dessas análises ao viés, em vez de fazer julgamentos abrangentes de tudo ou nada de que suas suposições são (a) absolutamente cruciais ou (b) totalmente desprezíveis. Essa é a chave para inferência útil e não prejudicial em geral. Receio que não seja um homem de palha; as pessoas pensam no absoluto com muita frequência quando não sabem ou não podem saber ou se importar.
24614 Nick Stauner
5
Não queria acrescentar isso à pergunta porque estava interessado nas recomendações feitas por outros, mas a recomendação de Uri Simonsohn, no final da palestra, era capacitar seu estudo a detectar o menor efeito que você gostaria.
Patrick S. Forscher 24/02
9
@ PatrickS.Forscher: Então, depois de tudo dito e feito, ele acredita em uma análise de poder a priori. Ele apenas acha que o tamanho do efeito deve ser escolhido com sabedoria: não um palpite sobre o que pode ser, mas o valor mínimo com o qual você se preocupa. Parece muito com a descrição do livro didático de análise de poder: garantir que você tenha dados suficientes para que o que você acredita ser uma diferença praticamente significativa apareça como uma diferença estatisticamente significativa.
24414 Wayne Wayne
2
Da maneira como Uri estruturou a conversa, acho que ele acredita que a análise de poder a priori é inútil, como geralmente é feita nas ciências sociais, mas talvez não como é ensinada em outros lugares. De fato, fui ensinado a basear minha análise de poder em um palpite razoável sobre o tamanho do efeito que estou procurando, e não sobre qual efeito eu me importaria em termos práticos.
Patrick S. Forscher 24/02

Respostas:

20

A questão básica aqui é verdadeira e bastante conhecida nas estatísticas. No entanto, sua interpretação / afirmação é extrema. Há vários problemas a serem discutidos:

NNN50.%80%ddd=.5N=1287,9%5.5%.116,9%.112,6%

insira a descrição da imagem aqui

d

80%

Segundo, quanto à afirmação mais ampla de que as análises de poder (a-priori ou não) se baseiam em suposições, não está claro o que fazer com esse argumento. Claro que sim. O mesmo acontece com todo o resto. Não executar uma análise de energia, mas apenas reunir uma quantidade de dados com base em um número que você escolheu e depois analisá-los, não melhorará a situação. Além disso, suas análises resultantes ainda dependerão de suposições, assim como sempre fazem todas as análises (poder ou não). Se você decidir que continuará a coletar dados e analisá-los novamente até obter uma imagem que goste ou se cansar dela, isso será muito menos válido (e ainda implicará suposições que podem ser invisíveis para o orador, mas que existem, no entanto). Simplificando,não há como contornar o fato de que estão sendo feitas suposições em pesquisa e análise de dados .

Você pode encontrar estes recursos de interesse:

- Reinstate Monica
fonte
1
Penso que o argumento de Uri Simonsohn não era que as suposições em si são ruins, mas que as análises de poder em geral são tão sensíveis às suposições que as tornam inúteis no planejamento do tamanho das amostras. No entanto, seus pontos são excelentes, assim como as referências que você forneceu (+1).
Patrick S. Forscher 24/02
Suas edições continuam a melhorar esta resposta já excelente. :)
Patrick S. Forscher
3
Concordo que esta é uma ótima resposta, e só queria que você (e outros) saibam que citei você em uma postagem recente do blog que escrevi sobre este tópico: jakewestfall.org/blog/index.php/2015/06/ 16 /…
Jake Westfall
2
@JakeWestfall, nice post! Em uma nota diferente, quando você estuda cookies, você o faz principalmente comendo-os? Você precisa de um consultor estatístico em algum desses projetos?
gung - Restabelece Monica