Como se deve interpretar a comparação de médias de diferentes tamanhos de amostra?

49

Veja o caso das classificações de livros em um site. O Livro A é avaliado por 10.000 pessoas, com uma classificação média de 4,25 e a variação . Da mesma forma, o Livro B é avaliado por 100 pessoas e tem uma classificação de 4,5 com σ = 0,25 .σ=0.5σ=0.25

Agora, devido ao grande tamanho da amostra do Livro A, a "média estabilizou" para 4,25. Agora, para 100 pessoas, pode ser que, se mais pessoas lerem o Livro B, a classificação média caia para 4 ou 4,25.

  • como interpretar a comparação de médias de diferentes amostras e quais são as melhores conclusões que podemos / devemos tirar?

Por exemplo - podemos realmente dizer que o Livro B é melhor que o Livro A.

Doutorado
fonte
Você está especificamente interessado no contexto de classificação?
Jeromy Anglim
@JeromyAnglim - Hmmm ... provavelmente. Não tenho certeza. Esse é o exemplo mais comum. O que voce tinha em mente?
PhD
2
Veja minha resposta sobre os sistemas de classificação bayesiana abaixo. Os contextos de classificação aplicados normalmente têm centenas ou milhares de objetos sendo classificados, e o objetivo geralmente é formar a melhor estimativa da classificação do objeto, com base nas informações disponíveis. Isso é muito diferente de uma comparação simples de dois grupos, como você pode encontrar em uma experiência médica com dois grupos.
Jeromy Anglim

Respostas:

57

Nn

Para esclarecer meu ponto de vista sobre poder, aqui está uma simulação muito simples escrita para R:

set.seed(9)                            # this makes the simulation exactly reproducible

power5050 = vector(length=10000)       # these will store the p-values from each 
power7525 = vector(length=10000)       # simulated test to keep track of how many 
power9010 = vector(length=10000)       # are 'significant'

for(i in 1:10000){                     # I run the following procedure 10k times

  n1a = rnorm(50, mean=0,  sd=1)       # I'm drawing 2 samples of size 50 from 2 normal
  n2a = rnorm(50, mean=.5, sd=1)       # distributions w/ dif means, but equal SDs

  n1b = rnorm(75, mean=0,  sd=1)       # this version has group sizes of 75 & 25
  n2b = rnorm(25, mean=.5, sd=1)

  n1c = rnorm(90, mean=0,  sd=1)       # this one has 90 & 10
  n2c = rnorm(10, mean=.5, sd=1)

  power5050[i] = t.test(n1a, n2a, var.equal=T)$p.value         # here t-tests are run &
  power7525[i] = t.test(n1b, n2b, var.equal=T)$p.value         # the p-values are stored
  power9010[i] = t.test(n1c, n2c, var.equal=T)$p.value         # for each version
}

mean(power5050<.05)                # this code counts how many of the p-values for
[1] 0.7019                         # each of the versions are less than .05 &
mean(power7525<.05)                # divides the number by 10k to compute the % 
[1] 0.5648                         # of times the results were 'significant'. That 
mean(power9010<.05)                # gives an estimate of the power
[1] 0.3261

N=100n1=50n2=50n1=75n2=25n1=90n2=10. Observe ainda que o processo padronizado de diferença média / geração de dados foi o mesmo em todos os casos. No entanto, enquanto o teste foi 'significativo' 70% do tempo para a amostra 50-50, o poder foi de 56% com 75-25 e apenas 33% quando os tamanhos dos grupos eram 90-10.

Eu penso nisso por analogia. Se você deseja conhecer a área de um retângulo e o perímetro é fixo, a área será maximizada se o comprimento e a largura forem iguais (ou seja, se o retângulo for um quadrado ). Por outro lado, à medida que o comprimento e a largura divergem (à medida que o retângulo fica alongado), a área diminui.

- Reinstate Monica
fonte
o poder é maximizado ?? Não tenho muita certeza de entender. Você poderia fornecer um exemplo, se possível?
PhD
5
A razão pela qual o teste t pode lidar com tamanhos de amostra desiguais é que leva em consideração o erro padrão das estimativas das médias para cada grupo. Esse é o desvio padrão da distribuição do grupo dividido pela raiz quadrada do tamanho da amostra do grupo. O grupo com o tamanho da amostra muito maior terá o menor erro padrão se os desvios padrão da população forem iguais ou quase iguais.
Michael Chernick
@gung - Não sei se realmente sei qual 'idioma' esta simulação está escrita. Estou adivinhando 'R'? e eu ainda estou tentando decifrá-lo :)
PhD
2
O código é para R. Comentei para facilitar o acompanhamento. Você pode simplesmente copiar e colar no R e executá-lo, se tiver o R; a set.seed()função garantirá que você obtenha saída idêntica. Deixe-me saber se ainda é muito difícil de seguir.
gung - Restabelece Monica
8
N=n1+n2n1×n2n1n2
10

Além da resposta mencionada por @gung, referindo-o ao teste t, parece que você pode estar interessado nos sistemas de classificação bayesiana (por exemplo, aqui está uma discussão ). Os sites podem usar esses sistemas para classificar itens de pedidos que variam no número de votos recebidos. Essencialmente, esses sistemas funcionam atribuindo uma classificação composta pela classificação média de todos os itens mais a média da amostra de classificações para o objeto específico. À medida que o número de classificações aumenta, o peso atribuído à média do objeto aumenta e o peso atribuído à classificação média de todos os itens diminui. Talvez verifique as médias bayesianas .

É claro que as coisas podem ficar muito mais complexas à medida que você lida com uma ampla gama de questões, como fraude no voto, alterações ao longo do tempo etc.

Jeromy Anglim
fonte
Doce. Nunca ouvi falar disso. Definitivamente vou investigar. Talvez seja isso que eu estou atrás, depois de tudo :)
PhD