A média de um conjunto de médias sempre será a mesma que a média obtida de todo o conjunto de dados brutos?

10

Se eu calculei a média para quatro conjuntos de dados (que têm tamanhos de amostra diferentes), posso obter uma "média geral" calculando a "média das médias"? Se sim, essa "média dos meios" será a mesma que se eu tivesse combinado os dados de todos os 4 conjuntos e calculado a média?

user66429
fonte
3
Você já tentou as duas coisas ;-)? (No.)
gung - Reinstate Monica

Respostas:

14

Não, as médias das médias dos subconjuntos não são iguais à média de todo o conjunto. Será apenas o mesmo valor se os subconjuntos tiverem o mesmo tamanho de amostra. Se você deseja a média da população, multiplique cada média pelo tamanho da amostra de origem para obter o total da população e divida pelo número total de pontos de dados (tamanho da população).

Veja o exemplo das médias de rebatidas no paradoxo de Simpson para uma boa ilustração de por que as médias médias geralmente não funcionam.

Bill the Lizard
fonte
2

Vamos tentar e ver se conseguimos descobrir. O exemplo a seguir está codificado R, que é gratuito e permite reproduzir o exemplo, mas espero que o código seja auto-explicativo:

group1 = c(1,2,3)
group2 = c(4,5,6,7,8,9)
mean(group1)
#  2
mean(group2)
#  6.5
mean(c(group1, group2))
#  5
mean(c(mean(group1), mean(group2)))
#  4.25

Então, o que vemos é que você certamente pode calcular a média das médias, mas a média das médias e a média de todos os dados brutos não coincidem. Também podemos tentar uma média ponderada usando a sugestão de @ BilltheLizard para usar o tamanho da amostra de cada grupo como um peso (os pesos são indicados com o wargumento):

weighted.mean(c(mean(group1), mean(group2)), w=c(3,6))
#  5

Isso agora nos dá a mesma resposta.

- Reinstate Monica
fonte
1

Em geral, se você tiver um conjunto de grupos com os respectivos tamanhos e significa , a média geral da amostra de todos os dados é :mn1,...,nmx¯1,...,x¯m

x¯=k=1mnknx¯kn=Eu=1mnk.

Assim, a média geral é sempre uma média ponderada das médias amostrais dos grupos. No caso especial em que todos os grupos têm o mesmo tamanho ( ), todos os pesos serão iguais e, portanto, a média geral da amostra será a média das médias da amostra do grupo.n1==nm

Ben - Restabelecer Monica
fonte
0

Só quero dar um exemplo (extremo): se tivermos uma taxa de acerto de (1/10000) em uma amostra e uma taxa de acerto de (1/2) em outro exemplo, então . No primeiro caso (média de médias), temos uma taxa de acerto "média" de 0,5001 / 2, enquanto no segundo caso (média do total) temos 3/10003, e esses dois números não são os mesmos. Se um é mais apropriado ou correto, depende do seu caso de uso.hEutEutotumaeuEuhEutEutotumaeuEu

information_interchange
fonte