Se eu calculei a média para quatro conjuntos de dados (que têm tamanhos de amostra diferentes), posso obter uma "média geral" calculando a "média das médias"? Se sim, essa "média dos meios" será a mesma que se eu tivesse combinado os dados de todos os 4 conjuntos e calculado a média?
mathematical-statistics
weighted-mean
mean
user66429
fonte
fonte
Respostas:
Não, as médias das médias dos subconjuntos não são iguais à média de todo o conjunto. Será apenas o mesmo valor se os subconjuntos tiverem o mesmo tamanho de amostra. Se você deseja a média da população, multiplique cada média pelo tamanho da amostra de origem para obter o total da população e divida pelo número total de pontos de dados (tamanho da população).
Veja o exemplo das médias de rebatidas no paradoxo de Simpson para uma boa ilustração de por que as médias médias geralmente não funcionam.
fonte
Vamos tentar e ver se conseguimos descobrir. O exemplo a seguir está codificado
R
, que é gratuito e permite reproduzir o exemplo, mas espero que o código seja auto-explicativo:Então, o que vemos é que você certamente pode calcular a média das médias, mas a média das médias e a média de todos os dados brutos não coincidem. Também podemos tentar uma média ponderada usando a sugestão de @ BilltheLizard para usar o tamanho da amostra de cada grupo como um peso (os pesos são indicados com o
w
argumento):Isso agora nos dá a mesma resposta.
fonte
Em geral, se você tiver um conjunto de grupos com os respectivos tamanhos e significa , a média geral da amostra de todos os dados é :m n1, . . . , nm x¯1, . . . , x¯m
Assim, a média geral é sempre uma média ponderada das médias amostrais dos grupos. No caso especial em que todos os grupos têm o mesmo tamanho ( ), todos os pesos serão iguais e, portanto, a média geral da amostra será a média das médias da amostra do grupo.n1= ⋯ = nm
fonte
Só quero dar um exemplo (extremo): se tivermos uma taxa de acerto de (1/10000) em uma amostra e uma taxa de acerto de (1/2) em outro exemplo, então . No primeiro caso (média de médias), temos uma taxa de acerto "média" de 0,5001 / 2, enquanto no segundo caso (média do total) temos 3/10003, e esses dois números não são os mesmos. Se um é mais apropriado ou correto, depende do seu caso de uso.∑ h i tEut o t a lEu≠ Σ h i tEuΣ t o t a lEu
fonte