Eu tenho uma tabela com duas colunas X e Y. Cada linha representa uma estatística agregada para uma instância. Apresento uma nova coluna como Z = X / Y, que é outra informação importante sobre a instância. Agora, quero apresentar as estatísticas gerais das instâncias (ou seja, Média).
Aqui tenho uma preocupação: Qual deles devo usar entre Média (X / Y) e Média (X) / Média (Y) para representar a Média de Z? Simplesmente, pode ser Média (X / Y) apenas porque Z = X / Y.
No entanto, tenho duas preocupações:
- Média (Y) * Média (Z)! = Média (X); torna difícil para as pessoas confiarem nos números.
- as diferenças entre Média (X / Y) e Média (X) / Média (Y) são significativas. As diferenças em si dizem algo significativo estatisticamente?
// Eu atualizo meu caso.
A tabela mantém os registros do usuário em um sistema. Os usuários podem fazer upload de dados para ele.
- X: o número de uploads
- Y: o volume de envios
- Z: Y / X; volume por upload
O que eu quero fazer é simular esse sistema com cargas de trabalho semelhantes ao real.
Simplesmente crio N instâncias de usuários (N não pode ser muito grande) com X '= Média (X) e Z' = Média (Z).
Portanto, durante a simulação, cada usuário carrega dados do volume total: (X ') * (Z').
Então, quando agrego os resultados da simulação, acabo com: Média (Y ')! = Média (Y).
fonte
Respostas:
Você deve apresentar Média (X / Y) se X / Y é uma medida útil e uma média é uma maneira útil de resumi-la. Pela desigualdade de Jensen , sabemos que a proporção da média nunca é igual à média da proporção, exceto em algumas circunstâncias especiais.
fonte
Se você tomou uma média ponderada deZ= Y/ X para explicar isso, os pesos naturais seriam os números de uploads X e a média ponderada resultante acabaria sendo
Suas preocupações são justificadas: provavelmente seria melhor usar a última opção.
fonte