Usos da Média (X / Y) vs. Média (X) / Média (Y)

7

Eu tenho uma tabela com duas colunas X e Y. Cada linha representa uma estatística agregada para uma instância. Apresento uma nova coluna como Z = X / Y, que é outra informação importante sobre a instância. Agora, quero apresentar as estatísticas gerais das instâncias (ou seja, Média).

Aqui tenho uma preocupação: Qual deles devo usar entre Média (X / Y) e Média (X) / Média (Y) para representar a Média de Z? Simplesmente, pode ser Média (X / Y) apenas porque Z = X / Y.

No entanto, tenho duas preocupações:

  • Média (Y) * Média (Z)! = Média (X); torna difícil para as pessoas confiarem nos números.
  • as diferenças entre Média (X / Y) e Média (X) / Média (Y) são significativas. As diferenças em si dizem algo significativo estatisticamente?

// Eu atualizo meu caso.

A tabela mantém os registros do usuário em um sistema. Os usuários podem fazer upload de dados para ele.

  • X: o número de uploads
  • Y: o volume de envios
  • Z: Y / X; volume por upload

O que eu quero fazer é simular esse sistema com cargas de trabalho semelhantes ao real.

Simplesmente crio N instâncias de usuários (N não pode ser muito grande) com X '= Média (X) e Z' = Média (Z).

Portanto, durante a simulação, cada usuário carrega dados do volume total: (X ') * (Z').

Então, quando agrego os resultados da simulação, acabo com: Média (Y ')! = Média (Y).

syko
fonte
2
veja '' estimadores de proporção '', por exemplo: stats.stackexchange.com/questions/164738/…
@fcop Hmm, quando a estimativa de proporção ajuda? Quando eu quero executar uma simulação com N instâncias (cada uma tem as características Média (X), Média (Y) e Média (Z)) com base nas estatísticas? Posso usar a estimativa estimada em vez de Média (Z)?
syko
11
Estou no trem agora, responderei à noite.
11
Você examinou a distribuição do volume por upload ou de uploads por usuário, e não apenas os valores médios? Para a simulação, você provavelmente deve coletar amostras das distribuições, em vez de usar apenas valores médios, em qualquer caso.
Edm
11
Muitos bons conselhos aqui, mas muitas vezes acho que uma média é inadequada para resumir essa proporção, mesmo que ambas as quantidades sejam estritamente positivas. O intervalo é mapeado para e o intervalo é mapeado para que é bastante assimétrico. A distribuição resultante geralmente é altamente distorcida, o que por si só pode tornar os meios estranhos ou problemáticos. O remédio geralmente é trabalhar com logaritmo da razão e / ou (equivalentemente) meios geométricos. X<Y0 0<(X/Y)<1 1Y>X>(X/Y)>1 1
Nick Cox

Respostas:

9

Você deve apresentar Média (X / Y) se X / Y é uma medida útil e uma média é uma maneira útil de resumi-la. Pela desigualdade de Jensen , sabemos que a proporção da média nunca é igual à média da proporção, exceto em algumas circunstâncias especiais.

AdamO
fonte
Obrigado, acho que sua resposta está correta. No entanto, como mencionei como uma das minhas preocupações, as pessoas (que não se importam com o que é a desigualdade de Jensen) tendem a não acreditar nos números. Porque Média (Y) * Média (Z)! = Média (X) que contradiz a intuição. Qual seria a melhor explicação para isso?
syko
2
@ syko é um problema epistemológico. Certifique-se de explicar cuidadosamente que são quantidades distintas. Não acho que seu exemplo contradiga a intuição. Tome Y = -X, X = -1 ou 1 com igual probabilidade.
AdamO 6/09/16
@ AdamO Acho que você encontrou um erro no seu cálculo; nesse casoE(1 1/Y)>1 1 desde (com probabilidade 1) 1 1/Y>1 1.
Richard Rast
@RM O que você quer dizer com "limite de duas variáveis ​​aleatórias independentes"?
AdamO 6/09/16
@ AdamO O que eu quis dizer foi que você tem duas variáveis ​​independentes e constrói um número infinito de pares a partir de amostras das duas. - Percebo agora que estava errado sobre o meu comentário, porém, por negligenciar a complexidade do recíproco. Enquanto Média (X) * Média (1 / Y) = Média (X / Y) para variáveis ​​completamente independentes, você não pode dizer que Média (X) / Média (Y) = Média (X / Y), a menos que você tenha uma distribuição rara de Y tal que Média (1 / Y) = 1 / Média (Y). Portanto, sua intuição está assumindo 1. as duas variáveis ​​são independentes (não correlacionadas) e 2. Média (1 / Y) = 1 / Média (Y), o que não é correto em geral.
RM
4

Z=Y/X pode ser significativo para usuários individuais como seu volume médio individual por upload, mas Significar(Y/X) não parece significativo em conjunto, pois alguns usuários usam o sistema mais do que outros.

Se você tomou uma média ponderada de Z=Y/X para explicar isso, os pesos naturais seriam os números de uploads X e a média ponderada resultante acabaria sendo

Média Ponderada(Z)=Soma(X×Y/X)/Soma(X)=Soma(Y)/Soma(X)=Significar(Y)/Significar(X)
que também seria o volume médio agregado por upload no sistema.

Suas preocupações são justificadas: provavelmente seria melhor usar a última opção.

Henry
fonte