Eu tenho um conjunto de dados. Diga observações e variáveis:
obs A B C
1 0 0 1
2 0 1 0
3 1 0 1
4 1 1 0
5 1 0 1
6 1 0 0
7 1 1 0
8 0 0 1
9 0 1 1
10 0 1 1
Digamos que sejam clientes que compraram ( ) ou não ( ) em cada categoria . Existem , então esses clientes compram em categorias de produtos, em média.16 10 1,61
0
A, B, C
Observe que os clientes podem comprar mais de um de A, B e C.
Se eu olhar apenas para os que compram A
, há clientes que compraram em categorias de produtos, o que significa em média.9 1,8
B
é novamente ou .1,8
C
é
Todos eles acima de
o que parece estranho. Entendo, mas preciso explicar isso para o marketing na próxima semana e, portanto, preciso de ajuda!
Como se chama isso?
Eu sei que não é o paradoxo de Simpson. Para mim, isso parece semelhante em lógica ao problema de Monty Hall e à probabilidade condicional.
proportion
descriptive-statistics
paradox
James Adams
fonte
fonte
Respostas:
A média de cada subcategoria pode estar acima da média geral se as subcategorias se sobrepuserem aos clientes maiores.
Exemplo simples para ganhar intuição:
O conjunto de indivíduos em que é verdadeiro se sobrepõe ao conjunto de indivíduos em que é verdadeiro. Eles não são conjuntos disjuntos.BA B
Então enquanto eE [ X | A ] = 1,5 E [ X | B ] = 1,5E[X]≈1.33 E[X∣A]=1.5 E[X∣B]=1.5
A afirmação que seria verdadeira é:
Você não pode simplesmente calcular porque os conjuntos e sobrepõem, a expressão conta duas vezes a pessoa quem compra os itens e !A B A BP(A)E[X∣A]+P(B)E[X∣B] A B A B
Nome para ilusão / paradoxo?
Eu diria que está relacionado ao paradoxo da ilusão majoritária nas redes sociais.
Você pode ter um único cara que cria redes / amigos para todos. Essa pessoa pode ser uma entre um milhão em geral, mas será um dos amigos de cada pessoa .k
Da mesma forma, você tem 1 de 3 aqui comprando as categorias A e B. Mas, na categoria A ou B, 1 dos 2 compradores é o super comprador.
Caso extremo:
Vamos criar conjuntos de bilhetes de loteria. Cada conjunto inclui dois bilhetes: um bilhete perdedor o bilhete vencedor do jackpot.S i in Si i
Os ganhos médios em cada set são então onde é o jackpot. A média de cada categoria está MUITO SUPERIOR à média dos ganhos por ticket no geral .JSi JJJ2 J Jn+1
É a mesma dinâmica conceitual do caso de vendas. Cada conjunto inclui o bilhete do jackpot da mesma maneira que todas as categorias A, B ou C incluem os compradores pesados.Si
Meu ponto principal é que, na intuição baseada em conjuntos disjuntos , uma partição completa do espaço de amostra não é transferida para uma série de conjuntos sobrepostos . Se você condicionar categorias sobrepostas, todas as categorias poderão estar acima da média.
Se você particionar o espaço e a condição de amostra em conjuntos disjuntos, as categorias deverão ter a média da média geral, mas isso não é verdade para conjuntos sobrepostos.
fonte
Eu chamaria isso de paradoxo do tamanho da família ou algo semelhante
Números demográficos e de pesquisas reais produzem números diferentes, mas padrões semelhantes
O aparente paradoxo é que o tamanho médio dos grupos de irmãos dos indivíduos é maior que o número médio de filhos por família; com dinâmica populacional estável, as pessoas tendem a ter menos filhos em média do que seus pais
A explicação é se a média está sendo assumida pelos pais e famílias ou pelos irmãos: existem diferentes ponderações sendo aplicadas às famílias numerosas. No seu exemplo, há uma diferença entre a ponderação individual ou de compras; suas médias condicionais são aumentadas pelo fato de você condicionar uma compra específica a ser feita.
fonte
As outras respostas estão pensando demais no que está acontecendo. Suponha que haja um produto e dois clientes. Um comprou o produto (uma vez) e outro não. O número médio de produtos comprados é 0,5, mas se você observar apenas o cliente que comprou o produto, a média aumentará para 1.
Isso não parece um paradoxo ou contra-intuitivo para mim; condicionar a compra de um produto geralmente aumentará o número médio de produtos comprados.
fonte
Isso não é meramente a confusão da "média das médias" (por exemplo, pergunta anterior sobre troca de pilhas ) disfarçada? Sua tentação parece ser que as médias das subamostras terminem em média com a média da população, mas isso raramente acontecerá.
Na clássica "média de médias", alguém encontra a média de N subconjuntos mutuamente exclusivos e fica surpreso que esses valores não sejam médios da média da população. A única maneira de calcular essa média de médias é se os subconjuntos não sobrepostos tiverem o mesmo tamanho. Caso contrário, você precisará fazer uma média ponderada.
Seu problema se torna mais complexo do que essa média tradicional de confusão de médias por haver subconjuntos sobrepostos, mas me parece ser apenas esse erro clássico com uma reviravolta. Com subconjuntos sobrepostos, é ainda mais difícil terminar com médias de subamostras que são médias da média da população.
No seu exemplo, como os usuários que aparecem em várias subamostras (e, portanto, compraram muitas coisas) aumentarão essas médias. Basicamente, você está contando cada grande gastador várias vezes, enquanto as pessoas frugal que compram apenas um item são encontradas apenas uma vez, portanto, você é inclinado a valores maiores. É por isso que seus subconjuntos específicos têm valores acima da média, mas acho que esse ainda é apenas o problema da "média das médias".
Você também pode construir todos os tipos de outros subconjuntos a partir dos seus dados, onde as médias da subamostra assumem valores diferentes. Por exemplo, vamos considerar subconjuntos um pouco semelhantes aos seus subconjuntos. Se você pegar o subconjunto de pessoas que não compraram A, receberá 7/5 = 1,4 itens em média. Com o subconjunto que não comprou B, você também recebe 1,4 itens em média. Quem não comprou C comprou em média 1,5 itens. Estes estão todos abaixo da média da população de 1,6 itens / cliente. Dado o conjunto de dados correto e a coleção correta de subconjuntos, você pode acabar com subconjuntos sobrepostos cuja média é a média da população; no entanto, isso seria incomum em aplicativos normais.
Sou apenas eu, ou a palavra média agora parece estranha depois de tantas repetições ... Espero que minha resposta tenha sido útil e desculpe se eu arruinei a palavra média para você!
fonte
Como a questão é " eu entendo, mas preciso explicar isso ao marketing ", o OP parece preocupado com a maneira como um leigo interpretará esses fatos - (não se os fatos são verdadeiros ou como mostrar que são). A pergunta faz referência a 10 categorias de produtos (AJ), então, que tal este exemplo:
[em reunião com o grupo de marketing]
OP : Então, como você pode ver aqui , os clientes que compram A, B e C são todos mais valiosos que a média.
Leigo : Espera ?! Como todos podem estar acima da média?
OP : Boa pergunta. Este slide concentra-se nos clientes de A, B e C, mas existem outros grupos de baixo desempenho não exibidos. Por exemplo, os clientes das categorias D e G valem cerca de metade da média.
Isso deve reprimir o alarme bs interno de todos sobre 'tudo está acima da média'.
fonte
Ignore as outras respostas aqui. Na verdade, isso não é um paradoxo. A questão real em questão aqui, que todo mundo parece estar ignorando, é que você está enganando qual probabilidade está realmente olhando. De fato, existem duas médias e estatísticas completamente diferentes em jogo aqui, ambas com usos e interpretações próprias no seu exemplo proposto (marketing)!
Primeiro, existe o número médio de produtos comprados por cliente. Assim, em média, um cliente compra 1,6 itens. Obviamente, um cliente não pode senão 0,6 do produto (supondo que não seja algo como arroz ou grão que tenha uma medição contínua associada a ele).
Em segundo lugar, existe o número médio de clientes que compram um produto específico. Soa estranho, certo? Assim, em média, um produto tem 5,333333333 ... clientes que o compram. Isso é diferente no entanto. O que estamos descrevendo aqui não é o número de produtos comprados (existem apenas três!), Mas o número de pessoas que realmente compram esse produto.
Pense nos dois valores da seguinte maneira: o que esses dois valores representariam se houvesse apenas um cliente ou apenas um produto? Afinal, a média de um único ponto de dados é exatamente aquele dado.
Ou melhor ainda, pense no gráfico como se estivesse lhe dando quantias em dólares gastas para comprar o produto. Obviamente, a quantia média gasta por um cliente individual será muito menor que a quantia ganha em média por um produto fornecido por uma grande corporação (ou mesmo apenas por uma pequena empresa). Tenho certeza de que você pode pensar em boas maneiras de usar os dois valores ao discutir o bem-estar da empresa.
Quando você for explicar isso à equipe de marketing, explique a eles exatamente como eu disse. Não é um paradoxo. É apenas uma estatística completamente diferente. A única questão aqui foi notar que havia, de fato, duas maneiras diferentes de ler o gráfico (ou seja, número de pessoas comprando por produto versus número de produtos comprados por pessoa).
A primeira coisa que você descreveu é a quantia média que um cliente está disposto a gastar comprando seus produtos. O segundo é a demanda média de um determinado produto pelo público. Tenho certeza de que você pode ver agora porque ambos certamente não são a mesma coisa. Compará-los como tal apenas fornecerá informações sobre o lixo.
EDITAR
Parece que a pergunta está realmente perguntando sobre o dinheiro médio gasto pelos clientes que compram algum produto a, b ou c. Bem. Na verdade, isso é apenas um erro nos cálculos. Eu não chamaria isso de paradoxo. É realmente apenas um flútil sutil.
Olhe para suas colunas. Existem pessoas que são compartilhadas entre colunas. Vamos supor que você fez uma média ponderada adequada . Você ainda está adicionando pessoas duas vezes. Isso significa que a média conterá pessoas extras com um valor maior ou igual a 2. Agora, qual foi sua média? Era 1,6! Em essência, sua média fica assim:
Definitivamente, essa não é a fórmula certa. É uma média ponderada, embora assumindo exclusividade mútua, é assim que você se ajustaria para obter uma média verdadeira em sua situação.
De qualquer maneira, você terá uma média confusa. Um erro foi ignorar a necessidade de uma média ponderada, pois uma categoria tem um "peso" maior em termos da média. É como densidade. Um valor é mais denso nas pessoas representa. A outra questão é a adição duplicada, que distorcerá a média. Não chamo nenhum desses "paradoxos". Depois que vi o que você estava fazendo, me pareceu óbvio por que isso não funcionaria. A média ponderada é um pouco auto-explicativa para sua necessidade e acho que agora você vê que adicionou valores várias vezes ... que não podem funcionar. Você basicamente calculou a média dos quadrados de seus valores.
fonte