Paradoxo do valor médio - Como é chamado?

22

Eu tenho um conjunto de dados. Diga observações e variáveis:103

obs  A   B   C
1    0   0   1
2    0   1   0
3    1   0   1
4    1   1   0
5    1   0   1
6    1   0   0
7    1   1   0
8    0   0   1
9    0   1   1
10   0   1   1

Digamos que sejam clientes que compraram ( ) ou não ( ) em cada categoria . Existem , então esses clientes compram em categorias de produtos, em média.16 10 1,61010A, B, C16101.6

Observe que os clientes podem comprar mais de um de A, B e C.

Se eu olhar apenas para os que compram A, há clientes que compraram em categorias de produtos, o que significa em média.9 1,8591.8

Bé novamente ou .1,89/51.8

Cé10/6=1.67.

Todos eles acima de1.6.

o que parece estranho. Entendo, mas preciso explicar isso para o marketing na próxima semana e, portanto, preciso de ajuda!

Como se chama isso?

Eu sei que não é o paradoxo de Simpson. Para mim, isso parece semelhante em lógica ao problema de Monty Hall e à probabilidade condicional.

James Adams
fonte
2
Pessoalmente, não tenho ideia do que você está falando. Por que não criar uma tabela de contingência de As, Bs e Cs para examinar os padrões de compra cruzada?
Mike Hunter
3
Temos relatórios que dizem "Os clientes que compram C valem mais que a média - 1,67 vs 1,6". Isso é verdade, mas A e B valem mais que a média também. Para a qual surgirá a pergunta inevitável "Como todos os clientes podem valer mais que a média"?
James Adams
3
Acho que o quebra-cabeça dele é que parece superficialmente com o lago Wobegon, onde todo mundo está acima da média: P Seja o número de categorias / item que um cliente comprou. Sejam , e indicadores de compras nas categorias A, B e C, respectivamente. , e enquantoA B C E [ X A ] = 1,8XABCE[XA]=1.8E [ X C ] = 1,67 E [ X ] = 1,6E[XB]=1.8E[XC]=1.67E[X]=1.6
Matthew Gunn
12
Você pode pensar em termos de conjuntos complementares e diagramas de Venn. Os conjuntos "clientes que compram A" e "clientes que não compram A" não se sobrepõem. Mas os conjuntos listados na sua pergunta se sobrepõem. Você pode calcular a média geral como uma média (ponderada) das médias de subconjunto somente se os subconjuntos formarem uma partição .
GeoMatt22
4
Isso é parecido com o paradoxo da ilusão da maioria ? Da mesma forma que qualquer indivíduo provavelmente estará conectado a um super networker, qualquer categoria de compra provavelmente conterá um supercomprador? (Eu estou chamando a alguém super-networker que se conecta com muitas pessoas e uma pessoa super-comprador que compra muitos itens diferentes)
Matthew Gunn

Respostas:

28

A média de cada subcategoria pode estar acima da média geral se as subcategorias se sobrepuserem aos clientes maiores.

Exemplo simples para ganhar intuição:

  • Seja um indicador se um indivíduo comprou um item na categoria A.A
  • Seja um indicador se um indivíduo comprou um item na categoria B.B
  • Seja o número de itens comprados.X=A+B

PersonABi10ii01iii11

O conjunto de indivíduos em que é verdadeiro se sobrepõe ao conjunto de indivíduos em que é verdadeiro. Eles não são conjuntos disjuntos.BAB

Então enquanto eE [ X | A ] = 1,5 E [ X | B ] = 1,5E[X]1.33E[XA]=1.5E[XB]=1.5

A afirmação que seria verdadeira é:

P(A)E[XA]+P(B)E[XB]P(AB)E[XAB]=E[X]

231.5+231.5132=1.3333

Você não pode simplesmente calcular porque os conjuntos e sobrepõem, a expressão conta duas vezes a pessoa quem compra os itens e !A B A BP(A)E[XA]+P(B)E[XB]ABAB

Nome para ilusão / paradoxo?

Eu diria que está relacionado ao paradoxo da ilusão majoritária nas redes sociais.

Você pode ter um único cara que cria redes / amigos para todos. Essa pessoa pode ser uma entre um milhão em geral, mas será um dos amigos de cada pessoa .k

Da mesma forma, você tem 1 de 3 aqui comprando as categorias A e B. Mas, na categoria A ou B, 1 dos 2 compradores é o super comprador.

Caso extremo:

Vamos criar conjuntos de bilhetes de loteria. Cada conjunto inclui dois bilhetes: um bilhete perdedor o bilhete vencedor do jackpot.S i inSii

Os ganhos médios em cada set são então onde é o jackpot. A média de cada categoria está MUITO SUPERIOR à média dos ganhos por ticket no geral .JSi JJJ2JJn+1

É a mesma dinâmica conceitual do caso de vendas. Cada conjunto inclui o bilhete do jackpot da mesma maneira que todas as categorias A, B ou C incluem os compradores pesados.Si

Meu ponto principal é que, na intuição baseada em conjuntos disjuntos , uma partição completa do espaço de amostra não é transferida para uma série de conjuntos sobrepostos . Se você condicionar categorias sobrepostas, todas as categorias poderão estar acima da média.

Se você particionar o espaço e a condição de amostra em conjuntos disjuntos, as categorias deverão ter a média da média geral, mas isso não é verdade para conjuntos sobrepostos.

Matthew Gunn
fonte
3
Obrigado! Eu acho que a contagem dupla é a chave para explicar. Eu não acho que isso seja necessariamente o resultado de alguns valores extremos. Meu exemplo de conjunto de dados acima é bastante mundano e o efeito "todos os grupos acima da média" ainda acontece. Meu palpite é que isso acontecerá na maioria dos casos. Apenas me perguntei se tinha um nome ou um exemplo anterior.
James Adams
Esta explicação não seria válida se os dados que @JamesAdams estiver analisando forem falhos. Estou afirmando que é. Você não pode ter um conjunto completo e exclusivo de categorias A, B e C em que as médias do grupo sejam mais altas que a média das três juntas, sem que haja uma violação de alguma suposição fundamental da análise de dados. No seu caso, é mais provável que o denominador para os difere média global (por exemplo, contém mais entrevistados) das utilizadas para a estimativa dos meios para A, B e C.
Mike Hunter
2
@ JohnJohnson É claro que você está certo se os conjuntos A, B e C particionam o espaço da amostra. Minha leitura da pergunta e dos "dados" fornecidos (sejam eles quais forem) é que A, B e C são conjuntos sobrepostos . Se A, B e C se sobrepuserem, as médias do grupo poderão ser mais altas que a média geral (que é o ponto da minha resposta; os conjuntos se sobrepõem aos maiores clientes!). Nada do que o OP tenha dito é internamente inconsistente. Seu detector "estamos passando dados BS" pode ser melhor que o meu, e eu concordo que é sempre importante fazer perguntas críticas sobre a validade dos dados / números.
Matthew Gunn
Sim, eles são conjuntos sobrepostos. Meu conjunto de dados é de milhões de clientes e 12 categorias. Quando vi que minhas médias eram mais altas que a média geral, achei estranho, mas explicável. Eu montei o conjunto de exemplos de 10 obs e 3 categorias para vê-lo. Eu apenas espalhei 1s e 0s aqui e saiu o mesmo. Suspeito que isso aconteça com a maioria dos conjuntos de dados em que esse tipo de média é calculado. @ Djohnson meu exemplo acima de que eu sou usa 10 como denominador para a média geral, 5 para o As, 5 para o Bs, 6 para o Cs. Você pode me dizer o que estou violando neste exemplo?
James Adams
O que '10' representa? A rede de entrevistados nas três categorias? O que acontece com as médias se você usar o mesmo denominador para todos? Ele deve retornar médias que flutuam em torno da média geral.
Mike Hunter
10

Eu chamaria isso de paradoxo do tamanho da família ou algo semelhante

2

  • 2
  • 21e22.313
  • 3

Números demográficos e de pesquisas reais produzem números diferentes, mas padrões semelhantes

O aparente paradoxo é que o tamanho médio dos grupos de irmãos dos indivíduos é maior que o número médio de filhos por família; com dinâmica populacional estável, as pessoas tendem a ter menos filhos em média do que seus pais

A explicação é se a média está sendo assumida pelos pais e famílias ou pelos irmãos: existem diferentes ponderações sendo aplicadas às famílias numerosas. No seu exemplo, há uma diferença entre a ponderação individual ou de compras; suas médias condicionais são aumentadas pelo fato de você condicionar uma compra específica a ser feita.

Henry
fonte
8

As outras respostas estão pensando demais no que está acontecendo. Suponha que haja um produto e dois clientes. Um comprou o produto (uma vez) e outro não. O número médio de produtos comprados é 0,5, mas se você observar apenas o cliente que comprou o produto, a média aumentará para 1.

Isso não parece um paradoxo ou contra-intuitivo para mim; condicionar a compra de um produto geralmente aumentará o número médio de produtos comprados.

Vadim Ponomarenko
fonte
Exatamente. Supondo que as compras em cada uma das três categorias não estejam fortemente correlacionadas, o que você faz é calcular as médias após aumentar a taxa de compra para 100% em uma das categorias. Provavelmente seria mais informativo comparar, por exemplo. a taxa média de compra nas categorias B e C: a) entre todos os clientes (20/11) b) entre os que compraram A (4/10). Depende do que você está tentando mostrar / encontrar, eu acho.
precisa
2

Isso não é meramente a confusão da "média das médias" (por exemplo, pergunta anterior sobre troca de pilhas ) disfarçada? Sua tentação parece ser que as médias das subamostras terminem em média com a média da população, mas isso raramente acontecerá.

Na clássica "média de médias", alguém encontra a média de N subconjuntos mutuamente exclusivos e fica surpreso que esses valores não sejam médios da média da população. A única maneira de calcular essa média de médias é se os subconjuntos não sobrepostos tiverem o mesmo tamanho. Caso contrário, você precisará fazer uma média ponderada.

Seu problema se torna mais complexo do que essa média tradicional de confusão de médias por haver subconjuntos sobrepostos, mas me parece ser apenas esse erro clássico com uma reviravolta. Com subconjuntos sobrepostos, é ainda mais difícil terminar com médias de subamostras que são médias da média da população.

No seu exemplo, como os usuários que aparecem em várias subamostras (e, portanto, compraram muitas coisas) aumentarão essas médias. Basicamente, você está contando cada grande gastador várias vezes, enquanto as pessoas frugal que compram apenas um item são encontradas apenas uma vez, portanto, você é inclinado a valores maiores. É por isso que seus subconjuntos específicos têm valores acima da média, mas acho que esse ainda é apenas o problema da "média das médias".

Você também pode construir todos os tipos de outros subconjuntos a partir dos seus dados, onde as médias da subamostra assumem valores diferentes. Por exemplo, vamos considerar subconjuntos um pouco semelhantes aos seus subconjuntos. Se você pegar o subconjunto de pessoas que não compraram A, receberá 7/5 = 1,4 itens em média. Com o subconjunto que não comprou B, você também recebe 1,4 itens em média. Quem não comprou C comprou em média 1,5 itens. Estes estão todos abaixo da média da população de 1,6 itens / cliente. Dado o conjunto de dados correto e a coleção correta de subconjuntos, você pode acabar com subconjuntos sobrepostos cuja média é a média da população; no entanto, isso seria incomum em aplicativos normais.

Sou apenas eu, ou a palavra média agora parece estranha depois de tantas repetições ... Espero que minha resposta tenha sido útil e desculpe se eu arruinei a palavra média para você!

tbell
fonte
Obrigado! O comentário sobre partições do mesmo tamanho sem sobreposição esclareceu isso em minha mente. Eu esperava que, ao apresentar esses números, pudesse dizer algo como "Todas as médias de categorias são mais altas que a média geral, mas esse é o paradoxo de Blahblah". Como quando você diz "Paradoxo de Simpson !, Sexismo da Ivy League!" e depois sai correndo da sala. (Vocês todos fazem isso às vezes, não é?) Gostaria de dizer a eles "É porque esses são subconjuntos de tamanhos diferentes sobrepostos", mas não pensem que isso vai acontecer!
James Adams
1
Haha, é justo. Eu não entendi totalmente o contexto antes - sou um estudante de astrofísica, então não estou muito familiarizado com o contexto. Você poderia dizer algo breve, com o efeito de "Todas as médias do subconjunto são mais altas que a média geral porque elas fizeram com que os subconjuntos nos enviesassem em direção a valores maiores". Eu não mencionaria a média do nome das médias, já que não é tão conhecido assim, e seu caso é como uma generalização. Também tentava encontrar um sinônimo para substituir as categorias de palavras - geralmente vejo a palavra como subconjuntos mutuamente exclusivos.
tbell
A saciedade semântica é um fenômeno psicológico no qual a repetição faz com que uma palavra ou frase perca temporariamente o significado do ouvinte, que percebe o discurso como sons repetidos e sem sentido.
Patrick Patrick
1

Como a questão é " eu entendo, mas preciso explicar isso ao marketing ", o OP parece preocupado com a maneira como um leigo interpretará esses fatos - (não se os fatos são verdadeiros ou como mostrar que são). A pergunta faz referência a 10 categorias de produtos (AJ), então, que tal este exemplo:

[em reunião com o grupo de marketing]
OP : Então, como você pode ver aqui , os clientes que compram A, B e C são todos mais valiosos que a média.
Leigo : Espera ?! Como todos podem estar acima da média?
OP : Boa pergunta. Este slide concentra-se nos clientes de A, B e C, mas existem outros grupos de baixo desempenho não exibidos. Por exemplo, os clientes das categorias D e G valem cerca de metade da média.

Isso deve reprimir o alarme bs interno de todos sobre 'tudo está acima da média'.

Patrick
fonte
Esta não é a maneira de responder a uma pergunta.
Michael R. Chernick
Sua pergunta foi respondida, mas ninguém abordou seu problema.
Patrick Patrick
Meu comentário só teve a ver com a resposta de Patrick.
Michael R. Chernick
Não vejo nenhuma regra contra diferentes estilos de resposta. Relatar discussões e conversas (reais ou imaginárias) é uma maneira consagrada de pensar em questões de Sócrates em diante (e antes dele, pelo que sei).
Nick Cox
Mas essa explicação é factualmente errada. Mesmo na ausência de outras categorias (DJ), a observação permanece verdadeira: as médias de subconjuntos sobrepostos podem ser mais altas que a média de todo o conjunto, mesmo que os subconjuntos abranjam todo o conjunto.
Isarandi
0

Ignore as outras respostas aqui. Na verdade, isso não é um paradoxo. A questão real em questão aqui, que todo mundo parece estar ignorando, é que você está enganando qual probabilidade está realmente olhando. De fato, existem duas médias e estatísticas completamente diferentes em jogo aqui, ambas com usos e interpretações próprias no seu exemplo proposto (marketing)!

Primeiro, existe o número médio de produtos comprados por cliente. Assim, em média, um cliente compra 1,6 itens. Obviamente, um cliente não pode senão 0,6 do produto (supondo que não seja algo como arroz ou grão que tenha uma medição contínua associada a ele).

Em segundo lugar, existe o número médio de clientes que compram um produto específico. Soa estranho, certo? Assim, em média, um produto tem 5,333333333 ... clientes que o compram. Isso é diferente no entanto. O que estamos descrevendo aqui não é o número de produtos comprados (existem apenas três!), Mas o número de pessoas que realmente compram esse produto.

Pense nos dois valores da seguinte maneira: o que esses dois valores representariam se houvesse apenas um cliente ou apenas um produto? Afinal, a média de um único ponto de dados é exatamente aquele dado.

Ou melhor ainda, pense no gráfico como se estivesse lhe dando quantias em dólares gastas para comprar o produto. Obviamente, a quantia média gasta por um cliente individual será muito menor que a quantia ganha em média por um produto fornecido por uma grande corporação (ou mesmo apenas por uma pequena empresa). Tenho certeza de que você pode pensar em boas maneiras de usar os dois valores ao discutir o bem-estar da empresa.

Quando você for explicar isso à equipe de marketing, explique a eles exatamente como eu disse. Não é um paradoxo. É apenas uma estatística completamente diferente. A única questão aqui foi notar que havia, de fato, duas maneiras diferentes de ler o gráfico (ou seja, número de pessoas comprando por produto versus número de produtos comprados por pessoa).

A primeira coisa que você descreveu é a quantia média que um cliente está disposto a gastar comprando seus produtos. O segundo é a demanda média de um determinado produto pelo público. Tenho certeza de que você pode ver agora porque ambos certamente não são a mesma coisa. Compará-los como tal apenas fornecerá informações sobre o lixo.


EDITAR

Parece que a pergunta está realmente perguntando sobre o dinheiro médio gasto pelos clientes que compram algum produto a, b ou c. Bem. Na verdade, isso é apenas um erro nos cálculos. Eu não chamaria isso de paradoxo. É realmente apenas um flútil sutil.

Olhe para suas colunas. Existem pessoas que são compartilhadas entre colunas. Vamos supor que você fez uma média ponderada adequada . Você ainda está adicionando pessoas duas vezes. Isso significa que a média conterá pessoas extras com um valor maior ou igual a 2. Agora, qual foi sua média? Era 1,6! Em essência, sua média fica assim:

i=0nvalueOfPersonivalueOfPersonin

Definitivamente, essa não é a fórmula certa. É uma média ponderada, embora assumindo exclusividade mútua, é assim que você se ajustaria para obter uma média verdadeira em sua situação.

i=0nnumberOfPeopleBuyingiaverageSpentByPersonBuyingin

De qualquer maneira, você terá uma média confusa. Um erro foi ignorar a necessidade de uma média ponderada, pois uma categoria tem um "peso" maior em termos da média. É como densidade. Um valor é mais denso nas pessoas representa. A outra questão é a adição duplicada, que distorcerá a média. Não chamo nenhum desses "paradoxos". Depois que vi o que você estava fazendo, me pareceu óbvio por que isso não funcionaria. A média ponderada é um pouco auto-explicativa para sua necessidade e acho que agora você vê que adicionou valores várias vezes ... que não podem funcionar. Você basicamente calculou a média dos quadrados de seus valores.

O grande pato
fonte
Não acho que seja esse o caso. Não estou interessado aqui em quantas pessoas compram um produto específico. Estou interessado em quantos produtos totais um cliente comprou, uma vez que comprou A.
James Adams
@JamesAdams Tudo bem, basta. Nesse caso, a questão é ainda mais trivial. Você está apenas medindo um subconjunto da sua amostra. Em teoria, se você fizesse o mesmo com B e C, a média final não seria a média real. No entanto, isso ocorre apenas porque as amostras são desiguais. Isso é tudo. De fato, não vejo razão para que isso seja óbvio para uma pessoa. Na verdade, existe uma solução para fixar as médias para obter a média adequada. É chamado de média ponderada e, basicamente, você "ponderaria" cada submédia com o número de pessoas nesse grupo. Faz sentido?
The Great Duck
@JamesAdams e eu sei que você não está interessado nisso. Sua matemática, que você afirmou formar um paradoxo, usou essa média para tentar calcular o número médio de produtos por pessoa. É por isso que nesta resposta enfatizo que há uma segunda média para uma estatística diferente e seu "erro" foi tentar convencê-la a ser uma média completamente diferente.
The Great Duck