Como você explicaria o conceito de média, mediana e modo de uma lista de números e por que eles são importantes para alguém com apenas habilidades aritméticas básicas? Não vamos mencionar assimetria, CLT, tendência central, suas propriedades estatísticas, etc.
Expliquei a alguém que isso significa apenas uma maneira rápida e suja de "resumir" uma lista de números. Mas, olhando para trás, isso dificilmente é esclarecedor.
Quaisquer pensamentos ou exemplos do mundo real?
mean
descriptive-statistics
median
mode
Cidadão preocupado
fonte
fonte
Respostas:
Obrigado por esta pergunta simples, porém profunda, sobre os conceitos estatísticos fundamentais de média, mediana e modo. Existem alguns métodos / demonstrações maravilhosos disponíveis para explicar e compreender um entendimento intuitivo - e não aritmético - desses conceitos, mas infelizmente eles não são amplamente conhecidos (ou ensinados na escola, pelo que sei).
Significar:
1. Ponto de Equilíbrio: Média como ponto de apoio
A melhor maneira de entender o conceito de fazê-lo pensar nele como o ponto de equilíbrio em uma haste uniforme. Imagine uma série de pontos de dados, como {1,1,1,3,3,6,7,10}. Se cada um desses pontos estiver marcado em uma haste uniforme e pesos iguais forem colocados em cada ponto (como mostrado abaixo), o ponto de apoio deve ser colocado na média dos dados para a haste se equilibrar.
Essa demonstração visual também leva a uma interpretação aritmética. A lógica aritmética para isso é que, para o equilíbrio do ponto de apoio, o desvio negativo total da média (no lado esquerdo do ponto de apoio) deve ser igual ao desvio positivo total da média (no lado direito). Portanto, a média atua como ponto de equilíbrio em uma distribuição.
Este visual permite uma compreensão imediata da média no que se refere à distribuição dos pontos de dados. Outra propriedade da média que se torna facilmente aparente a partir desta demonstração é o fato de que a média sempre estará entre os valores mínimo e máximo na distribuição. Além disso, o efeito de outliers pode ser facilmente entendido - que a presença de outliers mudaria o ponto de equilíbrio e, portanto, afetaria a média.
2. Valor da redistribuição (participação justa)
Outra maneira interessante de entender a média é pensar nela como um valor de redistribuição . Essa interpretação requer alguma compreensão da aritmética por trás do cálculo da média, mas utiliza uma qualidade antropomórfica - a saber, o conceito socialista de redistribuição - para compreender intuitivamente o conceito de média.
O cálculo da média envolve somar todos os valores em uma distribuição (conjunto de valores) e dividir a soma pelo número de pontos de dados na distribuição.
Uma maneira de entender a lógica por trás desse cálculo é pensar em cada ponto de dados como maçãs (ou algum outro item fungível). Usando o mesmo exemplo de antes, temos oito pessoas em nossa amostra: {1,1,1,3,3,6,7,10}. A primeira pessoa tem uma maçã, a segunda pessoa tem uma maçã e assim por diante. Agora, se alguém quiser redistribuir o número de maçãs de forma que seja "justo" para todos, você pode usar a média da distribuição para fazer isso. Em outras palavras, você pode dar quatro maçãs (ou seja, o valor médio) a todos para que a distribuição seja justa / igual. Esta demonstração fornece uma explicação intuitiva para a fórmula acima: dividir a soma de uma distribuição pelo número de pontos de dados é equivalente a particionar toda a distribuição igualmente para todos os pontos de dados.
3. Mnemônicos Visuais
As seguintes mnemônicas visuais fornecem a interpretação da média de uma maneira única:
Este é um mnemônico para a interpretação do valor de nivelamento da média. A altura da barra transversal do A é a média das alturas das quatro letras.
E este é outro mnemônico para a interpretação do ponto de equilíbrio da média. A posição do ponto de apoio é aproximadamente a média das posições do M, E e duplicou N.
Mediana
Uma vez entendida a interpretação da média como o ponto de equilíbrio em uma haste , a mediana pode ser demonstrada por uma extensão da mesma idéia: o ponto de equilíbrio em um colar .
Substitua a haste por uma corda, mas mantenha as marcações e pesos dos dados. Em seguida, nas extremidades, prenda uma segunda corda, mais longa que a primeira, para formar um laço [como um colar] e passe o laço sobre uma polia bem lubrificada.
Suponha, inicialmente, que os pesos sejam distintos. A polia e o loop se equilibram quando o mesmo número de pesos está em cada lado. Em outras palavras, o loop 'equilibra' quando a mediana é o ponto mais baixo.
Observe que, se um dos pesos for deslizado até o loop, criando um outlier, o loop não se moverá. Isso demonstra fisicamente o princípio de que a mediana não é afetada pelos valores discrepantes.
Modo
O modo é provavelmente o conceito mais fácil de entender, pois envolve a operação matemática mais básica: contagem. O facto de que é igual aos que ocorrem mais frequentemente ligações de ponto de dados para uma sigla: “ M ost-frequentemente O ccurring D ATA E lement”.
O modo também pode ser pensado no valor mais típico de um conjunto. (Embora uma compreensão mais profunda de 'típico' leve ao representante, ou valor médio. No entanto, é apropriado equiparar 'típico' ao modo com base no significado literal da palavra 'típico'.)
Fontes:
fonte
Tenho que me perguntar se seus critérios são alcançáveis, pois você parece querer a máxima eficácia e poder explicativo com o mínimo de materiais. Mas um exemplo simples como
1 1 2 2 2 3 3 4 5 6 15
permite o cálculo imediato do modo (2), da mediana (3) e da média (44/11) = 4 e, portanto, mostra que eles podem ser diferentes.
Você poderia então explicar que as idéias do valor mais comum, o valor no meio e a média são diferentes. E introduza complicações por
alterar valores para mostrar o modo pode ser ambíguo
usando um exemplo com um número par de valores para explicar a convenção para calcular a mediana
valores variáveis nas caudas para enfatizar o que acontece com a média, e por que e por que não isso pode ser desejável.
usando exemplos mais simples nos quais dois ou três modos médio, mediano e coincidem.
Não mencionei a tendência central em meus ensinamentos, exceto para dizer que é um termo em várias literaturas. Eu prefiro falar sobre o nível e como ele pode ser quantificado. Por outro lado, não acho que seja possível uma análise séria dos dados, a menos que as pessoas tenham uma sensação mínima de distorção mais usual do que simetria.
fonte
É assim que eu os explico:
A média (aritmética) é o ponto que leva em consideração todo o conjunto de dados e se instala em algum lugar "no meio". Faça-os pensar em uma nuvem de pontos, ou uma bolha, no espaço: a média é o centro de massa dessa nuvem de pontos.
A mediana é o ponto que tem "o mesmo número de pontos em todos os lados" (onde obviamente o conceito de "lado" não está bem definido em mais de duas dimensões). Isso representa outro tipo de "meio" e, de fato, um tipo mais intuitivo em algum sentido. Pensando no mesmo blob no espaço, fica claro que, se o blob for desequilibrado, a média será alterada. Mas essa desigualdade pode ser alcançada de duas maneiras: você adiciona mais pontos em uma área ou aumenta a dispersão de pontos nessa área. Se você aumentar a dispersão de pontos em uma área sem aumentar o número de pontos, a mediana ainda terá o mesmo número de pontos "em todos os lados" e não mudará de acordo com a média.
O modo é o ponto em que, se os pontos são amostrados aleatoriamente a partir desse blob, é mais provável que ele apareça (reconhecendo que isso é uma farsa para dados contínuos). Pode ser, mas não precisa, localizado próximo à média ou mediana.
Uma vez que você explicou estes conceitos, então você pode avançar para uma demo "estatística de aparência" mais:
A linha sólida é a média. A linha tracejada é a mediana. A linha pontilhada é o modo. A média representa as posições dos pontos de dados ao longo do eixo x, enquanto a mediana reflete apenas o número de pontos de dados em ambos os lados. O modo é apenas o ponto de maior probabilidade, diferente da média e da mediana.
Código R:
fonte
O " médio ", " mediana " e " modo " são "tendência central", também conhecido como "resultado mais provável" em diferentes domínios. São todas as "melhores apostas" em diferentes "jogos".
Probabilidade e estatística é um campo que foi, em parte, criado por jogadores ( link , link ). Quando você vai a corridas de cavalos ou a mesa de pôquer, deseja conhecer algumas ciências que o ajudam a vencer. Eles escreveram também e escreveram sobre isso, para que você não tenha que inventar você mesmo.
Em uma corrida de cavalos, você quer escolher um vencedor. Você não possui informações futuras, mas conhece algumas informações anteriores. Você sabe o quão rápido cada cavalo correu nas últimas corridas. Se você quiser fazer uma estimativa de quão rápido eles provavelmente serão executados na próxima corrida, poderá calcular e comparar a média, também conhecida como a média, dos tempos de corrida.
Outra tendência central é a "mediana" - que é o centro de uma lista classificada. E se eu colocasse um erro de digitação horrível na sua lista de tempos de corrida e o valor fosse 1000x mais longo que todos os outros. Isso estragaria sua estimativa. Você pode não apostar no cavalo vencedor. Como você lida com isso? Você poderia procurar manualmente esse valor ou usar a "mediana".
E se você estiver jogando cartas, como " blackjack ", e tentando descobrir se precisa de outra carta, dadas as cartas anteriores. O cartão que você está procurando não é 3,14 porque os números dos cartões são valores inteiros. Como você descobre qual é a sua melhor aposta quando "média" ou mediana não é significativa? Nesse caso, você quer apostar no "modo" - a carta mais provável de sair da pilha de distribuidores.
Nos três casos, a tendência central é apenas outra maneira de dizer "melhor aposta".
Se você deseja dar conta não apenas da tendência central em suas apostas, ou seja, se deseja apostar para poder reduzir os impactos de uma perda enquanto maximiza os ganhos, deve considerar as "tendências de variação". Coisas como desvio padrão, faixas interquantílicas ou modos alternativos e suas frequências são usadas para minimizar as perdas máximas e maximizar os ganhos prováveis.
fonte
Eu acho que é útil explicar esse conceito ao considerar vários meios, medianas e modos. Esses valores não existem sozinhos no vácuo.
Por exemplo, aqui está como eu explicaria dizer.
Digamos que você tenha 2 caixas de melancias (caixas 1 e 2). É selado para que você não possa ver as melancias dentro e, portanto, você não sabe o tamanho delas. No entanto, você conhece o peso total das melancias em cada caixa e cada uma contém o mesmo número de melancias. A partir disso, você pode calcular os pesos médios de cada caixa de melancias (M1 e M2).
Agora que você tem dois valores médios diferentes M1 e M2, é possível fazer uma comparação aproximada do conteúdo individual. Se M1> M2, as melancias selecionadas aleatoriamente na caixa 1 provavelmente podem ser mais pesadas do que as colhidas na caixa 2.
Claro, eu adoraria comentários sobre essa perspectiva.
fonte