É sabido que a mediana é resistente a valores discrepantes. Se for esse o caso, quando e por que usaríamos a média em primeiro lugar?
Uma coisa em que posso pensar talvez seja entender a presença de discrepantes, ou seja, se a mediana estiver longe da média, a distribuição será distorcida e talvez os dados precisem ser examinados para decidir o que deve ser feito com os discrepantes. Existem outros usos?
Respostas:
É interessante notar que, para uma medida de variação (dispersão, dispersão), existe um estimador muito robusto que é 0,98 tão eficiente quanto o desvio padrão, ou seja, a diferença média de Gini. Essa é a diferença absoluta média entre duas observações. [Você precisa multiplicar o desvio padrão da amostra por uma constante para estimar a mesma quantidade estimada pela diferença média de Gini.] Uma medida eficiente da tendência central é o estimador de Hodges-Lehmann, ou seja, a mediana de todas as médias aos pares. Nós o usaríamos mais se sua interpretação fosse mais simples.
fonte
w <- outer(x, x, '+'); median(w[row(w) >= col(w)])/2
. Um programa trivial C, Fortran ou Ratfor poderia ser chamado pelo R para torná-lo rápido demais. O pacote ICSNP em R tem uma implementação bastante eficiente com suahl.loc
função. Para N = 5000, foi 2,66 vezes mais rápido que o código acima (tempo total de 1,5 s). Seria bom também obter um intervalo de confiança com eficiência.Já existem muitas ótimas respostas, mas, dando um passo atrás e ficando um pouco mais básico, eu diria que é porque a resposta que você recebe depende da pergunta que você faz. A média e a mediana respondem a perguntas diferentes - às vezes uma é apropriada, às vezes a outra.
É simples dizer que a mediana deve ser usada quando houver discrepâncias, distribuições distorcidas ou qualquer outra coisa. Mas nem sempre é esse o caso. Obter renda - quase sempre relatada com mediana, e geralmente é isso mesmo. Mas se você estiver olhando para o poder aquisitivo de toda uma comunidade, pode não estar certo. E, em alguns casos, até o modo pode ser melhor (especialmente se os dados estiverem agrupados).
fonte
Quando um valor é um lixo para nós, nós o chamamos de "mentiroso" e queremos que a análise seja robusta (e preferimos mediana); quando esse mesmo valor é atraente, chamamos de "extremo" e queremos que a análise seja sensível a ele (e prefira média). Dialética ...
A média reage igualmente a uma mudança de valor, independentemente de onde na distribuição a mudança ocorre. Por exemplo,
1 2 3 4 5
você pode aumentar qualquer valor em 2 - o aumento da média será o mesmo. A reação da mediana é menos "consistente": adicione 2 aos pontos de dados 4 ou 5 e a mediana não aumentará; mas acrescente 2 ao ponto 2 - para que a mudança ultrapasse a mediana e a mediana mude drasticamente (muito mais do que a média mudará).A média está sempre exatamente localizada. Mediana não é; por exemplo, no conjunto,
1 2 3 4
qualquer valor entre 2 e 3 pode ser chamado de mediana. Assim, análises baseadas em medianas nem sempre são uma solução única.Média é um locus de desvios mínimos da soma dos quadrados. Muitas tarefas de otimização baseadas em álgebra linear (incluindo a famosa regressão OLS) minimizam esse erro ao quadrado e, portanto, implicam conceito de média. Mediana: um locus de soma mínima de desvios absolutos. As técnicas de otimização para minimizar esse erro não são lineares e são mais complexas / pouco conhecidas.
fonte
Há muitas respostas para essa pergunta. Aqui está um que você provavelmente não verá em outro lugar, por isso estou incluindo aqui porque acredito que seja pertinente ao tópico. As pessoas geralmente acreditam que, porque a mediana é considerada uma medida robusta em relação aos valores discrepantes, também é robusta para quase tudo. De fato, também é considerado robusto ao viés em distribuições distorcidas. Essas duas propriedades robustas da mediana são frequentemente ensinadas juntas. Pode-se notar que as distribuições distorcidas subjacentes também tendem a gerar pequenas amostras que parecem ter discrepâncias e a sabedoria convencional é que se use medianas nessas situações.
(apenas uma demonstração de que isso é distorcido e a forma básica)
Agora, vamos ver o que acontece se coletarmos nesta distribuição vários tamanhos de amostra e calcularmos a mediana e pretendermos ver quais são as diferenças entre eles.
Como pode ser visto no gráfico acima, a mediana (em vermelho) é muito mais sensível ao n do que à média. Isso é contrário a alguma sabedoria convencional sobre o uso de medianas com ns baixos, especialmente se a distribuição puder ser distorcida. E, reforça o ponto de que a média é um valor conhecido enquanto a mediana é sensível a outras propriedades, uma se qual for o n.
Esta análise é semelhante a Miller, J. (1988). Um aviso sobre o tempo médio de reação. Journal of Experimental Psychology: Human Perception and Performance , 14 (3): 539-543.
REVISÃO
Ao pensar sobre a questão da distorção, considerei que o impacto na mediana poderia ser apenas porque em amostras pequenas você tem uma probabilidade maior de que a mediana esteja na cauda da distribuição, enquanto a média quase sempre será ponderada por valores mais próximos da média. modo. Portanto, talvez se alguém estivesse apenas amostrando com uma probabilidade de outliers, talvez os mesmos resultados ocorressem.
Então, pensei em situações em que podem ocorrer discrepâncias e os experimentadores podem tentar eliminá-las.
Se os outliers ocorreram de maneira consistente, como um em cada amostra de dados, as medianas são robustas contra o efeito desse outlier e a história convencional sobre o uso de medianas é válida.
Mas geralmente não é assim que as coisas acontecem.
Pode-se encontrar um outlier em poucas células de um experimento e decidir usar mediana em vez de média neste caso. Novamente, a mediana é mais robusta, mas seu impacto real é relativamente pequeno, porque existem muito poucos discrepantes. Definitivamente, este seria um caso mais comum do que o descrito acima, mas o efeito do uso de uma mediana provavelmente seria tão pequeno que não importaria muito.
Talvez os outliers mais comuns possam ser um componente aleatório dos dados. Por exemplo, a verdadeira média e o desvio padrão da população podem ser cerca de 0, mas há uma porcentagem do tempo que coletamos de uma população externa onde a média é 3. Considere a seguinte simulação, na qual apenas uma amostra dessa população varia de amostra Tamanho.
A mediana está em vermelho e média em preto. Esta é uma descoberta semelhante à de uma distribuição distorcida.
Em um exemplo relativamente prático do uso de medianas para evitar os efeitos de outliers, pode-se chegar a situações em que a estimativa é afetada por n muito mais quando a mediana é usada do que quando a média é usada.
fonte
A partir da média, é fácil calcular a soma de todos os itens, por exemplo, se você conhece a renda média da população e o tamanho da população, pode calcular imediatamente a renda total de toda a população.
A média é simples de calcular na
O(n)
complexidade do tempo. O cálculo da mediana no tempo linear é possível, mas requer mais reflexão. A solução óbvia que requer classificação tem umaO(n log n)
complexidade de tempo pior ( ).E eu especulo que há outra razão para a média ser mais popular do que a mediana:
fonte
"É sabido que a mediana é resistente a valores discrepantes. Se for esse o caso, quando e por que usaríamos a média em primeiro lugar?"
Nos casos, sabe-se que não há discrepantes, por exemplo, quando se conhece o processo de geração de dados (por exemplo, nas estatísticas matemáticas).
Deve-se ressaltar o trivial, que essas duas quantidades (média e mediana) não estão na verdade medindo a mesma coisa e que a maioria dos usuários pergunta pela primeira quando o que realmente deveria se interessar pela segunda (esse ponto é bem ilustrado por os testes medianos de Wilcoxon, que são mais facilmente interpretados que os testes t).
Depois, há os casos em que, por alguma razão de acaso ou outra, alguma regulamentação impõe o uso de sua intenção.
fonte
Se a preocupação for com a presença de discrepantes, existem algumas maneiras simples de verificar seus dados.
Os outliers, quase por definição, entram em nossos dados quando algo muda no processo de geração dos dados ou no processo de coleta dos dados. isto é, os dados deixam de ser homogêneos. Se seus dados não forem homogêneos, nem a média nem a mediana fazem muito sentido, pois você está tentando estimar a tendência central de dois conjuntos de dados separados que foram misturados.
O melhor método para garantir a homogeneidade é examinar os processos de geração e coleta de dados para garantir que todos os seus dados sejam provenientes de um único conjunto de processos. Nada bate um pouco de força cerebral aqui.
Como verificação secundária, você pode recorrer a um dos vários testes estatísticos: qui-quadrado, teste Q de Dixon, teste de Grubb ou o gráfico de controle / gráfico de comportamento do processo (normalmente X-bar R ou XmR). Minha experiência é que, quando seus dados podem ser ordenados conforme foram coletados, os gráficos de comportamento do processo são melhores para detectar valores extremos do que os testes extremos. Esse uso para os gráficos pode ser um pouco controverso, mas acredito que seja inteiramente consistente com a intenção original de Shewhart e é um uso explicitamente defendido por Donald Wheeler. Independentemente de você usar testes de outliers ou gráficos de comportamento do processo, lembre-se de que um "outlier" detectado é apenas um sinal de potencialnão homogeneidade que precisa ser mais examinada. Raramente faz sentido descartar pontos de dados se você não tiver uma explicação sobre por que eles foram discrepantes.
Se você estiver usando R, o pacote outliers fornecerá os testes outliers e, para gráficos de comportamento do processo, existem qcc , IQCC e qAnalyst. Tenho uma preferência pessoal pelo uso e pela saída do pacote qcc.
fonte
Quando você pode querer dizer a média?
Exemplos de finanças:
Ao formar um portfólio diversificado, decidindo em que investir e quanto, a média e a covariância dos retornos provavelmente serão um fator de destaque no seu problema de otimização.
fonte