Nos cursos básicos de estatística de graduação, os alunos são (geralmente?) Ensinados a testar hipóteses para a média de uma população.
Por que o foco está na média e não na mediana? Meu palpite é que é mais fácil testar a média devido ao teorema do limite central, mas eu adoraria ler algumas explicações educadas.
hypothesis-testing
mean
inference
median
nafrtiti
fonte
fonte
Respostas:
Porque Alan Turing nasceu depois de Ronald Fisher.
Antigamente, antes dos computadores, todas essas coisas tinham que ser feitas à mão ou, na melhor das hipóteses, com o que chamaríamos de calculadoras. Testes para comparar meios podem ser feitos dessa maneira - é trabalhoso, mas possível. Testes para quantis (como a mediana) seriam praticamente impossíveis de serem feitos dessa maneira.
Por exemplo, a regressão quantílica depende de minimizar uma função relativamente complicada. Isso não seria possível manualmente. É possível com a programação. Veja, por exemplo, Koenker ou Wikipedia .
A regressão quantil tem menos suposições que a regressão OLS e fornece mais informações.
fonte
Gostaria de acrescentar uma terceira razão às razões corretas apresentadas por Harrell e Flom. O motivo é que usamos a distância euclidiana (ou L2) e não a distância de Manhattan (ou L1) como nossa medida padrão de proximidade ou erro. Se alguém possui um número de pontos de dados e deseja um número único para estimar, uma noção óbvia é encontrar o número que minimiza o 'erro', esse número cria a menor diferença entre o número escolhido e os números que constituem os dados. Em notação matemática, para uma dada função de erro E, deseja-se encontrar . Se alguém usar E (x, y) a norma ou distância L2, isso éx1,…xn θ minθ∈R(E(θ,x1,…xn)=minθ∈R(∑i=ni=1E(θ,xi)) E(x,y)=(x−y)2 então o minimizador sobre todos é a média. Se alguém percorrer a distância L1 ou Manhattan, o minimizador em todos os é a mediana. Portanto, a média é a escolha matemática natural - se alguém estiver usando a distância L2!θ∈R θ∈R
fonte
Freqüentemente, a média é escolhida sobre a mediana não porque é mais representativa, robusta ou significativa, mas porque as pessoas confundem estimador com estimand. Em outras palavras , alguns escolhem a média da população como a quantidade de interesse, porque com uma distribuição normal a média da amostra é mais precisa do que a mediana da amostra. Em vez disso, eles devem pensar mais, como você fez, sobre a verdadeira quantidade de interesse.
Uma barra lateral: temos um intervalo de confiança não paramétrico para a mediana da população, mas não existe um método não paramétrico (além do método de probabilidade empírica numericamente intensivo) para obter um intervalo de confiança para a média da população. Se você deseja permanecer livre de distribuição, pode se concentrar na mediana.
Observe que o teorema do limite central é muito menos útil do que parece, conforme discutido em outras partes deste site. Ele assume efetivamente que a variação é conhecida ou que a distribuição é simétrica e tem uma forma tal que a variação da amostra é um estimador competitivo de dispersão.
fonte