A variação funciona apenas em dados normalmente distribuídos (como uma medida de dispersão)?

7

Diz na wikipedia

O papel da distribuição normal no teorema do limite central é em parte responsável pela prevalência da variação na probabilidade e na estatística.

Entendo isso como
quando usamos a variância / SD como uma medida de dispersão, na verdade estamos procurando o "parâmetro de escala" de uma distribuição normal, pois é provável que uma variável aleatória aleatória siga aproximadamente uma distribuição normal para CLT.

No caso de os dados normalmente não serem distribuídos, a variância / DP ainda é uma medida razoável de dispersão?

Digamos que os dados sejam distribuídos uniformemente, o desvio médio absoluto parece ser uma melhor medida de dispersão do que a variação, porque pode ser visto como o "parâmetro de escala" para a distribuição uniforme, estou certo?


Atualização
Quero dizer, digamos que tenho dois conjuntos de amostras, um é {1,1,1,-1,-1,-1}e o outro é extraído de uma distribuição normal , suas variações são ambas 1. Os dois conjuntos serão considerados com o mesmo grau de dispersão se usarmos a variação como a medida.N(0,1)

Mas parece que estamos tratando com força os dois como gaussianos, depois elaboramos os parâmetros de distribuição e dizemos "sim, eles são iguais em termos de dispersão".

dontloo
fonte
11
De que maneira você quer dizer "trabalho" no título? Trabalhar para fazer o que? Ao estimar a variação da população, ou algo mais? Medido como? Em que sentido você pretende a palavra "melhor" no parágrafo final? Melhor no que exatamente? Se você está buscando uma estimativa de baixa variância do spread em uma distribuição uniforme contínua geral, eu não usaria o desvio médio absoluto, mas alguma função da faixa.
Glen_b -Reinstala Monica
@Glen_b não tenho certeza de que talvez funcione como uma medida de dispersão / desvio / discrepância, talvez seja melhor no sentido de que a escala de uma distribuição uniforme com SD não é duas vezes maior que a de uma distribuição uniforme com SD , o desvio absoluto médio não é apenas uma função da faixa? σ0.5σ
dontloo
Para o uniforme, o desvio absoluto médio da população e o desvio padrão da população são funções da faixa populacional (e vice-versa - se você conhece algum deles, conhece todos os outros), mas o desvio absoluto médio da amostra, a amostra sd e o intervalo de amostras não é igualmente bom em calculá-los. Por exemplo, se sua medida de "trabalho" / "bondade" é a variação do estimador, então - pelo menos em amostras grandes - um múltiplo do intervalo de amostras é a melhor maneira de estimar os três. Mas se os seus critérios para o que "bom" é a mudança, outra coisa pode fazer melhor.
Glen_b -Reinstala Monica
11
@Glen_b obrigado pela sua resposta, entendi que "a variação é exatamente o que está definido para ser, e não necessariamente tem nada a ver com uma distribuição específica", o que eu quis dizer é, quando é usado como uma medida de dispersão, parece não ser a melhor escolha para distribuições não gaussianas (ou similares).
dontloo
11
Talvez você tenha vinculado o desvio padrão e a variação ao gaussiano porque sua primeira exposição intensa é com a distribuição gaussiana e suas transformações, como a distribuição t de Student. Talvez seja melhor pensar na variação como uma característica, pois o nariz é uma característica dos animais. Se não tem nariz, pode ser uma árvore. Altura é uma característica. Uma árvore pode ter um metro e meio de altura, quando jovem, e um humano pode ter um metro e meio de altura. É um descritor de uma distribuição, mas não o único descritor de uma distribuição.
Dave Harris

Respostas:

6

Sua pergunta é um pouco vaga, mas não, a variação não é usada devido à sua associação com a distribuição normal. A maioria das distribuições tem pelo menos uma média e uma variação. Alguns não têm variação. Alguns podem ter ou não ter uma variação. Alguns não têm média e, portanto, não têm variação.

Apenas para esclarecimento mental do seu lado, se uma distribuição tiver uma média, então mas se não tiver, . Isto é, ele gravita em lugar nenhum e qualquer cálculo apenas flutua em torno da linha numérica real. Isso não significa nada. O mesmo acontece se você calcular um desvio padrão para uma distribuição que não possui um. Não tem sentido.x¯μ,x¯nothing

A variação é uma propriedade de uma distribuição. Você está certo de que ele pode ser usado para dimensionar o problema, mas é mais profundo que isso. Em alguns marcos teóricos, é uma medida da nossa ignorância, ou mais precisamente, da incerteza. Em outros, mede o tamanho de um efeito que a chance pode ter nos resultados.

Embora variância seja uma conceituação de dispersão, é uma conceitualização incompleta. Tanto a inclinação quanto a curtose explicam melhor como a dispersão opera em um problema.

Para muitos problemas em uma estrutura de hipóteses nulas, o Teorema do Limite Central simplifica a discussão de problemas e, portanto, não prejudica a existência de uma ligação entre a distribuição normal, com suas propriedades distributivas muito bem definidas e o uso de o desvio padrão. No entanto, isso é mais verdadeiro para problemas simples que para problemas complexos. Isso também é menos verdadeiro para métodos bayesianos que não usam uma hipótese nula e que não dependem da distribuição amostral do estimador.

O desvio médio absoluto é uma ferramenta valiosa nos métodos sem parâmetros e sem distribuição, mas menos valioso para a distribuição uniforme. Se você realmente teve uma distribuição uniforme limitada, a média e a variação são conhecidas.

Deixe-me dar um problema de distribuição uniforme que pode não ser tão simples quanto você pensa. Considere que um novo tanque de batalha inimigo apareceu no campo de batalha. Você não sabe quantos eles têm, muito menos que existiam. Você deseja estimar o número total de tanques.

Os tanques têm números de série em seus motores, ou estavam acostumados antes que alguém descobrisse isso. A probabilidade de capturar qualquer número de série específico é onde é o total dos tanques. Claro que você não conhece , então esse é um problema interessante. Você precisa saber N. Você só pode ver a distribuição dos números de série capturados e não sabe se o maior número capturado também é o último tanque construído. Provavelmente não é.1/NNN

Nesse caso, a média e o desvio padrão fornecem as ferramentas mais poderosas para resolver o problema, apesar da intuição de que o desvio padrão é um mau estimador.

É verdade que é um mau estimador para certos problemas, mas você precisa aprendê-los caso a caso.

As ferramentas estatísticas são escolhidas com base nas necessidades, regras de matemática e trocas entre os custos e limitações do mundo real e as demandas do problema. Às vezes essa é a variação, mas às vezes não é. A melhor coisa a fazer é aprender por que as regras são projetadas do jeito que são e isso é muito longo para uma postagem aqui.

Eu recomendaria um livro de bons profissionais sobre estatística não paramétrica e, se você fez um cálculo, um bom livro de introdução aos métodos bayesianos.

Dave Harris
fonte
11
Relacionado com o alemão Tanque problema, no caso de alguém gosta tanto de história, tanques e estatísticas: en.wikipedia.org/wiki/German_tank_problem
Beyer
muito obrigado pela resposta, só não entendi direito como o SD das amostras ajuda no German Tank Problem? Eu só vejo o uso do SD da estimativa (no link acima).
Dontloo
4
  1. Primeiro, precisamos ser claros sobre a distinção entre uma medida da variabilidade de uma distribuição (como seu desvio padrão ou seu desvio médio ou sua faixa) e a melhor maneira de estimar essa medida a partir de uma amostra. Por exemplo, se sua distribuição é uniforme, a melhor estimativa amostral do desvio médio da população em relação à média não é o desvio médio da amostra - na verdade, uma fração do intervalo geralmente é muito melhor.

    (Obviamente, se você realmente não sabe com qual distribuição está lidando, essas considerações podem não ser de muita ajuda.)

  2. Então, por que medir a variabilidade da população por variação?

    A variação (e através dela, desvio padrão) tem uma propriedade muito particular que não é compartilhada por outras medidas de variabilidade, que é uma forma muito simples para a variação de somas (e geralmente combinações lineares) de variáveis.

    Quando você tem independência, a forma simples se torna muito mais simples ainda.

    Especificamente, sob independência, e, por isso, o desvio padrão também é bastante simples na forma. O caso da não independência não é muito mais complicado.Var(X+Y)=Var(X)+Var(Y)

    Outras medidas de variabilidade não têm uma propriedade tão simples.

    Isso torna a variação (e, portanto, o desvio padrão) maneiras muito atraentes de medir a variabilidade das distribuições.

  3. Uma segunda razão é que a média (que geralmente é vista como uma medida de localização natural) é a localização que minimiza uma função quadrada de perda de erro - e quando você a minimiza, obtém a variação. Muitas pessoas vêem uma função de perda de erro quadrado como natural ou útil e, nesse caso, a variação por sua vez se torna uma medida natural de variação.

Glen_b -Reinstate Monica
fonte
Mas sempre entendi o significado estatístico da perda de erro ao quadrado como maximização da probabilidade logarítmica sob uma suposição de ruído gaussiano, que novamente deriva do CLT.
Dontloo 6/12/16
Portanto, a prevalência da variação é principalmente por causa de sua conveniência matemática?
Dontloo 6/12/16
11
@dontloo Para responder a uma pergunta formulada dessa maneira exigiria especulação, a rastreabilidade é uma razão para usar a variação. Você está me pedindo para fazer uma reivindicação da qual não tenho provas suficientes (há várias razões - incluindo algumas que não listei, como um grau de viés de status quo -, mas para afirmar uma como a principal causa exigiria provas que não possuo). Eu acho que as razões 2 e 3 acima são fortes razões de prevalência, e sem dúvida suficientes.
Glen_b -Reinstala Monica