A abordagem comum para estimar os parâmetros de uma distribuição normal é usar a média e o desvio / variância padrão da amostra.
No entanto, se houver alguns discrepantes, a mediana e o desvio médio da mediana devem ser muito mais robustos, certo?
Em alguns conjuntos de dados que eu tentei, a distribuição normal estimado por parece produzir um ajuste muito melhor do que o clássico usando média e Desvio de RMS.
Existe alguma razão para não usar a mediana se você presumir que existem alguns valores discrepantes no conjunto de dados? Você conhece alguma referência para essa abordagem? Uma pesquisa rápida no Google não me encontrou resultados úteis que discutem os benefícios do uso de medianas aqui (mas, obviamente, "mediana de estimativa de parâmetros de distribuição normal" não é um conjunto muito específico de termos de pesquisa).
O desvio mediano, é tendencioso? Devo multiplicá-lo por para reduzir o viés?
Você conhece abordagens robustas similares de estimativa de parâmetros para outras distribuições, como a distribuição Gamma ou a distribuição Gaussiana modificada exponencialmente (que precisa de Skewness na estimativa de parâmetros, e os valores extremos realmente atrapalham esse valor)?
fonte
Respostas:
A observação de que, em um exemplo envolvendo dados extraídos de uma distribuição Gaussiana contaminada, você obteria melhores estimativas dos parâmetros que descrevem a maior parte dos dados usando os dados vez de med | x - med ( x ) | onde mad ( x ) é:mad med|x−med(x)| mad(x)
--where, é um fator de consistência projetado para garantir que E ( mad ( x ) 2 ) = Var ( x ) quando x não é contaminado-- foi originalmente produzido por Gauss (Walker H. (1931)).(Φ−1(0.75))−1=1.4826
Não consigo pensar em nenhum motivo para não usar o vez da média da amostra nesse caso. A menor eficiência (no gaussiano!) Dos loucos pode ser uma razão para não usar os loucos no seu exemplo. No entanto, existem alternativas igualmente robustas e altamente eficientes para os loucos . Um deles é o Q nmed mad mad mad Qn . Este estimador tem muitas outras vantagens ao lado. Também é muito insensível aos discrepantes (na verdade quase tão insensíveis quanto os loucos). Ao contrário do louco, ele não é construído em torno de uma estimativa de localização e não assume que a distribuição da parte não contaminada dos dados seja simétrica. Como o louco, é baseado em estatísticas de pedidos, para que seja sempre bem definido, mesmo quando a distribuição subjacente da sua amostra não tiver momentos. Como os loucos, tem uma forma explícita simples. Ainda mais do que para os loucos, não vejo motivos para usar o desvio padrão da amostra em vez do no exemplo que você descreve (consulte Rousseeuw e Croux 1993 para obter mais informações sobre o Q n ).Qn Qn
Quanto à sua última pergunta, sobre o caso específico em que , entãox∼Γ(ν,λ)
e
(em ambos os casos, as aproximações se tornam boas quando ) para queν>1.5
e
Veja Chen e Rubin (1986) para uma derivação completa.
fonte
Se, como você afirma, os dados são normais, com exceção de uma pequena proporção de discrepantes, o desvio médio e mediano absoluto será robusto a erros grosseiros, mas não fará um uso muito eficiente das informações nos dados não-periféricos.
Se você conhecesse a priori um limite da proporção de outliers, poderia cortar essa proporção pela média e Winsorize o desvio padrão. Uma alternativa que não requer esse conhecimento seria usar estimadores M para a localização e quantidades relacionadas para a variação. O ganho de eficiência se suas suposições estiverem corretas (como os dados realmente estão normais, exceto por uma pequena porcentagem de discrepantes) pode, em algumas circunstâncias, ser substancial.
The median deviation is biased as an estimate of the standard deviation - but not like thenn−1 adjustment; the unadjusted sample mean square is asymptotically going to the variance, but the sample median absolute deviation is not asymptotically going to the population standard deviation; you need to multiply it by a constant simply to get consistency. After you have done that it's still small-sample biased in the same sense as the unadjusted mean square.
fonte