Curso intensivo em estimativa média robusta

15

Eu tenho um monte (cerca de 1000) de estimativas e todas elas devem ser estimativas da elasticidade a longo prazo. Um pouco mais da metade é estimado usando o método A e o restante usando o método B. Em algum lugar, li algo como "Acho que o método B estima algo muito diferente do método A, porque as estimativas são muito (50-60%) mais altas " Meu conhecimento de estatística robusta é quase nulo, então eu apenas calculei as médias e medianas das duas amostras ... e vi imediatamente a diferença. O método A é muito concentrado, a diferença entre mediana e média é muito pequena, mas a amostra do método B variou bastante.

Concluí que os valores extremos e erros de medição distorcem a amostra do método B, então joguei fora cerca de 50 valores (cerca de 15%) que eram muito inconsistentes com a teoria ... e de repente os meios de ambas as amostras (incluindo o IC) eram muito semelhantes . A densidade também é plotada.

(Na busca de eliminar valores discrepantes, observei o intervalo da amostra A e removi todos os pontos de amostra em B que estavam fora dele.) Gostaria que você me dissesse onde eu poderia descobrir alguns princípios básicos de estimativa robusta de meios que permita-me julgar esta situação com mais rigor. E para ter algumas referências. Não preciso de um entendimento muito profundo de várias técnicas, mas de uma leitura abrangente da metodologia de estimativa robusta.

Eu testei t quanto à significância da diferença média após remover os valores discrepantes e o valor de p é 0,0559 (t em torno de 1,9). Mas esse não é realmente o ponto, os meios podem ser um pouco diferentes, mas eles não devem diferir de 50 a 60%, conforme declarado acima. E eu não acho que eles fazem.

Ondrej
fonte
3
Qual é a sua análise pretendida usando esses dados? A prática de remover discrepantes é de credibilidade estatística duvidosa: você pode "criar dados" para dar significado ou falta de significado em qualquer nível ao fazer isso. As populações A e B que receberam medições usando os métodos A e B são verdadeiramente homogêneas ou é possível que seus métodos tenham fornecido populações diferentes?
31412 AdamO
Não haverá mais cálculos ou análises a serem feitos com os dados. Ambos os métodos mencionados são consistentes, de acordo com pesquisas recentes, portanto as populações devem ser homogêneas; mas os dados não são de ótima qualidade e é claro que alguns dos valores em B existem por engano (o método é propenso a erros), eles não fazem absolutamente nenhum sentido econômico. Eu sei que a remoção é duvidosa, é por isso que estou procurando algo mais rigoroso e credível.
Ondrej

Respostas:

18

Você está procurando a teoria ou algo prático?

Se você está procurando livros, aqui estão alguns que eu achei úteis:

  • FR Hampel, EM Ronchetti, PJRousseeuw, WA Stahel, Estatísticas Robustas: A Abordagem Baseada em Funções de Fluência , John Wiley & Sons, 1986.

  • PJ Huber, Estatísticas robustas , John Wiley & Sons, 1981.

  • PJ Rousseeuw, AM Leroy, Regressão Robusta e Detecção de Outlier , John Wiley & Sons, 1987.

  • RG Staudte, SJ Sheather, Estimativas e testes robustos , John Wiley & Sons, 1990.

Se você está procurando métodos práticos, aqui estão alguns métodos robustos para estimar a média ("estimadores de localização", acho que é o termo mais baseado em princípios):

  • A mediana é simples, conhecida e bastante poderosa. Possui excelente robustez para outliers. O "preço" da robustez é de cerca de 25%.

  • A média de 5% de acabamento é outro método possível. Aqui você joga fora os valores 5% mais altos e 5% mais baixos e depois pega a média (média) do resultado. Isso é menos robusto para discrepantes: contanto que não mais que 5% dos seus pontos de dados estejam corrompidos, isso é bom, mas se mais de 5% estiver corrompido, ele se torna repentinamente horrível (não se degrada normalmente). O "preço" da robustez é menor que a mediana, embora eu não saiba exatamente o que é.

  • {(xEu+xj)/2:1Eujn}n(n+1)/2x1,...,xnsão as observações. Isso tem uma robustez muito boa: ele pode lidar com a corrupção de até 29% dos pontos de dados sem desmoronar totalmente. E o "preço" da robustez é baixo: cerca de 5%. É uma alternativa plausível à mediana.

  • A média interquartil é outro estimador que às vezes é usado. Ele calcula a média do primeiro e terceiro quartis e, portanto, é simples de calcular. Possui uma robustez muito boa: pode tolerar corrupção de até 25% dos pontos de dados. No entanto, o "preço" da robustez não é trivial: cerca de 25%. Como resultado, isso parece inferior à mediana.

  • Existem muitas outras medidas que foram propostas, mas as acima parecem razoáveis.

Em resumo, eu sugeriria a mediana ou, possivelmente, o estimador de Hodges-Lehmann.

PS Oh, eu deveria explicar o que quero dizer com o "preço" da robustez. Um estimador robusto foi projetado para ainda funcionar decentemente bem, mesmo que alguns de seus pontos de dados tenham sido corrompidos ou sejam de alguma forma estranhos. Mas e se você usar um estimador robusto em um conjunto de dados que não possui valores discrepantes nem corrupção? Idealmente, gostaríamos que o estimador robusto fosse o mais eficiente possível ao usar os dados. Aqui podemos medir a eficiência pelo erro padrão (intuitivamente, a quantidade típica de erro na estimativa produzida pelo estimador). Sabe-se que se suas observações vierem de uma distribuição gaussiana (iid) e se você souber que não precisará de robustez, a média é ótima: ele tem o menor erro de estimativa possível. O "preço" da robustez, acima, é quanto o erro padrão aumenta se aplicarmos um estimador robusto específico a essa situação. Um preço de robustez de 25% para a mediana significa que o tamanho do erro de estimativa típico com a mediana será cerca de 25% maior que o tamanho do erro de estimativa típico com a média. Obviamente, quanto menor o "preço", melhor.

DW
fonte
n(n+1)/2(xEu+xj)/21Eujnwilcox.test(..., conf.int=TRUE)
+1, isso é realmente excelente. Eu tenho um nitpick, no entanto: eu não usaria a frase "termo de erro" em seu último parágrafo, pois costuma ser usada para significar outra coisa; Eu usaria 'erro padrão da distribuição de amostragem' ou apenas 'erro padrão'.
gung - Restabelece Monica
Uma resposta muito bem estruturada e concisa, obrigado! Uma visão geral é o que eu precisava, vou ler o artigo sugerido por Henrik e deve ser abordado. Para um entretenimento noturno prolongado no verão, não deixarei de conferir os livros sugeridos por você e pelo jbowman.
precisa
@caracal, você está correto. Minha caracterização do estimador HL estava incorreta. Obrigado pela correção. Atualizei minha resposta de acordo.
DW
Obrigado, @gung! Editei a resposta para usar 'erro padrão', como você sugere.
DW
7

Se você gosta de algo curto e fácil de digerir, dê uma olhada no seguinte artigo da literatura psicológica:

Erceg-Hurn, DM, & Mirosevich, VM (2008). Métodos estatísticos robustos e modernos: uma maneira fácil de maximizar a precisão e o poder de sua pesquisa. American Psychologist , 63 (7), 591–601. doi: 10.1037 / 0003-066X.63.7.591

Eles se baseiam principalmente nos livros de Rand R Wilcox (que reconhecidamente também não são muito matemáticos):

Wilcox, RR (2001). Fundamentos dos métodos estatísticos modernos: melhorando substancialmente a potência e a precisão. Nova york; Berlim: Springer.
Wilcox, RR (2003). Aplicação de técnicas estatísticas contemporâneas. Amsterdam; Boston: Academic Press.
Wilcox, RR (2005). Introdução a estimativas robustas e testes de hipóteses. Academic Press.

Henrik
fonte
5

Um livro que combina teoria com prática muito bem é Métodos Estatísticos Robustos com R, de Jurečková e Picek. Também gosto de Estatísticas Robustas , de Maronna et al. No entanto, ambos podem ter mais matemática do que você gostaria. Para um tutorial mais aplicado focado em R, este pdf do BelVenTutorial pode ajudar.

jbowman
fonte
Ah, prof. Jurečková - um professor da nossa universidade, quais são as chances? Vou verificar os dois livros. Embora eu estivesse procurando por um documento mais ... breve (já que esse problema é muito marginal para mim), não é necessário me aprofundar um pouco mais. Obrigado!
Ondrej
1
É um mundo pequeno! Bem, pelo menos eu corrigi a ortografia, copiando a partir de seu comentário ...
jbowman