Eu tenho um monte (cerca de 1000) de estimativas e todas elas devem ser estimativas da elasticidade a longo prazo. Um pouco mais da metade é estimado usando o método A e o restante usando o método B. Em algum lugar, li algo como "Acho que o método B estima algo muito diferente do método A, porque as estimativas são muito (50-60%) mais altas " Meu conhecimento de estatística robusta é quase nulo, então eu apenas calculei as médias e medianas das duas amostras ... e vi imediatamente a diferença. O método A é muito concentrado, a diferença entre mediana e média é muito pequena, mas a amostra do método B variou bastante.
Concluí que os valores extremos e erros de medição distorcem a amostra do método B, então joguei fora cerca de 50 valores (cerca de 15%) que eram muito inconsistentes com a teoria ... e de repente os meios de ambas as amostras (incluindo o IC) eram muito semelhantes . A densidade também é plotada.
(Na busca de eliminar valores discrepantes, observei o intervalo da amostra A e removi todos os pontos de amostra em B que estavam fora dele.) Gostaria que você me dissesse onde eu poderia descobrir alguns princípios básicos de estimativa robusta de meios que permita-me julgar esta situação com mais rigor. E para ter algumas referências. Não preciso de um entendimento muito profundo de várias técnicas, mas de uma leitura abrangente da metodologia de estimativa robusta.
Eu testei t quanto à significância da diferença média após remover os valores discrepantes e o valor de p é 0,0559 (t em torno de 1,9). Mas esse não é realmente o ponto, os meios podem ser um pouco diferentes, mas eles não devem diferir de 50 a 60%, conforme declarado acima. E eu não acho que eles fazem.
fonte
Respostas:
Você está procurando a teoria ou algo prático?
Se você está procurando livros, aqui estão alguns que eu achei úteis:
FR Hampel, EM Ronchetti, PJRousseeuw, WA Stahel, Estatísticas Robustas: A Abordagem Baseada em Funções de Fluência , John Wiley & Sons, 1986.
PJ Huber, Estatísticas robustas , John Wiley & Sons, 1981.
PJ Rousseeuw, AM Leroy, Regressão Robusta e Detecção de Outlier , John Wiley & Sons, 1987.
RG Staudte, SJ Sheather, Estimativas e testes robustos , John Wiley & Sons, 1990.
Se você está procurando métodos práticos, aqui estão alguns métodos robustos para estimar a média ("estimadores de localização", acho que é o termo mais baseado em princípios):
A mediana é simples, conhecida e bastante poderosa. Possui excelente robustez para outliers. O "preço" da robustez é de cerca de 25%.
A média de 5% de acabamento é outro método possível. Aqui você joga fora os valores 5% mais altos e 5% mais baixos e depois pega a média (média) do resultado. Isso é menos robusto para discrepantes: contanto que não mais que 5% dos seus pontos de dados estejam corrompidos, isso é bom, mas se mais de 5% estiver corrompido, ele se torna repentinamente horrível (não se degrada normalmente). O "preço" da robustez é menor que a mediana, embora eu não saiba exatamente o que é.
A média interquartil é outro estimador que às vezes é usado. Ele calcula a média do primeiro e terceiro quartis e, portanto, é simples de calcular. Possui uma robustez muito boa: pode tolerar corrupção de até 25% dos pontos de dados. No entanto, o "preço" da robustez não é trivial: cerca de 25%. Como resultado, isso parece inferior à mediana.
Existem muitas outras medidas que foram propostas, mas as acima parecem razoáveis.
Em resumo, eu sugeriria a mediana ou, possivelmente, o estimador de Hodges-Lehmann.
PS Oh, eu deveria explicar o que quero dizer com o "preço" da robustez. Um estimador robusto foi projetado para ainda funcionar decentemente bem, mesmo que alguns de seus pontos de dados tenham sido corrompidos ou sejam de alguma forma estranhos. Mas e se você usar um estimador robusto em um conjunto de dados que não possui valores discrepantes nem corrupção? Idealmente, gostaríamos que o estimador robusto fosse o mais eficiente possível ao usar os dados. Aqui podemos medir a eficiência pelo erro padrão (intuitivamente, a quantidade típica de erro na estimativa produzida pelo estimador). Sabe-se que se suas observações vierem de uma distribuição gaussiana (iid) e se você souber que não precisará de robustez, a média é ótima: ele tem o menor erro de estimativa possível. O "preço" da robustez, acima, é quanto o erro padrão aumenta se aplicarmos um estimador robusto específico a essa situação. Um preço de robustez de 25% para a mediana significa que o tamanho do erro de estimativa típico com a mediana será cerca de 25% maior que o tamanho do erro de estimativa típico com a média. Obviamente, quanto menor o "preço", melhor.
fonte
wilcox.test(..., conf.int=TRUE)
Se você gosta de algo curto e fácil de digerir, dê uma olhada no seguinte artigo da literatura psicológica:
Erceg-Hurn, DM, & Mirosevich, VM (2008). Métodos estatísticos robustos e modernos: uma maneira fácil de maximizar a precisão e o poder de sua pesquisa. American Psychologist , 63 (7), 591–601. doi: 10.1037 / 0003-066X.63.7.591
Eles se baseiam principalmente nos livros de Rand R Wilcox (que reconhecidamente também não são muito matemáticos):
Wilcox, RR (2001). Fundamentos dos métodos estatísticos modernos: melhorando substancialmente a potência e a precisão. Nova york; Berlim: Springer.
Wilcox, RR (2003). Aplicação de técnicas estatísticas contemporâneas. Amsterdam; Boston: Academic Press.
Wilcox, RR (2005). Introdução a estimativas robustas e testes de hipóteses. Academic Press.
fonte
Um livro que combina teoria com prática muito bem é Métodos Estatísticos Robustos com R, de Jurečková e Picek. Também gosto de Estatísticas Robustas , de Maronna et al. No entanto, ambos podem ter mais matemática do que você gostaria. Para um tutorial mais aplicado focado em R, este pdf do BelVenTutorial pode ajudar.
fonte