Porque, assumir erros normais é efetivamente o mesmo que assumir que erros grandes não ocorrem! A distribuição normal tem caudas tão leves que erros fora de desvios padrão têm probabilidade muito baixa, erros fora de desvios padrão são efetivamente impossíveis. Na prática, essa suposição raramente é verdadeira. Ao analisar conjuntos de dados pequenos e organizados de experimentos bem projetados, isso pode não importar muito, se fizermos uma boa análise de resíduos. Com dados de menor qualidade, isso pode importar muito mais.± 3± 6
Ao usar métodos baseados em verossimilhança (ou bayesiano), o efeito dessa normalidade (como dito acima, efetivamente este é o "sem grandes erros" - suposição!) É tornar a inferência muito pouco robusta. Os resultados da análise são fortemente influenciados pelos grandes erros! Deve ser assim, já que assumir "sem grandes erros" força nossos métodos a interpretar os erros grandes como pequenos erros, e isso só pode acontecer movendo o parâmetro do valor médio para diminuir todos os erros. Uma maneira de evitar isso é usar os chamados "métodos robustos", consulte http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .pdf
Mas Andrew Gelman não concorda com isso, já que métodos robustos geralmente são apresentados de uma maneira altamente não bayesiana. O uso de erros distribuídos em t nos modelos de probabilidade / bayesiano é uma maneira diferente de obter métodos robustos, pois a distribuição tem caudas mais pesadas do que o normal, permitindo uma proporção maior de erros grandes. O parâmetro do número de graus de liberdade deve ser fixado antecipadamente, não estimado a partir dos dados, pois essa estimativa destruirá as propriedades de robustez do método (*) (também é um problema muito difícil, a função de probabilidade para , o vários graus de liberdade, podem ser ilimitados, levando a estimadores muito ineficientes (mesmo inconsistentes)).tν
Se, por exemplo, você pensa (tem medo) que até 1 em cada dez observações possa ser "grandes erros" (acima de 3 sd), use uma distribuição com 2 graus de liberdade, aumentando esse número se o acredita-se que a proporção de erros grandes seja menor.t
Devo observar que o que eu disse acima é para modelos com erros independentes de distribuição . Também houve propostas de distribuição multivariada (que não é independente) como distribuição de erros. Isso propsal é fortemente criticado no jornal "A roupa nova do imperador: uma crítica da multivariada modelo de regressão", de TS Breusch, JC Robertson e AH Welsh, em Statistica Neerlandica (1997) Vol. 51, n. 3, pp. 269-286, onde mostram que a distribuição multivariada de erros é empiricamente indistinguível da normal. Mas essa crítica não afeta o modelo independente . ttttt
(*) Uma referência afirmando isso é o MASS da Venables & Ripley --- Modern Applied Statistics with S (na página 110 da 4ª edição).
d know that the model proposed isn
bons o suficiente.Não se trata apenas de "caudas mais pesadas" - existem muitas distribuições em forma de sino e caudas pesadas.
A distribuição T é a preditiva posterior do modelo gaussiano. Se você fizer uma suposição gaussiana, mas tiver evidências finitas, o modelo resultante estará necessariamente fazendo previsões distribuídas em t não centralizadas e em escala. No limite, à medida que a quantidade de evidências que você tem chega ao infinito, você termina com previsões gaussianas, já que o limite da distribuição t é gaussiano.
Por que isso acontece? Porque, com uma quantidade finita de evidências, há incerteza nos parâmetros do seu modelo. No caso do modelo gaussiano, a incerteza na média apenas aumentaria a variância (isto é, o preditivo posterior de um gaussiano com variação conhecida ainda é gaussiano). Mas a incerteza sobre a variação é o que causa as caudas pesadas. Se o modelo for treinado com evidência ilimitada, não haverá mais incerteza na variação (ou na média) e você poderá usar seu modelo para fazer previsões gaussianas.
Este argumento se aplica a um modelo gaussiano. Também se aplica a um parâmetro que é inferido cujas probabilidades são gaussianas. Dados dados finitos, a incerteza sobre o parâmetro é t-distribuída. Onde quer que haja suposições normais (com média e variância desconhecidas) e dados finitos, há preditivos posteriores distribuídos em t.
Existem distribuições preditivas posteriores semelhantes para todos os modelos bayesianos. Gelman está sugerindo que deveríamos usá-los. Suas preocupações seriam atenuadas por evidências suficientes.
fonte