Por que assumimos que o erro é normalmente distribuído?

17

Eu me pergunto por que usamos a suposição gaussiana ao modelar o erro. No curso de ML de Stanford , o Prof Ng o descreve basicamente de duas maneiras:

  1. É matematicamente conveniente. (Está relacionado ao ajuste dos mínimos quadrados e fácil de resolver com pseudoinverso)
  2. Devido ao Teorema do Limite Central, podemos assumir que existem muitos fatos subjacentes que afetam o processo e a soma desses erros individuais tenderá a se comportar como em uma distribuição normal média zero. Na prática, parece ser assim.

Estou interessado na segunda parte, na verdade. O Teorema do Limite Central funciona para amostras de iid, tanto quanto eu sei, mas não podemos garantir que as amostras subjacentes sejam iid.

Você tem alguma idéia sobre a suposição gaussiana do erro?

petrichor
fonte
De que cenário você está falando? Classificação, regressão ou algo mais geral?
tdc 9/02/12
Fiz a pergunta para o caso geral. A maioria das histórias começa com a suposição de erro gaussiano. Mas, pessoalmente, meu próprio interesse são fatorações matriciais e soluções de modelos lineares (por exemplo, regressão).
Petrichor
Relevante: stats.stackexchange.com/questions/120776/…
kjetil b halvorsen

Respostas:

9

Acho que você basicamente acertou a cabeça na pergunta, mas vou ver se consigo adicionar alguma coisa. Vou responder isso de uma maneira indireta ...

O campo Estatísticas robustas examina a questão do que fazer quando a suposição gaussiana falha (no sentido de que existem discrepâncias):

geralmente se assume que os erros de dados são normalmente distribuídos, pelo menos aproximadamente, ou que o teorema do limite central pode ser utilizado para produzir estimativas normalmente distribuídas. Infelizmente, quando existem dados discrepantes, os métodos clássicos geralmente apresentam desempenho muito ruim

Estes também foram aplicados no ML, por exemplo em Mika el al. (2001) Uma Abordagem de Programação Matemática para o Algoritmo de Fisher de Kernel , eles descrevem como a Perda Robusta de Huber pode ser usada com o KDFA (junto com outras funções de perda). Obviamente, isso é uma perda de classificação, mas o KFDA está intimamente relacionado à Relevance Vector Machine (consulte a seção 4 do documento Mika).

Como está implícito na pergunta, existe uma conexão estreita entre funções de perda e modelos de erro bayesiano (veja aqui para uma discussão).

No entanto, costuma acontecer que, assim que você começa a incorporar funções de perda "descoladas", a otimização se torna difícil (observe que isso também acontece no mundo bayesiano). Portanto, em muitos casos, as pessoas recorrem a funções de perda padrão fáceis de otimizar e, em vez disso, fazem pré-processamento extra para garantir que os dados estejam em conformidade com o modelo.

O outro ponto que você menciona é que o CLT se aplica apenas a amostras que são IID. Isso é verdade, mas as suposições (e as análises que acompanham) da maioria dos algoritmos são as mesmas. Quando você começa a analisar dados que não pertencem ao IDI, as coisas ficam muito mais complicadas. Um exemplo é se houver dependência temporal; nesse caso, normalmente a abordagem é assumir que a dependência abrange apenas uma determinada janela e, portanto, as amostras podem ser consideradas aproximadamente o IDI fora desta janela (veja, por exemplo, este brilhante e resistente PAC Chromatic de papel -Bayes Bounds para dados não-IID: aplicações para classificação e processos estacionários de β-mistura ), após o qual a análise normal pode ser aplicada.

Então, sim, isso se resume em parte à conveniência, e em parte porque, no mundo real, a maioria dos erros parece (aproximadamente) gaussiana. É claro que sempre se deve ter cuidado ao analisar um novo problema para garantir que as suposições não sejam violadas.

tdc
fonte
1
+1 Muito obrigado especialmente por mencionar estatísticas robustas e não robustas. Observo que a média mediana e a alfa-aparada funcionam normalmente melhor que a média na prática, mas eu não conhecia a teoria por trás delas.
Petrichor
3
Outro item de conveniência associado aos dados normalmente distribuídos é que a correlação 0 implica independência.
23412 AdamO
3
O comentário sobre o IID-ness não está certo. Existem (vários) Teoremas Centrais de Limite muito gerais que se aplicam quando os resultados são independentes, mas não distribuídos de forma idêntica; veja, por exemplo, o Lindeberg CLT. Também existem resultados CLT que nem precisam de independência; eles podem surgir de observações intercambiáveis, por exemplo.
guest