Eu me pergunto por que usamos a suposição gaussiana ao modelar o erro. No curso de ML de Stanford , o Prof Ng o descreve basicamente de duas maneiras:
- É matematicamente conveniente. (Está relacionado ao ajuste dos mínimos quadrados e fácil de resolver com pseudoinverso)
- Devido ao Teorema do Limite Central, podemos assumir que existem muitos fatos subjacentes que afetam o processo e a soma desses erros individuais tenderá a se comportar como em uma distribuição normal média zero. Na prática, parece ser assim.
Estou interessado na segunda parte, na verdade. O Teorema do Limite Central funciona para amostras de iid, tanto quanto eu sei, mas não podemos garantir que as amostras subjacentes sejam iid.
Você tem alguma idéia sobre a suposição gaussiana do erro?
regression
normality-assumption
pac-learning
petrichor
fonte
fonte
Respostas:
Acho que você basicamente acertou a cabeça na pergunta, mas vou ver se consigo adicionar alguma coisa. Vou responder isso de uma maneira indireta ...
O campo Estatísticas robustas examina a questão do que fazer quando a suposição gaussiana falha (no sentido de que existem discrepâncias):
Estes também foram aplicados no ML, por exemplo em Mika el al. (2001) Uma Abordagem de Programação Matemática para o Algoritmo de Fisher de Kernel , eles descrevem como a Perda Robusta de Huber pode ser usada com o KDFA (junto com outras funções de perda). Obviamente, isso é uma perda de classificação, mas o KFDA está intimamente relacionado à Relevance Vector Machine (consulte a seção 4 do documento Mika).
Como está implícito na pergunta, existe uma conexão estreita entre funções de perda e modelos de erro bayesiano (veja aqui para uma discussão).
No entanto, costuma acontecer que, assim que você começa a incorporar funções de perda "descoladas", a otimização se torna difícil (observe que isso também acontece no mundo bayesiano). Portanto, em muitos casos, as pessoas recorrem a funções de perda padrão fáceis de otimizar e, em vez disso, fazem pré-processamento extra para garantir que os dados estejam em conformidade com o modelo.
O outro ponto que você menciona é que o CLT se aplica apenas a amostras que são IID. Isso é verdade, mas as suposições (e as análises que acompanham) da maioria dos algoritmos são as mesmas. Quando você começa a analisar dados que não pertencem ao IDI, as coisas ficam muito mais complicadas. Um exemplo é se houver dependência temporal; nesse caso, normalmente a abordagem é assumir que a dependência abrange apenas uma determinada janela e, portanto, as amostras podem ser consideradas aproximadamente o IDI fora desta janela (veja, por exemplo, este brilhante e resistente PAC Chromatic de papel -Bayes Bounds para dados não-IID: aplicações para classificação e processos estacionários de β-mistura ), após o qual a análise normal pode ser aplicada.
Então, sim, isso se resume em parte à conveniência, e em parte porque, no mundo real, a maioria dos erros parece (aproximadamente) gaussiana. É claro que sempre se deve ter cuidado ao analisar um novo problema para garantir que as suposições não sejam violadas.
fonte