Por que a suposição de normalidade na regressão linear

14

Minha pergunta é muito simples: por que escolhemos normal como a distribuição que o termo de erro segue na suposição de regressão linear? Por que não escolhemos outros como uniforme, t ou o que seja?

Mestre Shi
fonte
5
Não escolhemos a suposição normal. Por acaso, quando o erro é normal, os coeficientes do modelo seguem exatamente uma distribuição normal e um teste F exato pode ser usado para testar hipóteses sobre eles.
Adamo
10
Porque a matemática funciona com facilidade o suficiente para que as pessoas possam usá-la antes dos computadores modernos.
Nat
1
@AdamO eu não entendo; você acabou de descrever as razões pelas quais escolhemos.
Jik
2
@JiK, se eu pudesse escolher distribuições, não haveria necessidade de estatísticas. O mundo inteiro seria probabilidade.
Adamo
1
@AdamO Você pode escolher suposições para o seu modelo ao fazer inferência estatística, então não acho que isso signifique que não haja estatísticas.
Jik

Respostas:

29

Nós escolhemos outras distribuições de erro. Em muitos casos, você pode fazer isso com bastante facilidade; se você estiver usando a estimativa de probabilidade máxima, isso mudará a função de perda. Isso certamente é feito na prática.

Laplace (erros exponenciais duplos) corresponde à regressão de desvios mínimos absolutos / regressão ( várias postagens no site). Regressões com erros t são ocasionalmente usadas (em alguns casos, porque são mais robustas a erros grosseiros), embora possam ter uma desvantagem - a probabilidade (e, portanto, a perda negativa) podem ter vários modos.L1

Erros uniformes correspondem a uma perda de (minimizam o desvio máximo); essa regressão às vezes é chamada de aproximação Chebyshev (embora tenha cuidado, pois há outra coisa com essencialmente o mesmo nome). Novamente, isso às vezes é feito (na verdade, para regressão simples e conjuntos de dados pequenos com erros limitados com propagação constante, o ajuste geralmente é fácil de encontrar manualmente, diretamente em um gráfico, embora na prática você possa usar métodos de programação linear ou outros algoritmos ; de fato, os problemas de regressão e são um do outro, o que pode levar a atalhos às vezes convenientes para alguns problemas).LLL1

De fato, aqui está um exemplo de um modelo de "erro uniforme" ajustado aos dados manualmente:

Regressão L-infinito ajustada à mão.  Os dois pontos "mais baixos" sob a faixa de dados são marcados e os dois pontos "mais altos" acima da faixa de dados são marcados.

É fácil identificar (deslizando uma régua em direção aos dados) que os quatro pontos marcados são os únicos candidatos a estar no conjunto ativo; três deles formarão o conjunto ativo (e uma pequena verificação logo identifica quais três levam à banda mais estreita que abrange todos os dados). A linha no centro dessa faixa (marcada em vermelho) é a estimativa de probabilidade máxima da linha.

Muitas outras opções de modelo são possíveis e algumas foram usadas na prática.

Observe que se você tiver erros aditivos, independentes e de propagação constante com uma densidade no formato , maximizar a probabilidade corresponderá à minimização de , onde é o th residual.kexp(c.g(ε))ig(ei)eii

No entanto, há uma variedade de razões pelas quais o quadrado mínimo é uma escolha popular, muitas das quais não exigem nenhuma suposição de normalidade.

Glen_b -Reinstate Monica
fonte
2
Ótima resposta. Você se importaria de adicionar alguns links que fornecem mais detalhes sobre como essas variações são usadas na prática?
Rgk 01/03/19
(+1) Ótima resposta. Você se importaria de compartilhar o código R usado para ajustar a linha de regressão ? L
COOLSerdash
1
Como expliquei no texto, ajustei-o à mão, de maneira muito semelhante à abordagem que descrevi. Embora isso possa ser feito prontamente usando o código, eu literalmente abri o gráfico no MS Paint e identifiquei os três pontos no conjunto ativo (juntando dois dos quais deram a inclinação) - e depois movi a linha até a metade do caminho para o terceiro ponto (diminuindo pela metade a distância vertical em pixels e movendo a linha para cima em muitos pixels) - o objetivo é demonstrar como isso pode ser simples. Uma criança pode ser ensinada a fazê-lo.
Glen_b -Reinstala Monica
@Glen_b Na verdade, eu era adolescente quando me ensinaram a fazer exatamente isso no laboratório de física para calouros.
Peter Leopold
9

A suposição normal / gaussiana é frequentemente usada porque é a escolha mais computacionalmente conveniente. O cálculo da estimativa de máxima verossimilhança dos coeficientes de regressão é um problema de minimização quadrático, que pode ser resolvido usando álgebra linear pura. Outras opções de distribuição de ruído produzem problemas de otimização mais complicados que normalmente precisam ser resolvidos numericamente. Em particular, o problema pode ser não convexo, gerando complicações adicionais.

Normalidade não é necessariamente uma boa suposição em geral. A distribuição normal tem caudas muito leves, e isso torna a estimativa de regressão bastante sensível aos valores extremos. Alternativas como as distribuições t de Laplace ou Student são geralmente superiores se os dados de medição contiverem valores extremos.

Consulte o livro seminal de Peter Huber, Estatísticas robustas, para obter mais informações.

Martin L
fonte
2

Ao trabalhar com essas hipóteses, a regressão baseada em erros ao quadrado e a probabilidade máxima fornecem a mesma solução. Você também é capaz de obter testes F simples para significância do coeficiente, bem como intervalos de confiança para suas previsões.

Em conclusão, a razão pela qual geralmente escolhemos a distribuição normal são suas propriedades, que geralmente facilitam as coisas. Também não é uma suposição muito restritiva, pois muitos outros tipos de dados comportam-se "normalmente"

De qualquer forma, como mencionado em uma resposta anterior, existem possibilidades para definir modelos de regressão para outras distribuições. O normal passa a ser o mais recorrente

David
fonte
2

Glen_b explicou bem que a regressão OLS pode ser generalizada (maximizar a probabilidade ao invés de minimizar a soma dos quadrados) e nós fazer escolher outras distribuições.

No entanto, por que a distribuição normal é escolhida com tanta frequência ?

A razão é que a distribuição normal ocorre em muitos lugares naturalmente. É um pouco o mesmo, como geralmente vemos a proporção áurea ou os números de Fibonacci ocorrendo "espontaneamente" em vários lugares da natureza.

A distribuição normal é a distribuição limitadora de uma soma de variáveis ​​com variação finita (ou restrições menos estritas também são possíveis). E, sem tomar o limite, também é uma boa aproximação para uma soma de um número finito de variáveis. Portanto, como muitos erros observados ocorrem como uma soma de muitos pequenos erros não observados, a distribuição normal é uma boa aproximação.

Veja também aqui Importância da distribuição normal

onde as máquinas de feijão da Galton mostram o princípio intuitivamente

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png

Sextus Empiricus
fonte
-1

Por que não escolhemos outras distribuições?

yiRxiRnxi

y^i=wxi.

A perda surpreendente é geralmente a perda mais sensata:

L=logP(yixi).

Você pode pensar em regressão linear como usando uma densidade normal com variação fixa na equação acima:

L=logP(yixi)(yiy^i)2.

Isso leva à atualização de peso:

wL=(y^iyi)xi


Em geral, se você usar outra distribuição familiar exponencial, esse modelo será chamado de modelo linear generalizado . A distribuição diferente corresponde a uma densidade diferente, mas pode ser formalizada com mais facilidade alterando a previsão, o peso e o alvo.

WRn×k

u^ig(Wxi)

g:RkRkyi ui=T(yi)Rk

η

f(z)=h(z)exp(ηT(z)g(η)).

ηwxiz=yi

WL=Wlogf(x)=(g(Wxi))xiT(yi)xi=(u^iui)xi,


Até onde eu sei, o log-normalizador de gradiente pode ser qualquer função analítica monotônica e qualquer função analítica monotônica é o normalizador de log gradiente de uma família exponencial.

Neil G
fonte
Isso é muito curto e muito enigmático para nossos padrões, por favor, também explique surpresa .
precisa saber é o seguinte
1
"cada função de link corresponde a uma suposição distributiva diferente", isso é muito vago. A função link não tem a ver com generalização para diferentes suposições distributivas, mas com generalização da parte (linear) que descreve a média da distribuição.
Sextus Empiricus
1
fg
1
Normalmente, certas funções de link são usadas com certas suposições distributivas. Mas isso não é uma necessidade. Portanto, minhas suposições distributivas são normais nesse exemplo, e não Poisson (que foi intencional). Alguns exemplos melhores (mais práticos e bem conhecidos) são variáveis ​​distribuídas binomial / Bernouilli, onde as pessoas trabalham com um modelo probit ou logit; portanto, funções de link diferentes, mas a mesma suposição distributiva (condicional).
Sextus Empiricus
1
@ Neil G: Eu sou o preguiçoso? Você poderia facilmente incluir surpresa no post original, sim? Além disso, quando estou fazendo esses comentários, é mais para o site do que para mim. Este site deve ser independente. Eu poderia ter / se adivinhar o significado (mesmo que seja terminologia fora do padrão nas estatísticas), como você pode ver a minha resposta aqui, a entropia
b Kjetil Halvorsen