Pressupostos da regressão múltipla: como a suposição de normalidade difere da suposição de variância constante?

20

Eu li que estas são as condições para usar o modelo de regressão múltipla:

  1. os resíduos do modelo são quase normais,
  2. a variabilidade dos resíduos é quase constante
  3. os resíduos são independentes e
  4. cada variável está linearmente relacionada ao resultado.

Qual a diferença entre 1 e 2?

Você pode ver um aqui à direita:

insira a descrição da imagem aqui

Portanto, o gráfico acima diz que o resíduo que está a 2 desvios-padrão de distância é 10 de distância do Y-hat. Isso significa que os resíduos seguem uma distribuição normal. Você não pode deduzir 2 disso? Que a variabilidade dos resíduos é quase constante?

Jwan622
fonte
7
Eu diria que a ordem desses está errada. Em ordem de importância, eu diria 4, 3, 2, 1. Dessa forma, cada suposição adicional permite que o modelo seja usado para resolver um conjunto maior de problemas, em oposição à ordem da sua pergunta, onde a suposição mais restritiva é primeiro.
Matthew Drury
2
Essas suposições são necessárias para as estatísticas inferenciais. Nenhuma suposição é feita para que a soma dos erros ao quadrado seja minimizada.
David Lane
1
Eu acredito que eu quis dizer 1, 3, 2, 4. 1 deve ser atendido pelo menos aproximadamente para que o modelo seja útil para muito, 3 são necessários para que o modelo seja consistente, ou seja, converja para algo estável à medida que você obtém mais dados , 2 é necessário para que a estimativa seja eficiente, ou seja, não há outra maneira melhor de usar os dados para estimar a mesma linha e 4 é necessário, pelo menos aproximadamente, para executar testes de hipóteses nos parâmetros estimados.
Matthew Drury
3
Link obrigatório para o blog de A. Gelman sobre Quais são as principais premissas da regressão linear? .
usεr11852 diz Reinstate Monic
2
Por favor, indique uma fonte para o seu diagrama, se não for o seu próprio trabalho.
Nick Cox

Respostas:

44

1. Distribuição normal de resíduos :

A condição de normalidade entra em jogo quando você está tentando obter intervalos de confiança e / ou valores-p.

não é umacondição de Gauss Markov.ε|XN(0 0,σ2Eun)


insira a descrição da imagem aqui

Este gráfico tenta ilustrar a distribuição dos pontos da população em azul (com a linha de regressão da população como uma linha ciana sólida), sobreposta a um conjunto de dados de amostra em grandes pontos amarelos (com sua linha de regressão estimada plotada na linha amarela tracejada). Evidentemente, isso é apenas para consumo conceitual, já que haveria pontos infinitos para cada valor de ) - portanto, é uma discretização iconográfica gráfica do conceito de regressão como a distribuição contínua de valores em torno de uma média (correspondia ao valor previsto da variável "independente") em cada valor dado do regressor ou variável explicativa.X=x

Se executarmos gráficos R de diagnóstico nos dados simulados de "população", obteremos ...

insira a descrição da imagem aqui

X.

O enredo típico seria:

insira a descrição da imagem aqui


Conceitualmente, a introdução de vários regressores ou variáveis ​​explicativas não altera a idéia. Acho o tutorial prático do pacote swirl()extremamente útil para entender como a regressão múltipla é realmente um processo de regressão de variáveis ​​dependentes umas contra as outras, levando adiante a variação residual inexplicável no modelo; ou, mais simplesmente, uma forma vetorial de regressão linear simples :

A técnica geral é escolher um regressor e substituir todas as outras variáveis ​​pelos resíduos de suas regressões em relação àquele.


2. A variabilidade dos resíduos é quase constante (homocedasticidade) :

E[εEu2|X]=σ2

O problema com a violação dessa condição é:

A heterocedasticidade tem sérias conseqüências para o estimador de OLS. Embora o estimador OLS permaneça imparcial, o SE estimado está errado. Por esse motivo, não é possível confiar em intervalos de confiança e testes de hipóteses. Além disso, o estimador OLS não é mais AZUL.


insira a descrição da imagem aqui

Neste gráfico, a variância aumenta com os valores do regressor (variável explicativa), em vez de permanecer constante. Nesse caso, os resíduos são normalmente distribuídos, mas a variação dessa distribuição normal muda (aumenta) com a variável explicativa.

Observe que a linha de regressão "verdadeira" (populacional) não muda com relação à linha de regressão populacional sob homosquasticidade no primeiro gráfico (azul escuro sólido), mas é intuitivamente claro que as estimativas serão mais incertas.

Os gráficos de diagnóstico no conjunto de dados são ...

insira a descrição da imagem aqui

o que corresponde à distribuição "de cauda pesada" , o que faz sentido é que devemos telescópiar todas as parcelas gaussianas verticais "lado a lado" em uma única, que manteria a forma de sino, mas com caudas muito longas.


@Glen_b "... uma cobertura completa da distinção entre os dois também consideraria homosquástico, mas não normal."

insira a descrição da imagem aqui

Os resíduos são altamente inclinados e a variação aumenta com os valores da variável explicativa.

Estes seriam os gráficos de diagnóstico ...

insira a descrição da imagem aqui

correspondente à inclinação inclinada à direita.

Para fechar o ciclo, veríamos também distorção em um modelo homosquástico com distribuição de erros não gaussiana:

insira a descrição da imagem aqui

com gráficos de diagnóstico como ...

insira a descrição da imagem aqui

Antoni Parellada
fonte
2
Muito obrigado. Eu senti que era necessário colmatar a discreta discriminação grosseira da população utilizada como ferramenta de visualização. Eu posso postar o código, mas estou hesitante, desde que houve algum grau de matemática criativa :-)
Antoni Parellada
3
A ilustração da distinção entre erros normais e erros homoscedásticos, mostrando um gráfico satisfazendo ambos e depois mostrando normal-mas-não-homosquástico é excelente. Eu acho que uma cobertura completa da distinção entre os dois também consideraria homosquástico, mas não normal. [Eu não sugiro que você adicionar como uma ilustração, mas é um terceiro braço útil para as pessoas a manter em suas mentes quando se considera os pressupostos.]
Glen_b -Reinstate Monica
7

Não é culpa do OP, mas estou começando a me cansar de ler informações erradas assim.

Eu li que estas são as condições para usar o modelo de regressão múltipla:

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

O "modelo de regressão múltipla" é apenas um rótulo que declara que uma variável pode ser expressa como uma função de outras variáveis.

Nem o verdadeiro termo do erro nem os resíduos do modelo precisam de quase nada em particular - se os resíduos parecerem normais, isso é bom para a inferência estatística subsequente .

A variabilidade (variação) do termo do erro não precisa ser quase constante - se não for, temos um modelo com heterocedasticidade que hoje em dia é facilmente manipulado.

Os resíduos não são independentes em nenhum caso, pois cada um é uma função de toda a amostra. Os termos dos erros verdadeiros não precisam ser independentes - se não, temos um modelo com autocorrelação, que, embora mais difícil que a heterocedasticidade, possa ser tratado até um grau.

Cada variável não precisa estar linearmente relacionada ao resultado. De fato, a distinção entre regressão "linear" e "não linear" não tem nada a ver com a relação entre as variáveis ​​- mas com a forma como os coeficientes desconhecidos entram na relação.

O que se poderia dizer é que, se os três primeiros se mantêm e o quarto é declarado corretamente, obtemos o "Modelo de Regressão Linear Normal Normal", que é apenas uma (embora historicamente a primeira) variante de vários modelos de regressão.

Alecos Papadopoulos
fonte
3
XβXβX
2
E a questão está faltando na suposição absolutamente fundamental de que a expectativa condicional dos termos de erro é zero!
Matthew Gunn
1
@MatthewGunn Bem, ... isso abre uma discussão muito ampla sobre o que estamos fazendo com esse modelo: se adotamos a visão "determinística / engenharia", precisamos dessa suposição para garantir que a especificação seja realmente a determinística subjacente. Se queremos estimar a função de expectativa condicional em relação aos regressores específicos , a codificação é automaticamente satisfeita (ou pelo menos sua forma mais fraca, ortogonalidade).
Alecos Papadopoulos
1
@AlecosPapadopoulos Sim, em certo sentido, os mínimos quadrados comuns sempre oferecem uma estimativa de algo! Mas pode não ser o que você deseja. Se o OP simplesmente deseja uma função linear de expectativa condicional em relação aos regressores específicos, concordo que a condição seja assumida automaticamente. Mas se o OP estiver tentando estimar algum parâmetro, justificar a condição de ortogonalidade é fundamental!
Matthew Gunn
@MatthewGunn De fato, isso certamente é verdade.
Alecos Papadopoulos
3

Antoni Parellada teve uma resposta perfeita com boa ilustração gráfica.

Eu só quero adicionar um comentário para resumir a diferença entre duas declarações

  1. os resíduos do modelo são quase normais

  2. a variabilidade dos resíduos é quase constante

  • A declaração 1 fornece a "forma" do resíduo é "curva em forma de sino" .
  • A afirmação 2 refina a propagação da "forma" (é constante), no gráfico 3. de Antoni Parellada. Existem 3 curvas em forma de sino, mas com difusão diferente.
Haitao Du
fonte
1

Não existe um único conjunto único de suposições de regressão, mas existem várias variações por aí. Alguns desses conjuntos de suposições são mais rigorosos, ou seja, mais estreitos que outros. Além disso, na maioria dos casos, você não precisa e, em muitos casos, não pode realmente assumir que a distribuição é normal.

As suposições que você citou são mais rigorosas que as demais, mas são formuladas em linguagem desnecessariamente flexível. Por exemplo, o que é exatamente quase ? Além disso, não são os resíduos sobre os quais impomos as suposições, são erros . Os resíduos são estimativas de erros que não são observáveis. Isso me diz que você está citando uma fonte ruim. Jogue fora.

A resposta breve para sua pergunta é que, se você considerar qualquer distribuição, por exemplo, distribuição Student t, para seus erros (vou usar o termo correto na minha resposta), poderá ver como os erros podem ter variações "quase constantes" sem pertencer à distribuição Normal e como ter variação "quase constante" não requer distribuição normal. Em outras palavras, não, você não pode conceber uma suposição de outra sem um requisito adicional.

yi=Xiβ+εEuεEuN(0 0,σ2)
  1. N(.)
  2. σεEu
  3. NX
  4. y=Xβ

Portanto, quando agrupamos todas as suposições dessa maneira em uma ou duas equações, pode parecer que todas dependem uma da outra, o que não é verdade. Vou demonstrar isso a seguir.

Exemplo 1

yEu=XEuβ+εEuεEutν
ν

Exemplo 2

yEu=XEuβ+εEuεEuN(0 0,σ2Eu)
Eu
Aksakal
fonte
1

Tentei adicionar uma nova dimensão à discussão e torná-la mais geral. Por favor, desculpe-me se foi muito rudimentar.

Um modelo de regressão é um meio formal de expressar os dois ingredientes essenciais de uma relação estatística:

  1. YX
  2. Uma dispersão de pontos ao redor da curva do relacionamento estatístico.

Y

Postulando que:

  1. YX

  2. X

Y

YX

YXYX

Fonte: Modelos Estatísticos Lineares Aplicados, KNNL

YX

YEu=β0 0 +β1XEu+ϵ

YEuXEu

β0 0β1 são parâmetros

ϵN(O,σ2)

Eu

E(Y|X)β0 0β1σ2β0 0β1σ2

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

Qual a diferença entre 1 e 2?

Chegando à pergunta

A primeira e a segunda premissas, conforme declaradas por você, são duas partes da mesma suposição de normalidade com média zero e variação constante. Penso que a questão deve ser colocada como quais são as implicações das duas suposições para um modelo de regressão de erro normal, e não a diferença entre as duas suposições. Digo isso porque parece comparar maçãs com laranjas porque você está tentando encontrar uma diferença entre suposições sobre a distribuição de uma dispersão de pontos e suposições sobre sua variabilidade. Variabilidade é uma propriedade de uma distribuição. Então, tentarei responder a questões mais relevantes das implicações das duas suposições.

Sob a suposição de normalidade, os estimadores de máxima verossimilhança (MLEs) são os mesmos que os estimadores de mínimos quadrados e os MLEs gozam da propriedade de serem UMVUE, o que significa que eles têm variação mínima entre todos os estimadores.

β0 0β1t

ingênuo
fonte
1
Este é um excelente relato de regressão. Mas como ele responde a uma pergunta específica neste tópico?
whuber