Eu li que estas são as condições para usar o modelo de regressão múltipla:
- os resíduos do modelo são quase normais,
- a variabilidade dos resíduos é quase constante
- os resíduos são independentes e
- cada variável está linearmente relacionada ao resultado.
Qual a diferença entre 1 e 2?
Você pode ver um aqui à direita:
Portanto, o gráfico acima diz que o resíduo que está a 2 desvios-padrão de distância é 10 de distância do Y-hat. Isso significa que os resíduos seguem uma distribuição normal. Você não pode deduzir 2 disso? Que a variabilidade dos resíduos é quase constante?
Respostas:
1. Distribuição normal de resíduos :
não é umacondição de Gauss Markov.£ | X∼ N( 0 , σ2Eun)
Este gráfico tenta ilustrar a distribuição dos pontos da população em azul (com a linha de regressão da população como uma linha ciana sólida), sobreposta a um conjunto de dados de amostra em grandes pontos amarelos (com sua linha de regressão estimada plotada na linha amarela tracejada). Evidentemente, isso é apenas para consumo conceitual, já que haveria pontos infinitos para cada valor de ) - portanto, é uma discretização iconográfica gráfica do conceito de regressão como a distribuição contínua de valores em torno de uma média (correspondia ao valor previsto da variável "independente") em cada valor dado do regressor ou variável explicativa.X= x
Se executarmos gráficos R de diagnóstico nos dados simulados de "população", obteremos ...
O enredo típico seria:
Conceitualmente, a introdução de vários regressores ou variáveis explicativas não altera a idéia. Acho o tutorial prático do pacote
swirl()
extremamente útil para entender como a regressão múltipla é realmente um processo de regressão de variáveis dependentes umas contra as outras, levando adiante a variação residual inexplicável no modelo; ou, mais simplesmente, uma forma vetorial de regressão linear simples :2. A variabilidade dos resíduos é quase constante (homocedasticidade) :
O problema com a violação dessa condição é:
Neste gráfico, a variância aumenta com os valores do regressor (variável explicativa), em vez de permanecer constante. Nesse caso, os resíduos são normalmente distribuídos, mas a variação dessa distribuição normal muda (aumenta) com a variável explicativa.
Observe que a linha de regressão "verdadeira" (populacional) não muda com relação à linha de regressão populacional sob homosquasticidade no primeiro gráfico (azul escuro sólido), mas é intuitivamente claro que as estimativas serão mais incertas.
Os gráficos de diagnóstico no conjunto de dados são ...
o que corresponde à distribuição "de cauda pesada" , o que faz sentido é que devemos telescópiar todas as parcelas gaussianas verticais "lado a lado" em uma única, que manteria a forma de sino, mas com caudas muito longas.
Os resíduos são altamente inclinados e a variação aumenta com os valores da variável explicativa.
Estes seriam os gráficos de diagnóstico ...
correspondente à inclinação inclinada à direita.
Para fechar o ciclo, veríamos também distorção em um modelo homosquástico com distribuição de erros não gaussiana:
com gráficos de diagnóstico como ...
fonte
Não é culpa do OP, mas estou começando a me cansar de ler informações erradas assim.
O "modelo de regressão múltipla" é apenas um rótulo que declara que uma variável pode ser expressa como uma função de outras variáveis.
Nem o verdadeiro termo do erro nem os resíduos do modelo precisam de quase nada em particular - se os resíduos parecerem normais, isso é bom para a inferência estatística subsequente .
A variabilidade (variação) do termo do erro não precisa ser quase constante - se não for, temos um modelo com heterocedasticidade que hoje em dia é facilmente manipulado.
Os resíduos não são independentes em nenhum caso, pois cada um é uma função de toda a amostra. Os termos dos erros verdadeiros não precisam ser independentes - se não, temos um modelo com autocorrelação, que, embora mais difícil que a heterocedasticidade, possa ser tratado até um grau.
Cada variável não precisa estar linearmente relacionada ao resultado. De fato, a distinção entre regressão "linear" e "não linear" não tem nada a ver com a relação entre as variáveis - mas com a forma como os coeficientes desconhecidos entram na relação.
O que se poderia dizer é que, se os três primeiros se mantêm e o quarto é declarado corretamente, obtemos o "Modelo de Regressão Linear Normal Normal", que é apenas uma (embora historicamente a primeira) variante de vários modelos de regressão.
fonte
Antoni Parellada teve uma resposta perfeita com boa ilustração gráfica.
Eu só quero adicionar um comentário para resumir a diferença entre duas declarações
fonte
Não existe um único conjunto único de suposições de regressão, mas existem várias variações por aí. Alguns desses conjuntos de suposições são mais rigorosos, ou seja, mais estreitos que outros. Além disso, na maioria dos casos, você não precisa e, em muitos casos, não pode realmente assumir que a distribuição é normal.
As suposições que você citou são mais rigorosas que as demais, mas são formuladas em linguagem desnecessariamente flexível. Por exemplo, o que é exatamente quase ? Além disso, não são os resíduos sobre os quais impomos as suposições, são erros . Os resíduos são estimativas de erros que não são observáveis. Isso me diz que você está citando uma fonte ruim. Jogue fora.
A resposta breve para sua pergunta é que, se você considerar qualquer distribuição, por exemplo, distribuição Student t, para seus erros (vou usar o termo correto na minha resposta), poderá ver como os erros podem ter variações "quase constantes" sem pertencer à distribuição Normal e como ter variação "quase constante" não requer distribuição normal. Em outras palavras, não, você não pode conceber uma suposição de outra sem um requisito adicional.
Portanto, quando agrupamos todas as suposições dessa maneira em uma ou duas equações, pode parecer que todas dependem uma da outra, o que não é verdade. Vou demonstrar isso a seguir.
Exemplo 1
Exemplo 2
fonte
Tentei adicionar uma nova dimensão à discussão e torná-la mais geral. Por favor, desculpe-me se foi muito rudimentar.
Um modelo de regressão é um meio formal de expressar os dois ingredientes essenciais de uma relação estatística:
Postulando que:
Fonte: Modelos Estatísticos Lineares Aplicados, KNNL
Chegando à pergunta
A primeira e a segunda premissas, conforme declaradas por você, são duas partes da mesma suposição de normalidade com média zero e variação constante. Penso que a questão deve ser colocada como quais são as implicações das duas suposições para um modelo de regressão de erro normal, e não a diferença entre as duas suposições. Digo isso porque parece comparar maçãs com laranjas porque você está tentando encontrar uma diferença entre suposições sobre a distribuição de uma dispersão de pontos e suposições sobre sua variabilidade. Variabilidade é uma propriedade de uma distribuição. Então, tentarei responder a questões mais relevantes das implicações das duas suposições.
Sob a suposição de normalidade, os estimadores de máxima verossimilhança (MLEs) são os mesmos que os estimadores de mínimos quadrados e os MLEs gozam da propriedade de serem UMVUE, o que significa que eles têm variação mínima entre todos os estimadores.
fonte