Por que é necessário colocar a premissa distributiva nos erros, ou seja,
, com .
Por que não escrever
, com ,
onde em qualquer dos casos .
Eu vi enfatizar que as premissas distributivas são colocadas nos erros, não nos dados, mas sem explicação.
Não estou realmente entendendo a diferença entre essas duas formulações. Em alguns lugares, vejo suposições distributivas sendo colocadas nos dados (parece bayesiano, na maioria das vezes), mas na maioria das vezes as suposições são colocadas nos erros.
Ao modelar, por que um / deveria escolher começar com suposições sobre um ou outro?
Respostas:
Em uma configuração de regressão linear, é comum fazer análises e derivar resultados condicionais em , isto é, condicionais nos "dados". Portanto, o que você precisa é que y ∣ X seja normal, ou seja, você precisa ϵ ser normal. Como o exemplo de Peter Flom ilustra, pode-se ter uma normalidade de ϵ sem ter a normalidade de y e, portanto, como o que você precisa é de normalidade de ϵ , essa é a suposição sensata.X y∣X ϵ ϵ y ϵ
fonte
Eu escreveria a segunda definição como
ou (como Karl Oskar sugere +1)
isto é, a suposição de modelagem é que a variável resposta é normalmente distribuída em torno da linha de regressão (que é uma estimativa da média condicional), com variação constante . Esta não é a mesma coisa que sugere que y i são normalmente distribuídos, porque a média da distribuição depende de X i .σ2 yi Xi
Eu acho que vi formulações semelhantes a isso na literatura de aprendizado de máquina; tanto quanto eu posso ver isso é equivalente à primeira definição, tudo o que tenho feito é rexpress a segunda formulação um pouco diferente para eliminar a 's e y ' s.ϵi y^
fonte
The difference is easiest to illustrate with an example. Here's a simple one:
Suponha que Y seja bimodal, com a modalidade explicada por uma variável independente. Por exemplo, suponha que Y seja a altura e sua amostra (por qualquer motivo) consiste em jóqueis e jogadores de basquete. por exemplo, em
R
a primeira densidade é muito fora do normal. Mas os resíduos do modelo são extremamente próximos do normal.
Quanto ao motivo pelo qual as restrições são colocadas dessa maneira - deixarei que outra pessoa responda a essa pergunta.
fonte
So the question becomes, is there a reason to prefer presenting the idea using the first formulation?
I think the answer is yes for two reasons:
I believe these confustions are more likely using the second formulation than the first.
fonte