Qual é a importância da matriz de chapéu, , na análise de regressão?
É apenas para um cálculo mais fácil?
regression
multiple-regression
least-squares
usuário 31466
fonte
fonte
Respostas:
No estudo da regressão linear, o ponto de partida básico é o processo de geração de dadosy= XB + u
onde e determinístico. Depois de minimizar o critério dos mínimos quadrados, encontra-se um estimador para , ou seja, . Depois de conectar o estimador na fórmula inicial, obtém-se como um modelo linear do processo de geração de dados. Agora, pode-se substituir o estimador por e obterX B B B = ( X ' x ) - 1 X ' y y = X B B y = X ( X ' X ) - 1 X ' y .u∼N(0,σ2I) X Bˆ B Bˆ=(X′X)−1X′y yˆ=XBˆ Bˆ yˆ=X(X′X)−1X′y.
Portanto, é na verdade uma matriz de projeção. Imagine que você pegue todas as variáveis em . As variáveis são vetores e ocupam um espaço. Portanto, se você multiplicar por , projeta seus valores observados em no espaço que é estendido pelas variáveis em . Ele fornece as estimativas para e essa é a razão pela qual é chamada de matriz de chapéu e por que tem tanta importância. Afinal, a regressão linear nada mais é do que uma projeção e com a matriz de projeção não podemos apenas calcular as estimativas paraX H y y X y y uH=X(X′X)−1X′ X H y y X y y mas também para e pode, por exemplo, verificar se é realmente distribuído normalmente.u
Encontrei essa bela foto na internet e visualiza essa projeção. Observe que é usado em vez de . Além disso, a figura enfatiza que o vetor dos termos de erro é ortogonal à projeção e, portanto, não está correlacionado com as estimativas paraB yβ B y
fonte
A matriz hat é muito útil por alguns motivos:
fonte
Nada mais é do que encontrar a solução "mais próxima" para Ax = b, onde b não está no espaço da coluna de A. Nós projetamos b no espaço da coluna e resolvemos Ax (hat) = p, em que p é a projeção de b em espaço da coluna.
fonte