Suponhamos que temos uma amostra aleatória .
Suponha que
e
Qual é a diferença entre e ?
regression
Stan Shunpike
fonte
fonte
Respostas:
β 1 β 1 β 1β1 é uma ideia - ela realmente não existe na prática. Mas se a suposição de Gauss-Markov se mantiver, daria a você a inclinação ideal com valores acima e abaixo em uma "fatia" vertical vertical à variável dependente, formando uma boa distribuição gaussiana normal de resíduos. é a estimativa de base na amostra.β1 β^1 β1
A ideia é que você esteja trabalhando com uma amostra de uma população. Sua amostra forma uma nuvem de dados, se você desejar. Uma das dimensões corresponde à variável dependente e você tenta ajustar a linha que minimiza os termos do erro - no OLS, essa é a projeção da variável dependente no subespaço vetorial formado pelo espaço da coluna da matriz do modelo. Essas estimativas dos parâmetros populacionais são indicadas com o símbolo . Quanto mais pontos de dados você tiver, mais precisos serão os coeficientes estimados, , e melhor será a estimativa desses coeficientes populacionais idealizados, . β iβiβ^ β^i βi
Aqui está a diferença nas inclinações ( versus ) entre a "população" em azul e a amostra em pontos pretos isolados:pβ β^
A linha de regressão é pontilhada e em preto, enquanto a linha "população" sinteticamente perfeita é em azul sólido. A abundância de pontos fornece uma sensação tátil da normalidade da distribuição de resíduos.
fonte
O símbolo "chapéu" geralmente denota uma estimativa, em oposição ao valor "verdadeiro". Portanto, é uma estimativa de . Alguns símbolos têm suas próprias convenções: a variação da amostra, por exemplo, costuma ser escrita como , não , embora algumas pessoas usem ambos para distinguir entre estimativas tendenciosas e imparciais.β^ β s2 σ^2
No seu caso específico, os valores são estimativas de parâmetros para um modelo linear. O modelo linear supõe que a variável de resultado seja gerada por uma combinação linear de s, cada uma ponderada pelo valor correspondente . Na prática, é claro, esses valores são desconhecidos e podem nem existir (talvez os dados não sejam gerados por um modelo linear). No entanto, podemos estimar valores a partir dos dados que se aproximam .β^ Y xi βi β β^ Y
fonte
A equação
é o que é denominado como o verdadeiro modelo. Essa equação diz que a relação entre a variável e a variável pode ser explicada por uma linha . No entanto, como os valores observados nunca seguirão a equação exata (devido a erros), um termo de erro adicional é adicionado para indicar erros. Os erros podem ser interpretados como desvios naturais de distância a partir da relação de e . Abaixo, mostro dois pares de e (os pontos pretos são dados). Em geral, pode-se ver que, quando aumenta, aumenta. Para ambos os pares, a equação verdadeira éx y y=β0+β1x ϵi x y x y x y
Vamos olhar para o gráfico à esquerda. O verdadeiro e o verdadeiro = 3. Mas, na prática, quando dados são fornecidos, não sabemos a verdade. Então, estimamos a verdade. Estimamos com e com . Dependendo de quais métodos estatísticos são usados, as estimativas podem ser muito diferentes. Na configuração de regressão, as estimativas são obtidas por meio de um método chamado Mínimos Quadrados Ordinários. Isso também é conhecido como o método da linha de melhor ajuste. Basicamente, você precisa desenhar a linha que melhor se ajusta aos dados. Não estou discutindo fórmulas aqui, mas usando a fórmula para OLS, você obtémβ 1 β 0 β 0 β 1 β 1β0=4 β1 β0 β^0 β1 β^1
e a linha resultante de melhor ajuste é,
Um exemplo simples seria o relacionamento entre as alturas das mães e filhas. Seja altura das mães = altura das filhas. Naturalmente, seria de esperar que as mães mais altas tivessem filhas mais altas (devido à semelhança genética). No entanto, você acha que uma equação pode resumir exatamente a altura de uma mãe e uma filha, de modo que, se eu souber a altura da mãe, poderei prever a altura exata da filha? Não. Por outro lado, é possível resumir o relacionamento com a ajuda de uma declaração média .yx= y
TL DR: é a verdade da população. Representa a relação desconhecida entre e . Como não podemos sempre obter todos os valores possíveis de e , recolhemos uma amostra da população, e tentar estimativa usando os dados. é a nossa estimativa. É uma função dos dados. não é uma função dos dados, mas a verdade.y x y x β β ββ y x y x β β^ β
fonte