Por que a interceptação é digitada como 1 nos pacotes de estatísticas (R, python)

Ao usar o software estatístico, Ao definir seus modelos lineares, por que a interceptação é digitada como 1, em vez de "const" ou "interceptar" ou algo assim. Que significado eu tenho?

Existe alguma razão histórica? Ou isso é lógico, de alguma maneira, que estou deixando de entender? A interceptação poderia muito bem ser qualquer número.

Exemplo da biblioteca statsmodels em python:

model = smf.ols('Height ~ 1', data = height_sample_data)

Eu sei que o pacote Lmer para R é muito semelhante.

regression software intercept Adam B
fonte

A interceptação é o coeficiente (que de fato poderia ter algum valor), mas o que você entra no programa de regressão quando ajusta o modelo não são os coeficientes, mas o que você multiplica os coeficientes na equação de regressão ( ) . O que você multiplica o intercepto por na equação de regressão? (Note que .)

x

$x$

β_{0} \times 1 = β_{0}

$\beta_0 \times 1 = \beta_0$

Glen_b -Reinstala Monica

É lógico, depois de considerar a notação da matriz em que sua fórmula será traduzida internamente. Na matriz, os preditores não constantes serão traduzidos em (uma ou mais) colunas e a interceptação será traduzida em uma coluna composta inteiramente por uma.

Por exemplo, em R você escreveria um OLS muito simples como:

lm(z~1+x+y)

Na notação matricial, isso seria traduzido em um modelo

(\begin{matrix} z_{1} \\ z_{2} \\ ⋮ \\ z_{n} \end{matrix}) = (\begin{matrix} 1 & x_{1} & y_{1} \\ 1 & x_{2} & y_{2} \\ ⋮ & ⋮ & ⋮ \\ 1 & x_{n} & y_{n} \end{matrix}) (\begin{matrix} β_{0} \\ β_{x} \\ β_{z} \end{matrix}) + (\begin{matrix} ϵ_{1} \\ ϵ_{2} \\ ⋮ \\ ϵ_{n} \end{matrix}),

$\begin{pmatrix} z_1 \\ z_2 \\ \vdots \\ z_n \end{pmatrix} = \begin{pmatrix} 1 & x_1 & y_1 \\ 1 & x_2 & y_2 \\ \vdots & \vdots & \vdots \\ 1 & x_n & y_n \end{pmatrix} \begin{pmatrix} \beta_0 \\ \beta_x \\ \beta_z \end{pmatrix} +\begin{pmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{pmatrix},$

e agora você vê de onde vem o . $1$

Na verdade, você pode deixar de 1+fora, pois R sempre presume que você deseja incluir uma interceptação, portanto isso é completamente equivalente a

lm(z~x+y).

No entanto, se você deseja suprimir a interceptação, escreva algo como

lm(z~x+y-1),

que seria traduzido em uma matriz sem uma coluna 1:

(\begin{matrix} z_{1} \\ z_{2} \\ ⋮ \\ z_{n} \end{matrix}) = (\begin{matrix} x_{1} & y_{1} \\ x_{2} & y_{2} \\ ⋮ & ⋮ \\ x_{n} & y_{n} \end{matrix}) (\begin{matrix} β_{x} \\ β_{z} \end{matrix}) + (\begin{matrix} ϵ_{1} \\ ϵ_{2} \\ ⋮ \\ ϵ_{n} \end{matrix}),

$\begin{pmatrix} z_1 \\ z_2 \\ \vdots \\ z_n \end{pmatrix} = \begin{pmatrix} x_1 & y_1 \\ x_2 & y_2 \\ \vdots & \vdots \\ x_n & y_n \end{pmatrix} \begin{pmatrix} \beta_x \\ \beta_z \end{pmatrix} +\begin{pmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{pmatrix},$

Stephan Kolassa
fonte

Por que a interceptação é digitada como 1 nos pacotes de estatísticas (R, python)

Respostas: