O que significa linear na regressão linear?

11

Em R, se eu escrever

lm(a ~ b + c + b*c) 

isso ainda seria uma regressão linear?

Como fazer outros tipos de regressão em R? Gostaria de receber alguma recomendação para livros ou tutoriais?

suprvisr
fonte
Tentei reformular um pouco sua pergunta. Receio que você esteja fazendo duas perguntas muito diferentes. Para o segundo, muitos recursos estão disponíveis neste site, mas também no CRAN .
chl 23/03
@ chl, sim, obrigado, eu não estava claro. Minhas perguntas são realmente as seguintes: se eu escrevo LM em R, R o entende como linear sempre ou tenta se ajustar a qualquer modelo, não necessariamente regressão linear, mas qualquer regressão?
suprvisr
Não, lm()significa uma regressão linear. Seu modelo inclui três parâmetros (menos a interceptação) para b, ce sua interação b:c, que significa para b + c + b:cou b*cpara abreviado (R segue a notação de Wilkinson para modelos estatísticos). É solicitado o ajuste de um modelo linear generalizado (ou seja, onde a função de link não é identidade, como é o caso do modelo linear expresso acima) glm().
chl 30/03

Respostas:

24

Linear refere-se à relação entre os parâmetros que você está estimando (por exemplo, ) e o resultado (por exemplo, ). Portanto, é linear, mas não é. Um modelo linear significa que sua estimativa do seu vetor de parâmetro pode ser gravada , em que são pesos determinados pelo seu procedimento de estimativa. Os modelos lineares podem ser resolvidos algebricamente na forma fechada, enquanto muitos modelos não lineares precisam ser resolvidos por maximização numérica usando um computador.y i y = e x β + ε y = e β x + ε β = Σ i w i y i { w i }βyiy=exβ+ϵy=eβx+ϵβ^=iwiyi{wi}

Charlie
fonte
6
+1 Especificamente, em um "modelo linear" a variável dependente é uma função linear dos parâmetros, mas não necessariamente dos dados. y
whuber
O primeiro é linear? realmente - aquele ao poder de x?
Suprvisr
2
Sim, porque não é a quantidade de interesse (aquela para a qual você otimiza), mas sim . Assim, é linear em . β βxββ
bayerj
+1, mas essa resposta pode ser melhorada comentando a fórmula da pergunta.
precisa saber é o seguinte
1
Percebo, em uma segunda leitura, que a segunda metade desta resposta confunde "modelo linear" com "estimador linear". Os dois conceitos são separados e diferentes. Modelos não lineares geralmente têm estimadores lineares e modelos lineares podem ter estimadores não lineares (considere GLMs, por exemplo).
whuber
5

Esta postagem no minitab.com fornece uma explicação muito clara:

  • Um modelo é linear quando pode ser escrito neste formato:
    • Response = constant + parameter * predictor + ... + parameter * predictor
      • Ou seja, quando cada termo (no modelo) é uma constante ou o produto de um parâmetro e uma variável preditora.
    • Então, esses dois são modelos lineares:
      • Y=B0+B1X1 (esta é uma linha reta)
      • Y=B0+B1X12 (Esta é uma curva)
  • Se o modelo não puder ser expresso usando o formato acima, ele não será linear.
    • Exemplos de modelos não lineares:
      • X B 1 1Y=B0+X1B1
      • Y=B0cos(B1X1)
Patrick Ng
fonte
4

Eu tomaria cuidado ao fazer isso como uma questão de "regressão linear R" versus uma questão de "regressão linear". As fórmulas em R têm regras que você pode ou não estar ciente. Por exemplo:

http://wiener.math.csi.cuny.edu/st/stRmanual/ModelFormula.html

Supondo que você esteja perguntando se a seguinte equação é linear:

a = coeff0 + (coeff1 * b) + (coeff2 * c) + (coeff3 * (b*c))

A resposta é sim, se você montar uma nova variável independente, como:

newv = b * c

Substituir a equação newv acima na equação original provavelmente se parece com o que você espera de uma equação linear:

a = coeff0 + (coeff1 * b) + (coeff2 * c) + (coeff3 * newv)

No que diz respeito às referências, o Google "r regression" ou o que você acha que pode funcionar para você.

bill_080
fonte
Como renomear algo torna linear? Eu não entendo, se a identidade newv = b * c é válida, não é linear. Estou confuso.
bayerj
@bayer: newv é uma nova variável. A nova equação é uma função linear de três variáveis ​​(b, c, newv), onde os coeficientes fornecem uma relação linear. Nenhuma das equações é uma combinação linear de apenas duas variáveis.
bill_080
@bayer Veja a resposta de @Charlie. No presente exemplo, ambos os modelos são lineares (se R os vê ou não como tal), porque em ambos aé uma função linear dos quatro coeficientes.
whuber
obrigado, faz sentido ... posso simplesmente adicionar nova variável neww sendo b * c para cada caso no banco de dados (médico) e tratá-la como regressão linear?
suprvisr
2

Você pode escrever a regressão linear como uma equação de matriz (linear).

[a1a2a3a4a5...an]=[b1c1b1c1b2c2b2c2b3c3b3c3b4c4b4c4b5c5b5c5...bncnbncn]×[αbαcαbc]+[ϵ1ϵ2ϵ3ϵ4ϵ5...ϵn]

ou se você recolher isto:

a=αbb+αcc+αbcbc+ϵ

Essa regressão linear é equivalente a encontrar a combinação linear de vetores , e mais próxima do vetor .bcbca

(Isso também tem uma interpretação geométrica como encontrar a projeção de no intervalo dos vetores , e . Para um problema com dois vetores de coluna com três medições, isso ainda pode ser desenhado como uma figura, como mostrado aqui: http://www.math.brown.edu/~banchoff/gc/linalg/linalg.html )b c b cabcbc


Compreender esse conceito também é importante na regressão não linear. Por exemplo, é muito mais fácil resolver que porque a primeira parametrização permite resolver os e coeficientes com as técnicas de regressão linear. y = u ( e c ( t - v ) + e d ( t - v ) ) a by=aect+bedty=u(ec(tv)+ed(tv))ab

Sextus Empiricus
fonte
Eu sinto que esta é a melhor resposta, porque responde à pergunta por que em vez de apenas o que. Responder com "O que" não leva a uma melhor intuição.
Hexatonic