Como incluir

9

Quero incluir o termo x e seu quadrado x2 (variáveis ​​preditoras) em uma regressão, porque presumo que valores baixos de x tenham um efeito positivo na variável dependente e valores altos tenham um efeito negativo. O x2 deve capturar o efeito dos valores mais altos. Portanto, espero que o coeficiente de x seja positivo e o coeficiente de x2 seja negativo. Além de x , eu também incluo outras variáveis ​​preditoras.

Li em alguns posts aqui que é uma boa idéia centralizar as variáveis ​​nesse caso para evitar a multicolinearidade. Ao realizar uma regressão múltipla, quando você deve centralizar suas variáveis ​​preditoras e quando deve padronizá-las?

  1. Devo centralizar as duas variáveis ​​separadamente (na média) ou devo centralizar x e, em seguida, pegar o quadrado ou centralizar x2 e incluir o original x?

  2. É um problema se x é uma variável de contagem?

Para evitar que x seja uma variável de contagem, pensei em dividi-la por uma área definida teoricamente, por exemplo, 5 quilômetros quadrados. Isso deve ser um pouco semelhante ao cálculo da densidade de pontos.

Receio, porém, que, nessa situação, minha suposição inicial sobre o sinal dos coeficientes não se mantenha mais, como quando x=2 e x²=4

x=2/5 km2 = 0.4 km2

mas x2 seria então menor porque x2=(2/5)2=0.16 .

Peter
fonte
11
Seu software de regressão cuidará de problemas numéricos automaticamente - em particular, é altamente provável que centralize e padronize seus dados internamente. Como responder a suas perguntas sobre centralização se resume a como você deseja interpretar os coeficientes.
whuber

Respostas:

4

Sua pergunta é de fato composta de várias sub-perguntas, que tentarei abordar da melhor maneira possível.

  • Como distinguir a dependência de valores altos e baixos de uma regressão?

Considerando e é uma maneira de fazê-lo, mas você tem certeza de que seu teste é conclusivo? Você será capaz de concluir algo útil para todos os resultados possíveis da regressão? Penso que colocar a pergunta claramente de antemão pode ajudar, e fazer perguntas semelhantes e relacionadas também pode ajudar. Por exemplo, você pode considerar um limite de para o qual as inclinações de regressão são diferentes. Isso pode ser feito usando variáveis ​​moderadoras . Se as diferentes inclinações (enquanto impõem a mesma interceptação) são compatíveis, você não tem diferença; caso contrário, forneceu a si próprio um argumento claro para a diferença.x 2 xxx2x

  • Quando você deve centralizar e padronizar?

Acho que essa pergunta não deve ser misturada à primeira e ao teste, e receio que centrar-se em torno de ou antecipadamente possa influenciar os resultados. Eu aconselho a não centralizar, pelo menos em um primeiro estágio. Lembre-se de que você provavelmente não morrerá de multicolinearidade, muitos autores argumentam que é apenas equivalente a trabalhar com um tamanho de amostra menor ( aqui e aqui ).x 2xx2

  • A transformação da variável de contagem discreta em uma variável de ponto flutuante (contínua) altera a interpretação dos resultados?

Sim, mas isso dependerá muito dos 2 primeiros pontos, então eu sugiro que você lide com uma coisa de cada vez. Não vejo razão para a regressão não funcionar sem essa transformação; portanto, aconselho que você a ignore por enquanto. Observe também que, ao dividir por um elemento comum, você está alterando a escala na qual , mas existem maneiras completamente diferentes de vê-lo, como escrevi acima, nas quais esse limite é considerado de maneira mais explícita.x2=x

pedrofigueira
fonte
Muito obrigado pela sua resposta, especialmente pelos links !!!
Peter
Foi um prazer ajudar. =)
pedrofigueira 25/05
4

Em geral, a centralização poderia ajudar a reduzir a multicolinearidade, mas "você provavelmente não morrerá de multicolinearidade" (consulte a resposta da predrofigueira).

Mais importante ainda, é necessário centralizar para tornar a interceptação significativa. No modelo simples , a interceptação é definida como o resultado esperado para . Se um valor de zero não for significativo, nem o itercept será. Muitas vezes, é útil centralizar a variável torno de sua média; nesse caso, o preditor tem a forma e a interceptação é o resultado esperado para um sujeito cujo valor em é igual à média .x = 0 x x ( x i - ˉ x ) α x i ˉ xyi=α+βxi+εx=0xx(xix¯)αxix¯

Nesses casos, você deve centralizar e depois quadrado. Você não pode centralizar e separadamente, porque está regredindo o resultado em uma variável "nova" ; portanto, você deve essa nova variável. O que poderia centralizar significa?x x 2 ( x i - ˉ x ) x 2xxx2(xix¯)x2

Você pode centralizar uma variável de contagem, se sua média for significativa , mas você pode apenas escalá- la. Por exemplo, se e "2" puderem ser uma linha de base, você pode subtrair 2: . A interceptação se torna o resultado esperado para um sujeito cujo valor em é igual a "2", um valor de referência.x=1,2,3,4,5(xi2)=1,0,1,2,3xi

Quanto à divisão, não há problema: seus coeficientes estimados seriam maiores! Gelman e Hill , §4.1, dão um exemplo:

earnings=61000+1300height (in inches)+errorearnings=61000+51height (in millimeters)+errorearnings=61000+81000000height (in miles)+error

Uma polegada é milímetros, então é . Uma polegada é emiles, então é . Mas essas três equações são totalmente equivalentes.51 1300 / 25,4 1,6 e - 5 81000000 1300 / 1,6 e - 525.4511300/25.41.6e5810000001300/1.6e5

Sergio
fonte
relacionados .
Henrik
Obrigado pela sua resposta Sergio. Isso realmente me ajudou. Infelizmente, só posso marcar uma resposta como minha resposta aceita.
Peter
De nada. E não se preocupe ;-)
Sergio #:
1

Suponho que valores baixos de x tenham um efeito positivo na variável dependente e valores altos tenham um efeito negativo.

Embora aprecie o tratamento de centralização e interpretação de coeficientes de outras pessoas, o que você descreveu aqui é simplesmente um efeito linear. Em outras palavras, o que você descreveu não indica nenhuma necessidade de testar o quadrado de x .

rolando2
fonte
Na minha opinião, se , o efeito (parcial) de em (ou, melhor, em ) é . Tais efeitos são constantes, não dependem do nível de . Se o modelo é , o efeito parcial de é e depende do nível de . Isso também pode acontecer em outros modelos, por exemplo, em modelos de spline linear, mas não em um modelo linear simples (1º grau). Estou errado? x i y E [ Y | x ] E [ Y | x ] /x i = β i x i y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 2 2y=β0+β1x1+β2x2+εxiyE[yx]E[yx]/xi=βi xix 2 β 2 + 2 β 3 x 2 x 2y=β0+β1x1+β2x2+β3x22+εx2β2+2β3x2x2
Sergio
@ rolando2: Não tenho certeza se falamos sobre a mesma coisa. Se eu incluir apenas a variável preditora regular, obterá um coeficiente estimado para esse preditivo positivo ou negativo. Com base no coeficiente, posso dizer que, ao adicionar uma unidade a x, y aumentará ou diminuirá em uma certa quantidade. Mas não consigo descobrir dessa maneira se pequenos valores realmente levam a um aumento de y, enquanto valores mais altos (de um certo ponto desconhecido) levam a uma diminuição de y.
Peter
@ Peter - eu entendo e sugiro que você edite a frase "presumo" da sua pergunta para ler: "Presumo que, em alguma região de x, valores mais altos de x tenham um efeito positivo na variável dependente, enquanto em outra região, valores mais altos têm um efeito negativo ".
Rolando2 26/05