Para expandir um pouco a resposta de @ ken-butler. Ao adicionar a variável contínua (horas) e uma variável indicadora para um valor especial (horas = 0 ou não amamentando), você acha que há um efeito linear para o valor "não especial" e um salto discreto no resultado previsto pelo valor especial. Ajuda (pelo menos para mim) olhar para um gráfico. No exemplo abaixo, modelamos o salário por hora em função das horas por semana em que os entrevistados (todas as mulheres) trabalham e achamos que há algo de especial no "padrão" 40 horas por semana:
O código que produziu esse gráfico (no Stata) pode ser encontrado aqui: http://www.stata.com/statalist/archive/2013-03/msg00088.html
Portanto, neste caso, atribuímos à variável contínua um valor 40, embora desejássemos que ela fosse tratada diferentemente dos outros valores. Da mesma forma, você daria às suas semanas amamentando o valor 0, mesmo que você ache que é qualitativamente diferente dos outros valores. Interpreto seu comentário abaixo, que você acha que isso é um problema. Este não é o caso e você não precisa adicionar um termo de interação. De fato, esse termo de interação será descartado devido à perfeita colinearidade, se você tentar. Isso não é uma limitação, apenas informa que os termos de interação não adicionam novas informações.
Digamos que sua equação de regressão fique assim:
y^=β1weeks_breastfeeding+β2non_breastfeeding+⋯
Onde é o número de semanas a amamentação (incluindo o valor de 0 para aqueles que não amamentar) e n o n _ b r e um s t f e e d i n g é uma variável indicadora que é um quando alguém não amamentar e 0 de outro modo.weeks_breastfeedingnon_breastfeeding
Considere o que acontece quando alguém está amamentando. A equação de regressão simplifica para:
y^=β1weeks_breastfeeding+β20+⋯=β1weeks_breastfeeding+⋯
Portanto, é apenas um efeito linear do número de semanas de amamentação para quem amamenta.β1
Considere o que está acontecendo quando alguém não está amamentando:
y^=β10+β21+⋯=β2+⋯
Portanto, fornece o efeito de não amamentar e o número de semanas de amamentação cai da equação.β2
Você pode ver que não há como adicionar um termo de interação, pois esse termo de interação já está (implicitamente) lá.
No entanto, existe algo estranho no , pois ele mede o efeito da amamentação comparando o resultado esperado daqueles que não amamentam com aqueles que amamentam, mas o fazem apenas 0 semanas ... Isso meio que faz sentido em uma comparação " like with like "de certa forma, mas a utilidade prática não é imediatamente óbvia. Pode fazer mais sentido comparar as "pessoas que não amamentam" com aquelas mulheres que amamentam 12 semanas (aproximadamente 3 meses). Nesse caso, você apenas dar os "não-breastfeeders" o valor 12 para w e e k s _ b r e um s t f e e d i n gβ2weeks_breastfeeding. Assim, o valor que você atribuir a para os "não-breastfeeders" tem influência sobre o coeficiente de regressão β 2 no sentido de que ele determina com quem o "non -breastfeeders "são comparados. Em vez de um problema, isso é realmente algo que pode ser bastante útil.weeks_breastfeedingβ2
Algo simples: represente sua variável por um indicador 1/0 para any / none e o valor real. Coloque os dois na regressão.
fonte
Se você colocar um indicador binário para qualquer tempo gasto (= 1) vs sem tempo gasto (= 0) e, em seguida, tiver a quantidade de tempo gasto como uma variável contínua, o efeito diferente de "0" vezes será " apanhados "pelo indicador 0-1
fonte
Você pode usar modelos de efeitos mistos com um agrupamento baseado no tempo 0 versus tempo diferente de zero e manter sua variável independente
fonte
Se você estiver usando Floresta Aleatória ou Rede Neural, colocar esse número como 0 está OK, porque eles poderão descobrir que 0 é distintamente diferente de outros valores (se é realmente diferente). O contrário é adicionar uma variável categórica yes / no além da variável time.
Mas, no geral, neste caso em particular, não vejo um problema real - 0,1 semanas de amamentação é quase 0 e o efeito será muito semelhante, então parece uma variável bastante contínua para mim, com 0 não se destacando como algo distinto.
fonte
Modelo Tobit é o que você quer, eu acho.
fonte