Tempo gasto em uma atividade como variável independente

14

Quero incluir o tempo gasto fazendo alguma coisa (semanas de amamentação, por exemplo) como uma variável independente em um modelo linear. No entanto, algumas observações não se envolvem no comportamento. Codificá-los como 0 não é realmente certo, porque 0 é qualitativamente diferente de qualquer valor> 0 (ou seja, mulheres que não amamentam podem ser muito diferentes das mulheres que fazem, mesmo aquelas que não fazem isso por muito tempo). O melhor que posso apresentar é um conjunto de manequins que categoriza o tempo gasto, mas isso é um desperdício de informações preciosas. Algo como Poisson inflado a zero também parece uma possibilidade, mas não consigo descobrir exatamente como isso seria nesse contexto. Alguém tem alguma sugestão?

DL Dahly
fonte

Respostas:

16

Para expandir um pouco a resposta de @ ken-butler. Ao adicionar a variável contínua (horas) e uma variável indicadora para um valor especial (horas = 0 ou não amamentando), você acha que há um efeito linear para o valor "não especial" e um salto discreto no resultado previsto pelo valor especial. Ajuda (pelo menos para mim) olhar para um gráfico. No exemplo abaixo, modelamos o salário por hora em função das horas por semana em que os entrevistados (todas as mulheres) trabalham e achamos que há algo de especial no "padrão" 40 horas por semana:

insira a descrição da imagem aqui

O código que produziu esse gráfico (no Stata) pode ser encontrado aqui: http://www.stata.com/statalist/archive/2013-03/msg00088.html

Portanto, neste caso, atribuímos à variável contínua um valor 40, embora desejássemos que ela fosse tratada diferentemente dos outros valores. Da mesma forma, você daria às suas semanas amamentando o valor 0, mesmo que você ache que é qualitativamente diferente dos outros valores. Interpreto seu comentário abaixo, que você acha que isso é um problema. Este não é o caso e você não precisa adicionar um termo de interação. De fato, esse termo de interação será descartado devido à perfeita colinearidade, se você tentar. Isso não é uma limitação, apenas informa que os termos de interação não adicionam novas informações.

Digamos que sua equação de regressão fique assim:

y^=β1weeks_breastfeeding+β2non_breastfeeding+

Onde é o número de semanas a amamentação (incluindo o valor de 0 para aqueles que não amamentar) e n o n _ b r e um s t f e e d i n g é uma variável indicadora que é um quando alguém não amamentar e 0 de outro modo.weeks_breastfeedingnon_breastfeeding

Considere o que acontece quando alguém está amamentando. A equação de regressão simplifica para:

y^=β1weeks_breastfeeding+β20+=β1weeks_breastfeeding+

Portanto, é apenas um efeito linear do número de semanas de amamentação para quem amamenta.β1

Considere o que está acontecendo quando alguém não está amamentando:

y^=β10+β21+=β2+

Portanto, fornece o efeito de não amamentar e o número de semanas de amamentação cai da equação.β2

Você pode ver que não há como adicionar um termo de interação, pois esse termo de interação já está (implicitamente) lá.

No entanto, existe algo estranho no , pois ele mede o efeito da amamentação comparando o resultado esperado daqueles que não amamentam com aqueles que amamentam, mas o fazem apenas 0 semanas ... Isso meio que faz sentido em uma comparação " like with like "de certa forma, mas a utilidade prática não é imediatamente óbvia. Pode fazer mais sentido comparar as "pessoas que não amamentam" com aquelas mulheres que amamentam 12 semanas (aproximadamente 3 meses). Nesse caso, você apenas dar os "não-breastfeeders" o valor 12 para w e e k s _ b r e um s t f e e d i n gβ2weeks_breastfeeding. Assim, o valor que você atribuir a para os "não-breastfeeders" tem influência sobre o coeficiente de regressão β 2 no sentido de que ele determina com quem o "non -breastfeeders "são comparados. Em vez de um problema, isso é realmente algo que pode ser bastante útil.weeks_breastfeedingβ2

Maarten Buis
fonte
1
Agradeço a resposta (e as outras), mas estou tendo dificuldade em aceitá-la. Se eu incluir 1: 0 e a variável de tempo contínuo, ainda tenho que atribuir um valor ao tempo aos que não amamentam (ou então eles caem por uma covariável ausente). Mesmo condicional à variável 1: 0, não vejo como incluir os que não amamentam como time = 0 não afeta o coeficiente de regressão. Talvez a adição do termo de interação do produto entre os dois fizesse mais sentido?
DL Dahly
@DLDahly Eu editei a minha resposta para lidar com essas dúvidas
Maarten Buis
Ok, isso é muito útil. Deixe-me perguntar mais um acompanhamento rápido ... se estou entendendo você corretamente, então o valor estimado para B1 deve ser o mesmo, independentemente do valor temporal que atribuo às pessoas B2 = 1. Isso está certo?
DL Dahly
1
Resposta muito boa Maarten. Aqui está uma pergunta / resposta semelhante no site que mostra uma situação semelhante ao incluir uma variável independente que pertence apenas a um subgrupo específico .
21713 Andy W
1
@ GavinM.Jones Eu nunca pensei na necessidade de nomeá-lo ou citar isso: é apenas uma aplicação direta de variáveis ​​contínuas e de indicador. Consequentemente, não tenho uma boa referência para você. O que eu poderia descobrir rapidamente é Treiman, DJ (2009): Quantitative Data Analysis. Fazendo pesquisa social para testar idéias. São Francisco: Jossey-Bass. , o capítulo 7 discutiu algo semelhante. O modelo contém uma constante.
Maarten Buis
6

Algo simples: represente sua variável por um indicador 1/0 para any / none e o valor real. Coloque os dois na regressão.

Ken Butler
fonte
4

Se você colocar um indicador binário para qualquer tempo gasto (= 1) vs sem tempo gasto (= 0) e, em seguida, tiver a quantidade de tempo gasto como uma variável contínua, o efeito diferente de "0" vezes será " apanhados "pelo indicador 0-1

Glen_b -Reinstate Monica
fonte
2

Você pode usar modelos de efeitos mistos com um agrupamento baseado no tempo 0 versus tempo diferente de zero e manter sua variável independente

rezakhorshidi
fonte
Você poderia expandir um pouco isso? Muito Obrigado.
DL Dahly
um modelo de efeitos mistos assume que existe um fator que divide os dados em diferentes buckets (heterogêneos), em cada um dos quais podemos ter uma relação diferente entre variáveis ​​explicativas e dependentes (seja em termos de interceptação ou interceptação e inclinação / coeficiente). pt.wikipedia.org/wiki/Mixed_model
rezakhorshidi
Então, use indivíduos aninhados no status de amamentação e, em seguida, uma inclinação aleatória nas semanas de amamentação? Eu poderia fazer isso como um SEM com bastante facilidade e testar certas restrições. Obrigado +1
DL Dahly
1

Se você estiver usando Floresta Aleatória ou Rede Neural, colocar esse número como 0 está OK, porque eles poderão descobrir que 0 é distintamente diferente de outros valores (se é realmente diferente). O contrário é adicionar uma variável categórica yes / no além da variável time.

Mas, no geral, neste caso em particular, não vejo um problema real - 0,1 semanas de amamentação é quase 0 e o efeito será muito semelhante, então parece uma variável bastante contínua para mim, com 0 não se destacando como algo distinto.

sashkello
fonte
3
+1 no primeiro parágrafo, mas lidando com ciências sociais ou dados médicos, o efeito de 0 vs. 0,1 semanas de algo não é a principal preocupação. O ponto é que as mulheres que não tentam nem relatam a amamentação podem ser sistematicamente diferentes em muitos outros aspectos (problemas de saúde, renda, situação familiar, capacidade de ficar fora do trabalho, acesso a serviços de saúde, onde obtiveram informações sobre etc.) Não há realmente nenhuma razão para acreditar que essas mulheres sejam muito parecidas com as mães que tentam amamentar e a interrompem rapidamente.
Gala
1
Do ponto de vista estatístico, seria melhor colocar essas outras variáveis ​​explicitamente em seu modelo, mas faz sentido ter cuidado ao assumir que não há nada de especial acontecendo em 0, eu acho.
Gala
0

Modelo Tobit é o que você quer, eu acho.

Mark T Patterson
fonte
5
Tobits são usados ​​quando o resultado é censurado acima ou abaixo de algum limite. Por exemplo, não observamos salários abaixo do salário mínimo ou rendas acima de algum valor máximo codificado. Esta aplicação é para uma variável independente.
precisa saber é o seguinte